2023国开大数据导论实验报告实验2 Hadoop开发环境部署.docx
《2023国开大数据导论实验报告实验2 Hadoop开发环境部署.docx》由会员分享,可在线阅读,更多相关《2023国开大数据导论实验报告实验2 Hadoop开发环境部署.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验2 Hadoop开发环境部署Hadoop是一个能够对大数据进行分布式处理的软件架构,其可以通过可靠、高效、可伸 缩的方式进行数据处理。Hadoop技术是推动大数据应用的重要引擎之一,可以使用该技术收 集、清洗和分析大量结构化、半结构化和非结构化数据。运行环境部署是一项技术要求较高, 但必须掌握的技术。Hadoop是大数据分布式处理平台,在大数据离线处理方面,尤其是批处 理中得到了广泛的应用。1 .实验目的通过Hadoop环境部署实验练习,学生可以掌握Hadoop系统安装方法、伪分布式Hadoop 的安装方法和Eclipse开发环境的安装具体过程与使用方法,并能够灵活运用,进而为解决 大数据
2、分析问题奠定环境构建与部署的基础,不仅为后续的基于Hadoop环境的各个实验建立 基础,而且可以提高工程实践能力。2 .实验要求在理解本实验相关理论的基础上制订安装计划,独立完成Hadoop开发环境部署过程,主 要内容如下所述。(1)制订安装计划。(2)安装SSH协议。(3)安装0penJDK1.8开发环境。(4) Hadoop系统部署。(5)伪分布式Hadoop环境部署。6 6) Eclipse开发环境的安装。7 .实验内容(1)制订实验计划。(2)完成SSH协议安装。(3)完成 0penJDKL8 安装。(4)完成Hadoop系统部署。(5)完成伪分布式Hadoop环境部署。(6)完成Ec
3、lipse开发环境的安装。8 .实验总结通过本实验,使学生了解Hadoop的特点和总体结构,理解MapReduce程序的执行过程, 掌握伪分布式Hadoop的安装方法和Eclipse开发环境的安装与使用方法。百度一下,你就知道-Mozilla Hrefox数百度一下,你就知道新闻 haol23 地图 贴吧 视频 图片 网盘 更多一 .正在打开 您选择了打开:文件类型:GZ文件(201 MB) 来源:您想要Firefox如何处理此文件?打开,通过(0)浏览(B)积存文件(S)以后自动采用相同Z动作处理此类文件。份)取消确定CM钠啾2.1. 2安装文件下载完安装文件以后,需要对文件进行解压。按照L
4、inux系统使用的默认规范, 用户安装的软件一般都是存放在“/usr/local/”目录下。请使用hadoop用户登 录Linux系统,打开一个终端,进行以下操作:2. 1. 2. 1 解压解压到/usr/local中拷贝代码sudo tar -zxf/home/user/Downloads/hadoop-2. 7. 1. tar. gz -C /u2. L 2. 2将文件夹名改为hadoop拷贝代码cd /usr/localsudomv . /hadoop-2. 7. 1/ . /hadoophadoopecs-3918:-$ cd /usr/local hadoop(J Ha *r C q
5、 C ,、3a2.1. 2. 3修改文件权限拷贝代码 sudo chown -R hadoop . /hadoop2. 1. 2. 4检查Hadoop是否可用Hadoop解压后即可使用,可以输入如下命令来检查Hadoop是否可用,成功则会 显示Hadoop版本信息:拷贝代码 cd /usr/1 ocal/hadoop . /bin/hadoop versionhadoop(aecs-3918:-$ cd /usr/localhadoop(aecs-3918:/usr/loGal$ sudo chown -R hadoop ./hadoopSubversion -r 15 536e6ce657a
6、Compiled by jenkins on 2015-06-29T06:04ZFrom source with checksum fc0ala23fcl868e4d5ee7fa2b28a58aThis command was run using /usr/local/hadoop/share/hadoop/common/hc2. 2单机模式配置Hadoop默认模式为非分布式模式(本地模式),只需配置好hadoop-env. sh文 件中的JAVAJ0ME,无需进行其他配置即可运行。配置hadoop-env. sh文件中的JAVA HOME步骤如下:先输入echo $JAVA_HOME命令查看
7、JAVA_HOME的路径 拷贝代码 vi /usr/local/hadoop/etc/hadoop/hadoop-env. shzexport JAVA HOME=JAVA HOME,7usr/local/hadoop/etc/hadoop/hadoop-env.sh,1 98L, 4224C csdnc?进入编辑界面后找到 exoort JAVA_HOME=$ JAVA_HOME将$ JAVA_H0ME替换为真正的JAVA_HOME路径即可,然后保存退出。 以下是真实的JAVA_HOME:拷贝代码/usr/share/jdkl. 8. 0_181可以直接替换,直接把前一行注释掉,然后粘贴后一
8、行:wq!保存并且退出2. 2.1查看所有例子Hadoop附带了丰富的例子,运行如下命令可以查看所有例子: 拷贝代码 cd /usr/local/hadoopsudo . /bin/hadoop jar /share/hadoop/mapreduce/hadoop-mapreduce-examp les-2. 7. 1. jar上述命令执行后,会显示所有例子的简介信息,包括grep、join、wordcount 等。Terminal 终端-hadoop9ecs-3918: /usr/k)cal/putes the histogram of tfcompute exact digits of P
9、i. pute exact bits of Pi.in the input.aggregatewordhist: An Aggregate based map/reduce program that words in the input files.bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to dbcount: An example job that count the pageview counts from a distbbp: A map/reduce program that uses a BBP-type
10、formula to grep: A map/reduce program that counts the matches of a regexjoin: A job that effects a join over sorted, equally partitioned datasets multifilewc: A job that counts words from several files.pentomino: A map/reduce tile laying program to find solutions to pentomino problems.pi: A map/redu
11、ce program that estimates Pi using a quasi-Monte Carlo method, randomtextwriter: A map/reduce program that writes 10GB of random textual data per node, randomwriter: A map/reduce program that writes 10GB of random data per node, secondarysort: An example defining a secondary sort to the reduce.sort:
12、 A map/reduce program that sorts the data written by the random writer.sudoku: A sudoku solver.teragen: Generate data for the terasort terasort: Run the terasortteravalidate: Checking results of terasortwordcount: A map/reduce program that counts the words in the input files.wordmean: A map/reduce p
13、rogram that counts the average length of the words in the input f: s.wordmedian: A map/reduce program that counts the median length of the words in the input ,es.wordstandarddeviation: A map/reduce program that counts the standard deviation of the len( of the words in the input files.hadoopecs -3918
14、 ;/usr/local/hadoop$ |0soM2. 2. 2运行grep例子这里选择运行grep例子,可以先在“/usr/local/hadoop”目录下创建一个文件 夹input,并复制一些文件到该文件夹下,然后,运行grep程序,将input文 件夹中的所有文件作为grep的输入,让grep程序从所有文件中筛选出符合正则 表达式“dfsa-z. + ”的单词,并统计单词出现的次数,最后,把统计结果输出 到 “/usr/local/hadoop/output”文件夹中。2. 2. 2. 1 配置 hosts实验第一步我们已经配置过hosts 了。2. 2. 2. 2将配置文件复制到in
15、put目录下拷贝代码 cd /usr/local/hadoop mkdir inputcp . /etc/hadoop/*. xml ./input2. 2. 2. 3 运行拷贝代码./bin/hadoopjar /share/hadoop/mapreduce/hadoop-mapreducor tne words in tne input rues.hadoopecs-3918:/usr/local/hadoop$ cd /usr/logal/hadoophadoopecs-3918:/usr/local/hadoop$ mkdir inputhadoopecs-3918:/usr/loca
16、l/hadoop$ cp ./etc/hadoop/*.xml ./inputsDN4一 一-dAhadoopecs-3918:/usr/local/hadoop$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-maprei examples-*.jar grep ./input ./output *dfsa-z.22/05/24 11:09:41 INFO Configuration.deprecation: session.id is deprecated. Instead, use i etrics.session-id22/05/24
17、 11:09:41 INFO jvm.JvmMetcs: Initializing JVM Metrics with processName=JobTracki essionld= 22/05/24 11:09:41 INFO input.FileinputFormat: Total input paths to process : 822/05/24 11:09:41 INFO mapreduce.JobSubmitter: number of splits:822/05/24 11:09:42 INFO mapreduce.JobSubmitter: Submitting tokens f
18、or job: job local4864圈Map output bytes=17Map output materialized bytes=25 Input split bytes=121 Combine input records=0 Combine output records=0 Reduce input groups=l Reduce shuffle bytes=25 Reduce input records=l Reduce output records=l Spilled Records=2 Shuffled Maps =1 Failed Shuffles=0 Merged Ma
19、p outputs=l GC time elapsed (ms)=0Total committed heap usage (bytes)=702545920 Shuffle ErrorsBAD ID=0 CONNECTION=0 10 ERR0R= WRONG LENGTH=0 I WRONG MAP=0 WRONG REDUCEDFile Input Format Counters Bytes Read=123File Output Format Counters Bytes Written=23CSDN &GC?2. 2. 2. 4查看运行结果拷贝代码 cat . /output/*执行成
20、功后,输出了作业的相关信息,输出的结果是符合正则表达式的单词“dfsadmin” 出现了 1 次。J Bytes wntten=23 hadoopeft-3918:/usr/local/hadoop$ cat ./output/* 1 dfsadtnincsdn sc?3. 2. 2. 5 删除 output 文件需要注意的是,Hadoop默认不会覆盖结果文件,因此,再次运行上面实例会提 示出错。如果要再次运行,需要先使用如下命令把。utput文件夹删除:拷贝代码rm -r . /outputhadoop(aecs-3918:/usr/local/hadoop$ rm -r ./outptit
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023国开大数据导论实验报告实验2 Hadoop开发环境部署 2023 国开大 数据 导论 实验 报告 Hadoop 开发 环境 部署
限制150内