2023年IT十八掌徐培成HADOOP笔记.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2023年IT十八掌徐培成HADOOP笔记.docx》由会员分享,可在线阅读,更多相关《2023年IT十八掌徐培成HADOOP笔记.docx(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop本机集群机器:211 212 215 216 四台相应s100 s101 s102 s103 s104Ubuntu204-server-64-2-00 100s100 211node1Ubuntu204-server-64-2-01101s101212node2Ubuntu204-server-64-2-02102s102215node3Ubuntu204-server-64-2-03103s103215node3Ubuntu204-server-64-2-04104 s104216node4a) bigdate海量数据: 1byte = 8bit 1024B = 1M 210 1
2、024M = 1G 2101024G = 1T 2101024T = 1P 2101024P = 1E 2101024E = 1Z 2101024Z = 1Y 210 1231231024Y = 1N 210存储 分布式存储计算分布式计算Hadoop(一头大象) Doug cutting Hadoop 可靠,可伸缩,分布式计算的开源软件。HDFS 去IOE(IBM+oracle+EMC) MapReduce MR /映射和化简,编程模型推荐 Big data 4V1) Volumn /题量大2) Variaty /样式多3) Velocity /速度快4) Valueless /价值密度低b)
3、 Hadoop的安装: (安装ubuntu系统)安装jdk Ln s /soft/jdk-xxx jdk配置环境变量JAVA_HOME = /soft/jdkPATH=”:/soft/jdk/bin”Source /etc/environmentJava version安装hadoopHadoop.tar.gzHadoop version配置环境变量HADOOP_HOMEPATH配置hadoop分三个模式:1. standelone |local /独立/本地模式,使用的本地文献系统Nothing查看文献系统的方式:查看文献系统 hadoop fs ls /没有守护进程,所有程序运营在同一JV
4、M中,运用test和debug.2. Paeudo distributed Mode /伪分布模式3. Fully distributed mode/完全分布式 配置 SSH1) 安装ssh$sudo apt-get install ssh2) 生成密钥对Ssh-keygen t rsa P f /.ssh/Cd /.ssh3) 导入公钥数据到授权库中Cat /.ssh/id_rsa.pub /.ssh/authorized_keys4) 登录到localhostSsh localhost5) 格式化hdfs文献系统Hadoop namenode -format6) 启动所以进程Start-a
5、ll.sh7) 查看进程Jps /5 RM NM NN DN 2NN8) 查看文献系统Hadoop fs -ls9) 创建文献系统Hadoop fs mkdir p /user/Ubuntu/dataHadoop fs ls R /c) Hadoop包含三个模块1) Hadoop common:支持其他模块的工具模块2) Hadoop Distributed File System (HDFS)分布式文献系统,提供了相应用程序数据的高吞吐量访问。进程:NameNode 名称节点NNDataNode 数据节点DNSecondaryNamenode 辅助名称节点2ndNN3) Hadoop YAR
6、N:作业调度与集群资源管理的框架。进程ResourceManager 资源管理RMNodeManager 节点管理器NM4) Hadoop MapReduce:基于yarn系统的对大数据集进行并行解决技术配置hadoop1) Standelone/locald) 完全分布式安装:1) 准备5台客户机本人集群机器:211 212 215 216 四台相应s100 s101 s102 s103 s104ip主机名ip主机名1. Ubuntu204-server-64-2-00 100s100 211node12. Ubuntu204-server-64-2-01101s101212node23.
7、Ubuntu204-server-64-2-02102s102215node34. Ubuntu204-server-64-2-03103s103215node35. Ubuntu204-server-64-2-04104 s104216node42) 安装ssh 1) 安装ssh$sudo apt-get install ssh2) 生成密钥对ssh-keygen t rsa P f /.ssh/cd /.ssh3) 导入公钥数据到授权库中cat /.ssh/id_rsa.pub /.ssh/authorized_keysscp /root/.ssh/* node2:/root/.ssh/s
8、cp /root/.ssh/* node3:/root/.ssh/scp /root/.ssh/* node2:/root/.ssh/4) 登录其他机器:ssh node1ifconfig3) 安装jdk1. rpm -ivh /opt/jdk-7u79-linux-x64.rpm2. ln s /soft/jdk-xxx jdk3. 配置环境变量4. JAVA_HOME = /soft/jdk5. PATH=”;/soft/jdk/bin”6. source /etc/profile7. java version4) 安装hadoop1. tar zxvf hadoop-2.7.3.tar.
9、gz2. Hadoop version3. 配置环境变量4. HADOOP_HOME=/soft/hadoop-2.7.35. PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin6. 配置hadoop查看文献系统 hadoop fs ls /配置文献/etc/hadoop/core-site.xml fs.default.name hdfs:/node1:8020 Hdfs-site.xml dfs.replication 3 Mapred-site.xml mapreduce.framework.name yarn Yarn-site.xml yarn.reso
10、urcemanager localhost yarn.nodemanager.aux-services mapreduce_shuffle 5) 配置文献-rw-r-r-. 1 root root 861 6月 6 10:41 core-site.xml-rw-r-r-. 1 root root 950 6月 6 10:41 hdfs-site.xml-rw-r-r-. 1 root root 844 6月 6 10:41 mapred-site.xml-rw-r-r-. 1 root root 728 6月 6 10:43 yarn-site.xml-rw-r-r-. 1 root root
11、 12 6月 6 10:43 slaves/soft/hadoop/etc/hadoop/core-site.xmlfs.defaultFS=hdfs:/node1/soft/hadoop/etc/hadoop/hdfs-site.xmlreplication=3dfs.namenode.secondary.http-address=node4:50090/soft/hadoop/etc/hadoop/mapred-site.xmlmapreduce.framework.name=yarnsoft/hadoop/etc/hadoop/yarn-site.xmlyarn.resourcemana
12、ger.hostname=node1/soft/hadoop/etc/hadoop/slavesnode2node3在集群上分发以上三个文献cd /soft/hadoop/etc/hadoopxsync core-site.xmlxsync yarn-site.xmlxsync slaves6) 初次启动hadoop1) 格式化文献系统$hadoop namenode -format2) 启动所有进程$start-all.sh3) 查询进程jsp4) 停止所有进程Stop-all.sh使用webui访问hadoop hdfs1)hdfs http:/node1:500702) dataNode
13、 http:/node2:500753) 2nn http:/node4:50090删除hadoop临时目录数据:默认:/tmp/ hadoop-root hadoop-root-datanode.pid(伪分布式产生)e) 几种脚本 scp rsync xsync xcall1) scp2) rsync 远程同步工具 重要备份和镜像支持链接,设备。 rsync rvl /soft/* ubuntus101:/soft3) 自定义脚本xsync,在集群上分发文献循环复制文献到所以节点的相同目录下rsync rvl /home/Ubuntu ubuntus101:xsync hello.txt/
14、usr/local/bin/xsyncrootnode1 bin# vim xsync#!/bin/bashpcount=$#if(pcount1) ; then echo no args; exit;fip1=$1;#获取文献名称fname=basename $p1echo fname=$fname;#获取上级目录的绝对途径pdir=cd -P $(dirname $p1);pwdecho pdir=$pdir;#echo $p1;cuser=whoamifor (host=2; host5;host=host+1); do echo - node$host - #echo $pdir/$f
15、name $cusernode$host:$pdir scp $pdir/$fname $cusernode$host:$pdirdone4) 编写/usr/local/bin/xcall脚本,在所有主机上执行相同的命令xcall rm rf /soft/jdk/usr/local/bin/xcall rootnode1 bin# cd /usr/local/binrootnode1 bin# xcall ls -l /soft/rootnode1 bin# xcall rm hello.txtrootnode1 bin# vim xcall#!/bin/bashpcount=$#if(pco
16、unt1) ; then echo no args; exit;fiecho - localhost -$echo $for (host=2; host5;host=host+1); do echo - node$host - #scp $pdir/$fname $cusernode$host:$pdir ssh node$host $donef) 整理hadoop的所有类库和配置文献解压缩hadoop-2.7.2.tar.gz 到目录下整理jar包抽取所有配置文献core_default.xmlhadoop-common-2.7.2.jar/core-default.xmlhdfs-defa
17、ult.xmlhadoop-hdfs-2.7.2.jar/hdfs-default.xmlyarn-default.xmlhadoop-yarn-common-2.7.3.jar/hdfs-default.xmlmapred-default.xmlhadoop-mapreduce-client-core-2.7.2.jar/mapred-default.xmlg) hadoop fs / 使用:hadoop fs mkdir p /user/Ubuntu/datahadoop fs put hello.txt /user/Ubuntu/data/hdfs dfs -lsr /hdfs dfs
18、-cat /user/hello.txt./hadoop fs -ls /./hadoop fs ls R /./hadoop fs -mkdir test./hadoop fs -put /opt/test.sh /user 将本地文献存储至hadoop./hadoop fs get /user/t/ok.txt /home/t 将hadoop上某个文献down至本地已有目录下 ./hadoop fs -cat /user/test.sh hadoop fs rmr /user/t 删除hadoop上指定文献夹(包含子目录等)hadoop fs -touchz /user/new.txt在h
19、adoop指定目录下新建一个空文献hadoop fs mv /user/test.txt /user/ok.txt (将test.txt重命名为ok.txt)hadoop dfs getmerge /user /home/t 将hadoop指定目录下所有内容保存为一个文献,同时down至本地hadoop job kill job-id 将正在运营的hadoop作业kill掉h) 修改本地的临时目录hadoop.tmp.dir1) 修改hadoop.tmp.dircore-site.xml hadoop.tmp.dir /soft/hadoop-root 2) 分发core-site.xml3)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 IT 十八 掌徐培成 HADOOP 笔记
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内