2023年IT十八掌徐培成HADOOP笔记.pdf





《2023年IT十八掌徐培成HADOOP笔记.pdf》由会员分享,可在线阅读,更多相关《2023年IT十八掌徐培成HADOOP笔记.pdf(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Had oop本机集群机器:2 11 212 215 21 6 四台相应slOO s 101 S 102 s lO 3 s 1 04U b U n tu 2 0 4-s e r v e r-6 4-2-0 0 100 o sl 0 0211 n O de lU b u n t U 20 4-s e r v e r-64-2-0 1 0 10 1 o slO l o2 12 nod e 2Ubu n tu 2 0 4-s e rv e r-6 4-2-0 2 o o 1 0 2 slO 2o o215 node 3Ub U D tu 2 0 4-S e r v e r -6 4-2-O 3 1
2、O o o 3 s1 0 3 t215 o onode 3U buntu 2 0 4-s e r V e r-6 4 -2-0 4 104 o o S 1 04 o 216 node 4a)bigdate海量数据:o 1 b y t e=8bito 1024B=IM 2A1 0102 4M=1G 2 A 1010 2 4G=IT 2A1 01024TIP 2 A 1 010 2 4P=1 E 2A1 01 0 24E=1 Z 2A1 01024Z=1Y 2A1012 3 1 2 310 2 4Y=IN 2A 1 0o存 储 分 布 式 存 储。计算分布式计算Hadoo p(一头大象)Do U
3、g c U t t in gHad o o p可靠,可伸缩,分布式计算的开源软件。HDFS去 I OEo(工 BM+oracl e+E Me)MapReduceMR/映射和化简,编程模型推荐Bi g d a ta 4 V1)Volum n/题量大2)V a ri a ty /样式多3)V e lO c i t y/速度快4)V alu ele S s/价值密度低b)Hado 0 p的安装:(安装U b u n tu系统)安装j d kL n-s /s oft/j d k-x x X j d k。配置环境变量J AVA_ HOME=/SO ft/j d ko P A T H=:/s O f t/
4、j d k/b 1 n”So U r C e /e tc /e n v i r onme ntJ a v a -v e r s i o n安装ha d oopHa d o op.t a r.g zHa d o O p V e r S i on配置环境变量HADOOP_HOMEoPATH配置ha d oo p 分三个模式:1.s t a n d e 1 O ne|1 oc a 1/独立/本地模式,使用的本地文献系统N O thi ng查看文献系统的方式:查看文献系统 ha d oop fs -I s /没有守护进程,所有程序运营在同一 J V M 中,运用te s t和 d e b ug.2.P
5、 aeudo d i s tr ib u t ed M ode o/伪分布模式3.Ful 1 y d i s t r i b u t e d m ode o /完全分布式配 置SSH1)安装ssh$su d o a p t -g e t in s t a 11 s s h2)生成密钥对S S h-keygen-t r s a -P、-f /.ss h/Cd-.ssh3)导入公钥数据到授权库中C a t/.s s h/1 d_ r s a.p u b /.ssh/a U t h o r i Z ed _ keys4)登录至ij lo C a lh O s tSsh lo c a lh O s t
6、5)格式化h d f s文献系统H ad O op name n ode-form at6)启动所以进程S ta r t-a l l.sh7)查看进程Jp s/5RM NM NN DN 2 NN8)查看文献系统H adoop fs-I s9)创建文献系统H a doo p f s-m k d i r-p /u s e r/Ubu n tu/d a t aHad o o p fs-I s -R/c)H ado o p包含三个模块1)H a d oop C omm O n:0。支持其他模块的工具模块2)Ha d o O p D is t r i b u t e d F i l e Sys t em
7、(H DFS)0 分布式文献系统,提供了相应用程序数据的高吞吐量访问。进程:o oN a m e N O de o o 名称节点。o oNNoD ataN o d e o 数据节点 oDNo oSecond a r y Name n o d e 辅助名称节点 o 0 0 2 ndNN3)H adoo p Y ARN:0作业调度与集群资源管理的框架。进程o o oR e sou r C e M anager 资源管理一RMo o N odeM anager 节点管理器-NM4)Ha d oo p Ma p R e du C e:基于ya r n 系统的对大数据集进行并行解决技术酉 己 置had
8、O op1)S tan d elo n e/lo C a ld)完全分布式安装:1)准备5台客户机本人集群机器:21 1 2 12 215 2 1 6四台相应s i 0 0 s lOl S 102 s 1 03 S 1040 0 0 0 i P 0 0 主机名0 i p 0 0主机名1 .Ub untu204-S e r v e r-6 4-2-0 0 10 0s i 0 0 2 1 1 nod e l2.Ub untu 2 04-s e r V e r -64-2-011 o o 01 o os lOlo o212 onod e 23.U b u n t U 2 0 4-s e rv e r
9、-6 4 -2-02 o 1 02 o s i0 2 2 1 5 n O de 34.Ubu n t u 2 0 4-s e rv e r-6 4-2-0 3 o o 1 03 o s i0 3 o o 2 15 no d e35.Ub U n t U 2 0 4-s e r v e r-6 4-2-0 4 1 0 o o 4 os1 04 o2 1 6 n ode 42)安装ssh1)安装sS h$sudo a p t-g e t i n s ta ll s s h2)生成密钥对ssh-keygen-t rsa-P -f/.ssh/cd/.ssh3)导入公钥数据到授权库中cat/.ss h/
10、id_ r sa.pub /.S sh/authorized_ke y SS cp/ro o t/.s S h/*n O de2:/r Oo t/.s S h/S C p/r O o t/.s S h/*node3:/r O。t/.ssh/S ep/r o o t/.Ssh/*n ode2:/roo t/.s S h/4)登录其他机器:s S h n o d e 1i f C o n f i g3)安装j d k1.r pm-i V h/opt/j d k-7 u 7 9-li nux -X64.r pm2.I n-s /s o f t/j d k -x x x j d k3 .配置环境变量4
11、.J AVA_ HOME=/s 0 ft/j d k5 .PA T H=;/S oft/j d k/b i n/,6.s our c e /e tc/p r of i 1 e7.j a v a -v e r S 1 on4)安装 h a d oo p1 .ta r -z x v f h a d oop-2.7.3.t ar -gz2.o H a d 0 op v e r s i o n3 .配置环境变量4.HADOOP_HO M E=/S O f t/ha d O op-2.7.35.P ATH=:$HADOO P _HOME/b i D:$HADOOP HOME/s b i n6.酉 己 置
12、 ha d oo p查看文献系统 h a d oo p f s -I s /配置文献/e t C/ha d oop/co r e-s i te .X mlf S.d e f a ult.n a m e h d fs :/n Od e l:8020H d fs-s it e.xm I n a m e d fs .r e pli c at i o n 3 Mapred-S ite.xmlm a pre d uce.fr a mew 0 r k.name yarnYarn-site.X mlyarn.resou rcemana g e r 1 o cal h os t ya r n.n O dema
13、 na g e r.aux-ser V iC eS m apredu Ce shuf f le 5)配置文献-r w-r -r .1 r o o t r oot6 10:41 c or e -s 1 te .X ml-r w-r -r .1 r O ot r O o t6 10:41 hd f S-s i t e .X ml-r w-r r -.1 r O ot r o O t8 6 1 6 月9 50 6 月84 4 6 月 610:41 ma p r e d-S i t e .X ml-r w-r r .1 rO O t r o O t6 10:4 3 y a r n-s i te.x m
14、l-r w-r-r .1 r o o t r oot72 8 6 月1 2 6月6 1 0:43 s la v e s/s o f t/ha d oop/e tc/h a d oop/c o r e-s i t e .x mf s .d e f a ultF S=hd f S:/nod e l/S o f t/ha d oop/e t C/ha d oop/hd f s-s i te .x mlr e pl i c a t 1 on=3d f s.n am e nod e .s e c ond a r y,h ttp-a d d re s s=nod e 4:5009 0/s of t/ha
15、d O O p/e t c/h a d o O p/ma p r e d -S 1 te .x m 1ma pr e d uc e .fr a I Tle wor k.n a me=y a r ns o f t/h a d oop/e tc/h a d oop/y a r n-s i te .x m ly a r n.r e s our c e m a n a g e r.hos tna me=no del/s o f t/h a d oop/e tc/ha d oop/S l ave Sno d e 2nod e 3在集群上分发以上三个文献Cd /s O f t/h a d o O p/e
16、t c /ha d oopx s y n C c o r e-s i te .X mlx s y n C y a r n-s i t e .x mlx s y nc s la v e S6)初次启动h a d o O p1)格式化文献系统$ha d o o p n a m e n od e -fo r ma t2)启动所有进程$S ta r t-a ll.s h3)查询进程sp4)停止所有进程Stop-a l 1.s h使用 we b ui 访问 ha d o 0 p h d f S1)hd f s ht t p:/nod e l:5 00 7 02)d a t a Nod e http:/n
17、od e 2:5 00753)2nn http:/nod e 4:5 0 0 9 0删除ha d。O p 临时目录数据:默认:/t m p/ha d o o p-r oot h a d oop-r oot-d a tan od e .pi d (伪分布式产生)e)几种脚本 sc p rsync x S y nc X C al I1)s c p2)r s y nc 远程同步工具 重要备份和镜像支持链接,设备。r S y nc -r v l/s oft/*ub unt U s l 0 1:/s of t3)自定义脚本X S y n c,在集群上分发文献循环复制文献到所以节点的相同目录下r s y
18、n C-r v l/home /Ub u n t U U b un t us 1 0 1:X s y n c he 1 1 O.tx t/us r/lo c a 1/b i n/x s y n C r oot n O d e 1 b ln#v i m X S y nc#!/b i n/b a s hpc ount=$#i f(pc ount 1);t h e ne C ho n O a r gs ;e x i t;f ipl=$1;#获取文献名称fna me=b a Se n a m e$p 1e C ho f n a m e =$f na m e ;#获取上级目录的绝对途径p d i r =
19、C d -P$(d i r na me$pl);p W d e c ho p d 1 r=$pd i r ;#e c h O$p 1 ;C us e r =whoa mif or (h os t=2;ho S t 5;hos t=hos t+1 );d oe c h o-n o d e$ho s t-#e c h O$p d i r /$fna m e$c us e r nO d e$hoS t:$p d 1 rS C p$pd i r/$fn a me$c us e r n O d e$h Os t:$pd i rd o n e4)编写/us r 7 1 o C a l/b i n/x c
20、a ll脚本,在所有主机上执行相同的命令X c a l r m-r f/s oft/j d k/us r/10c a 1/b i n/x c a l 1 r ootnod e l b i n#c d /us r /loc a 1/b i n r o otn o d e l b i n#x c a 1 1 I s -1/s of t/r ootnod e l b ln#x c a 1 1 r m h e 11 O.tx t r ootn O d e 1 b i n#v i m x C a ll#!/b 1 n/b a s hp C ount=$#i f(p c oun t 1);the ne c
21、 h O n O a r gs;e x 1 t;fie C ho-1 O c a I hos t-$e c ho$f o r (hos t=2;hos t 5;hos t=hO St+1);dOe ch o-nod e$h O s t-#s c p$pd 1 r /$f n a me$c U S e r nod e$ho S t:$pd i rs s h nod e$h os t$d o n ef)整理h a d o o p的所有类库和配置文献o解压缩h a d O O p-2.7.2.ta r .g z到目录下整理j a r 包。抽取所有配置文献 c o r e _ d e f a u l
22、t .xmlo h adoop-C ommon-2.7.2.j a r/C o r e-de f a u l t.xmlo hdf s-d e f a u l t.xml hadoop-hdf s-2.7.2.j a r/hd f s-d e f a u l t.Xmlo o y a rn-d e f a u l t .x m lo h ado O p-y a rn-c O m lTon-2.7.3 .j a r/h d f s-d e f au1 t.xml0o m apred-d ef a u l t .xml o h a d O op-map r educ e-C lie n t-c o
23、 re-2.7.2.j a r/m a p red -d e f a u l t .X mlg)hadoop fs/使 用:h a d oop f S-m k d 1 r-p /u se r/Ub U n t u/d a tah ad oop f s-p u t h e 1 l o.tx t/u s e r/Ub u n tu/d a ta /hd f s d fs-i s r/hd f s d f S-c a t/u s e r/h e l l o.tx t./hadoop f S-I s /./hadoop fs-I s -R/./h a d o O p fs-m k d i r t e
24、s t./h adoop f s-p u t /o p t/te s t.S h/u se r将本地文献存储至h a d o o p./h a doop f s-ge t/u s e r/t/O k.tx t/hom e/t将h a d o o p上某个文献d o w n至本地已有目录下./h a d oop f S-c a t/u s e r/t e s t.s hh adoo p f s-rm r/u s e r7 t 删除 h a d。p 上指定文献夹(包含子目录等)h a do O p f s-t o U chz/u s e r/n e w.tx t o在 ha d O op指定目录下
25、新建一个空文献h a d oop f s-mV/use r/t e s t.t x t /u s e r/o k.t x t(将 t e s t,tx t 重命名为 O k.t x t)h adoop d f s-g etm erge/u s e r/hom e/t 将hado。p指定目录下所有内容保存为一个文献,同时dow n至本地h a d O O p jo b -k i 1 jo b-id 营的hadoo p作业k i 1 1掉将正在运h)修改本地的临时目录h ad 0 o p .tm p.d i r1)修改 hado 0 p.t mp.d irco re-S ite.x m l h a
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 IT 十八 掌徐培成 HADOOP 笔记

限制150内