尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得32562.docx
《尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得32562.docx》由会员分享,可在线阅读,更多相关《尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得32562.docx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、北京尚学堂提供Haddoopp是Appachhe软件件基金会会旗下的的一个开开源分布布式计算算平台。以以Haddoopp分布式式文件系系统(HHDFSS,Haadooop DDisttribbuteed FFileesysstemm)和MMapRReduuce(GGooggle MappRedducee的开源源实现)为为核心的HHadooop为为用户提提供了系系统底层层细节透透明的分分布式基基础架构构。对于HHadooop的的集群来来讲,可可以分成成两大类类角色:Massterr和Saalvee。一个个HDFFS集群群是由一一个NaameNNodee和若干干个DaataNNodee组成的的。其
2、中中NammeNoode作作为主服服务器,管管理文件件系统的的命名空空间和客客户端对对文件系系统的访访问操作作;集群群中的DDataaNodde管理理存储的的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。从上
3、面面的介绍绍可以看看出,HHDFSS和MaapReeducce共同同组成了了Haddoopp分布式式系统体体系结构构的核心心。HDDFS在在集群上上实现分分布式文文件系统统,MappRedducee在集群群上实现现了分布布式计算算和任务处处理。HHDFSS在MaapReeducce任务务处理过过程中提提供了文文件操作作和存储储等支持持,MaapReeducce在HHDFSS的基础础上实现现了任务务的分发发、跟踪踪、执行行等工作作,并收收集结果果,二者者相互作作用,完完成了HHadooop分分布式集集群的主主要任务务。集群中中包括44个节点点:1个个Massterr,3个个Sallve,节节点之
4、间间局域网网连接,可可以相互互pinng通,具具体集群群信息可可以查看看Haadooop集群群(第22期)。节点点IP地地址分布布如下:机器名称IP地址Masteer.HHadooop192htttp:/m/httml/clooud/.1668.11.2Salvee1.HHadooop192.1168.1.33Salvee2.HHadooop192.1168.1.44Salvee3.HHadooop192.1168.1.55四个节节点上均均是CeentOOS6.0系统统,并且且有一个个相同的的用户hhadooop。MMastter机机器主要要配置NNameeNodde和JJobTTraccke
5、rr的角色色,负责责总管分分布式数数据和分分解任务务的执行行;3个个Sallve机机器配置置DattaNoode和和TasskTrrackker的的角色,负负责分布布式数据据存储以以及任务务的执行行。其实实应该还还应该有有1个MMastter机机器,用用来作为为备用,以以防止MMastter服服务器宕宕机,还还有一个个备用马马上启用用。后续续经验积积累一定定阶段后后补上一台台备用MMastter机机器。Haddoopp集群要要按照11.2小小节表格格所示进进行配置置,我们们在HHadooop集集群(第第1期)的CentOS6.0安装过程就按照提前规划好的主机名进行安装和配置。如果实验室后来人在
6、安装系统时,没有配置好,不要紧,没有必要重新安装,在安装完系统之后仍然可以根据后来的规划对机器的主机名进行修改。下面的的例子我我们将以以Massterr机器为为例,即即主机名名为MMastter.Haddoopp,IIP为1922.1668.11.2进行一一些主机机名配置置的相关关操作。其其他的SSlavve机器器以此为为依据进进行修改改。1)查查看当前前机器名名称用下面面命令进进行显示示机器名名称,如如果跟规规划的不不一致,要要按照下下面进行行修改。hostnnamee上图中中,用hosstnaame查MMastter机器的的名字为为Maasteer.HHadooop,与我我们预先先规划的的
7、一致。2)修修改当前前机器名名称假定我我们发现现我们的的机器的的主机名名不是我我们想要要的,通通过对/ettc/ssyscconffig/nettworrk文文件修改改其中HOSSTNAAME后面的的值,改改成我们们规划的的名称。这个/ettc/ssyscconffig/nettworrk文文件是定定义hoostnnamee和是否否利用网网络的不不接触网网络设备备的对系系统全体体定义的的文件。设定形形式:设设定值=值/eetc/syssconnfigg/neetwoork的设定定项目如如下:NETWOORKIING 是否利利用网络络GATEWWAY 默认网网关IPGATTEWAAYDEEV 默
8、默认网关关的接口口名HOSTNNAMEE 主机机名DOMAIIN 域域名用下面面命令进进行修改改当前机机器的主主机名(备注:修改系统文件一般用root用户)vim /etcc/syyscoonfiig/nnetwworkk通过上上面的命命令我们们从/etcc/syyscoonfiig/nnetwworkk中找找到HHOSTTNAMME进进行修改改,查看看内容如如下:33)修改改当前机机器IPP假假定我们们的机器器连IPP在当时时安装机机器时都都没有配配置好,那那此时我我们需要要对iifcffg-eeth00文件件进行配配置,该该文件位位于/etcc/syyscoonfiig/nnetwwork
9、k-sccrippts文件夹夹下。在这个个目录下下面,存存放的是是网络接接口(网网卡)的的制御脚脚本文件件(控制制文件),iifcffg- ethh0是默默认的第第一个网网络接口口,如果果机器中中有多个个网络接接口,那那么名字字就将依依此类推推ifccfg-ethh1,iifcffg-eeth22,iffcfgg- eeth33,。这里面面的文件件是相当当重要的的,涉及及到网络络能否正正常工作作。设定形形式:设设定值=值设定项项目项目目如下:DEVICCE 接接口名(设设备,网网卡)BOOTPPROTTO IIP的配配置方法法(sttatiic:固固定IPP, ddhcppHCPP, nnon
10、ee:手动动)HWADDDR MMAC地地址ONBOOOT 系系统启动动的时候候网络接接口是否否有效(yyes/no)TYPE 网络类类型(通通常是EEtheemett)NETMAASK 网络掩掩码IPADDDRIIP地址址IPV6IINITT IPPV6是是否有效效(yees/nno)GATEWWAY 默认网网关IPP地址查看/ettc/ssyscconffig/nettworrk-sscriiptss/iffcfgg-etth0内容,如如果IPP不复核核,就行行修改。如果上上图中IIP与规规划不相相符,用用下面命命令进行行修改:vim /etcc/syyscoonfiig/nnetwwor
11、kk-sccrippts/ifccgf-ethh0修改完完之后可可以用ifcconffig进行查查看。4)配置hhostts文件件(必须须)/eetc/hossts这个文文件是用用来配置置主机将将用的DDNS服服务器信信息,是是记载LLAN内内接续的的各主机机的对应应HoostNNamee和IPP用的的。当用用户在进进行网络络连接时时,首先先查找该该文件,寻寻找对应应主机名名(或域域名)对对应的IIP地址址。我们要要测试两两台机器器之间知知否连通通,一般般用ppingg 机器器的IPP,如如果想用用piing 机器的的主机名名发现现找不见见该名称称的机器器,解决决的办法法就是修修改/etcc/
12、hoostss这个个文件,通通过把LLAN内内的各主主机的IIP地址址和HoostNNamee的一一一对应写写入这个个文件的的时候,就就可以解解决问题题。例如:机器为为Maasteer.HHadooop:1922.1668.11.2对机器器为SSalvve1.Haddoopp:1992.1168.1.33用命命令ppingg记性性连接测测试。测测试结果果如下: 从上上图中的的值,直直接对IIP地址址进行测测试,能能够piing通通,但是是对主机机名进行行测试,发发现没有有pinng通,提提示uunknnownn hoost未知知主机,这时时查看Massterr.Haadooop的的/eetc/
13、hossts文件内内容。发现里里面没有有1992.1168.1.33 Sllavee1.HHadooop内容,故故而本机机器是无无法对机机器的主主机名为为Sllavee1.HHadooop 解析析。在进行行Haddoopp集群配配置中,需需要在/ettc/hhostts文文件中添添加集群群中所有有机器的的IP与与主机名名,这样样Massterr与所有有的Sllavee机器之之间不仅仅可以通通过IPP进行通通信,而而且还可可以通过过主机名名进行通通信。所所以在所所有的机机器上的的/eetc/hossts文件末末尾中都都要添加加如下内内容:192.1168.1.22 Maasteer.HHadoo
14、op192.1168.1.33 Sllavee1.HHadooop192.1168.1.44 Sllavee2.HHadooop192.1168.1.55 Sllavee3.HHadooop用以下下命令进进行添加加:vim /etcc/hoostss添加结结果如下下:现在我我们在进进行对机机器为Slaave11.Haadooop的的主机名名进行ppingg通测试试,看是是否能测测试成功功。从上图图中我们们已经能能用主机机名进行行pinng通了了,说明明我们刚刚才添加加的内容容,在局局域网内内能进行行DNSS解析了了,那么么现在剩剩下的事事儿就是是在其余余的Sllavee机器上上进行相相同的配配
15、置。然然后进行行测试。(备注:当设置SSH无密码验证后,可以scp进行复制,然后把原来的hosts文件执行覆盖即可。)1)JDKK软件 下下载地址址:htttp:/wwww.oraaclee.coom/ttechhnettworrk/jjavaa/jaavasse/iindeex.hhtmll JJDK版版本:jjdk-6u331-llinuux-ii5866.biin2)Haddoopp软件 下下载地址址:htttp:/hhadooop.apaachee.orrg/ccommmon/relleasses.htmml HHadooop版版本:hhadooop-1.00.0.tarr.gzz在H
16、Hadooop集集群(第第3期)讲了VSFTP的安装及配置,如果没有安装VSFTP可以按照该文档进行安装。如果安装好了,就可以通过FlashFXP.exe软件把我们下载的JDK6.0和Hadoop1.0软件上传到Master.Hadoop:192.168.1.2服务器上。刚才我我们用一一般用户户(haadooop)通通过FllashhFXPP软件把把所需的的两个软软件上传传了跟目目下,我我们通过过命令查查看下一一下是否否已经上上传了。 从从图中,我我们的所所需软件件已经准准备好了了。Haddoopp运行过过程中需需要管理理远端HHadooop守守护进程程,在HHadooop启启动以后后,Naa
17、meNNodee是通过过SSHH(Seecurre SShelll)来来启动和和停止各各个DaataNNodee上的各各种守护护进程的的。这就就必须在在节点之之间执行行指令的的时候是是不需要要输入密密码的形形式,故故我们需需要配置置SSHH运用无无密码公公钥认证证的形式式,这样样NammeNoode使使用SSSH无密密码登录录并启动动DattaNaame进进程,同同样原理理,DaataNNodee上也能能使用SSSH无无密码登登录到NNameeNodde。在HHadooop集集群(第第1期)安装CCenttOS66.0时时,我们们选择了了一些基基本安装装包,所所以我们们需要两两个服务务:sss
18、h和rrsynnc已经经安装了了。可以以通过下下面命令令查看结结果显示示如下:rpm qa | ggrepp oppenssshrpm qa | ggrepp rssyncc假设没没有安装装sshh和rssyncc,可以以通过下下面命令令进行安安装。yum iinsttalll sssh 安安装SSSH协议议yum iinsttalll rssyncc (rrsynnc是一一个远程程数据同同步工具具,可通通过LAAN/WWAN快快速同步步多台主主机间的的文件)serviice sshhd rresttartt 启动动服务确保所所有的服服务器都都安装,上上面命令令执行完完毕,各各台机器器之间可可
19、以通过过密码验验证相互互登。1)SSSH无无密码原原理Massterr(NaameNNodee | JobbTraackeer)作作为客户户端,要要实现无无密码公公钥认证证,连接接到服务务器Saalvee(DaataNNodee | Tassktrrackker)上上时,需需要在MMastter上上生成一一个密钥钥对,包包括一个个公钥和和一个私私钥,而而后将公公钥复制制到所有有的Sllavee上。当当Massterr通过SSSH连连接Saalvee时,SSalvve就会会生成一一个随机机数并用用Massterr的公钥钥对随机机数进行行加密,并并发送给给Massterr。Maasteer收到到加
20、密数数之后再再用私钥钥解密,并并将解密密数回传传给Sllavee,Sllavee确认解解密数无无误之后后就允许许Massterr进行连连接了。这这就是一一个公钥钥认证过过程,其其间不需需要用户户手工输输入密码码。重要要过程是是将客户户端Maasteer复制制到Sllavee上。2)MMastter机机器上生生成密码码对在MMastter节节点上执执行以下下命令:ssh-kkeyggen t rsaa PP 这条命命是生成成其无密密码密钥钥对,询询问其保保存路径径时直接接回车采采用默认认路径。生生成的密密钥对:id_rsaa和idd_rssa.ppub,默默认存储储在/homme/hhadooo
21、p/.sssh目目录下。查看/hoome/haddoopp/下下是否有有.sssh文件夹夹,且.sssh文文件下是是否有两两个刚生生产的无无密码密密钥对。接着在在Massterr节点上上做如下下配置,把把id_rsaa.puub追加加到授权权的keey里面面去。cat /.sssh/id_rsaa.puub /.sssh/autthorrizeed_kkeyss在验证证前,需需要做两两件事儿儿。第一一件事儿儿是修改改文件autthorrizeed_kkeyss权限限(权限限的设置置非常重重要,因因为不安安全的设设置安全全设置,会会让你不不能使用用RSAA功能),另另一件事事儿是用用rooot用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学堂 hadoop 数据 培训 安装 配置 每一 小步 32562
限制150内