尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得9264.docx
《尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得9264.docx》由会员分享,可在线阅读,更多相关《尚学堂hadoop大数据培训Hadoop安装配置(每一小步都写得9264.docx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、北京尚学学堂提供供Haadooop是AApacche软软件基金金会旗下下的一个个开源分分布式计计算平台台。以HHadooop分分布式文文件系统统(HDDFS,HHadooop Disstriibutted Fillesyysteem)和和MappRedducee(Goooglle MMapRReduuce的的开源实实现)为为核心的HHadooop为为用户提提供了系系统底层层细节透透明的分分布式基基础架构构。对于于Haddoopp的集群群来讲,可可以分成成两大类类角色:Massterr和Saalvee。一个个HDFFS集群群是由一一个NaameNNodee和若干干个DaataNNodee组成的的
2、。其中中NammeNoode作作为主服服务器,管管理文件件系统的的命名空空间和客客户端对对文件系系统的访访问操作作;集群群中的DDataaNodde管理理存储的的数据。MappRedducee框架是是由一个个单独运运行在主主节点上上的JoobTrrackker和和运行在在每个集集群从节节点的TTaskkTraackeer共同同组成的的。主节节点负责责调度构构成一个个作业的的所有任任务,这这些任务务分布在在不同的的从节点点上。主主节点监监控它们们的执行行情况,并并且重新新执行之之前的失失败任务务;从节节点仅负负责由主主节点指指派的任任务。当当一个JJob被被提交时时,JoobTrrackker接
3、接收到提提交作业业和配置置信息之之后,就就会将配配置信息息等分发发给从节节点,同同时调度度任务并并监控TTaskkTraackeer的执执行。从上上面的介介绍可以以看出,HHDFSS和MaapReeducce共同同组成了了Haddoopp分布式式系统体体系结构构的核心心。HDDFS在在集群上上实现分分布式文文件系统统,MappRedducee在集群群上实现现了分布布式计算算和任务处处理。HHDFSS在MaapReeducce任务务处理过过程中提提供了文文件操作作和存储储等支持持,MaapReeducce在HHDFSS的基础础上实现现了任务务的分发发、跟踪踪、执行行等工作作,并收收集结果果,二者
4、者相互作作用,完完成了HHadooop分分布式集集群的主主要任务务。集群群中包括括4个节节点:11个Maasteer,33个Saalvee,节点点之间局局域网连连接,可可以相互互pinng通,具具体集群群信息可可以查看看Haadooop集群群(第22期)。节点点IP地地址分布布如下:机器名称称IP地址址Mastter.Haddoopp192hhttpp:/wwww.bjjsxtt.coom/hhtmll/clloudd/.1168.1.22Salvve1.Haddoopp192.1688.1.3Salvve2.Haddoopp192.1688.1.4Salvve3.Haddoopp192.16
5、88.1.5四个个节点上上均是CCenttOS66.0系系统,并并且有一一个相同同的用户户haddoopp。Maasteer机器器主要配配置NaameNNodee和JoobTrrackker的的角色,负负责总管管分布式式数据和和分解任任务的执执行;33个Saalvee机器配配置DaataNNodee和TaaskTTracckerr的角色色,负责责分布式式数据存存储以及及任务的的执行。其实应应该还应应该有11个Maasteer机器器,用来来作为备备用,以以防止MMastter服服务器宕宕机,还还有一个个备用马马上启用用。后续续经验积积累一定定阶段后后补上一台台备用MMastter机机器。Haad
6、ooop集群群要按照照1.22小节表表格所示示进行配配置,我我们在Haddoopp集群(第第1期)的CentOS6.0安装过程就按照提前规划好的主机名进行安装和配置。如果实验室后来人在安装系统时,没有配置好,不要紧,没有必要重新安装,在安装完系统之后仍然可以根据后来的规划对机器的主机名进行修改。下面面的例子子我们将将以Maasteer机器器为例,即即主机名名为MMastter.Haddoopp,IIP为1922.1668.11.2进行一一些主机机名配置置的相关关操作。其他的的Slaave机机器以此此为依据据进行修修改。1)查查看当前前机器名名称用下下面命令令进行显显示机器器名称,如如果跟规规划
7、的不不一致,要要按照下下面进行行修改。hosttnamme上图图中,用用hoostnnamee查Massterr机器器的名字字为MMastter.Haddoopp,与与我们预预先规划划的一致致。2)修修改当前前机器名名称假定定我们发发现我们们的机器器的主机机名不是是我们想想要的,通通过对/ettc/ssyscconffig/nettworrk文文件修改改其中HOSSTNAAME后面的的值,改改成我们们规划的的名称。这个个/eetc/syssconnfigg/neetwoork文件是是定义hhosttnamme和是是否利用用网络的的不接触触网络设设备的对对系统全全体定义义的文件件。设定定形式:设
8、定值值=值/etcc/syyscoonfiig/nnetwworkk的设设定项目目如下:NETWWORKKINGG 是否否利用网网络GATEEWAYY 默认认网关IPGAATEWWAYDDEV 默认网网关的接接口名HOSTTNAMME 主主机名DOMAAIN 域名用下下面命令令进行修修改当前前机器的的主机名名(备注注:修改改系统文文件一般般用rooot用用户)vim /ettc/ssyscconffig/nettworrk通过过上面的的命令我我们从/ettc/ssyscconffig/nettworrk中中找到HOSSTNAAME进行修修改,查查看内容容如下:3)修修改当前前机器IIP假定我们
9、们的机器器连IPP在当时时安装机机器时都都没有配配置好,那那此时我我们需要要对iifcffg-eeth00文件件进行配配置,该该文件位位于/etcc/syyscoonfiig/nnetwworkk-sccrippts文件夹夹下。在这这个目录录下面,存存放的是是网络接接口(网网卡)的的制御脚脚本文件件(控制制文件),iifcffg- ethh0是默默认的第第一个网网络接口口,如果果机器中中有多个个网络接接口,那那么名字字就将依依此类推推ifccfg-ethh1,iifcffg-eeth22,iffcfgg- eeth33,。这里里面的文文件是相相当重要要的,涉涉及到网网络能否否正常工工作。设定定
10、形式:设定值值=值设定定项目项项目如下下:DEVIICE 接口名名(设备备,网卡卡)BOOTTPROOTO IP的的配置方方法(sstattic:固定IIP, dhccpHCCP, nonne:手手动)HWADDDR MACC地址ONBOOOT 系统启启动的时时候网络络接口是是否有效效(yees/nno)TYPEE 网络络类型(通通常是EEtheemett)NETMMASKK 网络络掩码IPADDDRIP地地址IPV66INIIT IIPV66是否有有效(yyes/no)GATEEWAYY 默认认网关IIP地址址查看看/eetc/syssconnfigg/neetwoork-scrriptts
11、/iifcffg-eeth00内容容,如果果IP不不复核,就就行修改改。如果果上图中中IP与与规划不不相符,用用下面命命令进行行修改:vim /ettc/ssyscconffig/nettworrk-sscriiptss/iffcgff-etth0修改改完之后后可以用用iffconnfigg进行行查看。4)配置置hossts文文件(必必须)/etcc/hoostss这个个文件是是用来配配置主机机将用的的DNSS服务器器信息,是是记载LLAN内内接续的的各主机机的对应应HoostNNamee和IPP用的的。当用用户在进进行网络络连接时时,首先先查找该该文件,寻寻找对应应主机名名(或域域名)对对应
12、的IIP地址址。我们们要测试试两台机机器之间间知否连连通,一一般用pinng 机机器的IIP,如如果想用用piing 机器的的主机名名发现现找不见见该名称称的机器器,解决决的办法法就是修修改/etcc/hoostss这个个文件,通通过把LLAN内内的各主主机的IIP地址址和HoostNNamee的一一一对应写写入这个个文件的的时候,就就可以解解决问题题。例如如:机器器为MMastter.Haddoopp:1992.1168.1.22对机机器为Sallve11.Haadooop:1192.1688.1.3用用命令pinng记记性连接接测试。测试结结果如下下: 从从上图中中的值,直直接对IIP地址
13、址进行测测试,能能够piing通通,但是是对主机机名进行行测试,发发现没有有pinng通,提提示uunknnownn hoost未知知主机,这时时查看Massterr.Haadooop的的/eetc/hossts文件内内容。发现现里面没没有1192.1688.1.3 SSlavve1.Haddoopp内容容,故而而本机器器是无法法对机器器的主机机名为Slaave11.Haadooop 解析。在进进行Haadooop集群群配置中中,需要要在/etcc/hoostss文件件中添加加集群中中所有机机器的IIP与主主机名,这这样Maasteer与所所有的SSlavve机器器之间不不仅可以以通过IIP进
14、行行通信,而而且还可可以通过过主机名名进行通通信。所所以在所所有的机机器上的的/eetc/hossts文件末末尾中都都要添加加如下内内容:192.1688.1.2 MMastter.Haddoopp192.1688.1.3 SSlavve1.Haddoopp192.1688.1.4 SSlavve2.Haddoopp192.1688.1.5 SSlavve3.Haddoopp用以以下命令令进行添添加:vim /ettc/hhostts添加加结果如如下:现在在我们在在进行对对机器为为Sllavee1.HHadooop的主机机名进行行pinng通测测试,看看是否能能测试成成功。从上上图中我我们已经
15、经能用主主机名进进行piing通通了,说说明我们们刚才添添加的内内容,在在局域网网内能进进行DNNS解析析了,那那么现在在剩下的的事儿就就是在其其余的SSlavve机器器上进行行相同的的配置。然后进进行测试试。(备备注:当当设置SSSH无无密码验验证后,可可以sscp进行复复制,然然后把原原来的hossts文件执执行覆盖盖即可。)1)JDDK软件件 下载地地址:hhttpp:/wwww.orraclle.ccom/tecchneetwoork/javva/jjavaase/inddex.htmml JDKK版本:jdkk-6uu31-linnux-i5886.bbin2)Haadooop软件件
16、 下载地地址:hhttpp:/haddoopp.appachhe.oorg/commmonn/reeleaasess.httml Haddoopp版本:haddoopp-1.0.00.taar.ggz在Haddoopp集群(第第3期)讲了VSFTP的安装及配置,如果没有安装VSFTP可以按照该文档进行安装。如果安装好了,就可以通过FlashFXP.exe软件把我们下载的JDK6.0和Hadoop1.0软件上传到Master.Hadoop:192.168.1.2服务器上。刚才才我们用用一般用用户(hhadooop)通通过FllashhFXPP软件把把所需的的两个软软件上传传了跟目目下,我我们通过
17、过命令查查看下一一下是否否已经上上传了。 从图中中,我们们的所需需软件已已经准备备好了。Haadooop运行行过程中中需要管管理远端端Haddoopp守护进进程,在在Haddoopp启动以以后,NNameeNodde是通通过SSSH(SSecuure Sheell)来来启动和和停止各各个DaataNNodee上的各各种守护护进程的的。这就就必须在在节点之之间执行行指令的的时候是是不需要要输入密密码的形形式,故故我们需需要配置置SSHH运用无无密码公公钥认证证的形式式,这样样NammeNoode使使用SSSH无密密码登录录并启动动DattaNaame进进程,同同样原理理,DaataNNodee上
18、也能能使用SSSH无无密码登登录到NNameeNodde。在Haddoopp集群(第第1期)安装CCenttOS66.0时时,我们们选择了了一些基基本安装装包,所所以我们们需要两两个服务务:sssh和rrsynnc已经经安装了了。可以以通过下下面命令令查看结结果显示示如下:rpm qaa | greep oopennsshhrpm qaa | greep rrsynnc假设设没有安安装sssh和rrsynnc,可可以通过过下面命命令进行行安装。yum insstalll sssh 安装SSSH协协议yum insstalll rrsynnc (rrsynnc是一一个远程程数据同同步工具具,可通
19、通过LAAN/WWAN快快速同步步多台主主机间的的文件)servvicee ssshd resstarrt 启启动服务务确保保所有的的服务器器都安装装,上面面命令执执行完毕毕,各台台机器之之间可以以通过密密码验证证相互登登。1)SSSH无无密码原原理Maasteer(NNameeNodde | JoobTrrackker)作作为客户户端,要要实现无无密码公公钥认证证,连接接到服务务器Saalvee(DaataNNodee | Tassktrrackker)上上时,需需要在MMastter上上生成一一个密钥钥对,包包括一个个公钥和和一个私私钥,而而后将公公钥复制制到所有有的Sllavee上。当当
20、Massterr通过SSSH连连接Saalvee时,SSalvve就会会生成一一个随机机数并用用Massterr的公钥钥对随机机数进行行加密,并并发送给给Massterr。Maasteer收到到加密数数之后再再用私钥钥解密,并并将解密密数回传传给Sllavee,Sllavee确认解解密数无无误之后后就允许许Massterr进行连连接了。这就是是一个公公钥认证证过程,其其间不需需要用户户手工输输入密码码。重要要过程是是将客户户端Maasteer复制制到Sllavee上。2)MMastter机机器上生生成密码码对在在Massterr节点上上执行以以下命令令:ssh-keyygenn tt rssa
21、 P 这条条命是生生成其无无密码密密钥对,询询问其保保存路径径时直接接回车采采用默认认路径。生成的的密钥对对:idd_rssa和iid_rrsa.pubb,默认认存储在在/hhomee/haadooop/.sshh目录录下。查看看/hhomee/haadooop/下是否否有.sshh文件件夹,且且.sssh文件下下是否有有两个刚刚生产的的无密码码密钥对对。接着着在Maasteer节点点上做如如下配置置,把iid_rrsa.pubb追加到到授权的的keyy里面去去。cat /.sshh/idd_rssa.ppub /.sshh/auuthoorizzed_keyys在验验证前,需需要做两两件事儿
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学堂 hadoop 数据 培训 安装 配置 每一 小步 9264
限制150内