2022年Linux下Nutch-.分布式配置 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年Linux下Nutch-.分布式配置 .pdf》由会员分享,可在线阅读,更多相关《2022年Linux下Nutch-.分布式配置 .pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、linux下 nutch-1.0 集群配置 1 Linux 下 Nutch-1.0 集群配置詹坤林中科院研究生院信息学院 2010 年 5 月目录0 集群网络环境介绍.11/etc/hosts文件配置.12 SSH无密码验证配置.22.1 配置所有节点之间SSH无密码验证.23 JDK 安装和 Java 环境变量配置.33.1 安装 JDK 1.6.33.2 Java 环境变量配置.34 Nutch 集群配置.35 Nutch 集群启动.66 Nutch 分布式爬虫.80 集群网络环境介绍集群中所有节点均是Cent-OS系统,防火墙均禁用,sshd 服务均开启;所有节点上均有一个名为nutch
2、 的用户,用户主目录是/home/nutch。集群包含三个节点:1 个 namenode,2 个 datanode,节点之间局域网连接,可以相互 ping 通。节点 IP 地址和主机名分布如下:10.10.97.132 gc03vm12 namenode 10.10.97.142 gc04vm12 datanode01 10.10.97.144 gc04vm14 datanode02 1/etc/hosts文件配置namenode节点上 vi/etc/hosts,将所有节点的名字和IP 地址写入其中,写入如下内容,注意注释掉127.0.0.1行:10.10.97.132 gc03vm12 10
3、.10.97.142 gc04vm12 10.10.97.144 gc04vm14#127.0.0.1 centos54 localhost.localdomain localhost/etc/hosts文件需要复制到所有数据节点上。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 11 页 -linux下 nutch-1.0 集群配置 2 2 SSH无密码验证配置Nutch 是基于 Hadoop的,Hadoop需要使用 SSH协议,namenode将使用 SSH协议启动 namenode和 datanode 进程,datanode 向 namenode传递心跳信息可能也是使用 S
4、SH协议,这是我认为的,还没有做深入了解,datanode 之间可能也需要使用 SSH协议。假若是,则需要配置使得所有节点之间可以相互SSH无密码登陆验证)。2.1 配置所有节点之间SSH无密码验证(0)原理节点 A要实现无密码公钥认证连接到节点B上时,节点 A是客户端,节点B是服务端,需要在客户端 A上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到服务端B上。当客户端 A通过 ssh 连接服务端 B时,服务端 B就会生成一个随机数并用客户端A的公钥对随机数进行加密,并发送给客户端A。客户端 A收到加密数之后再用私钥进行解密,并将解密数回传给B,B确认解密数无误之后就允许 A进行连接
5、了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端A公钥复制到 B上。因此如果要实现所有节点之间无密码公钥认证,则需要将所有节点的公钥都复制到所有节点上。(1)所有机器上生成密码对(a)所有节点用 nutch 用户登陆,并执行以下命令,生成rsa 密钥对:zklzkl-ubuntu:$ssh-keygen-t rsa Generating public/private rsa key pair.Enter file in which to save the key(/home/zkl/.ssh/id_rsa):默认路径Enter passphrase(empty for
6、 no passphrase):回车,空密码Enter same passphrase again:Your identification has been saved in/home/zkl/.ssh/id_rsa.Your public key has been saved in/home/zkl/.ssh/id_rsa.pub.这 将 在/home/nutch/.ssh/目 录 下 生 成 一 个 私 钥 id_rsa和 一 个 公 钥id_rsa.pub。(b)将所有 datanode 节点的公钥id_rsa.pub传送到 namenode上:cp id_rsa.pub datanod
7、e01.id_rsa.pub scp datanode01.id_rsa.pub namenode节点 ip 地址:/home/nutch/.ssh .cp id_rsa.pub datanode0n.id_rsa.pub(c)namenode 节点上综合所有公钥(包括自身)并传送到所有节点上cp id_rsa.pub authorized_keys namenode自己的公钥cat datanode01.id_rsa.pub authorized_keys.cat datanode0n.id_rsa.pub authorized_keys 然后使用 SSH协议将所有公钥信息authorize
8、d_keys复制到所有 DataNode的.ssh 目录下zklzkl-ubuntu:$scp authorized_keys data节点 ip 地址:/home/zkl/.ssh 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 11 页 -linux下 nutch-1.0 集群配置 3 这样配置过后,所有节点之间可以相互SSH 无密码登陆,可以通过命令“ssh 节点 ip 地址”来验证。3 JDK 安装和 Java 环境变量配置3.1 安装 JDK 1.6 root 用户登陆,在 Namenode 节点上新建文件夹/usr/program,下载 JDK安装包jdk-6u13-
9、linux-i586.bin,复制到目录/usr/program 下,在命令行进入该目录,执行命令“./jdk-6u13-linux-i586.bin”,命令运行完毕,将在目录下生成文件夹 jdk1.6.0_13,安装完毕。安装完成后,修改/usr/program目录拥有着为 nutch 用户,Chown-R nutch:nutch/usr/program/usr/program 目录需要复制到所有数据节点上。3.2 Java 环境变量配置root 用户登陆,命令行中执行命令”vi/etc/profile”,并加入以下内容,配置环境变量(注意/etc/profile这个文件很重要,后面Hado
10、op的配置还会用到)。#set java environment export JAVA_HOME=/usr/program/jdk1.6.0_13/export JRE_HOME=/usr/program/jdk1.6.0_13/jre export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH 保存并退出,执行以下命令使配置生效chmod+x /etc/profile source /etc/profile 配置完毕,在命令行中使用命令”ja
11、va-version”可以判断是否成功。在 nutch 下测试 java-version/etc/profile复制到所有数据节点上。4 Nutch 集群配置在 namenode上执行:下载 nutch-1.0,将其解压到/home/nutch/nutchinstall目录下,使用如下名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 11 页 -linux下 nutch-1.0 集群配置 4 命令:tar zxvf nutch-1.0.tar.gz(1)配置 Hadoop的配置文件(a)配置 hadoop-env.sh$vi nutch-1.0/conf/hadoop-env.sh
12、#set java environment export JAVA_HOME=/usr/program/jdk1.6.0_13/(b)配置 conf/hadoop-site.xml hadoop.tmp.dir /home/nutch/nutchinstall/hadooptmp A base for other temporary directories.fs.default.name hdfs:/gc03vm12:9000 dfs.replication 2 mapred.job.tracker gc03vm12:9001 dfs.name.dir /home/nutch/nutchins
13、tall/filesystem/name Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories then the name table is replicated in all of the directories,for redundancy.名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 11 页 -linux下 nutch-1.0 集群配置 5 dfs.dat
14、a.dir /home/nutch/nutchinstall/filesystem/data Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored
15、.mapred.local.dir /home/nutch/nutchinstall/filesystem/local Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exis
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年Linux下Nutch-.分布式配置 2022 Linux Nutch 分布式 配置
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内