2022年Linux下Hadoop伪分布式配置 .pdf
《2022年Linux下Hadoop伪分布式配置 .pdf》由会员分享,可在线阅读,更多相关《2022年Linux下Hadoop伪分布式配置 .pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Linux 下 Hadoop 的伪分布式配置1 Linux 下 Hadoop伪分布式配置詹坤林 2010 年 5 月目录介绍. 10 Hadoop 伪分布式模式说明 . 11 SSH无密码验证配置 . 22 JDK 安装和 Java 环境变量配置 . 22.1 安装 JDK 1.6 . 22.2 Java 环境变量配置 . 23 Hadoop 配置. 34 Hadoop 集群启动 . 55 Hadoop 使用. 65.1 一个测试例子 WordCount . 65.2 编写 Hadoop应用程序并在伪分布式模式下运行. 75.3 提交多个作业到集群 . 8附 程序. 8介绍这是本人在单机上的C
2、ent-OS 系统中配置 Hadoop-0.19.1伪分布式时的总结文档,但该文档也适合其他版本的Linux系统和目前各版本的Hadoop(Hadoop-0.20之后的版本配置文件hadoop-site.xml 被拆分成了三个core-site.xml,hdfs-site.xml和 mapred-site.xml,这里会说明 0.20后的版本中如何配置这三个文件)。0 Hadoop 伪分布式模式说明Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的, 两种配置也很相似, 唯一不同的
3、地方是伪分布式是在单机器上配名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 10 页 - - - - - - - - - Linux 下 Hadoop 的伪分布式配置2 置,数据节点和名字节点均是一个机器1 SSH无密码验证配置Hadoop 需要使用SSH协议, namenode将使用 SSH协议启动namenode和datanode 进程,伪分布式模式数据节点和名字节点均是本身,必须配置SSH localhost无密码验证。机器上生成密码对,所有节点上执行以下命令: s
4、sh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/ hadoop /.ssh/id_rsa): 默认路径Enter passphrase (empty for no passphrase): 回车,空密码Enter same passphrase again: Your identification has been saved in /home/ hadoop /.ssh/id_rsa. Your public key has been sav
5、ed in /home/ hadoop /.ssh/id_rsa.pub. 这 将 在 /home/hadoop/.ssh/目 录 下 生 成 一个 私 钥id_rsa和 一个 公 钥id_rsa.pub 。在 namenode节点上做如下配置cp id_rsa.pub authorized_keys namenode的公钥这样配置过后, namenode可以无密码登录本身,可以通过命令“ssh localhost”来验证。2 JDK 安装和 Java 环境变量配置2.1 安装 JDK 1.6 root用 户 登 陆 , 新 建 文 件 夹 /usr/program, 下 载JDK 安 装 包
6、jdk-6u13-linux-i586.bin, 复制到目录/usr/program 下,在命令行进入该目录,执行命令“ ./ jdk-6u13-linux-i586.bin” ,命令运行完毕,将在目录下生成文件夹 jdk1.6.0_13 ,安装完毕。2.2 Java 环境变量配置root 用户登陆,命令行中执行命令”vi /etc/profile”, 并加入以下内容,配置环境变量 ( 注意/etc/profile这个文件很重要,后面Hadoop的配置还会用到)。# set java environment export JAVA_HOME=/usr/program/jdk1.6.0_13/
7、export JRE_HOME=/usr/program/jdk1.6.0_13/jre export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - Linux 下 Hadoop 的伪分布式配置3 保存并退出,执行以下命令使配置生效
8、chmod +x /etc/profile source /etc/profile 配置完毕,在命令行中使用命令”java -version”可以判断是否成功。在hadoop用户下测试 java version ,一样成功。3 Hadoop 配置Hadoop用户登录。下载 hadoop-0.19.1 ,将其解压到 /usr/local/hadoop目录下,解压后目录形式是 /usr/local/hadoop/hadoop-0.19.1。使用如下命令 : tar zxvf hadoop-0.19.1.tar.gz (1) 配置 Hadoop的配置文件(a) 配置 hadoop-env.sh $
9、vi nutch-1.0/conf/hadoop-env.sh # set java environment export JAVA_HOME= /usr/program/jdk1.6.0_13/(b) 配置 conf/hadoop-site.xml Hadoop配置参数的含义请参考conf/Hadoop-default.xml。Hadoop-0.20之 后 的 版 本 请 分 别 配 置core-site.xml, hdfs-site.xml 和mapred-site.xml三个配置文件, 配置方法即将下面hadoop-site.xml文件中的三块参数分别复制到三个文件当中。 fs.defa
10、ult.name hdfs:/localhost:9000 HDFS的 URI,文件系统 :/namenode标识 : 端口号 hadoop.tmp.dir /usr/local/hadoop/hadooptmp namenode上本地的hadoop 临时文件夹 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 10 页 - - - - - - - - - Linux 下 Hadoop 的伪分布式配置4 dfs.name.dir /usr/local/hadoop/hdfs
11、/name namenode上存储 hdfs 名字空间元数据 dfs.data.dir /usr/local/hadoop/hdfs/data datanode上数据块的物理存储位置 dfs.replication 1 副本个数,不配置默认是3, 应小于 datanode 机器数量 mapred.job.tracker localhost:9001 jobtracker标识 : 端口号,不是URI mapred.local.dir /usr/local/hadoop/mapred/local tasktracker上执行 mapreduce 程序时的本地目录 mapred.system.dir
12、 /tmp/hadoop/mapred/system 这个是 hdfs 中的目录,存储执行mr 程序时的共享文件 (c) 配置 masters 文件, 加入 namenode的主机名localhost (d) 配置 slaves 文件, 加入所有 datanode 的主机名localhost 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - Linux 下 Hadoop 的伪分布式配置5 4 Hadoop 集群启动格式化 nam
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年Linux下Hadoop伪分布式配置 2022 Linux Hadoop 分布式 配置
限制150内