Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt

资源ID：71808745 资源大小：21.15MB 全文页数：372页
资源格式： PPT 下载积分：19金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要19金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt

本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景1HadoopHadoop概述概述 uHadoopHadoop简介简介 Apache Hadoop Apache Hadoop是一款由是一款由ApacheApache基金会开发的用于可靠的、可基金会开发的用于可靠的、可伸缩的分布式计算的开源软件。伸缩的分布式计算的开源软件。Apache Hadoop Apache Hadoop软件库是一个框架，它允许使用简单的编程模型软件库是一个框架，它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。在跨计算机集群中对大规模数据集进行分布式处理。设计目的从单一的服务器扩展到由成千上万台机器组成的集群，集群中的每台机器都提供本地计算和存储，并将存储的数据备份在多个节点，由此提升集群的可用性。在应用层检测和处理故障，而不是依赖硬件来提供高可用性。当一台机器宕机时，其他节点依然可以提供备份数据和计算服务，从而也可以实现在计算机集群之上提供高可用性服务2HadoopHadoop概述概述 uHadoopHadoop简介简介组成部分Hadoop1.0 由HDFS(Hadoop Distributed File System)和MapReduce（分布式计算框架）构成Hadoop2.0及之后的版本又引入了YARN（集群资源管理系统）3HadoopHadoop概述概述 uHadoopHadoop背景背景Hadoop最早起源于开源的网络搜索引擎Apache Nutch项目，此项目也是Lucene项目的一部分，它的设计目标是构建一个大型的全网搜索引擎，创始人是Doug Cutting。2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解谷歌陆续发表的三篇论文为该问题提供了可行的解决方案决方案。分布式文件系统（GFS），可用于处理海量网页的存储分布式计算框架MapReduce，可用于海量网页的索引计算问题BigTable数据库Nutch的开发人员完成了相应的开源实现开源实现HDFSHDFS和和MAPREDUCEMAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期4HadoopHadoop概述概述uHadoopHadoop背景背景名字起源Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”Hadoop logo：5HadoopHadoop概述概述u发展历程发展历程2017年12月份Apache Hadoop 3.0.0GA 版本正式发布，从此大家可以正式在线上使用Hadoop3.0.0。2013年2月,Wandisco推出了世界第一款可用于实际业务环境的Apache Hadoop 2-WANdisco Distro(WDD)。2011年12月27日-1.0.0版本发布。标志着Hadoop已经初具生产规模。2009年4月-赢得每分钟排序，59秒内排序500 GB（在1400个节点上）和173分钟内排序100 TB数据（在3400个节点上）。2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2006年1月-Doug Cutting加入雅虎。2005年12月-Nutch移植到新的框架，Hadoop在20个节点上稳定运行。6HadoopHadoop概述概述 uHadoopHadoop的特点的特点高可靠性Hadoop能够自动地维护数据的多份副本，集群部署在多台机器上，避免出现当一个节点机器宕机时整个集群损坏的现象。高扩展性Hadoop是在可用的计算机集群间分配数据并完成计算任务的，而且在已运行的集群环境中可以方便的添加新节点，从而扩大集群规模。高效性Hadoop采用分布式存储和分布式处理两大核心技术，而且Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。7HadoopHadoop概述概述 uHadoopHadoop的特点的特点高容错性Hadoop的分布式文件系统HDFS采用冗余数据存储方式，自动保存数据的多个副本，并且能够自动将失败的任务进行重新分配，从而提高了Hadoop的容错能力。低成本Hadoop可以通过普通的机器搭建服务器集群，成本比较低，普通用户也很容易用自己的PC机搭建Hadoop运行环境。运行在Linux平台上Hadoop是基于Java语言开发的，可以较好地运行在Linux平台上。支持多种编程语言Hadoop上的应用程序也可以使用其他语言编写，如C+。8本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景9HadoopHadoop的核心组件的核心组件 u分布式文件系统分布式文件系统HDFSHDFSHDFS是Hadoop Distribute File System 的简称，即Hadoop分布式文件系统。它是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。HDFS采用主/从（Master/Slave）架构，一般一个HDFS集群由一个NameNode、一个Secondary NameNode和多个DataNode组成。NameNode是HDFS集群的主节点，是一个中心服务器，负责存储和管理文件系统的元数据（节点信息）Secondary NameNode辅助NameNode，分担其工作量，用于同步元数据信息DataNode是HDFS集群的从节点，存储实际的数据，汇报存储信息给NameNode10HadoopHadoop的核心组件的核心组件 u分布式文件系统分布式文件系统HDFSHDFS优点高容错性适合大数据处理流式数据访问缺点不适合低延迟数据访问无法高效存储大量小文件不适合并发写入，不支持文件随机修改11HadoopHadoop的核心组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduceMapReduce是Hadoop的一个分布式计算框架，也是一种大规模数据集并行运算的编程模型，主要用于处理海量数据的运算。MapReduce主要包括Map（映射）和Reduce（规约）两部分。MapReduce是Google公司的核心计算模型，它将运行于大规模集群上。12HadoopHadoop的核心组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduce优势编程简单可扩展性强高容错性缺点执行速度慢不适合流式计算不适合DGA（有向图）计算13HadoopHadoop的核心组件的核心组件 u集群资源管理器集群资源管理器YarnYarnHadoop Yarn 是开源 Hadoop分布式处理框架中的资源管理和作业调度框架，它是 Apache Hadoop的核心组件之一。Yarn 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序，并调度在不同集群节点上执行的任务。Yarn管理资源采用的是Master/Slave架构，其基本思想是将资源管理和作业调度/监视的功能分解为单独的 Daemon(守护进程)，其拥有一个全局的ResourceManager 和每个应用程序的ApplicationMaster。Yarn 主要由 RM、NM、AM 和 Container 等几个组件构成。14本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景15HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统生态系统当今的Hadoop已经成长为一个庞大的生态体系，随着生态体系的成长，新出现的项目也越来越多，其中不乏一些非Apache主管的项目，这些项目对Hadoop做了更好的补充或者更高层的抽象。16HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统图生态系统图17HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍HBaseHBase全称为Hadoop Database，是一个分布式的、面向列的开源数据库，也是一款比较流行的NoSQL数据库。HBase在Hadoop之上提供了类似Bigtable的能力，主要解决非关系型数据库的数据存储问题。HiveHive由Facebook开源，最初用于解决海量结构化的日志数据统计问题。它是构建于Hadoop集群之上的数据仓库，提供的一系列工具可存储、查询和分析存储在Hadoop中的大规模数据。18HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍SqoopSqoop是Sql-to-Hadoop的缩写，主要用于传统数据库（MySQL、Oracle等）和Hadoop之间数据的传输。它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS中的数据导出到关系型数据库。PigPig是一个基于Hadoop的大规模数据分析平台，定义了一种类似于SQL的数据流语言-Pig Latin-Pig Latin，该语言提供了各种操作符，程序员可以利用它们开发自己的用于读取、写入和处理数据功能的程序。19HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍FlumeFlume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(Source)收集过来，再将收集到的数据送到指定的目的地(Sink)。OozieOozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,同时也是一个管理Apache Hadoop作业的工作流调度系统，具有可伸缩性、可靠性及可扩展性。20HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍ZooKeeperZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google Chubby的一个开源实现，也是Hadoop、HBase的重要组件。它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。MahoutMahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序21HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍StormApache Storm是一个免费的开源分布式实时计算系统，也是一个流数据框架，具有较高的摄取率。Apache Storm具有容错性、灵活性、可靠性并且支持任何编程语言，允许实时流处理。它是无状态的，通过ZooKeeper管理分布式环境和集群状态。KafkaKafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java语言编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中的所有动作，主要应用于日志收集系统和消息系统。22HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍SparkApache Spark是一个大规模数据处理的快速通用的计算引擎，可用它来完成各种各样的运算。它还支持一组丰富的高级工具，包括Spark SQL、SQL和结构化数据处理、MLlib机器学习、GraphX图形处理、Spark流等。23本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景24HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景在线旅游根据相关统计数据，Cloudera公司的Hadoop框架正在为全球80%左右的在线旅游网站提供服务，例如总部位于美国伊利诺伊州芝加哥市的一家全球性线上旅游公司Orbitz Worldwide，受益于Hadoop架构，他们极为轻松地实现了诸多的数据分析工作。电子商务电子商务推荐系统已经在亚马逊、淘宝等知名电商网站中得到了成功的应用。2012年，淘宝Hadoop集群节点已经达到了2860个，实际使用容量了超过40PB大小，日均作业数高达15万，为淘宝网的日常运营做出了关键支撑。25HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景移动数据Cloudera运营总监称，美国有70%的智能手机数据服务背后都是由Hadoop来支撑的，也就是说，包括数据的存储以及无线运营商的数据处理等，都是在利用Hadoop技术。能源发现美国Chevron公司是全美第二大石油公司，他们的IT部门主管介绍了Chevron使用Hadoop的经验，他们利用Hadoop进行数据的收集和处理，其中的数据就是海洋的地震数据，以便于他们找到油矿的位置。26HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景能源节省与 Chevron目标截然相反，美国Opower公司使用Hadoop来提升电力服务，尽量为用户节省在资源方面的投入。Opower前期管理的大约30TB的能源数据、气象与人口数据、历史信息、地理数据等都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。图像处理美国创业型公司Skybox Imaging使用Hadoop来存储和处理来自卫星捕捉的高分辨率图像，并尝试将这些信息及图像与地理格局的变化相对应。此外，自2008年4月以来，日本的CbIR（Content-basedInformationRetrieval）公司在AmazonEC2上使用Hadoop来构建图像处理环境，用于图像产品推荐系统。27HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景医疗保健医疗行业也会用到Hadoop，像IBM的Watson就使用Hadoop集群作为其服务的基础。医疗机构可以利用语义分析为患者提供医护人员，并协助医生更好地为患者进行诊断。IT安全除企业IT基础机构的管理之外，Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。国内奇虎360安全软件在应用方面也主要使用Hadoop HBase作为其搜索引擎的底层网页存储架构系统，缩短异常退出后的恢复时间等。28HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景诈骗检测在金融服务机构和情报机构中，欺诈检测一直都是关注的重点。Hadoop分析可以帮助金融机构检测、预防和减小来自内部和外部的诈骗行为，同时降低相关成本。销售、授权、交易以及其他的数据分析也能够帮助银行识别和减少诈骗。基础设施管理这是一个非常基础的应用场景，用户可以用 Hadoop从服务器、交换机以及其他的设备中收集并分析数据。在Cloudera发布会中，NetApp代表指出他们公司收集的海量PB级别的设备日志也是存储在Hadoop中。此外，Esty是美国一家专门从事国产与复古商品的电子商务网站，目前海量的用户、访问量以及页面浏览量等数据的存储和分析都是建立在以Hadoop为基础设施的前提下完成的。29本本讲总结uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景30谢谢谢谢第第2 2章章 HadoopHadoop安装与配置安装与配置32HadoopHadoop的简介的简介HadoopHadoop的背景的背景HadoopHadoop发展历程发展历程HadoopHadoop的核心组件的核心组件HadoopHadoop生态生态系统及相关技术系统及相关技术HadoopHadoop应用场景应用场景33知识点回顾知识点回顾本讲知识点本讲知识点uHadoopHadoop的安装方式的安装方式u伪分布式安装伪分布式安装安装前的准备工作Hadoop安装与配置启动与停止Hadoop访问Hadoopu完全分布式安装完全分布式安装Hadoop集群规划安装前的准备工作Hadoop安装与配置集群启动与监控集群节点的添加与删除34HadoopHadoop安装方式安装方式u独立模式：本地运行模式独立模式：本地运行模式无需任何守护进程，所有的程序都运行在同一个JVM上；该模式主要是在学习或者开发阶段调试使用；u单机模式：伪分布式单机模式：伪分布式Hadoop守护进程运行一台独立的服务器上，模拟一个小规模的集群，它是完全分布式集群的一个特例；该模式常用于开发人员测试程序的执行。u集群模式：完全分布式集群模式：完全分布式Hadoop守护进程运行在由多台主机搭建的集群上；真正的生产环境；35本讲知识点本讲知识点uHadoopHadoop的安装方式的安装方式u伪分布式安装伪分布式安装安装前的准备工作Hadoop安装与配置启动与停止Hadoop访问Hadoopu完全分布式安装完全分布式安装Hadoop集群规划安装前的准备工作Hadoop安装与配置集群启动与监控集群节点的添加与删除36伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作所需软件列表lVmware WorkstationlLinux OS（Centos 7）lJDK（1.8+）lHadoop（2.7.7+）lXftplXshell37伪分布式安装伪分布式安装u环境准备环境准备在Vmware 虚拟机中安装CentOS-7-x86_64-Minimal-1804.iso。安装详细步骤见如下网址：httpshttps:/ 设置Vmware虚拟机的网络方式为NAT（网络地址转换）38伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作设置静态IP关闭防火墙修改主机名（HOSTNAME）配置主机名与IP映射设置SSH免密登录安装Java运行环境39伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作1.1.设置设置LinuxLinux系统静态系统静态IPIP地址地址因为虚拟机网络采用bridge桥接方式，客户机和宿主机在同一个局域网中，因此按如下方式设置客户操作系统的IP地址客户操作系统的IP地址和主操作系统在同一网段客户操作系统的网关和主操作系统一致客户操作系统的DNS和主操作系统一致命令：vi/etc/sysconfig/network-scripts/ifcfg-ens3340伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作1.1.设置设置LinuxLinux系统系统静态静态 IP IP地址地址设置完毕执行命令：systemctl restart network.service重启Linux系统网络。验证：ip addr命令查看设置是否成功41伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作2.2.关闭防火墙关闭防火墙查看Linux系统防火墙状态：命令：firewall-cmd-state关闭防火墙命令：systemctl stop firewalld.service关闭防火墙的自动运行命令：systemctl disable firewalld.service42伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作3 3.修改主机名修改主机名修改虚拟机的主机名为master 命令：vi/etc/hostname修改完主机名需要重启虚拟机43伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作4.4.配置主机名与配置主机名与IPIP映射映射修改完主机名后，需要将静态IP地址与主机名进行映射，即修改hosts文件。命令：vi/etc/hostsIP地址与主机名的映射输入格式为：IP地址主机名其中IP地址即步骤1中设置的静态IP地址44伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作5.5.设置设置SSHSSH免密登录免密登录执行以下命令产生密钥，位于/.ssh目录命令：ssh-keygen t rsa将公钥（id_rsa.pub）拷贝到当前目录的/authorized_keys列表命令：cat id_rsa.pub authorized_keys或者：ssh-copy-id-i id_rsa.pub hadoop修改authorized_keys的权限为0600 命令：chmod 600 authorized_keys验证 45伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作6 6.安装安装JDKJDK通过xftp工具将安装包上传到虚拟机master的某个目录下解压文件：tar-zxvf jdk-8u191-linux-x64.tar.gz重命名解压后的文件夹:将解压后的文件夹重命名为jdk46伪分布式安装伪分布式安装u安装前的准备工作安装前的准备工作6 6.安装安装JDKJDK配置环境变量命令：vi/etc/profile，编辑此文件增加2行内容生效配置信息：source/etc/profile验证47伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置1.1.上传安装包至上传安装包至LinuxLinux服务器服务器2.2.解压安装包并重命名解压安装包并重命名命令：tar-zxvf hadoop-2.7.7.tar.gz48伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置3 3.配置环境变量并立即生效配置环境变量并立即生效命令：vi/etc/profile，编辑此文件增加2行内容export HADOOP_HOME=/usr/local/hadoopexport PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH生效配置文件命令：source/etc/profile4 4.修改修改HadoopHadoop核心配置文件核心配置文件 Hadoop的核心配置文件有多个：hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，其路径为：/usr/local/hadoop/etc/hadoop49伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置4.4.修改修改HadoopHadoop核心配置文件核心配置文件1)修改hadoop-env.sh文件修改JAVA_HOME的配置信息，将原来的值修改为Java运行环境的安装路径。export JAVA_HOME=/usr/local/jdk(jdk实际安装路径)2)修改yarn-env.sh 文件此文件是YARN框架运行环境的配置，同样需要修改JAVA_HOME的配置信息。export JAVA_HOME=/usr/local/jdk(jdk实际安装路径)50伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置4.4.修改修改HadoopHadoop核心配置文件核心配置文件3)修改 core-site.xml，配置HDFS的地址和端口号以及临时数据的目录。fs.defaultFS hdfs:/master:8020 hadoop.tmp.dir /usr/local/hadoop/tmp 51伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置4.4.修改修改HadoopHadoop核心配置文件核心配置文件4)修改hdfs-site.xml，修改HDFS保存数据的副本数量以及存储NameNode和DataNode元数据的目录 dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data 52伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置4.4.修改修改HadoopHadoop核心配置文件核心配置文件5)修改修改mapred-site.xml，配置使用yarn框架因Hadoop的此目录下无该文件，需先创建此文件执行命令：cp mapred-site.xml.template mapred-site.xml 然后配置如下内容：mapreduce.framework.name yarn 53伪分布式安装伪分布式安装uHadoopHadoop的安装与配置的安装与配置4.4.修改修改HadoopHadoop核心配置文件核心配置文件6)修改yarn-site.xml，配置yarn属性配置内容如下：yarn.resourcemanager.hostname master yarn.nodemanager.aux-servicesmapreduce_shuffle54伪分布式安装伪分布式安装u启动与停止启动与停止HadoopHadoopHadoop伪分布式集群的启动，可以依次单独启动HDFS和YARN，也可以一次启动所有的节点，一般建议依次单独启动HDFS和YARN。lNameNode格式化格式化在Hadoop的解压目录：/usr/local/hadoop/bin下执行 hdfs namenode-formatl启动启动/停止停止HDFSHDFS在Hadoop的解压目录：/usr/local/hodoop/sbin下存放启动、停止的所有脚本文件 start-dfs.sh stop-dfs.shl启动启动/停止停止YARNYARNstart-yarn.sh stop-yarn.shl一次性一次性同时启动同时启动HDFSHDFS和和YARNYARN（此种方式不建议使用）（此种方式不建议使用）start-all.sh stop-all.sh55伪分布式安装伪分布式安装u访问访问HadoopHadoop验证Hadoop是否配置并启动成功查看启动进程方式执行命令jps查看启动的进程中是否启动了以下5个进程 NameNode，SecondaryNamenode，DataNode、ResourceManager、NodeManager以上5个进程运行在主节点的有：NameNode，SecondaryNamenode，ResourceManager运行在从节点的有：DataNode、NodeManager 浏览器访问方式 http:/192.168.199.133:50070/http:/192.168.199.133:18088/56伪分布式安装伪分布式安装u访问访问HadoopHadoop验证Hadoop是否配置并启动成功57本讲知识点本讲知识点uHadoopHadoop的安装方式的安装方式u伪分布式安装伪分布式安装安装前的准备工作Hadoop安装与配置启动与停止Hadoop访问Hadoopu完全分布式安装完全分布式安装Hadoop集群规划安装前的准备工作Hadoop安装与配置集群启动与监控集群节点的添加与删除58完全分布式安装完全分布式安装u集群概述集群概述计算机集群是一种计算机系统，它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。集群系统中的单个计算机通常称为节点，通常通过局域网连接。u集群技术的特点集群技术的特点通过多台计算机完成同一个工作。达到更高的效率两机或多机内容、工作过程等完全一样。如果一台死机，另一台可以起作用。u完全分布式完全分布式Hadoop的完全分布式安装是真正的分布式，至少由三个及以上的实体机或者虚拟机组成的集群。一个Hadoop集群环境中，NameNode、SecondaryName和DataNode是需要分配在不同的节点上，因此需要至少三台服务器。59完全分布式安装完全分布式安装uHadoopHadoop集群规划集群规划Hadoop完全分布式集群是典型的主从架构，一般需要三台或三台以上的服务器共同组建，本书中的集群规划为三台服务器。如果搭建完全分布式集群环境，建议个人计算机的硬件最低配置为：内存至少8G，硬盘可用容量至少100G，CPU为Intel i3以上的处理器。60IPIP地址地址主主机机名名称称HDFSHDFSYarnYarn192.168.199.130192.168.199.130masterNameNodeDataNodeResourceManager NodeManager192.168.199.131192.168.199.131slave1DataNodeNodeManagerSecondaryNameNode192.168.199.132192.168.199.132slave2DataNodeNodeManager完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作在在伪分布模式的基础上继续改进伪分布模式的基础上继续改进设置静态IP关闭防火墙修改主机名（HOSTNAME）配置主机名与IP映射设置SSH免密登录安装Java运行环境配置时间同步服务61完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作1.1.设置三台服务器的静态设置三台服务器的静态 IP IP地址地址设置完毕执行命令：systemctl restart network.service重启Linux系统网络。验证：ip addr命令查看设置是否成功62完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作2.2.关闭防火墙（三台服务器均需要关闭）关闭防火墙（三台服务器均需要关闭）查看Linux系统防火墙状态：命令：firewall-cmd-state关闭防火墙命令：systemctl stop firewalld.service关闭防火墙的自动运行命令：systemctl disable firewalld.service63完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作3 3.修改主机名修改主机名每台服务器的主机名需根据完全分布式集群拓扑图中的主机名进行设置。命令：vi/etc/hostname 三台服务器的主机名分别为：master slave1 slave2修改完主机名需要重启虚拟机64完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作4.4.配置主机名与配置主机名与IPIP映射映射完全分布式集群中三台服务器的主机名与IP地址的映射信息均需修改。命令：vi/etc/hostsIP地址与主机名的映射输入格式为：IP地址主机名其中IP地址即步骤1中设置的静态IP地址65完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作5.5.设置设置SSHSSH免密登录免密登录三台服务器均需执行以下命令产生密钥，位于/.ssh目录命令：ssh-keygen t rsa每台机器复制各自公钥（id_rsa.pub）到每台服务器ssh-copy-id-i/.ssh/id_rsa.pub masterssh-copy-id-i/.ssh/id_rsa.pub slave1ssh-copy-id-i/.ssh/id_rsa.pub slave2验证三台服务器是否可以相互免密登录 ssh master ssh slave1 ssh slave2 66完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作6 6.安装安装JDKJDK通过xftp工具将安装包上传到三台服务器的某个目录下解压文件：tar-zxvf jdk-8u191-linux-x64.tar.gz重命名解压后的文件夹:将解压后的文件夹重命名为jdk67完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作6 6.安装安装JDKJDK配置环境变量命令：vi/etc/profile，编辑此文件增加2行内容生效配置信息：source/etc/profile验证68完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作7.7.配置时间同步服务配置时间同步服务Hadoop完全分布式对时间的要求很高，主节点与各从节点的时间应该做到时间的同步，而配置时间同步服务也是为了解决集群各个节点之间的时间同步问题。本地ntp服务器提供时间同步服务外围的ntp服务器提供时间同步服务(采用）1.1.安装安装ntpdatentpdate 每台服务器在线安装：yum install ntpdate-y69完全分布式安装完全分布式安装u安装前的准备工作安装前的准备工作7.7.配置时间同步服务配置时间同步服务2 2.同步同步ntpntp服务器服务器时间时间命令格式：ntpdate-u ip(ntp服务器ip)70服务器IP命令中国国家授时中心210.72.145.44ntpdate-u210.72.145.44NTP服务器(上海)ntp.api.bzntpdate-untp.api.bz美国time.nist.govntpdate-utime.nist.gov复旦ntpdate-微软公司授时主机(美国)ntpdate-完全分布式安装完全分布式安装uHadoopHadoop的安装与配置的安装与配置1.1.上传安装包上传安装包至至三台服务三台服务器器2.2.解压安装包并重命名解压安装包并重命名命令：tar-zxvf hadoop-2.7.7.tar.gz71完全分布式安装完全分布式安装uHadoopHadoop的安装与配置的安装与配置3 3.配置环境变量并立即生效配置环境变量并立即生效命令：vi/etc/profile，编辑此文件增加2行内容export HADOOP_HOME=/usr/local/hadoopexport PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH生效配置文件命令：source/etc/profile4 4.修

注意事项

本文（Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt）为本站会员（知****量）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。