Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt
《Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt》由会员分享,可在线阅读,更多相关《Hadoop整本书电子教案完整版ppt课件全书教学教程最全教学课件(最新).ppt(372页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景1HadoopHadoop概述概述 uHadoopHadoop简介简介 Apache Hadoop Apache Hadoop是一款由是一款由ApacheApache基金会开发的用于可靠的、可基金会开发的用于可靠的、可伸缩的分布式计
2、算的开源软件。伸缩的分布式计算的开源软件。Apache Hadoop Apache Hadoop软件库是一个框架,它允许使用简单的编程模型软件库是一个框架,它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。在跨计算机集群中对大规模数据集进行分布式处理。设计目的从单一的服务器扩展到由成千上万台机器组成的集群,集群中的每台机器都提供本地计算和存储,并将存储的数据备份在多个节点,由此提升集群的可用性。在应用层检测和处理故障,而不是依赖硬件来提供高可用性。当一台机器宕机时,其他节点依然可以提供备份数据和计算服务,从而也可以实现在计算机集群之上提供高可用性服务2HadoopHadoo
3、p概述概述 uHadoopHadoop简介简介组成部分Hadoop1.0 由HDFS(Hadoop Distributed File System)和MapReduce(分布式计算框架)构成Hadoop2.0及之后的版本又引入了YARN(集群资源管理系统)3HadoopHadoop概述概述 uHadoopHadoop背景背景Hadoop最早起源于开源的网络搜索引擎Apache Nutch项目,此项目也是Lucene项目的一部分,它的设计目标是构建一个大型的全网搜索引擎,创始人是Doug Cutting。2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解谷歌陆续发表的三篇论文为该问题提供
4、了可行的解决方案决方案。分布式文件系统(GFS),可用于处理海量网页的存储分布式计算框架MapReduce,可用于海量网页的索引计算问题BigTable数据库Nutch的开发人员完成了相应的开源实现开源实现HDFSHDFS和和MAPREDUCEMAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期4HadoopHadoop概述概述uHadoopHadoop背景背景名字起源Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名:“这个名字是我孩子给
5、一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”Hadoop logo:5HadoopHadoop概述概述u发展历程发展历程2017年12月份Apache Hadoop 3.0.0GA 版本正式发布,从此大家可以正式在线上使用Hadoop3.0.0。2013年2月,Wandisco推出了世界第一款可用于实际业务环境的Apache Hadoop 2-WANdisco Distro(WDD)。2011年12月27日-1.0.0版本发布。标志着Hadoop已经初具生产规模。2009年4月-赢得每分钟排序,59秒内排序5
6、00 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2006年1月-Doug Cutting加入雅虎。2005年12月-Nutch移植到新的框架,Hadoop在20个节点上稳定运行。6HadoopHadoop概述概述 uHadoopHadoop的特点的特点高可靠性Hadoop能够自动地维护数据的多份副本,集群部署在多台机器上,避免出现当一个节点机器宕机时整个集群损坏的现象。高扩展性Hadoop是在可用的计算机集群间分配数据并完成计算任务的,而且在已运行的集群
7、环境中可以方便的添加新节点,从而扩大集群规模。高效性Hadoop采用分布式存储和分布式处理两大核心技术,而且Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。7HadoopHadoop概述概述 uHadoopHadoop的特点的特点高容错性Hadoop的分布式文件系统HDFS采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配,从而提高了Hadoop的容错能力。低成本Hadoop可以通过普通的机器搭建服务器集群,成本比较低,普通用户也很容易用自己的PC机搭建Hadoop运行环境。运行在Linux平台上Hadoop是基于Java
8、语言开发的,可以较好地运行在Linux平台上。支持多种编程语言Hadoop上的应用程序也可以使用其他语言编写,如C+。8本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景9HadoopHadoop的核心组件的核心组件 u分布式文件系统分布式文件系统HDFSHDFSHDFS是Hado
9、op Distribute File System 的简称,即Hadoop分布式文件系统。它是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS采用主/从(Master/Slave)架构,一般一个HDFS集群由一个NameNode、一个Secondary NameNode和多个DataNode组成。NameNode是HDFS集群的主节点,是一个中心服务器,负责存储和管理文件系统的元数据(节点信息)Secondary NameNode辅助NameNode,分担其工作量,用于同步元数据信息DataNode是HDFS集群的从节点,存储实际的数据,汇报存储信息给NameNode10H
10、adoopHadoop的核心组件的核心组件 u分布式文件系统分布式文件系统HDFSHDFS优点高容错性适合大数据处理流式数据访问缺点不适合低延迟数据访问无法高效存储大量小文件不适合并发写入,不支持文件随机修改11HadoopHadoop的核心组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduceMapReduce是Hadoop的一个分布式计算框架,也是一种大规模数据集并行运算的编程模型,主要用于处理海量数据的运算。MapReduce主要包括Map(映射)和Reduce(规约)两部分。MapReduce是Google公司的核心计算模型,它将运行于大规模集群上。12Ha
11、doopHadoop的核心组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduce优势编程简单可扩展性强高容错性缺点执行速度慢不适合流式计算不适合DGA(有向图)计算13HadoopHadoop的核心组件的核心组件 u集群资源管理器集群资源管理器YarnYarnHadoop Yarn 是开源 Hadoop分布式处理框架中的资源管理和作业调度框架,它是 Apache Hadoop的核心组件之一。Yarn 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度在不同集群节点上执行的任务。Yarn管理资源采用的是Master/Slave架构,其基本思想是将资
12、源管理和作业调度/监视的功能分解为单独的 Daemon(守护进程),其拥有一个全局的ResourceManager 和每个应用程序的ApplicationMaster。Yarn 主要由 RM、NM、AM 和 Container 等几个组件构成。14本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应
13、用场景的应用场景15HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统生态系统当今的Hadoop已经成长为一个庞大的生态体系,随着生态体系的成长,新出现的项目也越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop做了更好的补充或者更高层的抽象。16HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统图生态系统图17HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍HBaseHBase全称
14、为Hadoop Database,是一个分布式的、面向列的开源数据库,也是一款比较流行的NoSQL数据库。HBase在Hadoop之上提供了类似Bigtable的能力,主要解决非关系型数据库的数据存储问题。HiveHive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。它是构建于Hadoop集群之上的数据仓库,提供的一系列工具可存储、查询和分析存储在Hadoop中的大规模数据。18HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍SqoopSqoop是Sql-to-Hadoop的缩写,主要用
15、于传统数据库(MySQL、Oracle等)和Hadoop之间数据的传输。它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS中的数据导出到关系型数据库。PigPig是一个基于Hadoop的大规模数据分析平台,定义了一种类似于SQL的数据流语言-Pig Latin-Pig Latin,该语言提供了各种操作符,程序员可以利用它们开发自己的用于读取、写入和处理数据功能的程序。19HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍FlumeFlume是Cloudera提供的一个高可用的、高
16、可靠的、分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(Source)收集过来,再将收集到的数据送到指定的目的地(Sink)。OozieOozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,同时也是一个管理Apache Hadoop作业的工作流调度系统,具有可伸缩性、可靠性及可扩展性。20HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍ZooKeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google Chubby的一个开
17、源实现,也是Hadoop、HBase的重要组件。它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。MahoutMahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序21HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍StormApache Storm是一个免费的开源分布式实时计算系统,也是一个流数据框
18、架,具有较高的摄取率。Apache Storm具有容错性、灵活性、可靠性并且支持任何编程语言,允许实时流处理。它是无状态的,通过ZooKeeper管理分布式环境和集群状态。KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java语言编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作,主要应用于日志收集系统和消息系统。22HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍SparkApache Spark是一个大规模数据处理的快速通用的
19、计算引擎,可用它来完成各种各样的运算。它还支持一组丰富的高级工具,包括Spark SQL、SQL和结构化数据处理、MLlib机器学习、GraphX图形处理、Spark流等。23本本讲知知识点点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景24HadoopHadoop的应用场景的应用场景 uHa
20、doopHadoop的应用场景的应用场景在线旅游根据相关统计数据,Cloudera公司的Hadoop框架正在为全球80%左右的在线旅游网站提供服务,例如总部位于美国伊利诺伊州芝加哥市的一家全球性线上旅游公司Orbitz Worldwide,受益于Hadoop架构,他们极为轻松地实现了诸多的数据分析工作。电子商务电子商务推荐系统已经在亚马逊、淘宝等知名电商网站中得到了成功的应用。2012年,淘宝Hadoop集群节点已经达到了2860个,实际使用容量了超过40PB大小,日均作业数高达15万,为淘宝网的日常运营做出了关键支撑。25HadoopHadoop的应用场景的应用场景 uHadoopHadoo
21、p的应用场景的应用场景移动数据Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。能源发现美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中的数据就是海洋的地震数据,以便于他们找到油矿的位置。26HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景能源节省与 Chevron目标截然相反,美国Opower公司使用Hadoop来提升电力服务,
22、尽量为用户节省在资源方面的投入。Opower前期管理的大约30TB的能源数据、气象与人口数据、历史信息、地理数据等都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。图像处理美国创业型公司Skybox Imaging使用Hadoop来存储和处理来自卫星捕捉的高分辨率图像,并尝试将这些信息及图像与地理格局的变化相对应。此外,自2008年4月以来,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。27HadoopHadoop的应用场景的应用场景 uHadoopH
23、adoop的应用场景的应用场景医疗保健医疗行业也会用到Hadoop,像IBM的Watson就使用Hadoop集群作为其服务的基础。医疗机构可以利用语义分析为患者提供医护人员,并协助医生更好地为患者进行诊断。IT安全除企业IT基础机构的管理之外,Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。国内奇虎360安全软件在应用方面也主要使用Hadoop HBase作为其搜索引擎的底层网页存储架构系统,缩短异常退出后的恢复时间等。28HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景诈骗检测在金融服务机构和情报机构中,欺诈检测一直都是
24、关注的重点。Hadoop分析可以帮助金融机构检测、预防和减小来自内部和外部的诈骗行为,同时降低相关成本。销售、授权、交易以及其他的数据分析也能够帮助银行识别和减少诈骗。基础设施管理这是一个非常基础的应用场景,用户可以用 Hadoop从服务器、交换机以及其他的设备中收集并分析数据。在Cloudera发布会中,NetApp代表指出他们公司收集的海量PB级别的设备日志也是存储在Hadoop中。此外,Esty是美国一家专门从事国产与复古商品的电子商务网站,目前海量的用户、访问量以及页面浏览量等数据的存储和分析都是建立在以Hadoop为基础设施的前提下完成的。29本本讲总结uHadoopHadoop概述
25、概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景30谢谢谢谢第第2 2章章 HadoopHadoop安装与配置安装与配置32HadoopHadoop的简介的简介HadoopHadoop的背景的背景HadoopHadoop发展历程发展历程HadoopHadoop的核心组件的核心组件HadoopHadoop生态生态系统及相关技术
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 电子 教案 完整版 ppt 课件 全书 教学 教程 最新
限制150内