书签分享收藏举报版权申诉 / 41

立即下载

当前位置：首页 > 应用文书 > 文案大全 > 大数据技术Hadoop生态系统的详细介绍.pdf

大数据技术Hadoop生态系统的详细介绍.pdf

上传人：g****s

文档编号：77456299

上传时间：2023-03-14

格式：PDF

页数：41

大小：2.06MB

( 4.5 )

《大数据技术Hadoop生态系统的详细介绍.pdf》由会员分享，可在线阅读，更多相关《大数据技术Hadoop生态系统的详细介绍.pdf（41页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、1 Hadoop 生态系统的详细介绍作者：夏威夷松鼠 1、Hadoop 生态系统概况 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 MapReduce，hadoop2.0 还包括 YARN。下图为 hadoop 的生态系统：2、HDFS（Hadoop 分布式文件系统）源自于 Google 的 GFS 论文，发表于 2003 年 10 月，HDFS 是 GFS 克隆版。2 是 Hadoop 体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS 简化了文件的

2、一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。HDFS 这一部分主要有一下几个部分组成：（1）、Client：切分文件；访问 HDFS；与 NameNode 交互，获取文件位置信息；与 DataNode 交互，读取和写入数据。（2）、NameNode：Master 节点，在 hadoop1.X 中只有一个，管理 HDFS 的名称空间和数据块映射信息，配置副本策略，处理客户端请求。对于大型的集群来讲，Hadoop1.x 存在两个最大的缺陷：1）对于大型的集群，namenode 的内存成为瓶颈，namenode 的扩展性的问题；2）namenod

3、e 的单点故障问题。针对以上的两个缺陷，Hadoop2.x以后分别对这两个问题进行了解决。对于缺陷 1）提出了 Federation namenode 来解决，该方案主要是通过多个 namenode 来实现多个命名空间来实现 namenode 的横向扩张。从而减轻单个 namenode 内存问题。针对缺陷 2），hadoop2.X 提出了实现两个 namenode 实现热备 HA 的方案来解决。其中一个是处于 standby 状态，一个处于 active 状态。3 （3）、DataNode：Slave 节点，存储实际的数据，汇报存储信息给 NameNode。（4）、Secondary Nam

4、eNode：辅助 NameNode，分担其工作量；定期合并 fsimage 和 edits，推送给 NameNode；紧急情况下，可辅助恢复NameNode，但 Secondary NameNode 并非 NameNode 的热备。目前，在硬盘不坏的情况，我们可以通过 secondarynamenode 来实现namenode 的恢复。3、Mapreduce（分布式计算框架）源自于 google 的 MapReduce 论文，发表于 2004 年 12 月，Hadoop MapReduce 是 google MapReduce 克隆版。MapReduce 是一种计算模型，用以进行大数据量的计算

5、。其中 Map 对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce 则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce 这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。MapReduce 计算框架发展到现在有两个版本的 MapReduce 的 API，针对 MR1 主要组件有以下几个部分组成：4 （1）、JobTracker：Master 节点，只有一个，主要任务是资源的分配和作业的调度及监督管理，管理所有作业，作业/任务的监控、错误处理等；将任务分解成一系列任务，并分派给 TaskTracker。（2）、Task

6、Tracker：Slave 节点，运行 Map Task 和 Reduce Task；并与 JobTracker 交互，汇报任务状态。（3）、Map Task：解析每条数据记录，传递给用户编写的 map(),并执行，将输出结果写入本地磁盘。（4）、Reducer Task：从 Map Task 的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的 reduce 函数执行。在这个过程中，有一个 shuffle 过程，对于该过程是理解 MapReduce计算框架是关键。该过程包含 map 函数输出结果到 reduce 函数输入这一个中间过程中所有的操作，称之为 shuff

7、le 过程。在这个过程中，可以分为 map 端和 reduce 端。Map 端：1）输入数据进行分片之后，分片的大小跟原始的文件大小、文件块的大小有关。每一个分片对应的一个 map 任务。5 2）map 任务在执行的过程中，会将结果存放到内存当中，当内存占用达到一定的阈值（这个阈值是可以设置的）时，map 会将中间的结果写入到本地磁盘上，形成临时文件这个过程叫做溢写。3）map 在溢写的过程中，会根据指定 reduce 任务个数分别写到对应的分区当中，这就是 partition 过程。每一个分区对应的是一个reduce 任务。并且在写的过程中，进行相应的排序。在溢写的过程中还可以设置 con

8、biner 过程，该过程跟 reduce 产生的结果应该是一致的，因此该过程应用存在一定的限制，需要慎用。4）每一个map端最后都只存在一个临时文件作为reduce的输入，因此会对中间溢写到磁盘的多个临时文件进行合并 Merge 操作。最后形成一个内部分区的一个临时文件。Reduce 端：1）首先要实现数据本地化，需要将远程节点上的 map 输出复制到本地。2）Merge 过程，这个合并过程主要是对不同的节点上的 map 输出结果进行合并。3）不断的复制和合并之后，最终形成一个输入文件。Reduce 将最终的计算结果存放在 HDFS 上。6 针对 MR2 是新一代的 MR 的 API。其主要

9、是运行在 Yarn 的资源管理框架上。4、Yarn（资源管理框架）该框架是 hadoop2.x 以后对 hadoop1.x 之前 JobTracker 和 TaskTracker 模型的优化，而产生出来的，将 JobTracker 的资源分配和作业调度及监督分开。该框架主要有 ResourceManager，Applicationmatser，nodemanager。其主要工作过程如下：其 ResourceManager 主要负责所有的应用程序的资源分配，ApplicationMaster 主要负责每个作业的任务调度，也就是说每一个作业对应一个 ApplicationMaster。Nodema

10、nager 是接收 Resourcemanager 和 ApplicationMaster的命令来实现资源的分配执行体。ResourceManager 在接收到 client 的作业提交请求之后，会分配一个 Conbiner，这里需要说明一下的是 Resoucemanager 分配资源是以Conbiner 为单位分配的。第一个被分配的 Conbiner 会启动 Applicationmaster，它主要负责作业的调度。Applicationmanager 启动之后则会直接跟 NodeManager 通信。在YARN 中，资源管理由ResourceManager 和NodeManager共同完

11、成，其中，ResourceManager 中的调度器负责资源的分配，而 NodeManager 则负责资源的供给和隔离。ResourceManager 将某个 NodeManager 上资源分配给任务（这就是所谓的“资源调度”）后，NodeManag7 er 需按照要求为任务提供相应的资源，甚至保证这些资源应具有独占性，为任务运行提供基础的保证，这就是所谓的资源隔离。在 Yarn 平台上可以运行多个计算框架，如：MR，Tez，Storm，Spark 等计算，框架。5、Sqoop（数据同步工具）Sqoop 是 SQL-to-Hadoop 的缩写，主要用于传统数据库和 Hadoop 之间传输

12、数据。数据的导入和导出本质上是 Mapreduce 程序，充分利用了 MR 的并行化和容错性。其中主要利用的是 MP 中的 Map 任务来实现并行导入，导出。Sqoop 发展到现在已经出现了两个版本，一个是 sqoop1.x.x 系列，一个是 sqoop1.99.X 系列。对于 sqoop1 系列中，主要是通过命令行的方式来操作。sqoop1 import原理：从传统数据库获取元数据信息(schema、table、field、field type)，把导入功能转换为只有Map的Mapreduce作业，在 mapreduce 中有很多 map，每个 map 读一片数据，进而并行的完成数据的拷

13、贝。sqoop1 export 原理：获取导出表的 schema、meta 信息，和 Hadoop中的字段 match；多个 map only 作业同时运行，完成 hdfs 中数据导出到关系型数据库中。8 Sqoop1.99.x 是属于 sqoop2 的产品，该款产品目前功能还不是很完善，处于一个测试阶段，一般并不会应用于商业化产品当中。Sqoop 工具当中，目前我对它的认识是可能会存在一定的问题是因为当在导入导出的时候，map 任务失败了，此时 Applicationmaster 会重新调度另外一个任务来运行这个失败的任务。但是这可能会存在一个问题就是，在未失败前 Map 任务所导入的数据与

14、重新调度 map 任务产生的结果会存在重复的现象。6、Mahout（数据挖掘算法库）Mahout 起源于 2008 年，最初是 Apache Lucent 的子项目，它在极短的时间内取得了长足的发展，现在是 Apache 的顶级项目。相对于传统的 MapReduce 编程方式来实现机器学习的算法时，往往需要话费大量的开发时间，并且周期较长，而 Mahout 的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout 还包含数

15、据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或 Cassandra）集成等数据挖掘支持架构。mahout 的各个组件下面都会生成相应的 jar 包。此时我们需要明白一个问题：到底如何使用 mahout 呢？9 实际上，mahout 只是一个机器学习的算法库，在这个库当中是想了相应的机器学习的算法，如：推荐系统（包括基于用户和基于物品的推荐），聚类和分类算法。并且这些算法有些实现了 MapReduce，spark 从而可以在 hadoop 平台上运行，在实际的开发过程中，只需要将相应的 jar 包即可。7、Hbase（分布式列存数据库）源自 Google 的 Bigtabl

16、e 论文，发表于 2006 年 11 月，传统的关系型数据库是对面向行的数据库。HBase 是 Google Bigtable 克隆版，HBase 是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase 采用了 BigTable 的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase 提供了对大规模数据的随机、实时读写访问，同时，HBase 中保存的数据可以使用 MapReduce 来处理，它将数据存储和并行计算完美地结合在一起。Hbase 表的特点 1）、大：一个表可以有数十亿行，

17、上百万列；2）、无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）、面向列：面向列（族）的存储和权限控制，列（族）独立检索；10 4）、稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；5）、数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；6）、数据类型单一：Hbase 中的数据都是字符串，没有类型 Hbase 物理模型每个 column family 存储在 HDFS 上的一个单独文件中，空值不会被保存。Key 和 Version number 在每个 column f

18、amily 中均有一份；HBase 为每个值维护了多级索引，即：，其物理存储：1、Table 中所有行都按照 row key 的字典序排列；2、Table 在行的方向上分割为多个 Region；3、Region 按大小分割的，每个表开始只有一个 region，随着数据增多，region 不断增大，当增大到一个阀值的时候，region 就会等分会两个新的 region，之后会有越来越多的 region；4、Region 是 Hbase 中分布式存储和负载均衡的最小单元，不同 Region 分布到不同 RegionServer 上。、11 5、Region虽然是分布式存储的最小单元，但并不是存储的

19、最小单元。Region 由一个或者多个 Store 组成，每个 store 保存一个 columns family；每个Strore又由一个memStore和0至多个StoreFile组成，StoreFile 包含 HFile；memStore 存储在内存中，StoreFile 存储在HDFS 上。8、Zookeeper（分布式协作服务）源自 Google 的 Chubby 论文，发表于 2006 年 11 月，Zookeeper 是 Chubby 克隆版，主要解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。Zookeeper 的主要实现两步：1）、选举 Leade

20、r 2）、同步数据。这个组件在实现 namenode 的 HA 高可用性的时候，需要用到。9、Pig（基于 Hadoop 的数据流系统）由 yahoo!开源，设计动机是提供一种基于 MapReduce 的 ad-hoc(计算在 query 时发生)数据分析工具定义了一种数据流语言Pig Latin，将脚本转换为 MapReduce 任务在 Hadoop 上执行。通常用于进行离线分析。10、Hive（基于 Hadoop 的数据仓库）由 facebook 开源，最初用于解决海量结构化的日志数据统计问题。12 Hive 定义了一种类似 SQL 的查询语言(HQL),将 SQL 转化为 MapRed

21、uce 任务在 Hadoop 上执行。通常用于离线分析。11、Flume（日志收集工具）Cloudera 开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在 Flume 中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume 数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume 还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume 是一个可扩展、适合复杂环境的海量日志收集系统。13 问题导读 1.Hadoop 生态圈介绍了哪

22、些组件，分别都是什么？2.大数据与 Hadoop 是什么关系？本章主要内容：理解大数据的挑战了解 Hadoop 生态圈了解 Hadoop 发行版使用基于 Hadoop 的企业级应用你可能听别人说过，我们生活在“大数据”的环境中。技术驱动着当今世界的发展，计算能力飞速增长，电子设备越来越普遍，因特网越来越容易接入，与此同时，比以往任何时候都多的数据正在被传输和收集。企业正在以惊人的速度产生数据。仅 Facebook 每天就会收集 250 TB 的数据。Thompson Reuters News Analytics（汤普森路透社新闻分析）显示，现在数字数据的总量比 2009 年的 1ZB

23、（1ZB 等同于一百万 14 PB）多了两倍多，到 2015 年有可能将达到 7.9ZB，到 2020 年则有可能会达到 35ZB。其他调查机构甚至做出了更高的预测。随着企业产生并收集的数据量增多，他们开始认识到数据分析的重要性。但是，他们必须先有效地管理好自己拥有的大量信息。这会产生新的挑战：怎样才能存储大量的数据？怎样处理它们？怎样高效地分析它们？既然数据会增加，又如何构建一个可扩展的解决方案？不仅研究人员和数据科学家要面对大数据的挑战。几年前，在Google+大会上，计算机书籍出版者 Tim OReilly 引用过 Alistair Croll 的话，“这些产生了大量的无明显规律数据的

24、公司，正在被那些产生了相对较少的有规律数据的新创公司取代”。简而言之，Croll 想要说，除非你的企业“理解”你拥有的数据，否则你的企业无法与那些“理解”自身数据的公司抗衡。企业已经意识到：大数据与商业竞争、态势感知、生产力、科学和创新等密切相关，分析这些大数据能够获得巨大的效益。因为商业竞争正在驱动大数据分析，所以大多数企业认同 OReilly 和 Croll的观点。他们认为当今企业的生存依赖于存储、处理和分析大量信息的能力，依赖于是否掌控了接受大数据挑战的能力。如果你阅读这本书，你将会熟悉这些挑战，熟悉 Apache 的 Hadoop，并且知道Hadoop 可以解决哪些问题。本章主要

25、介绍大数据的前景和挑战，并且概述 Hadoop 及其组件生态圈。可以利用这些组件构建可扩展、分布式的数据分析解决方案。15 1.1 当大数据遇到 Hadoop 由于“人力资本”是一个无形的、对成功至关重要的因素，所以多数企业都认为他们的员工才是他们最有价值的财产。其实还有另外一个关键因素企业所拥有的“信息”。信息可信度、信息量和信息可访问性可以增强企业信息能力，从而使企业做出更好的决策。要理解企业产生的大量的数字信息是非常困难的。IBM 指出在过去仅仅两年的时间里产生了世界 90%的数据。企业正在收集、处理和存储这些可能成为战略资源的数据。十年前，Michael Daconta,Leo Ob

26、rst,and Kevin T.Smith(Indianapolis:Wiley,2004)写的一本书The Semantic Web:A Guide to the Future of XML,Web Services,and Knowledge Management中有句格言“只有拥有最好的信息，知道怎样发现信息，并能够最快利用信息的企业才能立于不败之地”。知识就是力量。问题是，随着收集的数据越来越多，传统的数据库工具将不能管理，并且快速处理这些数据。这将导致企业“淹没”在自己的数据中：不能有效利用数据，不能理解数据之间的联系，不能理解数据潜在的巨大力量。人们用“大数据”来描述过于庞大的数据

27、集，这些数据集一般无法使用传统的用于存储、管理、搜索和分析等过程的工具来处理。大数据16 有众多来源，可以是结构型的，也可以是非结构型的；通过处理和分析大数据，可以发现内部规律和模式，从而做出明智选择。什么是大数据的挑战？怎么存储、处理和分析如此大的数据量，从而从海量数据中获取有用信息？分析大数据，需要大量的存储空间和超级计算处理能力。在过去的十年中，研究人员尝试了各种的方法来解决数字信息增加带来的问题。首先，把重点放在了给单个计算机更多的存储、处理能力和内存等上面，却发现单台计算机的分析能力并不能解决问题。随着时间的推移，许多组织实现了分布式系统（通过多台计算机分布任务），但是分布式系统

28、的数据分析解决方案往往很复杂，并且容易出错，甚至速度不够快。在 2002 年，Doug Cutting 和 Mike Cafarella 开发一个名为 Nutch的项目（专注于解决网络爬虫、建立索引和搜索网页的搜索引擎项目），用于处理大量信息。在为 Nutch 项目解决存储和处理问题的过程中，他们意识到，需要一个可靠的、分布式计算方法，为 Nutch 收集大量网页数据。一年后，谷歌发表了关于谷歌文件系统（GFS）和 MapReduce 的论文，MapReduce 是一个用来处理大型数据集的算法和分布式编程平台。17 当意识到集群的分布式处理和分布式存储的前景后，Cutting 和Cafar

29、ella 把这些论文作为基础，为 Nutch 构建分布式平台，开发了我们所熟知的 Hadoop 分布式文件系统（HDFS）和 MapReduce。在 2006 年，Yahoo 在为搜索引擎建立大量信息的索引的过程中，经历了“大数据”挑战的挣扎之后，看到了 Nutch 项目的前景，聘请了 Doug Cutting，并迅速决定采用 Hadoop 作为其分布式架构，用来解决搜索引擎方面的问题。雅虎剥离出来 Nutch 项目的存储和处理部分，形成 Apache 基金的一个开源项目 Hadoop，与此同时 Nutch 的网络爬虫项目保持自己独立性。此后不久，雅虎开始使用 Hadoop 分析各种产品应用

30、。该平台非常有效，以至于雅虎把搜索业务和广告业务合并成一个单元，从而更好地利用 Hadoop 技术。在过去的 10 年中，Hadoop 已经从搜索引擎相关的平台，演变为最流行通用的计算平台，用于解决大数据带来的挑战。它正在快速成为下一代基于数据的应用程序的基础。市场研究公司 IDC 预计，到 2016年，Hadoop 驱动的大数据市场将超过 23 亿美元。自从 2008 年建立第一家以 Hadoop 为中心的公司 Cloudera 之后，几十家基于 Hadoop的创业公司吸引了数亿美元的风险投资。简而言之，Hadoop 为企业提供了一个行之有效的方法，来进行大数据分析。1.1.1 Hado

31、op：迎接大数据挑战 18 Apache 的 Hadoop 通过简化数据密集型、高度并行的分布式应用的实现，以此迎接大数据的挑战。世界各地的企业、大学和其它组织都在使用 Hadoop，Hadoop 把任务分成任务片，分布在数千台计算机上，从而进行快速分析，并分布式存储大量的数据。Hadoop 利用大量廉价的计算机，提供了一个可扩展强，可靠性高的机制；并利用廉价的方式来存储大量数据。Hadoop 还提供了新的和改进的分析技术，从而使大量结构化数据的复杂分析变为可能。Hadoop 与以前的分布式方法的区别：数据先进行分布式存储。在集群上备份多份数据，从而来提高可靠性和实用性。数据在哪存储就在哪

32、处理，从而消除了带宽瓶颈问题。此外，Hadoop 隐藏了复杂的分布式实现过程，提供了一种简单的编程方法。从而，Hadoop 得以提供强大的数据分析机制，包括以下内容：存储量大Hadoop 能够使应用程序运行在成千上万的计算机和 PB 级数据上。在过去的十年中，计算机专家认识到，那些曾经只能由超级计算机来处理的高性能应用，可以由大量廉价的计算机一起处理。在集群中，数百台“小”的电脑的聚合计算能力，可以超过一台超级计算机的计算能力，并且价格便宜。19 Hadoop 利用超过数千台机器的集群，在企业可以承受的价格范围内，提供了巨大的存储空间和处理能力。分布式处理与快速的数据访问 Hadoop 集

33、群在提供高效数据存储能力的同时，也提供了快速的数据访问能力。在 Hadoop出现之前，应用程序很难并行运行在计算机集群之间。这是因为集群模型在创建共享存储数据时，对 I/O 性能要求很高。用Hadoop 来处理数据，减轻了许多高性能的挑战。此外，Hadoop应用程序处理数据通常都是有序进行的，这就避免了随机的数据访问（磁盘寻道操作），进一步减轻了 I/O 负载。可靠性，故障转移和可扩展性在过去，并行应用程序很难解决集群上机器的可靠性问题。虽然单台机器的可靠性相当高，但是随着群集增加，出故障的概率也随之增加。在数千个节点的集群上，这种日常故障经常发生。由于 Hadoop 有独特的设计和实

34、施方式，相同的故障将会产生相似的结果。从而，Hadoop可以监测到这些故障，并利用不同的节点重新执行任务。此外，Hadoop 有很好的可扩展性，实现无缝地将多个服务器整合到一个集群，并利用它们来存储数据、执行程序。对于大多数 Hadoop 用户而言，Hadoop 最重要的特征是，将业务规划和基础设施维护进行了清晰的划分。为那些专注于商业业务的用户，隐藏了 Hadoop 的基础设施的复杂性，并提供了一个易于使用的平台，从而使复杂的分布式计算的问题简单化。20 1.1.2 商业界的数据科学 Hadoop 的存储和处理大数据的能力经常与“数据科学”挂钩。虽然该词是由彼得诺尔在 20 世纪 60 年

35、代提出的，但是直到最近才引起人们广泛关注。美国雪域大学杰弗里斯坦顿德教授把“数据科学”定义为“一个专注于搜集、分析、可视化、管理和大量信息保存的新兴领域”。通常将“数据科学”这一术语用在商业业务分析中，与实际中的“大数据”学科有很大的不同。在数据科学中，业务分析师通过研究现有商业运作模式，来提升业务。数据科学的目标是从数据提取出数据的真正含义。数据科学家基于数学、统计分析、模式识别、机器学习、高性能计算和数据仓库等来工作，通过分析数据来发现事物发展趋势，并基于收集到的信息开发新业务。在过去的几年中，许多数据库和编程方面的业务分析师成为了数据科学家。他们在 Hadoop 生态圈中，使用高级的 S

36、QL 工具（比如：Hive或者实时 Hadoop 查询工具）进行数据分析，以做出明智的业务决策。不只是“一个大数据库”21 在本书后面会深入讲解 Hadoop，但在此之前，让我们先消除这样的误区Hadoop 仅仅是数据分析师使用的工具。因为对于那些熟悉数据库查询的人，Hadoop 工具（如 Hive 和实时 Hadoop 查询）提供了较低的门槛，所以一些人认为 Hadoop 仅仅是以数据库为中心的工具。此外，如果你正在试图解决的问题超出了数据分析的范畴，并涉及到真正的“科学数据”的问题，这时，SQL 数据挖掘技术将明显变得不再实用。例如，大多数问题的解决，需要用到线性代数和其它复杂的数学应用

37、程序，然而，这些问题都不能用 SQL 很好地解决。这意味着，使用 Hadoop 工具是解决这类问题的最好办法。利用 Hadoop的 MapReduce 编程模型，不但解决了数据科学的问题，而且明显简化了企业级应用创建和部署的过程。可以通过多种方式做到这一点可以使用一些工具，这些工具往往要求开发者具备软件开发技能。例如，通过使用基于 Oozie 的应用程序进行协调（在本书后面将详细介绍 Oozie），可以简化多个应用程序的汇集过程，并非常灵活地链接来自多个工具的任务。在本书中，你会看到 Hadoop 在企业中的实际应用，以及什么时候使用这些工具。目前 Hadoop 的开发，主要是为了更好地

38、支持数据科学家。Hadoop 提供了一个强大的计算平台，拥有高扩展性和并行执行能力，非常适22 合应用于新一代功能强大的数据科学和企业级应用。并且，Hadoop还提供了可伸缩的分布式存储和 MapReduce 编程模式。企业正在使用 Hadoop 解决相关业务问题，主要集中在以下几个方面：为银行和信用卡公司增强欺诈性检测公司正在利用Hadoop 检测交易过程中的欺诈行为。银行通过使用 Hadoop，建立大型集群，进行数据分析；并将分析模型应用于银行交易过程，从而提供实时的欺诈行为检测。社交媒体市场分析公司目前正在使用 Hadoop 进行品牌管理、市场推广活动和品牌保护。互联网充满了各种资

39、源，例如博客、版面、新闻、推特和社会媒体数据等。公司利用 Hadoop监测、收集、汇聚这些信息，并提取、汇总自身的产品和服务信息，以及竞争对手的相关信息，发掘内在商业模式，或者预测未来的可能趋势，从而更加了解自身的业务。零售行业购物模式分析在零售行业，通过使用 Hadoop 分析商店的位置和它周围人口的购物模式，来确定商店里哪些产品最畅销。城市发展的交通模式识别城市发展往往需要依赖交通模式，来确定道路网络扩展的需求。通过监控在一天内不同时间的交通状况，发掘交通模型，城市规划人员就可以确定交通瓶颈。从而决定是否需要增加街道或者车道，来避免在高峰时段的交通拥堵。23 内容优化和内容参与企业越来

40、越专注于优化内容，将其呈现在不同的设备上，并支持不同格式。因此，许多媒体公司需要处理大量的不同的格式的内容。所以，必须规划内容参与模式，才能进行反馈和改进。网络分析和调解针对交易数据、网络性能数据、基站数据、设备数据以及其他形式的后台数据等，进行大数据实时分析，能够降低公司运营成本，增强用户体验。大数据转换纽约时报要将 1100 万篇文章（1851 至 1980 年）转换成 PDF 文件，这些文章都是从报纸上扫描得到的图片。利用 Hadoop 技术，这家报社能够在 24 小时内，将 4TB 的扫描文章转换为 1.5TB 的 PDF 文档。类似的例子数不胜数。企业正在逐步使用 Hadoop 进行

41、数据分析，从而作出更好的战略决策。总而言之，数据科学已经进入了商界。不仅仅是针对商业的大数据工具虽然这里的大多数例子针对于商业，但是 Hadoop 也被广泛应用在科学界和公有企业。最近一项由美国科技基金会进行的研究指出，医疗研究人员已经证明，大数据分析可以被用于分析癌症患者的信息，以提高治疗效果（比如，苹果创始人乔布斯的治疗过程）。警察部门正在使用大数据工具，来预测犯罪可能的发生时间和地点，从而降低了犯罪率。同样的24 调查也表明，能源方面的官员正在利用大数据工具，分析相关的能量损耗和潜在的电网故障问题。通过分析大数据可以发现模型和趋势，提高效率，从而用新方法来作出更好的决策。1.2

42、Hadoop 生态圈架构师和开发人员通常会使用一种软件工具，用于其特定的用途软件开发。例如，他们可能会说，Tomcat 是 Apache Web 服务器，MySQL是一个数据库工具。然而，当提到 Hadoop 的时候，事情变得有点复杂。Hadoop 包括大量的工具，用来协同工作。因此，Hadoop 可用于完成许多事情，以至于，人们常常根据他们使用的方式来定义它。对于一些人来说，Hadoop 是一个数据管理系统。他们认为 Hadoop 是数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。对于其他人，Hadoop 是一个大规模并行处理框架，拥有超级计算能力，

43、定位于推动企业级应用的执行。还有一些人认为 Hadoop 作为一个开源社区，主要为解决大数据的问题提供工具和软件。因为 Hadoop 可以用来解决很多问题，所以很多人认为 Hadoop 是一个基本框架。25 虽然 Hadoop 提供了这么多的功能，但是仍然应该把它归类为多个组件组成的 Hadoop 生态圈，这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。1.3 HADOOP 核心部件随着时间的推移，Hadoop 生态圈越来越大，图 1-1 给出了 Hadoop 核心组件。图 1：Hadoop 生态圈的核心组成组件从图 1-1 的底部开始，Hadoop 生态圈由以下内容

44、组成：HDFS Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统（HDFS）。HDFS 是一种数据分布式保存机制，数据被保存26 在计算机集群上。数据写入一次，读取多次。HDFS 为 HBase 等工具提供了基础。MapReduce Hadoop 的主要执行框架是 MapReduce，它是一个分布式、并行处理的编程模型。MapReduce 把任务分为 map(映射)阶段和 reduce(化简)。开发人员使用存储在 HDFS 中数据（可实现快速存储），编写 Hadoop 的 MapReduce 任务。由于MapReduce 工作原理的特性，Hadoop 能以并行的方式访问数据

45、，从而实现快速访问数据。HbaseHBase 是一个建立在 HDFS 之上，面向列的 NoSQL 数据库，用于快速读/写大量数据。HBase 使用 Zookeeper 进行管理，确保所有组件都正常运行。Zookeeper 用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群上面，用于管理 Hadoop 操作。OozieOozie 是一个可扩展的工作体系，集成于 Hadoop 的堆栈，用于协调多个 MapReduce 作业的执行。它能够管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。Pig它是 MapReduce

46、编程的复杂性的抽象。Pig 平台包括运行环境和用于分析 Hadoop 数据集的脚本语言(Pig Latin)。其编译器将 Pig Latin 翻译成 MapReduce 程序序列。27 Hive Hive 类似于 SQL 高级语言，用于运行存储在 Hadoop上的查询语句，Hive 让不熟悉 MapReduce 开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop 上面的MapReduce任务。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程的数据分析师。Hadoop 的生态圈还包括以下几个框架，用来与其它企业融合：Sqoop 是一

47、个连接工具，用于在关系数据库、数据仓库和 Hadoop之间转移数据。Sqoop 利用数据库技术描述架构，进行数据的导入/导出；利用 MapReduce 实现并行化运行和容错技术。Flume 提供了分布式、可靠、高效的服务，用于收集、汇总大数据，并将单台计算机的大量数据转移到 HDFS。它基于一个简单而灵活的架构，并提供了数据流的流。它利用简单的可扩展的数据模型，将企业中多台计算机上的数据转移到 Hadoop。除了在图 1-1 所示的核心部件外，Hadoop 生态圈正在不断增长，以提供更新功能和组件，如以下内容：WhirrWhirr 是一组用来运行云服务的 Java 类库，使用户能够轻松地将 H

48、adoop 集群运行于 Amazon EC2、Rackspace 等虚拟云计算平台。MahoutMahout 是一个机器学习和数据挖掘库，它提供的MapReduce 包含很多实现，包括聚类算法、回归测试、统计建28 模。通过使用 Apache Hadoop 库，可以将 Mahout 有效地扩展到云中。BigTop BigTop 作为 Hadoop 子项目和相关组件，是一个用于打包和互用性测试的程序和框架。AmbariAmbar 通过为配置、管理和监控 Hadoop 集群提供支持，简化了 Hadoop 的管理。Hadoop 家族成员正在逐步增加。在本书中，主要涉及到了三个新的Apache Had

49、oop 孵化项目。孵化项目演变到 Apach 项目的过程下面将会简要介绍 Apache 基金会的运作方式，以及 Apache 各种项目及其彼此之间的联系。Apache 的个人会员共同治理整个组织，Apache提供项目的创建、成熟和回收。新的项目开始于“孵化器”。建立 Apache 孵化器，是为了帮助新项目加入 Apache。Apache 提供管理和检验，经过筛选后，再建立新的项目或者子项目。在创建孵化项目后，Apache 会评估项目的成熟度，并负责将孵化器中的项目“毕业”到 Apache 项目或子项目。孵化器也会由于各种原因而终止一些项目。要查看孵化器中项目（当前的、孵化成功的、暂时停止

50、的和回收的）的完整列表，可以通过此网址：http:/incubator.apache.org/projects/index.html。29 当今大多数的 Hadoop 方面的书籍，要么专注于 Hadoop 生态圈中某个独立组件的描述，要么介绍如何使用 Hadoop 业务分析工具（如 Pig和 Hive）。尽管这些方面也很重要，但是这些书籍通常没有进行深入的描述，并不能帮助架构师建立基于 Hadoop 的企业级应用或复杂应用。1.4 Hadoop 发行版本虽然 Hadoop 是开源的 Apache（和现在 GitHub）项目，但是在 Hadoop行业，仍然出现了大量的新兴公司，以帮助人们更

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

24.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据技术 Hadoop 生态系统详细介绍

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：大数据技术Hadoop生态系统的详细介绍.pdf
链接地址：https://www.taowenge.com/p-77456299.html