搞懂Hadoop生态系统.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《搞懂Hadoop生态系统.docx》由会员分享,可在线阅读,更多相关《搞懂Hadoop生态系统.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、OlHadoop 概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模 式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop是可扩展 的,它可以方便地从单一服务器扩展到数千台服务器,每台服务器进行本地 计算和存储。除了依赖于硬件交付的高可用性,软件库本身也提供数据保 护,并可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服 务。Hadoop核心生态圈组件如图1所示。部署管理工具AmbariKnox平安网关Knox平安网关Ranger平安管理Yarn (资源调度)Sqoop 数据抽取HBase 分布式 数据库Tachyon (分布式缓存)Oozie任务调
2、度Flume 曰志收集Fanon数据生命周期Kafka消息队列HDFS (分布式块存储)图1 Haddoop开源生态02Hadoop 生态Hadoop包括以下4个基本模块。1) Hadoop基础功能库:支持其他Hadoop模块的通用程序包。2)HDFS : 一个分布式文件系统,能够以高吞吐量访问应用中的数据。3)YARN : 一个作业调度和资源管理框架。4)MapReduce : 一个基于YARN的大数据并行处理程序。除了基本模块,Hadoop还包括以下工程。I) Ambari :基于Web,用于配置、管理和监控Hadoop集群。支持HDFS、 MapReduce、Hive、HCatalog、
3、HBase、ZooKeeper、Oozie、Pig 和 Sqoop。 Ambari还提供显示集群健康状况的仪表盘,如热点图等。Ambari以图形化的 方式查看MapReduce. Pig和Hive应用程序的运行情况,因此可以通过对用 户友好的方式诊断应用的性能问题。2)Avro :数据序列化系统。3) Cassandra :可扩展的、无单点故障的NoSQL多主数据库。4)Chukwa :用于大型分布式系统的数据采集系统。5)HBase :可扩展的分布式数据库,支持大表的结构化数据存储。6)Hive :数据仓库基础架构,提供数据汇总和命令行即席查询功能。7)Mahout :可扩展的机器学习和数据
4、挖掘库。8)Pig :用于并行计算的高级数据流语言和执行框架。9)Spark :可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单 而富有表达能力的编程模式,支持ETL、机器学习、数据流处理、图像计算 等多种应用。10)Tez :完整的数据流编程框架,基于YARN建立,提供强大而灵活的引 擎,可执行任意有向无环图(DAG)数据处理任务,既支持批处理又支持交 互式的用户场景。Tez已经被Hive、Pig等Hadoop生态圈的组件所采用,用 来替代MapReduce作为底层执行引擎。II) ZooKeeper :用于分布式应用的高性能协调服务。除了以上这些官方认可的Hadoop生态
5、圈组件之外,还有很多十分优秀的组件 这里没有介绍,这些组件的应用也非常广泛,例如基于Hive查询优化的 Presto、Impala、Kylin 等。此外,在Hadoop生态圈的周边,还聚集了一群“伙伴”,它们虽然未曾深入融 合Hadoop生态圈,但是和Hadoop有着千丝万缕的联系,并且在各自擅长的 领域起到了不可替代的作用。图2是阿里云E-MapReduce平台整合的 Hadoop生态体系中的组件,比Apache提供的组合更为强大。权限与认证KerberosRangerNoteBookPAIData WorksJupyterZeppelinData Saence woikbendi EMR-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 生态系统
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内