大数据分析技术 习题答案项目六.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据分析技术 习题答案项目六.docx》由会员分享,可在线阅读,更多相关《大数据分析技术 习题答案项目六.docx(2页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 .简述HADOOP框架。Hadoop是主流的大数据存储和分析平台之一。它是来源于Apache基金会以Java编写的开 源分布式框架工程。其核心组件是HDFS、YARN和MapReduce,其它组件为:HBase、HIVE、Zookeeper、Spark Kafka、Flume、Ambari、和 Sqoop 等。这 些组件共同提供了一套完成服务或更高级的服务。Hadoop可以将大规模海量数据进行分布式并行处理。Hadoop具有高度容许错性、可扩展性、 高可靠性和稳定性。2 .简述HADOOP核心组件和工作原理。HADOOP有三个核心组件:HDFS (数据存储)、MapReduce (分布式离
2、线计算)和YARN (资源 调度)HDFS (Hadoop Distributed Fi le System) Hadoop 分布式文件系统HDFS属于Hadoop的底层核心组件。它是分布式文件系统的一种,并具备以下特点:海量数据和流式数据访问读写交互能力高度容错能力移动计算部署方便(1) MapReduce是建立在HDFS之上的数据映射和化简并行处理技术。它是一种具有线性特 质的,可扩展的编程模型。它对网络服务器日志等半结构化和非结构化数据的处理非常有效。MAP和REDUCE分别代表 两种函数。前者主要负责将一个任务进行碎片化处理,后者主要负责将各种碎片化信息进行重组汇总。(2) YARN
3、(Yet Another Resource Negotiator)或第二代MapReduce由于第一代MapReduce存在一定的局限性,例如Joblracker既要负责资源管理,又要监控、 跟踪、记录和控制任务,成为整个MapReduce的性能瓶颈。最重要的是,第一代MapReduce在系统的整体资源利用率 方面相对较低。因此,为了优化和提升MapReduce的性能和资源利用率,Hadoop引入了 YARN专门用于整合 Hadoop集群资源,并支持其他分布式计算模式。YARN 的组成局部主要由三个组件:RcsourceManagcr NodoManager 和 Appl icat ionMa
4、stcro.简述HIVE、Spark和HBase的特点。(1) Hive具有如下特点:可扩展性由于Hive是建立在Hadoop之上,因此有与Hadoop集群样的扩展性。Hive可以在不用重 新启动服务的前提下实现集群规模的自由扩展。可延展性Hive可以通过编写更加灵活多样的HQL语言实现比MapReduce更丰富的函数。容错性Hive可以使用Hadoop集群的超强冗余性实现数据的容错性。Hive本身的元数据那么存放在 mysql数据库中。(2) Spark具有如下特点:运行速度快Spark使用基于高速缓存的分布式实时计算框架。与MapReduce不断重复使用磁盘输入输出 保存计算结果相比,Sp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析技术 习题答案 项目六 数据 分析 技术 习题 答案 项目
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内