Spark编程基础及项目实践章节练习题项目3+答案.docx
《Spark编程基础及项目实践章节练习题项目3+答案.docx》由会员分享,可在线阅读,更多相关《Spark编程基础及项目实践章节练习题项目3+答案.docx(1页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Spark编程基础及项目实践章节练习题项目3+答案习题1. 填空题(1)Spark的运行架构包括应用程序的控制进程Driver Program 、资源管理器Cluster Manager 、工作节点Worker 和执行进程Executor 。(2)Spark的基本计算单元是弹性分布式数据集(Resilient Distributed Dataset,RDD)。(3)Spark中使用DAG 对RDD的关系进行建模。(4)Spark的一个重要特点是基于内存 计算的,因而更快。(5)Spark采用堆内内存(On-heap memory) 和堆外内存(Off-heap memory) 的规划机制。(6
2、)Spark 1.6之后引入了统一内存管理机制,Execution内存 和Storage内存 共享同一块空间,互相可以动态调整。2. 选择题(1)在Spark运行架构中,以下( A )组件负责任务控制。 A. Driver Program B. Worker C. Executor D. Task(2)Spark堆内内存中表示执行内存,主要用于存放计算过程中的临时数据,如执行Shuffle时占用的内存是( B )。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory(3)( B )内存被对方占用后,可让对
3、方“归还”借用的空间,此时对方会将数据存储到硬盘。而( A )内存被对方占用后,无法让对方“归还”,只能等待对方释放资源。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory(4)如果一个RDD在计算过程中出错,可以直接通过它的父RDD重新计算得到,这就是Spark基于( A )的容错机制。A. Lineage B. Cache C. Checkpoint D. Driver(5)Spark采用了( C )容错机制,就是设定Checkpoint,然后将RDD结果存储到磁盘(HDFS或HBase中)上,当后面的RDD运算过程中出错时,不用计算整个关系链,而只需要从Checkpoint过的RDD那里读取数据继续运算即可。A. Lineage B. Cache C. Checkpoint D. Driver
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark 编程 基础 项目 实践 章节 练习题 答案
限制150内