大数据入门快速计算引擎之Spark的核心内容.docx
《大数据入门快速计算引擎之Spark的核心内容.docx》由会员分享,可在线阅读,更多相关《大数据入门快速计算引擎之Spark的核心内容.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据入门快速计算引擎之Spark的核心内容是什么为大规模数据处理而设计的快速通用的流式计算引擎MapReduce的通用并行计算框架支持Java、Scala、Python技术点SparkStreamingSparkGraphXMLBaseSparkSQL以及MR的区别Spark计算中间结果基于内存缓存MapReduce基于HDFS存储Spark处理数据的才能一般是MR的三到五倍以上Spark使用有向无环图来切分任务的执行先后顺序运行形式Local用于本地测试StandaloneSpark自带的一个资源调度框架它支持完全分布式YarnHadoop生态圈里面的一个资源调度框架Mesos资源调度框架
2、SparkCorePartition每个RDD是由假设干个Partition组成HashPartitioner采用哈希的方式对KeyValue键值对数据进展分区partitionIdKey.hashCode%numPartitionsRangePartitioner为解析决HashPartitioner所带来的分区倾斜问题基于抽样的思想来对数据进展分区在Job执行经过中一个Partition对应一个Task此时就会使得某几个Task运行过慢RDD弹性分布式数据集是其最根本的抽象数据集五个属性RDD是由一系列的partition组成的函数是作用在每一个partition/split上RDD之间有
3、一系列的依赖关系分区器是作用在(K,V)格式的RDD上RDD提供一系列最正确的计算位置系统架构Master资源管理的主节点ClusterManager在集群上获取资源的外部效劳Worker资源管理的从节点管理本机资源Application基于Spark的用户程序包含driver程序以及运行在集群上的executor程序Dirver用来连接工作进程Executor是在一个worker进程所管理的节点上为某Application启动的一个个进程Task被发送到executor上的工作单元Job包含很多任务Task的并行计算以及action算子对应Stage一个job会被拆分成很多组任务每组任务被称
4、为Stage算子Transformations转换算子懒加载执行类别filter过滤符合条件的记录数true保存map通过map中的函数映射变为一个新的元素flatMap先map后flatsample根据传进去的小数按比例进展有放回或无放回的抽样reduceByKey一样的Key根据相应的逻辑进展处理sortByKey/sortBy对key进展升序或降序排序Action行动算子触发执行一个行动算子对应一个JOB类别count返回数据集中的元素数。会在结果计算完成后回收到Driver端。take(n)返回一个包含数据集前n个元素的集合。first效果等同于take(1),返回数据集中的第一个元素
5、。foreach循环遍历数据集中的每个元素运行相应的逻辑。collect将计算结果回收到Driver端。控制算子将RDD持久化持久化的单位是partition三种cache默认将RDD的数据持久化到内存中懒执行rdd.cache().count()返回的不是持久化的RDD而是一个数值persist可以指定持久化的级别。最常用的是MEMORY_ONLY以及MEMORY_AND_DISK懒执行checkpoint将RDD持久化到磁盘还可以切断RDD之间的依赖关系懒执行任务提交方式Standaloneclient适用于测试调试程序Driver进程是应用程序的当前节点启动。在Driver端可以看到ta
6、sk执行的情况任务流程client形式提交任务后会在客户端启动Driver进程。Driver会向Master申请启动Application启动的资源。资源申请成功Driver端将task分发到worker端执行启动executor进程任务的分发。Worker端exectuor进程将task执行结果返回到Driver端任务结果的回收。cluster任务流程cluster形式提交应用程序后会向Master恳求启动Driver。Master承受恳求随机在集群一台节点启动Driver进程。Driver启动后为当前的应用程序申请资源。Driver端发送task到worker节点上执行任务的分发。work
7、er上的executor进程将执行情况以及执行结果返回给Driver端任务结果的回收。应用程序使用的所有jar包以及文件必须保证所有的worker节点都要有因为此种方式spark不会自动上传包yarnclient同样是适用于测试因为Driver运行在本地Driver会与yarn集群的Executor进展大量的通信任务流程客户端提交一个Application在客户端启动一个Driver进程。应用程序启动后会向RS(ResourceManager)相当于standalone形式下的master进程发送恳求启动AM(ApplicationMaster)。RS收到恳求随机选择一台NM(NodeMana
8、ger)启动AM。这里的NM相当于Standalone中的Worker进程AM启动后会向RS恳求一批container资源用于启动Executor。RS会找到一批NM包含container返回给AM,用于启动Executor。AM会向NM发送命令启动Executor。Executor启动后会反向注册给DriverDriver发送task到Executor,执行情况以及结果返回给Driver端。cluster任务流程客户机提交Application应用程序发送恳求到RS(ResourceManager),恳求启动AM(ApplicationMaster)。RS收到恳求后随机在一台NM(NodeM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 入门 快速 计算 引擎 Spark 核心内容
限制150内