大数据技术原理与应用(第2版教材)-第11章-图计算.ppt
《大数据技术原理与应用(第2版教材)-第11章-图计算.ppt》由会员分享,可在线阅读,更多相关《大数据技术原理与应用(第2版教材)-第11章-图计算.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2017年2月版本林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail: 主页:主页:http:/ 图计算图计算 (PPT版本号:版本号:2017年年2月版本)月版本) http:/ 厦门大学计算机科学系 林子雨 本章配套教学视频http:/ 图计算在线视频观看地址大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 提纲11.1图计算简介图计算简介11.2Pregel简介简介11.3Pregel图计算模型图计算模型11.4Pregel的的C+ API11.5Pregel的体系结构的体系结构
2、11.6Pregel的应用实例的应用实例11.7 Pregel和和MapReduce实现实现PageRank算法的对比算法的对比11.8 Hama的安装和使用的安装和使用欢迎访问大数据技术原理与应用教材官方网站:http:/ (2017年2月第2版)ISBN:978-7-115-44330-4厦门大学 林子雨 编著,人民邮电出版社大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.1 图计算简介 11.1.1 图结构数据 11.1.2 传统图计算解决方案的不足之处 11.1.3 图计算通用软件大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 许多大数据都是以大规模图
3、或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响许多非图结构的大数据,也常常会被转换为图模型后进行分析图数据结构很好地表达了数据之间的关联性关联性计算是大数据计算的核心通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息比如,通过为购物者之间的关系建模,就能很快找到口味相似的用户,并为之推荐商品或者在社交网络中,通过传播关系发现意见领袖11.1.1 图结构数据大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.1.2传统图计算解决方案的不足之处很多传统的图计算算法都存在以下几个典型问题:(1)常常表现出比较差的内存访问局部性(2)针对单个顶点的处理工
4、作过少(3)计算过程中伴随着并行度的改变大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.1.2传统图计算解决方案的不足之处针对大型图(比如社交网络和网络图)的计算问题,可能的解决方案及其不足之处具体如下:(1)为特定的图应用定制相应的分布式实现)为特定的图应用定制相应的分布式实现:通用性不好(2)基于现有的分布式计算平台进行图计算)基于现有的分布式计算平台进行图计算:在性能和易用性方面往往无法达到最优现有的并行计算框架像MapReduce还无法满足复杂的关联性计算MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,力不
5、从心比如,有公司利用MapReduce进行社交用户推荐,对于5000万注册用户,50亿关系对,利用10台机器的集群,需要超过10个小时的计算(3)使用单机的图算法库)使用单机的图算法库:比如BGL、LEAD、NetworkX、JDSL、Standford GraphBase和FGL等,但是,在可以解决的问题的规模方面具有很大的局限性(4)使用已有的并行图计算系统)使用已有的并行图计算系统:比如,Parallel BGL和CGM Graph,实现了很多并行图算法,但是,对大规模分布式系统非常重要的一些方面(比如容错),无法提供较好的支持大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨
6、 传统的图计算解决方案无法解决大型图的计算问题,因此,就需要设计能够用来解决这些问题的通用图计算软件 针对大型图的计算,目前通用的图计算软件主要包括两种: 第一种主要是基于遍历算法基于遍历算法的、的、实时的图数据库实时的图数据库,如Neo4j、OrientDB、DEX和 Infinite Graph 第二种则是以图顶点为中心的、基于消息传递批处理的并以图顶点为中心的、基于消息传递批处理的并行引擎行引擎,如GoldenOrb、Giraph、Pregel和Hama,这些图处理软件主要是基于BSP模型实现的并行图处理系统11.1.3 图计算通用软件大数据技术原理与应用(第2版) 厦门大学计算机科学系
7、 林子雨 11.1.3图计算通用软件一次BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过程包括一系列全局超步(所谓的超步就是计算中的一次迭代),每个超步主要包括三个组件:局部计算局部计算:每个参与的处理器处理器都有自身的计算任务,它们只读取存储在本地内存中的值,不同处理器的计算任务都是异步并且独立的通讯通讯:处理器群相互交换数据,交换的形式是,由一方发起推送(put)和获取(get)操作栅栏同步栅栏同步(Barrier Synchronization):当一个处理器遇到“路障”(或栅栏),会等到其他所有处理器完成它们的计算步
8、骤;每一次同步也是一个超步的完成和下一个超步的开始图9 1 一个超步的垂直结构图 大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.2 Pregel简介谷歌公司在2003年到2004年公布了GFS、MapReduce和BigTable,成为后来云计算和Hadoop项目的重要基石谷歌在后Hadoop时代的新“三驾马车”Caffeine、Dremel和Pregel,再一次影响着圈子与大数据技术的发展潮流Pregel是一种基于BSP模型实现的并行图处理系统为了解决大型图的分布式计算问题,Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种
9、各样的图计算Pregel作为分布式图计算的计算框架,主要用于图遍历、最短路径、PageRank计算等等大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3 Pregel图计算模型 11.3.1有向图和顶点 11.3.2顶点之间的消息传递 11.3.3Pregel的计算过程 11.3.4实例大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.1有向图和顶点Pregel计算模型以有向图作为输入有向图的每个顶点都有一个String类型的顶点ID每个顶点都有一个可修改的用户自定义值与之关联每条有向边都和其源顶点关联,并记录了其目标顶点ID边上有一个可修改的用户自定
10、义值与之关联String类型的顶点ID可修改的用户自定义值边上有一个可修改的用户自定义值边e1顶点大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.1有向图和顶点在每个超步S中,图中的所有顶点都会并行执行相同的用户自定义函数每个顶点可以接收前一个超步(S-1)中发送给它的消息,修改其自身及其出射边的状态,并发送消息给其他顶点,甚至是修改整个图的拓扑结构在这种计算模式中,“边”并不是核心对象,在边上面不会运行相应的计算,只有顶点才会执行用户自定义函数进行相应计算表示顶点表示发送消息大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.2顶点之间的消息传递图
11、9 2 纯消息传递模型图 采用消息传递模型主要基于以下两个原因:(1)消息传递具有足够的表达能力,没有必要使用远程读取或共享内存的方式(2)有助于提升系统整体性能。大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟;Pregel的消息模式采用异步和批量的方式传递消息,因此可以缓解远程读取的延迟 大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.3Pregel的计算过程Pregel的计算过程是由一系列被称为“超步”的迭代组成的在每个超步中,每个顶点上面都会并行执行用户自定义的函数,该函数描述了一个顶点V在一个超步S中需要执行的操作该函数可以读取前一个
12、超步(S-1)中其他顶点发送给顶点V的消息,执行相应计算后,修改顶点V及其出射边的状态,然后沿着顶点V的出射边发送消息给其他顶点,而且,一个消息可能经过多条边的传递后被发送到任意已知ID的目标顶点上去这些消息将会在下一个超步(S+1)中被目标顶点接收,然后象上述过程一样开始下一个超步(S+1)的迭代过程表示顶点表示发送消息123456123456123456大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.3Pregel的计算过程图9 3 一个简单的状态机图在Pregel计算过程中,一个算法什么时候可以结束,是由所有顶点的状态决定的在第0个超步,所有顶点处于活跃状态,都会
13、参与该超步的计算过程当一个顶点不需要继续执行进一步的计算时,就会把自己的状态设置为“停机”,进入非活跃状态一旦一个顶点进入非活跃状态,后续超步中就不会再在该顶点上执行计算,除非其他顶点给该顶点发送消息把它再次激活当一个处于非活跃状态的顶点收到来自其他顶点的消息时,Pregel计算框架必须根据条件判断来决定是否将其显式唤醒进入活跃状态当图中所有的顶点都已经标识其自身达到“非活跃(inactive)”状态,并且没有消息在传送的时候,算法就可以停止运行大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.3.4实例图9 4 一个求最大值的Pregel计算过程图 活跃非活跃ABCDABC
14、DABCD3662216666大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4 Pregel的C+ APIPregel已经预先定义好一个基类Vertex类:template class Vertex public:virtual void Compute(MessageIterator* msgs) = 0;const string& vertex_id() const;int64 superstep() const;const VertexValue& GetValue();VertexValue* MutableValue();OutEdgeIterator GetO
15、utEdgeIterator();void SendMessageTo(const string& dest_vertex,const MessageValue& message);void VoteToHalt(); ;在Vetex类中,定义了三个值类型参数,分别表示顶点、边和消息。每一个顶点都有一个给定类型的值与之对应编写Pregel程序时,需要继承Vertex类,并且覆写Vertex类的虚函数Compute() 大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 在Pregel执行计算过程时,在每个超步中都会并行调用每个顶点上定义的Compute()函数允许Compute()方
16、法查询当前顶点及其边的信息,以及发送消息到其他的顶点Compute()方法可以调用GetValue()方法来获取当前顶点的值调用MutableValue()方法来修改当前顶点的值通过由出射边的迭代器提供的方法来查看、修改出射边对应的值对状态的修改,对于被修改的顶点而言是可以立即被看见的,但是,对于其他顶点而言是不可见的,因此,不同顶点并发进行的数据访问是不存在竞争关系的整个过程中,唯一需要在超步之间持久化的顶点级状态,是顶点和其对应的边所关联的值,因而,Pregel计算框架所需要管理的图状态就只包括顶点和边所关联的值,这种做法大大简化了计算流程,同时,也有利于图的分布和故障恢复11.4 Pre
17、gel的C+ API大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4 Pregel的C+ API 11.4.1消息传递机制 11.4.2Combiner 11.4.3Aggregator 11.4.4拓扑改变 11.4.5输入和输出大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4.1消息传递机制顶点之间的通讯是借助于消息传递机制来实现的,每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型在一个超步S中,一个顶点可以发送任意数量的消息,这些消息将在下一个超步(S+1)中被其他顶点接收也就是说,在超
18、步(S+1)中,当Pregel计算框架在顶点V上执行用户自定义的Compute()方法时,所有在前一个超步S中发送给顶点V的消息,都可以通过一个迭代器来访问到。迭代器不能保证消息的顺序,不过可以保证消息一定会被传送并且不会被重复传送一个顶点V通过与之关联的出射边向外发送消息,并且,消息要到达的目标顶点并不一定是与顶点V相邻的顶点,一个消息可以连续经过多条连通的边到达某个与顶点V不相邻的顶点U,U可以从接收的消息中获取到与其不相邻的顶点V的ID大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4.2CombinerPregel计算框架在消息发出去之前,Combiner可以将发往
19、同一个顶点的多个整型值进行求和得到一个值,只需向外发送这个“求和结果”,从而实现了由多个消息合并成一个消息,大大减少了传输和缓存的开销在默认情况下,Pregel计算框架并不会开启Combiner功能,因为,通常很难找到一种对所有顶点的Compute()函数都合适的Combiner当用户打算开启Combiner功能时,可以继承Combiner类并覆写虚函数Combine()此外,通常只对那些满足交换律和结合律的操作才可以去开启Combiner功能,因为,Pregel计算框架无法保证哪些消息会被合并,也无法保证消息传递给 Combine()的顺序和合并操作执行的顺序图9-5 Combiner应用的
20、例子大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4.3AggregatorAggregator提供了一种全局通信、监控和数据查看的机制在一个超步S中,每一个顶点都可以向一个Aggregator提供一个数据,Pregel计算框架会对这些值进行聚合操作产生一个值,在下一个超步(S+1)中,图中的所有顶点都可以看见这个值Aggregator的聚合功能,允许在整型和字符串类型上执行最大值、最小值、求和操作,比如,可以定义一个“Sum”Aggregator来统计每个顶点的出射边数量,最后相加可以得到整个图的边的数量Aggregator还可以实现全局协同的功能,比如,可以设计“an
21、d” Aggregator来决定在某个超步中Compute()函数是否执行某些逻辑分支,只有当“and” Aggregator显示所有顶点都满足了某条件时,才去执行这些逻辑分支大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4.4拓扑改变Pregel计算框架允许用户在自定义函数Compute()中定义操作,修改图的拓扑结构,比如在图中增加(或删除)边或顶点对于全局拓扑改变,Pregel采用了惰性协调机制,在改变请求发出时,Pregel不会对这些操作进行协调,只有当这些改变请求的消息到达目标顶点并被执行时,Pregel才会对这些操作进行协调,这样,所有针对某个顶点V的拓扑修改
22、操作所引发的冲突,都会由V自己来处理对于本地的局部拓扑改变,是不会引发冲突的,顶点或边的本地增减能够立即生效,很大程度上简化了分布式编程大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.4.5输入和输出在Pregel计算框架中,图的保存格式多种多样,包括文本文件、关系数据库或键值数据库等在Pregel中,“从输入文件生成得到图结构”和“执行图计算”这两个过程是分离的,从而不会限制输入文件的格式对于输出,Pregel也采用了灵活的方式,可以以多种方式进行输出大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.5 Pregel的体系结构 11.5.1Pregel的
23、执行过程 11.5.2容错性 11.5.3Worker 11.5.4Master 11.5.5Aggregator大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.5.1Pregel的执行过程图9-6图的划分图在Pregel计算框架中,一个大型图会被划分成许多个分区,每个分区都包含了一部分顶点以及以其为起点的边一个顶点应该被分配到哪个分区上,是由一个函数决定的,系统默认函数为hash(ID) mod N,其中,N为所有分区总数,ID是这个顶点的标识符;当然,用户也可以自己定义这个函数这样,无论在哪台机器上,都可以简单根据顶点ID判断出该顶点属于哪个分区,即使该顶点可能已经不存
24、在了大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.5.1Pregel的执行过程图9-7 Pregel的执行过程图 在理想的情况下(不发生任何错误),一个Pregel用户程序的执行过程如下:(1)选择集群中的多台机器执行图计算任务,每台机器上运行用户程序的一个副本,其中,有一台机器会被选为Master,其他机器作为Worker。Master只负责协调多个Worker执行任务,系统不会把图的任何分区分配给它。Worker借助于名称服务系统可以定位到Master的位置,并向Master发送自己的注册信息。(2)Master把一个图分成多个分区,并把分区分配到多个Worker。一
25、个Worker会领到一个或多个分区,每个Worker知道所有其他Worker所分配到的分区情况。每个Worker负责维护分配给自己的那些分区的状态(顶点及边的增删),对分配给自己的分区中的顶点执行Compute()函数,向外发送消息,并管理接收到的消息。大数据技术原理与应用(第2版) 厦门大学计算机科学系 林子雨 11.5.1Pregel的执行过程图9-7 Pregel的执行过程图 (3)Master会把用户输入划分成多个部分,通常是基于文件边界进行划分。划分后,每个部分都是一系列记录的集合,每条记录都包含一定数量的顶点和边。然后,Master会为每个Worker分配用户输入的一部分。如果一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 原理 应用 教材 11 计算
限制150内