分布式图处理系统.pdf
《分布式图处理系统.pdf》由会员分享,可在线阅读,更多相关《分布式图处理系统.pdf(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据库系统概论新技术篇 分布式图处理系统分布式图处理系统 An Introduction to Database System 提纲提纲 分布式图处理系统的必要性分布式图处理系统的必要性 谷歌的分布式图处理系统谷歌的分布式图处理系统Pregel 分布式图算法的实现举例分布式图算法的实现举例 An Introduction to Database System 提纲提纲 分布式图处理系统的必要性分布式图处理系统的必要性 谷歌的分布式图处理系统谷歌的分布式图处理系统Pregel 分布式图算法的实现举例分布式图算法的实现举例 An Introduction to Database System 分布
2、式图处理系统的必要性分布式图处理系统的必要性 图的数据规模庞大图的数据规模庞大 An Introduction to Database System 分布式图处理系统的必要性分布式图处理系统的必要性 图的数据规模庞大图的数据规模庞大 社交网络社交网络 Facebook用户:用户:22亿用户,千亿规模的联系亿用户,千亿规模的联系 新浪微博:新浪微博:4亿多个用户,百亿规模的联系亿多个用户,百亿规模的联系 微信和微信和WeChat合并每后个月活跃用户数达合并每后个月活跃用户数达8.89亿亿 互联网互联网 截至截至2016年年12月,中国网页数量为月,中国网页数量为2360亿个亿个 An Intro
3、duction to Database System 集中式下图数据库的问题集中式下图数据库的问题 存不了:单机的存储能力有限存不了:单机的存储能力有限 算不出:即使是相对较为简单的最短路径发现操作算不出:即使是相对较为简单的最短路径发现操作 ,其计算时间复杂度是,其计算时间复杂度是O(n2)或或O(m + nlogn),其,其 中中n是图中顶点的个数,是图中顶点的个数,m是边的数目是边的数目,图数据规模增图数据规模增 长导致算法代价迅速增加。更糟糕的是,很多图算长导致算法代价迅速增加。更糟糕的是,很多图算 法的计算时间复杂度与顶点或边的个数呈超线性关法的计算时间复杂度与顶点或边的个数呈超线性
4、关 系系 An Introduction to Database System 分布式图处理系统的提出分布式图处理系统的提出 新的硬件和计算环境提供了可能性新的硬件和计算环境提供了可能性 CPU、GPU、大内存技术的发展、大内存技术的发展 云计算、大数据技术的出现云计算、大数据技术的出现 An Introduction to Database System 分布式图处理系统的兴起分布式图处理系统的兴起 2004 MapReduce 2010 Pregel 2010现在 Giraph、Trinity、GPS 、GraphX、Mizan、 Pregel+、GraphLab、 PowerGraph
5、采用整体同步同步并行计算(BSP)模型 ,以图顶点为中心的分布式计算框 架。优点:优点: 1. 消除了数据的重复加载 2. 构建以图顶点为计算中心、以消 息为驱动的编程模型,易于实现各 类图算法 主要问题:主要问题: 1. 数据重复载入 2. 木桶效应 迭代的图算法&一次迭代 一个MapReduce Job 主要问题:主要问题:木桶效应&过多 迭代次数和通信量 出发点:出发点:消除木桶效应 、减少迭代次数、减少 通信量、快速故障恢复 解决方案:解决方案:合理图数据 划分、动态数据迁移机 制、扩展以图顶点为计 算中心的编程模型、异 步迭代计算 An Introduction to Databas
6、e System 提纲提纲 分布式图处理系统的必要性分布式图处理系统的必要性 谷歌的分布式图处理系统谷歌的分布式图处理系统Pregel 分布式图算法的实现举例分布式图算法的实现举例 An Introduction to Database System Pregel计算模型计算模型 Pregel是基于BSP(Bulk Synchronous Parallel,整体同步并行计算)模型实 现的分布式图处理系统 BSP模型的主要思想:一次BSP计算过程包含一个全局超步(Superstep), 每一超步主要包括三个步骤:局部计算、通信、和屏障同步。 Barrier Synchronization Loc
7、al Computation Processor1 Processor2 Processor3 Processor4 Processor5 Processor6 Communication An Introduction to Database System 局部计算(局部计算(Local computation) 1 5 2 4 3 Processor1 顶点值、上一个迭代收到的消息 输入 1 2 3 4 5 Processor1 执行Compute()函数 更新顶点值、发送其他顶点消息 An Introduction to Database System 顶点的状态顶点的状态 活跃与非活跃
8、活跃与非活跃 Active Inactive Vote to halt Message received An Introduction to Database System 局部计算(局部计算(Local computation) 1 5 2 4 3 Processor1 1 2 3 4 5 顶点值、上一个迭代收到的消息 输入 Processor1 执行Compute()函数 更新顶点值、发送其他顶点消息 An Introduction to Database System 局部计算(局部计算(Local computation) 1 5 2 4 3 Processor1 1 2 3 4 5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库技术导论
限制150内