2022年适合复杂网络分析的最短路径近似算法 .pdf
《2022年适合复杂网络分析的最短路径近似算法 .pdf》由会员分享,可在线阅读,更多相关《2022年适合复杂网络分析的最短路径近似算法 .pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: Journal of Software ,2011,22(10):2279 - 2290 doi: 10.3724/SP.J.1001.2011.03924 http:/ ? 中国科学院软件研究所版权所有. Tel/Fax: +86-10-62562563 适合复杂网络分析的最短路径近似算法?唐晋韬+, 王 挺 , 王 戟(国防科学技术大学计算机学院,湖南长沙 410073) Shortest Path Approximate Algorithm for Complex Network AnalysisTANG
2、Jin-Tao+, WANG Ting, WANG Ji(College of Computer, National University of Defense Technology, Changsha 410073, China) + Corresponding author: E-mail: Tang JT, Wang T, Wang J. Shortest path approximate algorithm for complex network analysis. Journal of Software , 2011,22(10):2279 - 2290. http:/ : The
3、tremendous scale of the social networks mined from Internet is the main obstacle of a social network analysis application. The bottleneck of many network analysis algorithms is the extortionate computational complexity of calculating the shortest path. Real-World networks usually exhibit the same to
4、pological features as complex networks such as the “scale-free” and etc, which indicate the intrinsic laws of the shortest paths in complex networks. Based on the topological features of real-world networks, a novel shortest path approximate algorithm which uses an existent short path passing throug
5、h some local center nodes to estimate the shortest path in complex networks, is proposed. This paper illustrates the advantage and feasibility of incorporating the proposed algorithm within the network properties, which suggests a new idea for complex social network analysis. The proposed algorithm
6、has been evaluated both on synthetic network stage and real world network stage. Experimental results show that the proposed algorithm can largely reduce the computational complexity and remain highly effective in complex networks. Key words : social network; approximation algorithm; network propert
7、y; shortest path problem 摘要: 基于互联网抽取的社会网络往往具有较大的规模,这对社会网络分析算法的性能提出了更高的要求.许多网络性质的度量都依赖于最短路径信息,社会网络等现实网络往往表现出“ 无标度 ” 等复杂网络特征,这些特征指示了现实网络中最短路径的分布规律.基于现实网络的拓扑特征,提出了一种适合于复杂网络的最短路径近似算法,利用通过局部中心节点的一条路径近似最短路径,该算法能够方便地用于需要最短路径信息的社会网络性质的估算,为复杂网络的近似分析提供了一种新的思路.在各种生成网络与现实网络上的实验结果表明,该算法在复杂网络上能够大幅降低计算复杂性并保持较高的近似准
8、确性. 关键词 : 社会网络 ;近似算法 ;网络性质 ;最短路径问题中图法分类号: TP301文献标识码 : A ?基金项目: 国家自然科学基金(60873097); 国家重点基础研究发展计划(973)(2005CB321802); 新世纪优秀人才计划(NCET- 06-0926) 收稿时间 :2009-08-19; 修改时间 : 2010-06-09; 定稿时间 : 2010-07-28 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 12 页 - - - - - -
9、- - - 2280 Journal of Software软件学报 V ol.22, No.10, October 2011 随着 Web 2.0 的蓬勃发展 ,互联网正逐步融入人们的日常生活之中,深刻地改变着人们工作和生活的方式,这使得面向互联网的社会网络分析成为新的研究热点.随着数据挖掘技术的进步,研究者从互联网上挖掘的数据规模也在快速地增长.与其他领域的网络研究一样,社会网络分析也面临着数据规模急剧扩张的挑战.研究者通常将社会网络视为一个图,利用基于图的算法来分析社会网络的性质.而这些分析算法大都依赖于一个基本问题节点间的最短路径的计算.如 20 世纪 60 年代 Milgram1提出
10、的 “ 六度分离 ” 性质 ,就是对社会网络最短路径长度的假设;而近年在Internet 中流行的 “Bacon数” 和“Erd?s数”2游戏 ,以及对 Internet 等大规模网络的网络直径的研究3,都是典型的最短路径查找问题;社会学家提出的度量网络元素重要性的两个性质接近中心性、介数中心性4也是通过元素对最短路径的贡献程度来度量的;许多聚类算法也需要节点之间的距离或最短路径信息5,如 Girvan-Newman算法6等.但最短路径的计算具有很高的复杂性,使得这些分析方法在面向规模较大的现实网络时存在性能问题.在串行计算机上,目前主要有两种解决思路:利用优化算法结构等方法降低算法的计算复杂
11、性;利用启发式等方法限定搜索空间,近似计算最短路径.研究者们提出了各种不同形式的最短路径算法7- 9,由于问题本身的复杂性,目前最快的串行最短路径算法只能将计算复杂性降到O(n2.376)10.因此,如何快速而高效地近似最短路径成为研究者们关注的热点. 在社会网络的研究中,研究者们发现了不同于规则网络或随机网络的一些拓扑特征.如社会网络中往往具有较短的平均路径长度和较高的顶点集聚系数,Watts11提出了小世界模型来刻画这种现象,利用该模型可以较好地解释 “ 六度分离 ” 性质 ;Albert等人12则发现了在大规模现实网络中度分布的无标度现象.研究者们将具有这些特性的现实网络称为复杂网络,并
12、对复杂网络的拓扑特性、构造模型、传播动力学等方面都进行了深入的研究13,也将其成果广泛应用于软件工程等领域14.现实网络往往都具备复杂网络特征,本文利用复杂网络的拓扑特征推导现实网络中最短路径的可能分布.在此基础上,本文提出了基于区域中心点距离的最短路径(centers distance of zone, 简称 CDZ) 近似方法 ,利用复杂网络拓扑特征寻找一条实际存在的路径作为可能的最短路径 ,能够有效地应用于介数中心性等需要最短路径信息的社会网络分析算法的近似计算.实验结果表明,在具有复杂网络特征的网络上,我们的近似分析方法极大地提高了计算速度,而且保持了较高的有效性. 本文第1 节回顾相
13、关工作.第 2 节分析复杂网络拓扑特征对最短路径的影响,在此基础上提出针对复杂网络的最短路径近似算法CDZ. 第 3 节将 CDZ 算法应用到计算机生成网络和真实网络上,以检验 CDZ 算法的性能和正确性 .第 4 节阐述如何结合CDZ 算法近似计算中心性等社会网络性质的方法,并检验网络性质近似的有效性 .最后总结全文,提出一些有待探讨的问题,并展望未来的工作. 1 相关工作目前 ,面向互联网的社会网络挖掘和分析成为了一个新的研究热点.研究者们针对人们在互联网的活动进行挖掘和分析,如邮件交互15、科研合作16等;也研究了面向Web 2.0 的社会网络挖掘方法17,18;并将社会网络分析广泛应用
14、于恐怖袭击分析19、犯罪核心挖掘20等问题 .这些研究与其他现实网络分析一样,面临着网络规模急剧增大的挑战.中心性等网络性质度量方法由于复杂性太高而不能在大规模现实网络上有效应用,其中 ,最短路径的计算带来的复杂性最为显著.因此 ,如何快速而有效地近似最短路径,从而高效地分析网络性质,成为目前研究的一个热点.Chow 等人21提出了利用构建A* 算法的启发式来快速搜索最短路径的方法.Slivkins等人22提出了 Rings of Neighbors方法搜索最邻近节点,并在此基础上提出了基于环的距离近似算法.Rattigan 等人23则提出了图结构索引(network structure in
15、dices,简称 NSI) 算法 ,利用保存的预处理结果快速近似节点间的距离 ,文献 24 将该算法用于图聚类算法的近似,取得了较好的结果.Zwick25提出了t-最短路径近似算法的定义,一个算法被称作是t-近似的 ,是指该算法估算的最短路径都不超过实际最短路径长度的t 倍.Cohen 等人26设计了一种面向加权无向图的近似算法,该算法在2-近似的情况下仅需3 2()O ne 的预处理时间.Thorup等人27提出了 Approximate Distance Oracle数据结构 ,对于 (2k- 1)-近似需要O(kn1+1/k)的空间和O(n1/k)的预处理时间,并能在O(k)的时间内给出
16、任意节点对之间的近似最短路径.Baswana 等人28设计了两种随机近似算法,在非加权无向图最短路径的2-近似问题上具有O(e2/3nlog n+n2)的时间复杂度. 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 12 页 - - - - - - - - - 唐晋韬等:适合复杂网络分析的最短路径近似算法2281 上述方法的设计目标往往面向所有类型的网络,并没有针对复杂网络的拓扑特征进行优化.研究结果29,30表明 ,最短路径算法在具有不同拓扑特征的网络上效率差异很大,通
17、用算法很难在各种网络形式下均有较好的效率 .本文在分析复杂网络拓扑性质的基础上,提出了一种适用于现实网络的近似算法.该算法利用符合复杂网络拓扑特征的一条可能的最短路径估算距离,适用于现实世界中基于最短路径的网络分析方法的近似. 2 CDZ 最短路径近似方法大规模网络中的所有节点对之间最短路径(all-pairs shortest paths,简称 APSP)问题一直是研究者面临的一个挑战 .本节分析了现实网络的复杂网络特性,由此推导了关于复杂网络节点间最短路径特征的一个假设.在此基础上 ,提出了基于区域中心点的最短路径近似算法,并研究了适合于复杂网络的区域中心点选择策略. 2.1 CDZ 算法
18、现实世界中 ,较大规模的网络在结构上往往表现出复杂网络特征,如社会网络、生物网络、Internet 物理网络等等16.复杂网络特征包括小世界特征和无标度特征;小世界特征11说明 ,在复杂网络中,任意节点之间的距离均较短 ,且具有较高的聚集系数.而无标度特征12是指度分布较为符合幂律(power-law) 定律 ,即复杂网络中存在着少量的占支配地位的中心节点,以及大量的不够活跃的普通节点.如在Internet 网页链接结构中,绝大部分网页的链接数不超过4 个,而不到 0.01%的网页占有了80%以上的链接12.本文统计了实验采用的两种现实网络是否同样具有复杂网络拓扑特征,包括科研文献引用网络Co
19、ra 和 Blogger 社会网络 (参见第 3.1 节).Cora 网络为 30 000 节点规模 ,Blogger 网络则包含1 000 多个节点 .本文利用 E-R 模型31分别生成与这两种网络规模基本相同的随机图进行比较,统计结果表明,这些现实网络的确具有复杂网络拓扑特征.如图 1 所示 ,不同于随机网络的正态分布 ,Blogger 网络和 Cora 网络的度分布都表现出了一定的幂律分布特征.而 Blogger 网络和 Cora 网络平均距离仅为3 和 5,明显小于相同规模随机网络的平均距离(6 和 13). Fig.1 Degree distribution curve of rea
20、l-world networks and random network 图 1 现实网络与相同规模的随机网路的度分布曲线复杂网络拓扑特征体现了现实网络中最短路径的一些内在规律.不同于随机网络,复杂网络的大部分节点都只在小范围内相互连接,呈现出一定的高聚集系数特性.不同于规则网络,复杂网络任意两个节点间的距离都较短 .复杂网络直径较小的原因在于少量连接不同簇的“ 长边 ”,社会学家 Granovetter 提出了弱链接的强度32,描述了在人际关系中少量跨越交际圈的较弱关系对交际网络的巨大贡献.这说明 ,最短路径通过“ 长边 ” 的可能性非常大 .而复杂网络的无标度特征说明节点的度数分布不均衡,存
21、在少量具有很高度数的中心节点以及大量度数很低的普通节点.这说明 “ 长边 ” 属于少数的中心节点的概率更大,任意节点之间的最短路径很有可能通过中心节点 .因此 ,本文提出了在现实网络中关于最短路径规律的一个假设: 假设 1. 在具有复杂网络特征的现实网络中,大部分节点都是经过中心节点连接在一起的,任意节点之间的最短路径有较大的可能会经过中心节点. 该假设在很多现实网络中可以找到佐证,如在 Internet网络中 ,绝大部分的节点是个人电脑终端,它们之间E-R random graphBlogger 3002001000Numberofvertices0 20 40 60 80 100Degre
22、e 5000200010000Numberofvertices0 20 40 60 80 100Degree E-R random graph Cora 30004000名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 12 页 - - - - - - - - - 2282 Journal of Software软件学报 V ol.22, No.10, October 2011 主要通过路由器连接.在性接触网络33和科研合作网络16中也发现了类似的特点.根据假设1,在 NS
23、I 方法23的基础上 ,本文提出了一种基于区域中心点的最短路径近似方法CDZ 方法 .在预处理时 ,该方法查找中心节点并记录各个节点到最邻近中心节点的最短路径;在估算最短路径时,该方法利用通过中心节点的一条路径近似最短路径 .在无向图情况下,CDZ 方法的预处理包括以下几个步骤: (1) 根据某种节点选择策略(本文策略见第2.2 节)选取 d 个可能的中心节点,表示为 C1,C2, , Cd; (2) 从中心节点集合开始,宽度优先遍历整个图,记录每个节点到最临近中心节点的最短路径、相邻区域 (两个区域有节点直接相连)中心节点之间的最短路径.该步骤将图划分为d 个区域 ,记为12,.,.dCCC
24、ZZZ (3) 新构造一个仅包含d 个中心点的图,如果原图中两个中心点所在区域相邻,在新图中添加一条连接这两个中心节点的边,边的权值为步骤2 得到的在原图中两个相邻区域的中心节点之间的距离.计算新图中所有节点之间的最短路径,通过映射可以得到原图任意两个中心节点之间的最短路径. CDZ方法利用通过中心节点的一条实际存在的路径近似跨区域节点之间的最短路径.任意两个属于不同区域的节点s,t 之间的距离 ,可以近似为这两个节点到各自区域中心节点的距离与中心节点之间的距离之和.d(s,t)=d(s,Cs)+d(Cs,Ct)+d(Ct,t) (1) 其中 ,Cs,Ct分别为距节点s,t 最近的中心节点,函
25、数 d(s,t)为节点 s和节点 t之间的距离 .属于不同区域的两个节点s,t 之间的距离d(s,t),CDZ 方法利用一条通过中心节点的路径长度来近似:从节点s 到其中心节点Cs的距离d(s,Cs)、从节点t 所在区域中心节点Ct到 t 的距离 d(Ct,t)以及中心节点之间的距离d(Cs,Ct)之和 . 如果两个节点属于同一区域,通过两个节点到中心节点的路径信息可以快速地发现它们的最近公共祖先(least common ancestors).本文利用两个节点通过其最近公共祖先的一条路径,近似它们之间的最短路径.对于属于同一区域的节点s,t,Cst为区域的中心节点,LCAst为 s,t 的最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年适合复杂网络分析的最短路径近似算法 2022 适合 复杂 网络分析 路径 近似 算法
限制150内