基于图压缩的最大steiner连通k核查询处理-李鸣鹏.pdf





《基于图压缩的最大steiner连通k核查询处理-李鸣鹏.pdf》由会员分享,可在线阅读,更多相关《基于图压缩的最大steiner连通k核查询处理-李鸣鹏.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于图压缩的最大Steiner连通k核查询处理李鸣鹏高宏邹兆年哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001摘要:研究了基于图压缩的最大Steiner连通k核查询处理,提出了一种支持最大Steiner连通k核查询的图压缩算法SC,证明了基于SC压缩算法的查询正确性.由于最大Steiner连通k核查询仅需要找到符合要求的连通区域,提出了图压缩算法TC,进一步将压缩图压缩为树.证明了基于压缩树的查询正确性,并提出了线性时间的无需解压缩的查询处理算法.真实和虚拟数据上的实验结果表明:压缩算法平均可将原始图压缩掉88,且对于稠密的原始图,压缩算法的压缩效果更好,可将原始图压缩掉90,与
2、在原始图上直接进行查询处理相比,基于压缩图的查询处理算法效率更好,平均提升了12个数量级.最大Steiner连通k核;图压缩;等价类;查询处理;压缩比TP31110.13328/ki.jos.005044Maximum Steiner Connected k-Core Query Processing Based on Graph CompressionLI Ming-PengGAO Hong ZOU Zhao-NianSchool of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001
3、, ChinaAbstract: This paper focuses on maximum Steiner connected k-core query processing based on graph compression, and proposes a maximum Steiner connected k-core query preserving graph compression algorithm, SC. The correctness of querying based on SC algorithm is proved. Since maximum Steiner co
4、nnected k-core query only requires a connected component which satisfies certain properties, graph compression algorithm TC is proposed to further compact the compressed graph into a tree. It is proved that querying based on the compacted tree is correct. A novel linear query processing algorithm wh
5、ich is able to query on the compacted tree without decompression is also introduced. Experiments on both real and synthetic datasets demonstrate that the compression algorithm could compress the original graph by 88 in average, and for denser graphs, the compression algorithm achieves better compres
6、sion ratio, reducing the original graph by nearly 90. Comparing with the query processing on original graphs, the query performance on compressed graphs is better, and in average, it could be 1 to 2 orders of magnitude times better.maximum Steiner connected k-core; graph compression; equivalent clas
7、s; query processing; compression ratio基金项目:国家重点基础研究发展计划(973)(2012CB316200);国家自然科学基金(61190115,61033015,61173023);中央高校基本科研业务费专项(HIT.NSRIF.201180)Foundation item: National Basic Research Program of China (973) (2012CB316200); National Natural Science Foundation of China (61190115, 61033015, 61173023);
8、Fundamental Research Funds for the Central Universities (HIT.NSRIF.201180)2015-09-242016-02-22万方数据2266 Journal of Software软件学报V0127,No9,September 2016用户的社会行为【21;在作者合作网络中,一群联系密切的人可能具有相近的研究领域【31;在购物数据中,组关系密切的商品很可能被兴趣相近的客户所关注41;在蛋白质网络中,一些关系紧密的蛋白质往往可能共同形成特定的官能团【51目前,对于紧密社团【6的定义有许多种,如:团、七团、滩团、k丛等上述问题均是NP
9、hard的,故计算以上的紧密社团将非常耗时而k核作为一种社团的定义,则可以被有效地在线性时间内计算对于无向图G=(K目,k核是图G的一个极大子图,满足子图内的顶点都至少有k个邻居出现在子图中例如在图1(a)中,8,9,1l,12,14)的导出子图就是一个3核,因为每个顶点在导出子图中都至少有3个邻居作为一种紧密社团,k核有着广泛的应用:七核可以作为一种拓扑结构信息用于网络分析7和网络可视化8】;扣1核还可以用于近似表示k团:七核还可以用于给出最稠密子图的12近似【9】以及最稠密至少k子图的13近似算法【lo】事实上,在很多应用中,用户往往更加关心包含一组给定查询顶点Q的连通的k核由于满足上述要
10、求的k核并不唯一,而其中最稠密的往往最有意义,故本文所关注的是包含给定查询顶点集Q且具有最大k值的连通k核,简称为k-MSC仍以图1(a)为例,若给定查询顶点集Q=4,8,15,那么包含Q的k-MSC为91,是一个2核(b)压缩图GcFig1 Instances of graph compression图1 图压缩实例本文首先提出了k-MSC问题,而现有方法并不能有效地解决k-MSC问题这是因为:(1)枚举包含Q的所有导出子图,并找到其中k值最大的连通k核,将访问指数级别数量的子图,故并不可行;(2)借助于现有计算k核的最快算法【l,一种直观的算法(Base)n-I以通过不断递减k的值,然后检
11、查是否存在一个连通的k核包含了Q中的全部顶点为保证连通性,上述过程每次都需要遍历整个图,当原始图规模很大时,该计算将变得非常耗时本文使用图压缩以及压缩图上直接进行查询处理的技术来解决k-MSC问题其思想是:首先将图G进行压缩,得到一个规模很小的压缩图Gc;然后,对于任意G上的k-MSC查询(G,Q),将其转换成Gc上的等价查询(Gc,Qc),使得G上对Q的查询结果与Gc上对Qc的查询结果完全相同由于Gc的规模远小于G,故可以大幅提高查询处理效率,并节省存储空间文献1214中的图压缩技术将图中的邻接信息用bit表示,并通过适当的合并、调整顺序等操作令所使用的bit数最少,从而使得其对网络图和社交
12、网络的压缩效果非常可观然而上述方法仅仅关注了存储代价的降低而忽视了查询效率,这导致压缩图并不能直接被使用,即使是最简单的邻居查询,也需要将压缩图进行适当的解压缩才能够进行查询除了上述通用的图压缩技术,一些针对特定查询的图压缩技术也被提出【”_1 81文献15】提出了针对可达查询和图模拟查询的图压缩技术;文献【16探讨了在XML树中能够处理XPath查询的压缩方法;文献17】针对邻居查询,提出了具有误差保证的有损压缩技术然而,由于查询结构的差异,上述方法就不能适用于“MSC查询本文首先提出了图压缩算法sc,其时间复杂度为O(IEI)SC算法是基于等价类划分的,故查询转换的时间复杂度为O(IQI)
13、本文证明了基于压缩图Gc的查询正确性通过实验验证,sC算法可以有效地将原始图压缩掉一半以上;且对于稠密图,压缩效果将进一步提升,达到压缩掉近70对于道路交通网络和基于偏好模型的虚拟O卜“舌万方数据李鸣鹏等:基于图压缩的最大Steiner连通k核查询处理 2267图,SC算法可将原始图压缩掉近90由于k-MSC查询仅需要找到符合要求的连通区域,故SC算法得到的压缩图Gc还可被进一步压缩本文提出了图压缩算法TC,将压缩图Gc进一步压缩为树Gr,其时间复杂度为D(1VcI+IEc|)本文证明了基于压缩图Gr的查询的正确性,并提出了压缩树上无需解压缩的查询算法QueryGT,其时间复杂度为o(IRo
14、J)其中,I尺DI为查询结果集的大小通过实验验证:在真实数据集上,TC算法可进一步将SC算法的压缩比提升35倍与直接在原始图上查询的Base算法相比,基于压缩树的查询算法QueryGT的查询效率将提升l2个数量级本文的主要工作及贡献如下(1) 提出了一种支持k-MSC查询的图压缩算法SC以及相应的查询转换算法,证明了其正确性,SC算法的时问复杂度为OilEI);(2) 在SC算法的基础上,提出了图压缩算法TC,将压缩图进一步压缩为树,证明了压缩树上查询结果的正确性,TC算法的时间复杂度为D(Ivcl+lecI);(3) 提出了压缩树上的查询算法,其时间复杂度为o(IRo|);(4) 分别在真实
15、数据和虚拟数据上验证了所提出图压缩算法的有效性真实数据集上的实验结果表明:压缩算法的压缩比可达到12;而对于稠密图,算法将取得更好的接近10的压缩比算法对于虚拟数据集同样有效,平均压缩比仍然在12左右;且压缩效果随着图稠密度的增加而提高对平均度数为30的虚拟图,压缩比为67基于压缩算法的查询算法效率也得到了很好的提升,无论在真实还是虚拟数据集上,查询效率与Base算法相比均提高了l2个数量级1相关工作网络图和社交网络的通用图压缩技术已经被广泛研究,文献12】的压缩技术能够有效地将网络图压缩,文献13,14】也可以将社交网络以bit的形式有效存储由于上述技术保存了原始图中全部的结构信息,即,并不
16、针对特定查询,且查询前必须进行解压缩操作,故反而降低了查询效率面对特定查询且无需解压缩即可查询的图压缩技术也被提出:文献151提出了能够处理可达查询和图模拟查询的图压缩技术,文献16币lJ用了双向模拟的思想提出了针对XPath查询的压缩技术,文献17则针对邻居查询给出了一种具有误差保证的有损压缩技术然而上述技术仅能处理特定的查询,因此无法适用于k-MSC查询对于给定图和一组查询顶点Q,围绕如何找到图中包含Q的社团也展开了一些研究【1 8-21】其中,文献18】提出了一种基于局部模块化的社团计算方法,文献19定义了基于k-truss的社团并给出了求解算法,文献20】研究了基于雕团定义的社团发现问
17、题由于对社团定义的差别,上述技术无法适用于k-MSC查询文献21研究了基于连通度定义的最大连通社团发现问题,并提出了SMCC索引提高查询性能本文将以SMCC索引作为对比,说明SC和TC算法的有效性2最大Steiner连通k核本文针对简单的无向无权图进行研究,即对于给定图G=(目,V是顶点集,是边集,那么图中不存在自环(甜,“),其中,UE矿本文使用的图数据是以邻接表形式存储的,因此,图的规模lGl为邻接表中邻接顶点对的数量对于顶点UE以vK(“,v)和(v,“)表示同一条边,而由于(“,v)和(,“)分别在顶点U和v的邻接表中各出现一次,故图的规模IGI=21EI对于图G中的任意的顶点集MG明
18、表示的导出子图,即G明=(且(,v)eElu,vH”记图G中连接顶点U和v的简单路径为PiG,U,v),则PiG,U,v)=“,Wl,W2,Wf,v),其中,(“,W1)eE,(wf,v)eE,(wf,WHl)eE,0一p,而GW】中顶点的度不会小于前两者因此,我们找到了一个G明的超图G舢F】并且GHuI-I是pSC,矛盾!故而胙F,即,顶点甜和v一定出现在同一个k-MSC中 口结论1在图G=(KD中,若zf;v,则对于图G中任意一个最大Steiner连通k核G明,若“E则wH证明:根据引理1,易证该结论 口根据上述结论可知,属于相同等价类的顶点一定会出现在相同的k-MSC中这说明本文中等价关
19、系的定义是合理的定理1给定图G=(KD,Gc=(,Ec力是由SC算法计算的压缩图,若也是Gc中的一个k-MSC,则H是G中的一个k-MSC,其中,肛川vE“,UE如证明:用反证法若G旧不是一个k-MSC,则图G中要么存在一个G明的超图G【F】,使得G】是k-SC;要么存在一个G目】,使得GF,】的核值比G明更大首先讨论第1种情况由于GF是连通的,不妨假设wHV-Pl W与日相邻显然,W对应的等价类【w】c萑凰根据结论l可以发现:(1)GcH:Uw】c)是连通的;(2)GcH划wk)】的核值不小于Gc日d矛盾!故第一种情况是不存在的下面讨论第2种情况若存在一个核值更大的G目】,则记日:=“Vcl
20、vEu,vF根据sc算法,若(“,v)E,则(“k,Ivc)Ec,故Gc哦】一定是连通的因此,我们在压缩图Gc中找到了一个核值更大的k-SC,这意味着Gc中一定存在着一个核值更大的k-MSC矛盾!故第2种情况也是不存在的综上所述,可证结论 口定理2给定有向图G=(K司,查询顶点集Q,Gc=(Vc,Ec力是由SC算法计算的压缩图,Qc是Q对应的等价类集,则在原始图G上包含Q的缸MSC与在压缩图Gc上包含Qc的k-MSC是相同的证明:根据定理l,在压缩图Gc上包含Qc的k-MSC一定是原始图G中包含vlvEu,“Qc)的k-MSC下面只需证明在原始图中,查询顶点集Q和vlvEu,”Qc具有着相同的
21、k-MSC根据结论l,同一等价类中的顶点一定在同一个k-MSC中,故定理2得证 口22 SC算法的分析SC算法采用了基于等价类的压缩思想,因此,如何有效地划分等价类是SC算法的关键首先需要计算图中所有顶点的核值,根据文献1l】中的算法,通过使用桶排序,所有顶点核值的计算可以在D(吲)内完成见算法l第l行其次,为了划分等价类,将依次为每一个顶点分配唯一的类别根据定义5,lt=-V当且仅当图中存在P(u,v),使得对于任意顶点wP(u,v),旭(w)=cD理(“)=co陀(v)因此可以从任意的顶点U出发,采用广度优先搜索算法,不断地扩展与顶点“核值相同的顶点,直至无法扩展为止将上述顶点集划分为同一
22、等价类“c,同时标记为已访问至此顶点甜所在的等价类划分完毕对于图中剩余的等价类,只需要不断重复上述过程,直至图中所有顶点均被访问过为止,见算法1第3行第ll行显然,基于BFS的等价类划分可以在伏lED的时间内完成最后,通过依次访问原始图G中的每一条边,可以确定压缩图的边集显然,生成压缩图仍然可以在O(IEI)内完成故,图压缩算法sc的时间复杂度为O(IEI)算法1SCInput:Graph G=(以司;Output:Compressed Graph Gc=(,Ec力,Map List MKcoreO;万方数据2270 Journal of Software软件学报V0127,No9,Septe
23、mber 2016Vc=Ec=O;For each UEVdo IfU is not visited then BFS(core(u);仅扩展与“核值相同的顶点 For each v expanded by BFS(core(u)do Mlvl=lulc; 1,is visited; end for廷多 vc=ZcUuc,贝甜】c)=co,(甜); M“_M c,U is visited; endifend for For each veaex pair甜】cVc,v】cdo计算压缩图的边集 if(“,v)E then Ec=Ecu(uc,Mc); end ifend forreturn Gc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 压缩 最大 steiner 连通 核查 处理 李鸣鹏

限制150内