基于优化标签传播算法的社区发现研究-龚宇.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于优化标签传播算法的社区发现研究-龚宇.pdf》由会员分享,可在线阅读,更多相关《基于优化标签传播算法的社区发现研究-龚宇.pdf(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1必渊必黄。-jl:3Q!:S1二代鹧!:学号上Q琏131Q3Q3密级猷蓠妥毋拨走哮硕士学位论文基于优化标签传播算法的社区发现研究学位申请、: 龚字学科分韭指导教师答辩日期梦算机科长复挞张智副教授三塑年酆14日_ 一万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringResearch of Community Detection Based onOptimized Label:Propagation AlgorithmMaste
2、r Candidate:Major:Supervisor:GongYuComputer Science and TechnologyAssoProfZhang ZhiWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay 14恤,2017万方数据武汉科技大学研究生学位论文创新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均
3、己在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名: 垄要 日期:丝!【=!:!研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名: 鬃窘指导教师签名: 互丝坌万方数据摘要在过去几十年中,随着互联网技术的高速发展,在线网络数据规模呈
4、现爆发式的增长,在大规模网络数据的驱动下,复杂网络研究越来越得到广泛重视。其中社区发现能帮助挖掘复杂网络中的社区结构,对于深入理解复杂网络的特性和功能具有重要的理论意义和广泛的应用前景,逐步成为了复杂网络分析中的重点研究方向。社区发现方法分为非重叠社区发现和重叠社区发现,而现实复杂网络所呈现出来的社区结构通常是可重叠的,因此重叠社区发现更符合现实要求。目前,基于标签传播的社区发现算法因其操作简单和执行高效的优点而在社区发现领域里被深入研究和广泛应用。其中COPRA(Community OverlapPRopagation Algorithm)算法扩展了传统的标签传播算法(Label Propa
5、gationAlgorithmLPA),能从网络中有效挖掘重叠社区结构,但该算法同时保留了L王,A算法随机性强、鲁棒性差、容易把所有顶点分配给一个社区等缺点。为了提高算法准确度和鲁棒性,本文提出一种基于LeaderRank的多标签传播重叠社区发现算法。该算法通过LeaderRank算法来量化网络中节点的重要性,然后根据量化值大小对这些节点进行团扩展,得到可重叠的最具重要性的粗糙团,作为标签传播的初始社区核心,并将节点重要性融入标签初始化和标签更新过程中,最终提高了社区划分结果的准确性。通过在人工网络图以及真实网络数据集上进行实验分析,结果表明所提算法不仅有效地增强了社区发现结果的稳定性,同时提
6、高了准确率。关键词:复杂网络;重叠社区发现;标签传播;LeaderRank万方数据AbstractOver the past few decades,with the rapid development of Internet technology,thescale of online network data is explodingUnder the drive of largescale network data,more and more attention has been paid to the research of complex networkIn theseresearch
7、es,community detection,which can discover the structure of communities inthe complex network,and Can help researchers understand the characteristics andfunctions of complex network more deeply,and has important theoretical significanceand wide application prospect,has gradually become the focus of r
8、esearch in complexnetwork analysisCommunity detection is divided into nonoverlapping communitydetection and overlapping community detectionCommunity structure presented byrealistic complex network is usually overlapping,SO overlapping community detectionis more realistieAt present,owing to the advan
9、tages of simple and rapid in community detection,the community detection algorithm based on label propagation is widely used andstudiedAmong them,COPRA(Community Overlap PRopagation Algorithm),as anextension of LPA(Label Propagation Algorithm),can effectively detect overlappingcommunities from the c
10、omplex network,but it also retains the shortcomings of LPA,such as strong randomness,poor robustness,and easily assigning all vertices to acommunityIn order to improve accuracy and robustness of COPRA,a multilabelpropagation algorithm for overlapping community detection was proposedIt usedLeaderRank
11、 algorithm to quantify the influence and importance of nodes in socialnetwork,then extended these nodes to maximal cliques as initial community cores forlabel propagation according to LeaderRank score,and introduced the importance ofnodes into the label initialization and label updating process,whic
12、h ultimatelyimproved the accuracy of the results of community divisionExperiments on LFR benchmark networks and real public datasets show that theproposed algorithm not only improves the stability effectively,but also increases theII万方数据accuracy for detecting overlapping communitiesKeywords:complex
13、network;overlapping community detection;label propagation;LeaderRankIlI万方数据目 录摘 要IAbstractII第1章绪论l11课题研究的背景和意义112研究现状213本文的主要工作414论文的结构安排5第2章相关理论综述621复杂网络概述622节点的重要性测度823社区结构评价指标11231模块度l l232标准化互信息1424非重叠社区发现算法14241基于划分的社区发现方法14242基于模块度优化的社区发现方法15243基于标签传播的社区发现方法1625重叠社区发现算法18251基于团渗透的重叠社区发现方法18252
14、基于节点分裂的重叠社区发现方法19253基于标签传播的重叠社区发现方法2026本章小结一21第3章基于LeaderRank的多标签传播重叠社区发现算法2231算法思路与框架2232节点重要性计算。2333粗糙团生成24TV万方数据34标签初始化2635标签传播阶段27351标签传播顺序27352标签更新策略27353标签传播终止条件2836 LRMLPA算法描述与分析2937本章小结3l第4章实验及结果分析3241实验数据32411人工网络图324。12真实数据集3342实验结果与分析33421人工网络图实验33422真实数据集实验36413本章小结37第5章总结和展望一3851总结。3852
15、展望。38致射40参考文献4l附录l攻读硕士学位期间发表的论文45附录2攻读硕士学位期间参加的科研项目46V万方数据武汉科技大学硕士学位论文第1章绪论11课题研究的背景和意义几乎所有的复杂系统都能抽象成复杂网络,通过网络建模进行研究【1,例如,万维网可以抽象成由网页和链接组成的网络;交通网络可以抽象成由站点和站点之间的交通路线构成的网络;生物网络可以抽象成由细胞或者蛋白质组成的网络等。随着复杂网络数据规模的增长及应用领域的扩展,复杂网络研究受到越来越多的学者的广泛关注。作为复杂网络的一个基本特征,社区结构(Community Structure)也受到研究者们的广泛关注和深入研究。在复杂网络中
16、普遍存在一些节点集合,这些集合内部的节点紧密连接,而与集合之外的节点连接较稀松,这种节点集合就是社区【21。例如,在社会网络中社区可以代表具有相同爱好的群体或朋友圈;在万维网中社区可以代表描述相同技术的网页集合;在学术网络中社区可以代表研究相同领域的学者等。社区发现就是找到网络中的这些社区结构的方法。社区发现具有重大的现实意义,例如在社交网站中,可以根据用户的关注和评论等信息对用户进行社区划分,为社区中的用户做定向信息推荐,提升网站对用户的吸引力;在视频网站中,可以根据用户观看记录对用户进行社区划分,以社区为单位进行视频推荐或者广告投放,以此营造更高的利润;在电子商务网站中,可以根据用户浏览记
17、录和购买记录等信息对用户进行社区划分,为社区中的用户进行准确的商品推荐,提高用户体验等等。在初期的社区发现研究中,大多数的社区发现方法都认为社区之间是不重叠的,但是深入研究后发现现实世界网络中社区之间相互重叠的现象非常常见,例如,在学术网络中,一个研究员按研究方向可以横跨多个的研究领域;在问答网站中,一个用户可以根据兴趣和能力参与不同话题的讨论;在社交网络中,一个用户按兴趣爱好可以有多个社交圈子等等。另一方面,现实中的社会网络,如Facebook、微博等,它们数据规模庞大,节点关系复杂,得到的网络结构混合多样并且未知。因此,面对规模日益庞大、复杂性日益提高的网络数据,如何准确有效地挖掘出网络中
18、存在的重叠社区结构是一个极具挑战性的课题,并在许多方面仍然具有较大的发展和提升空间。万方数据武汉科技大学硕士学位论文12研究现状复杂网络中的社区发现具有重大的理论和现实意义,吸引了越来越多的学者的关注。近年来,随着社区发现方法的不断演进,研究者们提出了各种方法来发现网络中的社区结构,这些方法主要分为两大类,一类是非重叠社区发现方法,发现的社区之间相互独立,另一类是重叠社区发现方法,发现的社区之间相互可交叉。图分割和聚类思想是大多数社区发现方法的基础。早期的谱方法(spectralmethod)【3】和KernighanLin算法41就是图分割方法中的两类典型算法,这些算法在面对当今的大规模网络
19、已经不合时宜了,但是它们为后来者奠定了良好的研究基础。2002年,Girvan和Newman)发现网络_中普遍存在的社区结构,由此提出了社区发现的概念,并提出了著名的社区发现算法一一GN算法5】。不过GN算法具有计算量太高的缺陷,无法应用于大规模网络上,但它吸引了学者对这个问题的进一步研究,从而激发了复杂网络社区发现的研究热潮。2003年,Tyler等人将蒙特卡罗方法(Monte Carlo Method)弓入到GN算法中,提出了一种效率更高的算法【们,但牺牲了社区发现的准确度,因为算法不再计算出所有边的精确边介数,而是估算出的近似边介数。2004年,Radicchi等人以局部指标边聚集系数来
20、取代GN算法中的全局指标边介数,提出了一种新的算法【7】,有效降低了算法复杂度,但也缩小了算法的适用范围。2004年,Newman将GN算法扩展到了加权复杂网络中【81。2004年,Newman和Girvan提出了一种评价社区优劣的量化指标一一模块度函数Q91。Q函数清晰地表示出了网络中的社区结构特征,并成功地应用到实际场景中,极大地推动了社区发现的发展。2004年,Newman提出了第一个基于模块度优化的社区发现方法一Newman快速算法(Fast Newman,VN)t10】。该算法通过贪婪法不断凝聚合并社区使得模块度不断增大,然后选择对应模块度最大的社区划分作为最终结果,算法的复杂度是D
21、(沏切),2),在稀疏网络图上复杂度可以进一步降低,接近O(n2),相比GN算法有较大的提升。之后基于FN算法,Clauset、Newman与Moore提出了CNM算法【】,算法使用大顶堆优化了模块度函数Q的计算,使得算法拥有接近线性的复杂度O(nl092玎),。此后不断有新的基于模块度优化的算法被提出来,但近年来研究者发现,这类算法存在分辨率极限(Resolution Limit)12】的问题,这说明p函数本身是有缺陷的。另一方面,在实际分析中很难确定一种合理的优化目标,使万方数据武汉科技大学硕士学位论文得划分出来的社区结构难以反应真实的社区结构,因此这类算法的理论基础有待于进一步研究。20
22、07年,Raghavan等人提出了标签传播算法LPA(Label PropagationAlgofithm)13】,算法不需要输入参数,且具有线性时间复杂度,可应用于较大规模的复杂网络,但是该算法更新节点标签时使用了随机选择方式,降低了算法稳定性。2009年,Leung等人针对LPA算法容易形成怪兽社区的问题,提出了随着传播而衰减的标签传播算法【14,有效的提高了LPA算法的稳定性,并降低了计算开销。Barber等人为了防止u,A算法将所有节点划分为一个社区,提出了一种新的标签传播算法LPAmt”】,将社区发现问题等价于目标函数最优解的问题。2010年,Liu等人发现LPAm算法在求解过程中容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 优化 标签 传播 算法 社区 发现 研究 龚宇
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内