基于k-核过滤的社交网络影响最大化算法-李阅志.pdf
《基于k-核过滤的社交网络影响最大化算法-李阅志.pdf》由会员分享,可在线阅读,更多相关《基于k-核过滤的社交网络影响最大化算法-李阅志.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Journal of Computer Applications计算机应用,2018,38(2):464470ISsN 10019081CODEN JYIIDU20180210http:wwwjocacn文章编号:1001-9081(2018)02-046407 DOI:1011772jissn100190812017071820基于k核过滤的社交网络影响最大化算法李阅志12,祝园园1扩,钟 鸣12(1软件工程国家重点实验室(武汉大学),武汉430072; 2武汉大学计算机学院,武汉430072)(通信作者电子邮箱yr&uwhueduca)摘要:针对现有社交网络影响最大化算法影响范围小和时间复
2、杂度高的问题,提出一种基于独立级联模型的矗一核过滤算法。首先,介绍了一种节点影响力排名不依赖于整个网络的现有影响力最大化算法;然后,通过预训练k,找到对现有算法具有最佳优化效果且与选择种子数无关的k值;最后,通过计算图的_j核过滤不属于核子图的节点和边,在_|-核子图上执行现有影响最大化算法,达到降低计算复杂度的目的。为验证核过滤算法对不同算法有不同的优化效果,在不同规模数据集上进行了实验。结果显示,应用_|一核过滤算法后:与原PMIA算法相比,影响范围最多扩大1389,执行时间最多缩短834;与原核覆盖算法(CCA)相比,影响范围没有太大差异,但执行时间最多缩短285;与OutDegree算
3、法相比,影响范围最多扩大2181,执行时间最多缩短2696;与Random算法相比,影响范围最多扩大7199,执行时间最多缩短2421。进一步提出了一种新的影响最大化算法GIMS,它比PMIA和IRIE的影响范围更大,执行时间保持在秒级另q,而且GIMS算法的l|一核过滤算法与原GIMS算法的影响范围和执行时间差异不大。实验结果表明,_|一核过滤算法能够增大现有算法选择种子节点集合的影响范围,并且减少执行时间;GIMS算法具有更好的影响范围效果和执行效率,并且更加鲁棒。关键词:社交网络;影响最大化;k-核;独立级联模型;传播树中图分类号:TP312 文献标志码:Akcore filtered
4、influence maximization algorithms in social networksLI Yuezhil一,ZHU Yuanyuanl,r,ZHONG Min912(1State研Laboratory of SoftEngineering(Wuhan Univers缸y),Wuan Hubei 430072,China;2School of Computer,Wuhan University,Wuhan Hubei 430072,China)Abstract:Concerning the limited influence scope and higll time comp
5、lexity of existing influence maximization algorithmsin social networks,a k-core filtered algorithm based on independent cascade model was proposedFimfly,an existinginfluence maximization algorithm was introduced,its rank of nodes does not depend on the entire networkSecondly,pro-training was carried
6、 out to find the value of k which has the best optimization effect on existing algorithms but has no relationwith the number of selected seedsFinally,the nodes and edges that do not belong to the k-core subgraph were filtered bycomputing the k-core of the graph,then the existing influence maximizati
7、on algorithms were applied on the k-core subgraph,thus reducing computational complexitySeveral experiments were conducted on datasets with different scale to prove that thek-core filtered algorithm has different optimization effects on different influence maximization algorithmsAfter combined withk
8、-core filtered algorithm,compared with the original Prefix excluding Maximum Influence Arborescenee(PMIA)algorithm,the influence range is increased by 1389and the execution time is reduced by as much as 834;compared with theoriginal Core Covering Algorithm(CCA),the influence range has no obvious dif
9、ference and the execution time is reduced byas much as 285;compared with the original OutDegree algorithm,the influence range is increased by 2181and theexecution time is reduced by as much as 2696;compared with the original Random algorithm,the influence range isincreased by 7199and the execution t
10、ime is reduced by as much as 2421Furthermore,a new influence maximizationalgorithm named GIMS(General Influence Maximization in Social network)was proposedCompared witll PIMA and InfluenceRank Influence Estimation(IRIE),it has wider influence range while still keeping execution time at second levelW
11、hen itwas combined with k-core filtered algorithm,the influence range and execution time do not have significant changeTheexperimiental results show that k-core fdtered algorithm can effectively increase the influence ranges of existing algorithms andreduce their execution times;in addition,the prop
12、osed GIMS algorithm has wider influence range and better efficiency,and itis more robustKey words:social network;Influence Maximization(IM);k-core;independent cascade model;diffusion tree收稿日期:20170725;修回日期:20170910。基金项目:国家自然科学基金资助项目(61502349);湖北省自然科学基金资助项目(2015CFB339);苏州市科技发展项目(SYG201442)。作者简介:李阅志(1
13、993一),男,湖北黄冈人,硕士研究生,主要研究方向:社交网络、数据挖掘;祝园园(1984一),女,河南周口人,副教授,博士,CCF会员,主要研究方向:图数据库、大规模数据分析、数据挖掘;钟鸣(1982一),男,湖北孝感人,副教授,博士,CCF会员,主要研究方向:大规模数据分析、图查询与处理、数据挖掘。万方数据第2期 李阅志等:基于|-核过滤的社交网络影响最大化算法0 引言随着Facebook和微信微博等社交网络的流行,越来越多的用户喜欢在社交网络中分享自己的观点和其他信息,使得网络影响力传播的研究成为社交网络分析的热点J。影响力最大化问题作为病毒式营销和广告投放等社交网络推荐研究领域的一个重
14、要问题,引起了广泛的关注和研究热情。影响最大化问题最早由Domingos等旧1定义为如何寻找t个初始节点,使得信息的最终传播范围最广。Kempe等口1将影响最大化定义为一个离散优化问题,证实了这个问题在独立级联模型下是NP难问题,提出了对后续研究影响极大的两种传播模型:独立级联(Independent Cascade,IC)模型和线性阈值(Linear Threshhold,LT)模型,并基于子模性质(submodularity)提出了一个基本的贪心算法Greedy。为了降低Greedy算法的时间复杂度,后来的研究者又提出了若干改进算法,如CELF(CostEffective Lary For
15、ward)算法”1、DegreeDiscount算法”1、核覆盖算法(Core Coveting Algorithm,CCA)Ee、PMIA(Prefexcluding Maximum InfluenceArborescence)算法71、IRIE(Influence Rank InfluenceEstimation)算法”o等。其中PMIA算法和IRIE算法被认为是现有影响力最大化算法中影响范围和时间效率排名靠前的算法。这些算法基本都使用了子模性质,虽然时间效率有了很大的提升,但是影响范围效果仍然比不上Greedy算法p1。Kempe等o已经证明具有子模性的影响范围函数使用Greedy算法求
16、解,能取得最优解的63pj。该结论表明当前取得最大影响范围的Greedy算法和最优解仍有差距。为了缩小现有影响最大化算法和最优解的差距,本文提出一种采用J|核过滤的算法,可以应用于现有的大多数基于子模性质的影响最大化算法,扩大它们的影响范围,降低它们的时间复杂度。基于该|I核过滤算法,本文对PMIA算法、CCA、OutDegree算法、Random算法分别进行优化,扩大了影响范围,降低了执行时间,尤其对于CCA,在不减小影响范围的情况下执行时间缩短了285。并且通过预训练k首次发现同一算法在同一数据集上取得最佳优化效果的k是固定值。李国良等叫提出了一种针对多网络实体影响最大化的算法,本文将矗核
17、过滤算法结合该算法思想应用到单个社交网络上,提出了一种新的影响最大化算法GIMS(General InfluenceMaximization in Social networks),该算法比PMLA和IRIE的影响范围更大,执行时间更短。1传播模型和问题定义设有向图G=(y,E)表示一个社交网络,其中:V表示节点集合,n表示节点总数;E表示边集,m表示边的总数。V。y表示节点,Ve(u,”)E E表示一条u指向甜的有向边。11 独立级联模型独立级联模型是一个概率模型。对于网络G中的每个节点都有两个状态:激活和未激活。每个节点只能从未激活状态转变为激活状态,每个节点可以被它的相邻节点激活。对于每
18、条边e(u,”)E E,需指定一个影响概率p(M,口)E0,1,P(u,”)表示节点“通过边e(u,”)影响节点口的概率。给定初始激活节点集合S0,传播过程以如下方式进行:当传播至第t+1步时,利用在第t步中被激活的节点,根据成功概率P(“,”)试图去激活它们的邻居节点,并将在这一步中被激活的节点加入到Js。形成S。;重复这一过程,直至不再有新的节点被激活。整个过程中u只尝试激活”一次,激活成功则”由未激活变为激活状态,激活失败则不再尝试激活。12 问题定义定义l 有向图G=(y,E)中,给定一个输入t,独立级联模型下的影响最大化(Influence Maximization,IM)问题是找到
19、G一个节点子集SV,S的最终影响范围盯(S)满足:盯(S+)=max盯(S)l|S l=t,SVSt sI=t定义2 一个集合函数f:2一R是单调的,如果以S)灭r)对所有sr都成立。定义3 一个集合函数f:2一R是子模的,如果以S u,)一,(|s)八ruld,)一八r)对所有|sry和ld,y都成立。Kempe等1证明了影响最大化问题是NP难问题,并且证明影响范围函数满足单调性和子模性,由此提出了可获得(1一le)的近似最优解Greedy算法。Greedy算法的影响范围是现有影响最大化算法中效果最好的,能取得最优解的63【3 J,但时间效率很低,执行一次需要几个小时甚至几天。本文提出一种_
20、|-核过滤算法,可以扩大现有算法的影响范围,并且降低算法的执行时间复杂度。2基于尼核过滤的影响最大化算法本文提出了一种蠡核过滤算法,可以应用于很多影响最大化算法,扩大它们的影响范围,缩短其执行时间。同时,本文还提出了一种新的单社交网络影响最大化算法GIMS,其影响范围比广泛认可的PMIA算法和IRIE算法效果更好,执行时间比PMIA算法更少。21七核定义4集合KV的任一节点口的度数不少于k,由K所推导出的最大诱导子图q(K,B)称为七-核。矗核概念由Seidman【l于1983年提出,可用来描述度分布所不能描述的网络特征,揭示源于系统特殊结构的结构性质和层次性质。虽然节点度在影响最大化问题中被
21、研究者广泛关注,但是度较大的节点可能较为分散,而|-核使得度较大的节点聚集起来,网络分布越集中,就越能受到彼此影响,从而产生更大的网络影响力。因此本文采用七核来优化现有影响最大化算法。22|-核过滤算法本文提出的|核过滤算法不是一个独立的影响最大化算法,而是通过与现有影响最大化算法相结合来扩大现有算法的影响范围,并缩短其执行时间。|-核过滤算法的基本思想是通过预训练k,找到对现有算法具有最佳优化效果、并且与选择种子节点数t无关的固定k值,在给定需要选择的节点数t时,通过计算图的|核过滤不属于矗核子图的节点和边,在尼核子图上执行现有影响最大化算法,从而达到减少计算量的目的。七核过滤算法涉及两个步
22、骤:1)通过预先训练找到能产生优化效果最好的参数k,如算法1所示;2)计算网络的J一核,并应用在现有算法中,如算法2所示。万方数据计算机应用 第38卷算法1预训练_|。输入有向图G=(y,E),迭代次数iter;输出最佳优化效果k。1)optk=0,女=0,t=md(O,10),盯“=0;2)while盯opl6) optk=女;盯“。盯;7) k+;8)return optk;算法2 k核优化现有算法。输入有向图C=(y,E),最佳优化效果_|,种子节点数t;输出 种子集合s。1)compute CI,the k-core subgraph ofG;2)s=商出ngIN algorithm
23、onGI;3)leurn|s;算法1的预训练过程需要提前完成以选出最佳优化效果奄,由本文实验可知,在选取不同的种子个数t时,取得最佳优化效果的矗是固定值。接着采用算法2计算G的种子集合s,此时的执行时间会减少很多,影响范围效果也会更好。本文利用Baugeli等21提出的算法计算I|-核子图q,通过迭代删除度小于|的所有顶点和与之相连的边,剩下的子图就是蠡核,时间复杂度为D(m)。针对不同的现有算法,_|核过滤算法有不同的结合方式,算法的时间复杂度取决于现有算法的时间复杂度,但通常比结合前的原算法效率更高。假设现有算法的时间复杂度为只n,m),那么|核过滤算法的时间复杂度为max0(m),八n。
24、,m。),其中m和m。表示I|-核子图的节点数和边数。通常以n,m)都是大于0(m)的复杂度,通过后一核过滤之后算法时间复杂度不超过0(m)租厂(,l。,m。)的最大值,但一定小于火乃,m)。算法2也可以脱离算法1直接执行,可以任意选择k,对现有算法的影响范围和执行时间都会有改进,只是没有预训练J的优化效果好。23_|-核优化现有算法现有影响最大化算法中,PMIA算法和IIUE算法传播影响效果较好,其中PlVlI哺的内存耗费较大,IBIE算法执行时间较长。本文将_|核过滤算法分别与CCA引、PMIA算法71、OutDegree算法和Random算法相结合,得到KCoreCCA算法、KCoreP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 过滤 社交 网络 影响 最大化 算法 李阅志
限制150内