基于隐朴素贝叶斯模型的链接预测算法-黄宏程.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于隐朴素贝叶斯模型的链接预测算法-黄宏程.pdf》由会员分享,可在线阅读,更多相关《基于隐朴素贝叶斯模型的链接预测算法-黄宏程.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、48卷第4期 四川大学学报(工程科学版) v。148 N“2016年7月 JOURNAL OF SICHUAN UNIVERSITY(ENGINEERING SCIENCE EDITION) July 2016文章Jlil号-:1009-3087(2016)04-0150-08 DOI:1015961jjsuese201604021基于隐朴素贝叶斯模型的链接预测算法黄宏程12,魏青1,胡敏1,冯榆斌1(1重庆邮电大学通信与信息3-程学院,重庆400065;2重庆大学计算机学院,重庆400044)摘要:基于共邻节点及其改进的链接预测模型中对共邻节点问的依赖关系考虑不足,不能完全利用网络的拓扑结构
2、信息,针对此问题,提出基于隐朴素贝叶斯模型和双隐朴素贝叶斯模型的链接预测方法。该算法考虑共邻节点间互相依赖关系及其依赖关系的不同,通过隐朴素贝叶斯分类模型计算节点之间的相似性,利用条件互信息来衡量节点间的依赖程度,提高链接预测的准确率。采用网络DBLP和Email的真实数据作为实验数据集,使用AUC和Precision算法来评价本文的预测模型,实验结果表明,本文方法比目前主流方法的预测效果更好,验证了方法的准确性。关键词:隐朴素贝叶斯;链接预测;相似性;条件互信息中圈分类号:TP391 文献标志码:ALinks Prediction Ba刚on Hidden Naive Bayes Model
3、HUANG Hongclfen91”,WE!Qinsl,HU Minl,FENG Yubinl(1School of Communication and lnfoEng。Chongqing Univof Posts and Telecommunications,Chongqing 400065,China;2College of Computer Sci,Chongqing Univ,Chongqing 400044,CIlina)Abstract:In order to solve the problem tllat the existing 1ink prediction models b
4、ased on local information between nodes consider thedependent relationships between common neighbor nodes insufficiently and fail to fully make use of the network topology information,thelink prediction method based on hidden naive Bayes model Was put forwardThe algorithm fully considered the interd
5、ependence betweencommon neighbor nodes and difference between interdependenceThen the similarities of nodes were computed through hidden naiveBayes classification model and the dependence between nodes were measured by utilizing the conditional mutual informationThroughthe above methods,the link pre
6、diction accuracy Was finally improvedIn the simulation,DBLP and Email data sets were used as the experimental data and the method of AUC and Precision were used to evaluate the forecasting modelsResults showed that the predictiveeffect of proposed al删蜘is better than that of the mainstream method whi
7、ch effectively verified the accuracy of the methodKey words:hidden naive Bayes;link pred蠡tion;similarity;conditional m面ual information链接预测是复杂网络的一个重要的研究方向,利用网络的拓扑结构预测网络中节点之间可能产生或缺失口。的链接,是分析网络演变和挖掘网络信息的重要方法旧J。链接预测具有重大的应用价值,如在社会网络、社交网络等,挖掘网络结构特征和用户行为特性M5 J,推动人际交往和社区的演变【6J,能够为用户推荐可能成为“好友”的其他用户,提高用户对相应网站
8、的忠诚度,也能对用户进行产品推荐和广告营销一1等。目前,在网络拓扑方面主流的链接预测方法主要有基于概率模型的算法、基于最大似然算法、基于节点相似性的预测算法J。前两种算法具有较高的预测准确率,但是计算复杂度较高,难以运用于大规模的网络环境。基于节点相似性算法主要是基于节点对间的邻居节点属性和度信息,计算简单,可扩展性良好,可用于实时预测,但是对于聚类系数较大收稿日期:21)150630基金项目:国家自然科学基金资助项目(61371097;61401051);重庆市科委基础和前沿研究资助项目(cste2014jcyjA40039;cste2013jeyjA40006);重庆市教委科学技术研究资助
9、项目(KJl400402;KJl30530)。作者简介:黄宏程(1979一),男,博士生,副教授研究方向:信息处理与复杂网络、容迟网络、应急通信网E-mail:huanghccqupteduenhttp:lsueseSCUeducn万方数据第4期 黄宏程,等:基于隐朴素贝叶斯模型的链接预测算法 151的网络,预测效果不理想。LibenNoweH和Kleinbergo分析了社会合作网络中各项指标对链接预测的效果,证明节点对越相似,发生链接的可能性越大。基于节点邻居类型的优先链接指标(preferential attachment,PA)Era、AA(adamicadar)11|、RA(resou
10、rce allocation index)121和Sorenson13 3等计算节点相似性的方法,是在节点共同邻居算法喁1(common neighbor,CN)的基础上提出来的。另外,局部路径指标4 o和Katz指标纠是在共同邻居指标的基础上考虑多阶邻居节点的贡献。邢星等刮提出通过邻居节点中各类型节点的关系来计算节点之间的直接信任度和间接信任度,提高推荐准确度;伍杰华m1通过改进朴素贝叶斯模型求节点间的相似性,引入GN和CMN两种经典的划分社区算法挖掘网络社区属性对预测节点对的影响,赋予共同邻居节点不同的连接度和社区贡献度并计算其贡献权重;王兴元等副通过共邻节点来定义节点之间的依赖度,优先将
11、最大依赖度不小于其他节点且有惟一依赖节点的节点划分到社团,并将对社团的依赖度或条件依赖度达到一定值的节点吸收进社团,直到所有节点都得到准确的社团划分;“u等钊将节点间的共同邻居作为先验条件,提出了一种基于朴素贝叶斯模型(naive Bayes,NB)的预测算法。东昱晓等怛叫提出节点引力指数算法,在考虑两个节点的共同邻居的度数基础上,将节点引力指数引入被预测节点与其共邻集之问的相互关系中,从而改善预测的效果。上述算法考虑了待预测节点对的共同邻居属性和节点属性,但都对因共邻节点相互链接而产生的依赖关系考虑不足,而共同邻居节点所具有的这一屙|生会影响链接预测的准确性,故并没有完全体现出网络结构对链接
12、预测的贡献。 、针对上述问题,考虑共邻节点之间相互依赖关系会导致共邻节点对链接的贡献不同,根据共邻节点间实际存在的链接的差异性,将依赖关系分为独立依赖关系和联合依赖关系。在NB链接预测算法分析的基础上引入隐朴素贝叶斯分类模型21|,为共邻集内的每个节点引入不同的隐含因子来表示该节点与其他各节点间的依赖关系,并通过条件互信息来衡量节点间的依赖程度。针对独立依赖关系的情形,设计了隐朴素贝叶斯预测模型(hidden naiveBayes,HNB);针对综合考虑独立依赖关系和联合依赖关系的情形,设计了双隐朴素贝叶斯预测模型(d6uble hidden naive Bayes,DHNB)。提出了基于HN
13、B的链接预测算法和基于DHNB的链接预测算法,提高了链接预测的准确率。1预测模型的设计11 网络描述和定义无权无向网络G=中,节点集V=W,W:,W。,边集E=(Wi,加Wi,训i相连),节点数为,边数为M,(W。,Wi)为网络中任意一个节点对。节点Wi的度为K。将网络G中的边分为测试集和训练集,训练集的边数为肘1,测试集的边数为胪。在训练集中任选两个不相连的节点W。、W,。定义1 预测节点对(W。,W,)之间存在连边,设状态为A,不存在连边的状态设为A。定义2 网络G中任一节点Wi的邻居节点集为0i=W。,W:,叫一为邻居集内节点数。定义3以,为节点W。和W,的邻居集的并集,则Uxy=O。u
14、 O,。O,为节点W,、W,的共邻集,则O,y=O。n Oy。12 隐朴素贝叶斯分类模型隐朴素贝叶斯分类模型(HNB)是在朴素贝叶斯模型旧21(NB)的基础上为每个属性引入一个隐含父节点表示该属性与其他各属性间的依赖关系。该模型为属性增加了约束条件,降低了独立性,充分考虑了属性间的依赖和影响关系。隐朴素贝叶斯分类模型包含3种因素:类、属性、隐含父节点,用C、A、F表示。该模型的概率联合分布为:P(A。,A2,A。,c)=P(C)几P(A。I E,c)”器瓦(1)其中,P(A Fi,C)=X P(At 4,c)(2)式中,Ai为第i个属性,其与另外所有单个属性之间依赖关系的总和是隐含父节点E,E
15、决定了Ai与不同属性之间依赖关系的强弱。13 基于隐朴素贝叶斯的链接预测算法由第12节可知,分类模型中属性是独立的,隐含父节点是属性间依赖关系的累加,则属性问的依赖关系也是独立的。但是,网络中的节点可能有一个或多个邻居节点,每个节点与其他节点的依赖关系也不相同,则本文将依赖关系分为两种:独立依赖关系和联合依赖关系。例如,某一节点Wi的独立依赖关系是节点Wi受其邻居集中任一节点的单独影响,万方数据152 四川大学学报(工程科学版) 第48卷而其联合依赖关系是节点Wi受其多个邻居节点的共同影响,为了方便分析,将其用多个节点对影响节点Wi来表示。定义4 在共邻集中,用隐含因子Ot表示节点间的独立依赖
16、关系的总和,用隐含因子届表示节点间的联合依赖关系的总和。根据这两种依赖关系和隐朴素贝叶斯分类模型,分别提出两种不同的链接预测方法,提高预测的准确度。只考虑隐含因子O的影响,提出了隐贝叶斯预测模型(HNB)。在HNB基础上,考虑隐含因子口的影响,用两个隐含因子来表示节点之间的这两种依赖关系,提出了双隐贝叶斯预测模型(DHNB),图l和2分别表示HNB和DHNB链接预测模型。图1 HNB预测模型Fig1 HNB prediction model图2 DHNB预测模型Fig2 DHNB prediction model2个隐含因子a和口是对节点间不同关系的描述,是互相独立的,则由隐含因子a和卢的影响
17、、NB预测模型和HNB分类模型可知,I-INB的概率联合分布为:P(w1,W2,加。,A1)=P(A1)n P(wi Oli,A1)wiEOxy(3)DHNB的概率联合分布为:P(w。,W:,wa,A。)=P(A。)H P(wi Ol;,Ai)=wiEOxyP(A,)n P(w;I“A)P(tJi,A,)(4)wiUxy由式(3)和(4)可知,DHNB的联合分布中包含着HNB的联合分布,HNB的相似度可以在DHNB的相似度的求解过程中得到,因此本文只分析DHNB预测模型。由共邻集作为先验条件预测节点对(w。,埘,)存在连边的概率P(A,1 0甜)为:P(A。1 01毋)=翱(埘i ai,A。)
18、P(叫t I屈,A,)(5)同理,可以得到预测节点对不存在连边的概率P(A。1 0。),则由NB预测算法可知待预测节点对的相似度为: 铲等-叩l-I吼,等等燃(6)将相似度公式的两边同时取对数:S叫=lb rxy=b。而P(AI)叩YI。等篙黼-f。川b丽P(Ao)+材b差等+豺粼+。羞jb渊(7)式中,1 0。I为共邻集内节点的个数,P(A。)和P(Ao)分别为任选一个节点对(埘。,Wy)存在j不存在连边的概率,可由式(8)求得: P,2鼎:,【P(Ao)_一篇P(A。I Wi)表示任意节点伽i的任两个邻居节点存在连边的概率,其与小世界模型的聚类系数具有相同的含义,则用聚类系数公式23 3来
19、表示。当Wi的任两个邻居节点相连、不相连时的概率分别为: P,=志,【P(A。h)=1一蒜式中,Mi为节点W;的共邻节点间实际存在的边数。经过上述分析,DHNB预测算法的节点相似度求解最终可以通过对P(加i I仅i,A。)和P(Wi 13;,A。)以及P(埘i ai,A。)和P(Wi I成,Ao)这2对隐含因子比值的求解得到。结合隐朴素贝叶斯模型可知:P(wi di,A。)=P(wi I叶,A。)(10)P(wi,A。)=P(wi I哆,埘。,A。)(11)焉_缓灞蘸鬟万方数据第4期 黄宏程,等:基于隐朴素贝叶斯模型的链接预测算法 153式(10)中的P(Wi Wj,A。)以及由此得到的P(W
20、i Wj,A。)可以根据网络的拓扑结构求得:P(wi 1 wj,A-)=e(w。1 w1,A。)=p(wt 1 wi)2玄(12)式中,P(Wi wj)表示从节点wj的邻居集内任意取一节点Wi的概率是IKj,即wj等概影响其邻居节点。同理可得:P(Wi IWj,WI,A1)=P(Wi Iwi,W,Ao)=P(wi Ewj,伽)2袁 (13)使用条件互信息的方法衡量节点间依赖关系,节点间依赖关系的强弱由权重表示,权重越大,节点间的依赖关系越强;权重越小,依赖关系就越弱。隐含因子Ot,3作用下节点Wi的邻居节点与其依赖关系的权重为: 2专蔫,=1专案,对节点相似度求解就是对条件互信息的求解:tp(
21、Wi,叶I A1)=。 、P(W。,wj Af9 7P(Wi,Wj,A1)m币亍艿褊2P(AI I 1Wi,wj)P(Wi,伽,)b者嵩碧篝瑞,式中,P(wi)为在网络G中任取一个节点Wi的概率,尹(蛾,ws)是任取节点Wi及其邻居节点wi的概率,即p(W。)=P(wj)=亩,: ” (17)P(wi,叶)=P(wj)P(埘i)。丽1P(A。l Wi,埘i)表示在网络G中相连节点Wi和wj的邻居集的并集玑,中存在连边的概率,与式(9)的原理相同: 驯嘶)=蒜(18)式中,鸭和心,分别为中实际存在的边数和节点数。+因求解的是节点间依赖关系的权重,则W;和Wj的条件互信息可以简化为:L(Wi,彬i
22、 A1)=州啪篙鼍篇揣一 (19)同理,对于两个隐含因子的条件互信息是:,p(Wi,wj,伽tI A1)=P(Wi,jh砌删b菇鬻黹=P(Al Wi,wj,WI)P(Al 113。,wj,W)P(wj,彬I Wi)P(A1)P(A1 113i)P(A1 Iwj,Wt)P(Wj,W)(20)式中,P(wj,W。l W。)为在节点加i的邻居集中任意选取两个节点的概率,P(wj,W。)为在网络G中任意取一节点对的概率,即P(q旭I Wi)2丽毒可(21)P(,训t)2赢(22)与式(9)和(18)类似,概率P(A,Iwj,W)和P(A。W。,wj,W。)也可以用聚类系数表示: P(A。l伽i,嘶,川
23、。)=志(23)式中,M瓣和融分别为节点加i、wj、埘。邻居集的并集中实际存在的边数和节点数。节点w。的邻居节点训i和W。不一定会有连边,当删i和W。相连时: 叫训)=嵩(24)当埘i和W。不相连时:驯h训)=丽等(25)式中,札、M、眠为每个节点邻居集内节点的个数,Mi、肘j、帆为每个节点邻居集内实际存在的边数。由上述推导过程得出待预测节点对的相似度,但是,HNB和DHNB算法面l临随着网络中节点数的增多,算法的时间复杂度会呈指数级增长。为此,本文采用条件互信息的方式,通过设置判决条件kmax,k以降低算法的时间复杂度。理论上,节点越重要,则影响越显著,而共邻集内的节点度越大,则该节点对待预
24、测节点对产生链接的贡献度越大,当某一共邻节点与共邻集内多个节点相连时,则受多个节点的影响比受单个节点的影响要大,即隐含因子口对共邻节点的影响比隐含因子0:要大。对于共邻集中的任一节点Wi,如果它与共邻集中多个节点相连,任取其中的两个节点wi、W。,DHNB链接预测算法做如下判决:万方数据154 四川大学学报(工程科学版) 第48卷当kmaxJi,k时,考虑隐含因子d捆共同作用,其节点相似度为:s掣=器卟H慧篙踹汹,当s maxIij,屯时,只考虑隐含因子Ol的影响,节点相似度为: s掣=等卟1-I黜(27)2实验结果与分析21 实验数据 一使用链接预测研究领域中比较常用的2个数据集:作者合作关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 朴素 贝叶斯 模型 链接 预测 算法 黄宏程
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内