基于完全子图的社交网络用户特征识别方法-胡开先.pdf
《基于完全子图的社交网络用户特征识别方法-胡开先.pdf》由会员分享,可在线阅读,更多相关《基于完全子图的社交网络用户特征识别方法-胡开先.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第29卷第8期2016年8月模式识别与人工智能PRAIV0129 No8Aug 2016社交网基于完全子图的络用户特征识别方法水胡开先1,2 梁 英1 苏立新12 许洪波1(中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190)2(中国科学院大学北京100049)摘要社交网络已经成为人们获取信息、交友的主要媒体,但其自身虚拟性、匿名性等特点在给人们带来便利的同时也使用户身份不易确认为此,文中提出基于完全子图的社交网络用户身份特征识别方法,根据三度影响力原则,构建推测模型,通过分析社交网络拓扑结构图中构成完全子图的用户属性,推测未知用户的未知身份特征提出多度包含完全子图身份特征识
2、别方法和多度传递的完全子图身份特征识别方法,利用未知用户的三度互粉社交网络拓扑结构图的邻接矩阵搜索完全子图,通过多数投票器方法进行身份推测,有效改善因社交关系稀疏而导致的用户身份特征识别结果不稳定的问题实验表明文中方法具有较高的准确率关键字用户特征识别,三度影响力原则,社交关系,社交网络,完全子图中图法分类号 TP 393 DOI 101645ljcnkiissnl003与059201608004引用格式胡开先,梁英,苏立新,许洪波,傅川基于完全子图的社交网络用户特征识别方法模式识别与人工智能,2016,29(8):698708Method for Social Network User Fe
3、ature Recogllition Based on CliqueHu Kaixianl”,uANG Ying,SU Lixinl,XU Hon曲01,FU Chuanl1(研如6D阮细形酽耽6 D口把&洳。凡d忍陀DZ蝴r,凰觑把矿cD印甜抛7碱n。切,CRinese Acode,v Q厂Scienc,Be玎irzg 100190)2(踟泌瑙如旷蕊i凡ese Acnde,v Q厂&搪nc酣,Be拆增100049)ABSTRACTSocial network is a major media for people to get dif玷rent info珊ation and make fhe
4、nds As thesocial network keeps developing,it bdngs convenience to people but meanwhile identifying user identitybecomes di硒cult7ro solve this problem,a method for social network user feature recognition based onclique is proposed According to three degrees of innuence mle, the inf色rence model is bui
5、lt, and国家重点基础研究发展规划(973计划)(No2014cB340406,2013cB329602,2012cB316303)、国家高技术研究发展计划(863计划)项目(No2015AA015803)、国家自然科学基金重点项目(No61232010)、国家自然科学基金面上项目(No,61173064)、国家科技支撑计划项目(No2015BAIf y I&1 x f2 then遍历完所有用户且当前解中节点数量大于2时ifx then 如果当前解包含推测用户知;加;铂屹如如嘶地;站瓤万方数据模式识别与人工智能 第29卷Js酣insert X将当前解加入多度包含完全子图的集合else 如果
6、当前解不包含推测用户Sinsert X将当前解加入多度传递完全子图的集合end ifreturnend if返回nag=fr“e是否能保持当前解为完全子图的标记for_=1 to i一1if巧E X&o口=0 then如果,在解中且当前节点口i和秒i没有互粉关系nag=知zse; 不满足完全子图条件break:end ifend fbrifnag then兄i凡sen将当前用户节点加入到当前解cZigueSe口rc危(A,i十1,秽。)递归第i+1个用户节点end ifx如胁e口i不将当前用户节点加入到当前解c蜘ue5eorc(A,i+l,。)递归第i+1个用户节点算法中:5。为多度包含完全子
7、图G。的集合,即G。s。;Js。为多度传递完全子图G。的集合,即G。s。;x为当前完全子图解;i和,的取值范围为1,I y|算法初始值i=1,x=勿算法设初始解为一个空集,首先加入一个用户节点,然后依次考虑每个用户节点,判断该用户节点加入解集后是否仍然与解集中其他用户节点构成一个完全子图,判断依据是邻接矩阵A中对应元素nii表示的2个用户节点之间是否有互粉关系如果是,递归考虑将该用户节点加入解集或舍弃;否则,直接舍弃,然后递归判断下一用户节点注意到搜索社交网络拓扑结构图的所有完全子图是NP问题算法1是确定性算法,在当前用户的二度互粉中搜索完全子图的计算开销可接受当搜索完所有用户节点后,算法停止
8、为了保证能准确搜索到所有完全子图,本文采取上述确定性算法搜索完全子图以图l为例,算法结束后s。=口。,t)l,妒2,秒3,秽4为所有多度包含完全子图,s。=秽5,秽6,秽7,秽8为所有多度传递完全子图22 多度包含完全子图身份特征识别方法社交网络拓扑结构图的完全子图中的用户之间具有较强影响力和同质性,他们通常具有相似的兴趣爱好、职业、年龄在此基础上,如果当前用户秽,的身份特征属性未知,可以通过完全子图中其他用户对应的身份特征属性值推测的未知身份特征属性为了尽可能提高推i910的准确性,当秽,有充足的互粉数时,本文利用多度包含完全子图G。=(K。Ed舻。)推测未知身份特征詹|生,具体方法如算法2
9、所示算法2 多度包含完全子图身份特征识别方法G=geFr沈nds(秽。);生成的二度互粉的社交网络拓扑结构图GA=creoeM口ri戈(G);生成的邻接矩阵A=口i。c蜘eSerc(A,1,口。);在4中搜索所有多度包含完全子图for V秽iK;。获得所有G。包含的用户的身份特征属性集合歹,=gez4ri6n把(口i);for V iJ,=C(q);通过分类器c2分类,中身份特征属性嘲“如=co“n(I);通过多数投票计数器心计算G。中用户同质的身份特征属性图4为一个用户社交网络拓扑结构图中部分用户组成的包含被推测用户a,的完全子图的示意图从图中可看到,该完全子图中有包括被推测用户秽,的5个用
10、户节点,每2个用户节点之间都有1条表示互粉关系的边相连图4 多度包含完全子图示意图Fjg4 Sketch map of current user included clique图4中包含被推测用户吼的完全子图对应的邻万方数据第8期 胡开先等:基于完全子图的社交网络用户特征识别方法接矩阵如下: q 吻 Au 0 1 11 0 1l l 0l l 11 1 l 啦 铷l 1l 1l 1O l1 O从图5可看到,当前用户所属的完全子图一共有5个用户,每2个用户间互为互粉关系此时”的职业和兴趣未知,用户口。、秽:、口,、钉。的职业和兴趣已知,根据前文所述“完全子图中的用户有强关联关系,共享相似的用户身
11、份特征”,可以通过用户、移:、钟,、的身份特征属性推测的身份特征属性根据图5可知,用户秽。、秽:、口。、职业的交集为CEO,兴趣的交集为互联网,因此,推测的职业为CEO,兴趣为互联网职业:创始人叵围兴趣:匡圃创业 兴趣:匡囫创业圆兴趣:圈图5 多度包含完全子图子方法示例Fig5 Example of method of current user included clique注意到图5的示例是理想情况,在现实情况中,很可能无法找到完全子图中所有其他用户共有的某个相同的身份特征,本文通过对各身份特征属性值进行计数计算推测结果23 多度传递完全子图身份特征识别方法如果当前用户无充足的互粉数,无法在
12、社交网络拓扑结构图中搜索到足够的多度包含完全子图瓯。,考虑通过多度传递完全子图戗。推测当前用户啡未知身份特征属性多度传递完全子图中存在至少一个用户节点和当前用户是互粉关系,且2个节点之间的最短路径小于等于2满足上述规则后就可根据社交网络用户间的社交影响力和同质性,通过氏。中其他用户的身份特征属性推测口。的未知身份特征属性,具体方法见算法3算法3 多度传递完全子图方法G=getnien出(秽。);生成的二度互粉的社交网络拓扑结构图GA=cre口e朋rotr如(G);生成G的邻接矩阵A=口。cZigneiSeo,c危(A,1,秽。);用完全子图搜素算法在A中搜索所有G。for Vk。获得所有G。包
13、含的用户的身份特征属性集合,=ge识打沾u抛(秽f);for V i E,歹=C(秽);通过分类器C2l 3分类,中身份特征属性您sM如=cou眦(正);通过多数投票计数器心计算G。中用户同质的身份特征属性i图6是在一个社交网络拓扑结构图中,部分用户组成的多度传递完全子图的示意图从图中可看到,该完全子图包含4个用户节点,每2个用户节点之间都有1条代表互粉关系的边相连图6 多度传递完全子图示意图Fig6 Sketch m印of multi-degree passing clique图6中的多度互粉形成的多度传递完全子图对应的邻接矩阵如下:从图7中可看到未包含用户的完全子图,但是有包含用户秽。的完
14、全子图,且用户影秽。间的中继节点的个数小于2,因此,可通过用户秽,所在的完全子图中用户的身份特征属性推测用户的未知身份特征属性用户影。、秽:、移,、秽。的职业交集为CEO,兴趣mnm。;k;,“;“;,;q屹如;mm聘AA一;00如O11O也O1O11铂1Oll1一OOOO一;。“;地也啦;万方数据模式识别与人工智能 第29卷交集为互联网,因此该完全子图共有的相同职业是cEO,相同兴趣是互联网,通过相似属性传递的理论,可推测得到用户秽。的职业为cEO,兴趣为互联网如同23节提到,实际情况可能不如图7中理想,需要对完全子图共有身份特征属J陛值进行投票计数处理职业:创始人圆兴趣:匡坷创业创业图7
15、多度传递完全子图方法示例Fig7 Example of method of multi-degree passing clique3 实验及结果分析为了评价用户身份识别方法的推断准确性,使用新浪微博开放API及浏览器模拟登陆抓取网页内容的方式收集新浪微博的用户数据,包括用户信息和用户的社交关系实验收集的新浪微博数据超过12亿用户,在实验中,将从此数据集中随机选择信息已知的微博认证用户作为样本数据,样本数为1 000注意到,本文的实验数据并不是新浪微博的全量数据,本文方法能够通过多度传递完全子图解决在被推测用户社交关系稀疏时推测其未知身份特征,实验数据满足实验需求本文以样本用户的互粉列表为基础,
16、从新浪微博获得其互粉好友用户信息和社交关系首先,本文随机获取1 000位样本用户,然后以上述用户作为种子用户获得他们的互粉用户,再以上述互粉用户作为种子用户,获取第二层互粉用户作为实验的数据集合31 数据分析本文从1 000位随机样本用户选取14位用户,获得其二度互粉用户共5 512位,对这5 512位用户做出聚类分析,使上述5 512位用户聚类为14个团,与初始的14个新浪微博认证用户的数量吻合,这说明二度互粉之间能够传递相似的用户身份特征属性基于完全子图的身份特征识别方法使用的实验数据为信息已知的1 000位新浪微博认证用户其中无法获得任何完全子图的用户29位,无法获得多度包含完全子图的用
17、户157位,无法获得多度传递完全子图的用户61位注意到将基于完全子图的方法引用到上述实验数据集时,部分用户的社交关系中没有可以挖掘的完全子图用于推测其身份特征属性,本文将上述用户作为无效样本且不处理,在计算各方面实验评价指标时,不考虑上述用户,具体如表1所示表1 基于完全子图的身份特征识别方法适用性统计表Table 1 Statistics of feasibility of method for user identityfe砒ure recognition based on clique完全子图推测 覆盖率所有完全子图最大多度包含所有多度包含最大多度传递所有多度传递971(9711000)
18、843(8431000)843(8431000)939(9391000)939(9391000)从表1可看到,无任何类型完全子图的用户有29位,因此,可根据该人数计算其它数据的用户数例如,无法获得多度包含完全子图但能获得多度传递完全子图的用户数为15729=128位,其它以此类推32 评价指标本文使用3个评价指标评价基于完全子图的身份特征识别方法的效果,分别是准确率P、pn和Apn: 肚赫州00,pn:堡100, nApn=去耋p;n00其中,推测结果指完全子图中其他用户的身份特征属性投票后降序排列结果,n为第1到n项候选推测结果,m为样本用户的数目,冲(Tme Positive)为适用本文方
19、法且推测准确的用户数,即(FalsePositive)为适用本文方法且推测错误的用户数,卯。(True Positiven)为推测结果前n项中适用本文方法且推测准确的用户数本文方法的实验主要分为2部分:多度包含完全子图实验,包含完全子图时多度传递完全子图实验后者可在当前用户社交关系不够健壮,无法获得多度包含完全子图时,通过当前用户的传递互粉所在的完全子图推测当前用户的身份特征属性33 多度包含完全子图实验在多度包含完全子图实验中主要考虑2种推测万方数据第8期 胡开先等:基于完全子图的社交网络用户特征识别方法方法:使用最大多度包含完全子图推测,使用所有多度包含完全子图推测前者只考虑一个完全子图的
20、推测结果,后者考虑所有多度包含完全子图叠加的推测结果在实验中,本文分别考虑top5到t叩30之间适度等间距项推测结果的准确率和pn实验表明,在n的各个取值下所有多度包含完全子图推测命中率都优于最大多度包含完全子图推测命中率由图8可看到,随着考虑推测结果项数的增加,命中率区间40100、0所占百分比的趋势下降;命中率区间O一20所占百分比大幅上涨(a)中命中率区间2040在p15由上涨变为下降,而(b)中命中率区间20一40从p5到p30保持上涨趋势,这说明所有多度包含完全子图推测结果的命中率高于最大多度包含完全子图的推测命中率,准确率更高,推测更有效冰60睾50暑40舞3020量一10霄O枣枣
21、妒爹擎妒妒妒擎妒擎(a)最大多度包含完全子图(a)Max current user included clique亭枣爹擎擎妒妒妒擎妒妒j(b)所有多度包含完全子图(b)AJl cu玎ent user included cliqIIe综上所述,在使用多度包含完全子图推测用户身份特征属性时,本文推荐考虑所有多度包含完全子图的推测结果34 多度传递完全子图实验当用户无健壮的社交关系,无法挖掘多度包含完全子图时,需要通过该用户的多度传递互粉所在的完全子图推测当前用户的身份特征属性在多度传递完全子图实验中主要考虑2种推测方法:使用最大多度传递完全子图推测,使用所有多度传递完全子图推测前者只考虑一个完全
22、子图的推测结果,后者考虑所有多度传递完全子图叠加的推测结果实验结果见图9,结果表明,在n的各个取值下所有多度传递完全子图推测命中率都优于最大多度传递完全子图推测命中率守枣爹爹擎擎妒妒擎妒妒(a)最大多度传递完全子图(a)Max multidegree passing clique$窜爹爹擎妒爹妒擎妒妒(b)所有多度传递完全子图(b)A1l multi-degree passing clique图9 多度传递完全子图命中率分布趋势图图8 多度包含完全子图命中率分布趋势图 Fig9 Trend8 of hit dist曲ution of multidegree passingFig8 Trends
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 完全 社交 网络 用户 特征 识别 方法 开先
限制150内