基于区域交互模型的sns网络用户影响力评估-王楠.pdf
《基于区域交互模型的sns网络用户影响力评估-王楠.pdf》由会员分享,可在线阅读,更多相关《基于区域交互模型的sns网络用户影响力评估-王楠.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第37卷第1期2016年1月通信学报Journal OIl CommunicationsVbl37 NO1January 2016doi:10119598issn1000-436x2016020基于区域交互模型的SNS网络用户影响力评估王楠1,孙钦东1,周亚东2,王汉秦1,隋连升1(1西安理工大学网络计算与安全技术陕西省重点实验室,陕西西安710048;2西安交通大学智能网络与网络安全教育部重点实验室,陕西西安710049)摘要:针对现有方法与模型未能准确体现不同距离用户之问真实交互行为的问题,提出了一种基于用户区域交互模型的用户影响力评估方法。区域交互模型利用影响力传递的不同方式,刻画不同距
2、离之间用户的交互行为模式,能更为真实准确地反映在线社会网络用户之间的交互行为。通过计算用户对相邻用户的显性影响力与非相邻用户的隐性影响力,可有效识别在线社会网络中大影响力用户、僵尸粉用户等不同类型用户。基于新浪微博与人人网真实数据开展用户影响力评估以及相应的用户角色识别实验,结果显示,与现有方法相比,基于区域交互模型的识别方法可以准确有效地识别出在线社会网络中的大影响力用户、僵尸粉用户等各类型用户。关键词;用户影响力评估;区域交互模型:在线社会网络;大影响力用户;僵尸粉中图分类号:TP393 文献标识码:AStudy on user influence analysis via regiona
3、l userinteractiOH model in online social networksWANG Nanl,SUN Qindong 1,ZHOU Ya-don92,WANG Hartqin 1,SUI Lianshen91(1Shaanxi Key Laboratory ofNetwork Computing and Security,Xian University ofTechnology,Xian 710048,China;2MOEKLINNSLab,Xi眦JiaotongUnive辐ity,)【ian710049,China)Abstract:Conventional user
4、 influence researches do not accurately reflect the real interaction pattern between differentuse塔in online social networksIn order to solve this problem,a user influence evaluation method based on regional userinteraction model has been proposed11豫regional user interaction model can illustrate the
5、real online social network USerinteraction pattern between USers with different distance by the influence Wansfer effect11坞method calculates the directinfluence and the indirect influence of each 1Lser in online social networks and identifies the influential usel晤and zombieUSerSExperiments锄-e based
6、Oll the real data of Sina Weibo and RenRen online social networks and the results show thatcompared with the existing methods the method has better accuracy and efficiency for the influential u跚and zombieuser identificationKey words:USer influence evaluation,gional interaction model,online social ne
7、twork,influential USer,zombie user1 引言近年来,Twitter、新浪微博、Facebook等新兴在线社会网络(SNS,online social network ser-vices)吸引了大量网络用户关注。与传统的Email、新闻站点等网络信息交换平台相比,这些新兴在线社会网络具有用户主动参与度高、信息规模巨大、信息传播速度快等特点。海量用户之间通过关注或者添加好友等行为,建立起有向或无向的连接关系,并通过信息转发或者分享等行为形成了新型的网络生态系统。用户影响力评估是在线社会网络的重要研究内容之一,其研究结果可为网络的信息传播规律、用户行为分析等研究提供理
8、论支撑,并且可用于精准化网络营销、收稿日期:201502-03;修回日期:20150730通信作者:孙钦东,sqdxauteducn基金项目:国家自然科学基金资助项目(No61172124,No61571360。No61202392)Foundation Item:The National Natural Science Foundation ofChina(No61172124,No61571360,No61202392)2016020-1万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估网络舆情管控等提供技术支持【l】。目前,用户影响力相关研究方法大多基于网络拓扑结构、用户
9、行为【2卅等基础特征(诸如粉丝连接数、转发行为)对用户影响力进行评估。已有方法对用户影响力评估有着重要的参考价值,但是仍然存在不足。单一拓扑结构并不能真实反映用户重要性【5J,而基于介数等复杂的拓扑结构方法同样仅考虑到网络中用户之间的连接关系,忽略了用户行为等其他在线社会网络用户特性。基于用户行为的影响力评估方法大多从相邻用户之间的交互行为为出发点,对于一定距离范围内的非直接相邻用户行为交互分析不足。此外,现有影响力分析研究中大多数方法的研究对象只针对网络的大影响力用户,而在线社会网络用户可根据用户影响力被区分为大影响力用户、普通用户、僵尸粉用户等多种类型用户。在线社会网络中,用户之间的交互行
10、为与真实社会类似,用户之间即使并不直接相连,由于信息在不同用户之间的多次转发也能够形成交互关系,如图l所示。用户影响力可由与其不同距离用户之间的交互行为体现,并且对其他用户的影响方式以及影响力大小能够体现出该用户在社会网络中的地位与角色。本文以新浪微博与人人网为研究对象,针对现有研究中所存在的问题,提出了一个在线社会网络用户区域交互模型并对网络用户影响力进行评估。通过用影响力传递的方式描述用户与其他相邻或非相邻用户之间的交互行为,反映用户在在线社会网络中真实的影响力,并以此来对网络中的用户进行类型划分。实验结果表明,区域交互模型可应用于在线社会网络中用户的影响力评估研究,并且能够对网络中不同类
11、型角色的用户进行有效准确地识别。图1在线社会网络用户交互2相关研究目前,在线社会网络用户影响力研究大多针对大影响力用户的识别,现有方法可分为基于拓扑结构与基于用户行为特征等。早期研究大多将简单的拓扑结构属性直接作为评估与识别网络中重要节点的依据,如Leavitt等【6】直接将用户粉丝规模的大小作为判断用户影响力大小的依据。Kitsak等【7J根据计算用户的介数(betweenness)、中心度(centralities)等特征值来对用户影响力进行评估,进而筛选网络中大影响力的用户。Brown等【8】通过K-shell分解的方法识别Twitter中的大影响力用户,该方法通过节点在网络中所处的位置
12、对节点影响力进行评估,认为越靠近中心位置的节点其影响力越大。由于根据介数与中心度评估用户影响力的方法难以应用到大规模复杂的网络中,Chen等【9】在中心度等用户结构特征的基础上结合时间开销因素,对网络中节点进行影响力评估。基于用户行为特征的方法是在线社会网络大影响力用户识别常用的一类方法。此类方法大多基于用户转发、评论等行为,再采取相应的评估手段对用户影响力进行评估。Huang等【loJ将用户行为与PageRank算法相结合对微博社会网络中的用户影响力进行评估,研究结果发现网络中活跃用户的影响力更大,并且此现象与粉丝规模的大小并无严格的相关关系。Tang等【ll】研究了用户转发行为、交互信息内
13、容以及相应时间等属性与用户影响力之间的关系,并在此基础上提出了一个在线社会网络用户影响力评估架构。此外,针对大影响力用户识别还有一些其他类型方法。Uysal等【12】根据用户转发微博的习惯,提出了一种用户微博的排序方法,并以转发微博的可能性作为用户影响力评估的标准。Sun等【13】根据在线社会网络话题传播过程中用户行为的差别,将用户分为不同角色,并利用相应方法对分类过的用户进行影响力分析。对于僵尸粉识别,早期研究主要根据一些指标并通过简单的规则进行僵尸粉的识别【14】,这些方法虽然简单易于实现但是准确率偏低,难以应用到实际的僵尸粉识别工作中。目前,比较有效的僵尸粉识别方法大多通过特征选择,选出
14、与用户身份存在密切关联的特征集,然后通过机器学习的方法对僵尸粉进行识别,如Chu等【l 5】研究分析了多个正常用户、僵尸粉万方数据通信学报 第37卷用户等类型用户的特征,并提出了一个基于熵、用户属性以及文本处理的僵尸粉、正常用户分类系统。Bhat等1叼根据群组特性来对网络中僵尸粉进行研究,通过分析群组交互性、用户连接、用户是否为核心节点等多个属性,对网络用户类型进行划分。3数据集实验过程所使用的数据通过爬虫程序采用广度优先的策略从新浪微博以及人人网获得,并且为保障用户隐私所有数据均进行了匿名化处理。在采集新浪微博数据时,利用新浪提供的API获取相关数据,采集人人网数据则使用基于页面内容解析方式
15、的网络爬虫进行爬取。最终得到的微博数据如表l所示,采集得到的微博用户数据中分为用户信息以及用户的微博信息,其中,用户信息包括用户UID、昵称、微博数、粉丝数、关注数以及注册日期等。微博信息则包括了发布时间、转发量以及转发列表信息等。表1 新浪微博数据集对于人人网,由于其有向图性质以及受限于隐私保护策略,在爬取数据时选取的实验室内部成员为根节点,筛选可以浏览到新鲜事分享的用户对其信息进行存储。最终得到的人人网数据如表2所示。其中,用户信息包括用户UID、好友数、学校信息、用户基本信息等。新鲜事信息包括参与信息分享过程的用户链以及信息、分享数等。表2 人人网数据集4区域用户交互模型磁场、引力场等物
16、理学的场模型理论描述了物理场中节点之间的相互作用关系,以及物体之间的能量传递效应。在线社会网络用户之间的交互行为与场模型中节点问的交互作用相类似,具有相近的特征。作者在前期研究中发现,用户之间的交互行为与影响力相关,用户影响力由于与其相邻和非相邻用户的信息转发行为具有与场模型类似的传递效应【l 7|。本文在考虑用户交互行为与影响力传递关系的基础上,提出了用户区域交互模型,用户区域交互行为模式与影响力传递机制如图2所示。交互行为与影响力传递过程可描述如下。有社会网络G(E功,其中,矿表示社会网络的节点集合,E为边集合,表示节点之间有无连接关系,其值的大小表示节点之间的距离。净H,圪,玛),其中,
17、圪是n的粉丝节点,乃是圪的粉丝节点。如果圪转发了巧的信息,由于信息内容或者用户真实身份等因素,n所发布的信息有一定的概率被乃的粉丝再次转发。转发过程使H的影响力沿着转发链传递下去,同时节点由于信息被转发其影响力得到了增加,此过程与能量反馈相类似。根据参与转发用户之间的距离,本文将影响力划分为2种不同的形式:显性影响力与隐性影响力。显性影响力表示距离为1(庐1)的情况下,用户转发所传递的影响力,即由于粉丝用户转发所产生的影响力。隐性影响力表示距离大于1(D1)的情况下,用户转发所产生的影响力传递效应,即由于非直接相连接用户转发所产生的影响力。影响力传递隐性影响力显性影响力 直接交互 间接交互图2
18、用户区域交互行为与影响力传递图2中由用户交互产生的影响力传递效应可被推广到一般模型。假设有社会网络图G|暇功,V表示节点集合肛n,圪,虼),E表示边集合庐El岛,厶。则可以得到如下定义。定义1 t时刻节点(即用户)之间的连接关系(距离)矩阵为2016020-3t瞳=(嘭)棚=dl dl dld d ddt dt dt万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估 163。其中,西的取值为边集合E中的值。定义2 t时刻用户巧转发巧信息的转发关系矩阵为C=(弓)。=吐吒t乞tl c2t2c2t”。:乇其中,C:0,表示t时刻用户K转发形信息的行为关系,值为0表示用户K与巧之间没
19、有转发关系,值大于0时表示存在转发关系。在此假设前提为一个用户可以转发同条信息多次。根据转发关系矩阵可得出以下2个结论。结论1 t时刻用户圪转发总量为噶,即为,=1g中第k行的总和。结论2 t时刻用户圪信息被转发总量为,即为q中第七列的总和。i=I定义3所有节点(即用户)在t时刻的发帖数目向量为嘭=(E)k。=(W,呓,E)总的转发数量。用户吸引度为用户吸引粉丝,并使其信息被转发的能力。用户吸引度与粉丝转发其信息占粉丝转发平均比例成正比,粉丝转发其信息的比例越高,表示该用户对其粉丝的吸引越大。此外用户活跃度与其粉丝规模曰(f)成正比,活跃粉丝越多表示该用户的信息具有被更广泛传播的可能性。由于用
20、户影响力分为显性影响力与隐性影响力,所以在模型中t时刻用户圪总的影响力为所有传递效应产生的显性与隐性影响力之和,表达式为=,(圪,t)=厶(圪,f)+(圪,t) (5)其中,厶(圪,t)、(圪,t)分别表示t时刻用户圪总的显性与隐性影响力。由图2可以看出,用户的显性影响力为相邻用户间的影响关系,其物理意义可由某一时刻邻接用户转发引起的用户影响度变化率表示,其表达式如下Jf“嚷(f)=警(酗 (6)“i=1月of其中,=表示用户圪的吸引度在时刻t的变化速(3) 度;酲表示在f时刻用户巧与圪之间的显性关系,定义4 t时刻用户珞活跃粉丝的规模为B(力,其值为参与转发的粉丝数,即召(K,t)=扣鼽畦-
21、器为定义2中转发关系矩阵C中第k列的值。定义5 t时刻用户K若转发了的信息,且他们之间的距离为,则称圪为K的,距父节点,记为嗽;相对应地,称所为的,距孩子节点,记为啭。若与珞距离为,的孩子节点有多个,则嘭=砭,瑶r,略),其中,KWvh。用户的信息越多地被转发表示该用户的吸引度越大,其影响力传递效应越强,基于上述定义,本文建立的用户区域交互模型中在t时刻用户攻的吸引度为,可由以下公式计算=B(圪,f)去生 (4)“扛1勺t其中,以为粉丝K转发圪的信息数量,弓为K其取值为暖气箍为定义2中转发关系矩阵C中第k列的值。由于用户影响度变化率瓯表达式为导数形式,需要将其离散处理,采用向前差分格式,最终的
22、表达式为嚷=警窆i=I(暖)=华喜(剐(7)那么,t时刻用户圪的显性影响力以f)则可由累计的相邻用户影响度变化率表示L(K,f)=嚷 (8)对于时间尺度的间隔缸,本文实验取At=l,t=-0,1,2,T(T是考虑到的最大时间,时间单位为天)。在初始时刻用户之间没有信息传递,其显性影响力为零,因此在初始时刻(即零时刻)规定以vk,o)=o。对于用户的隐性影响力,采取遍历连接图中所有父节点的方式,计算每个父节点与其孩子节点的20160204万方数据通信学报 第37卷传递效应总和衡量该父节点的隐性影响力。所以f时刻用户攻的隐性影响力从O,本文主要考虑圪与其,距孩子节点(,1)的影响关系。假设此时用户
23、圪有m个孩子节点,则从f)表达式为(圪,f)=(厶(略f)p7)=瓠芸嗽)p, 其中,P为转发概率(其值是通过抽样得到的分布概率),为用户间信息转发的路径距离。实际中,由于影响力作用的距离,不可能是无穷远。若已知t时刻用户之间的连接距离矩阵中的最大值dk,则相应地修正隐性影响力从力表达式为(刎=芝(L(嘿r)矿):斯窆L(训(10)=2 L-1 其中,碱,表示t时刻用户圪的,距离孩子节点数。综上所述,t时刻用户攻总的影响力为t=I(Vk,t)=L(圪,f)+(K,t)。;(兰学善(最)+塞慷厶(酬”2L户1 =(“一)(剐)+虮窆厶(咖)H (11)”2卢1 用户任意t时刻影响力可基于上述过程
24、计算得到。由于实验过程中所需要处理的用户数据都是十万级别以上的,此时得到的转发关系矩阵、连接关系(距离)矩阵等是稀疏且相当庞大的,而大数据的存取也制约了模型的求解。为了解决上面的问题,本文采用图论中树形结构的方式来表达用户间的连接关系,使数据的存取和模型的求解得到极大的简化。5用户交互行为实证分析在线社会网络中,相邻用户交互行为可以通过直观的数据进行分析,而不相邻用户之间的交互行为则难以直接被观测到。本节通过分析表明非直接相邻用户之间是否存在交互行为且具有一定规模能够为区域交互行为模型提供支撑。51用户关系的确定研究不同距离用户之间的交互行为,需要确定转发链中各个用户之间的连接关系。由于各SN
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 区域 交互 模型 sns 网络 用户 影响力 评估 王楠
限制150内