基于多学习因子粒子群算法的微博用户影响力分析-张硕.pdf
《基于多学习因子粒子群算法的微博用户影响力分析-张硕.pdf》由会员分享,可在线阅读,更多相关《基于多学习因子粒子群算法的微博用户影响力分析-张硕.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于多学习因子粒子群算法的微博用户影响力分析张硕,杨一平,武装(首都经济贸易大学信息学院,北京100070)摘要:分析了用户与其所在网络社团之间的关系,将岛屿模型的思想应用于标准粒子群算法的改进,提出了一种多学习因子粒子群算法(MPSO)。该算法综合考量了用户自身属性和社团关系网络特性两种影响因子,克服了网络水军和僵尸粉的干扰,同时这种改进的粒子群算法使得粒子在进化过程后期更具多样性,避免陷入局部最优。最后通过与Page Rank算法、BehaviorRelationship Rank算法进行对比,充分验证了MPSO算法的准确性以及可靠性。关键词:用户影响力;多学习因子粒子群算法;岛屿模型;社
2、交网络DOI:1013956jss1001840920171030中图分类号:TP391 文献标识码:A 文章编号:10018409(2017)10014005Analysis of Microblog UsersInfluenceBased on M PSO AlgorithmZHANG Shuo,YANG Yiping,WU Zhuang(School of Information,Capital University of Economics and B淞iness,Beijing 100070)Abstract:7rhis paper considerates the relation
3、ship between user and social network,and proposes MPSO algorithm whichapplies island model to the improvement of standard particle SWalTU algorithmThe algorithm considerates the informationfrom user attribute and social network factorsso it can overcome the influenee of artificial followersAt the sa
4、nle timeMP-SO algorithm increases the diversity of particles and avoids to fall into local optimumThenit compares the BehaviorRelationship Rank algorithmPage Rank algorithm诵tIl MPSO algorithm to prove the accuracy and reliability of itKey words:user influence;MPSO;island model;social network1 引言微博是近
5、年来一种新兴的社交网络平台,用户可以通过网页、手机以及其他通讯设备等登录微博并对信息进行浏览和分享,通常字数在一百四十字以内。Berger曾指出,社会分享内容的扩散并不是一个随机过程而是取决于其自身的“传播性”。在微博平台上这一现象则更为突出,获得高关注度的博主往往会在微博信息的传播中起到向导的作用,甚至可以决定热点话题的产生以及扩散范围。因此,研究微博用户影响力不但对于微博信息的分析和挖掘有着至关重要的作用,还可以在一定程度上帮助有关部门应对突发事件的产生。最初,Huberman等用Twitter用户的粉丝数来衡量其影响力的大小,随后关于社交网络平台上用户影响力的研究则吸引了大批学者的关注心
6、-。在国外的研究中,很多人将传统的PageRank算法应用于网络平台上用户影响力的研究,但由于该算法本身存在弊端,因此只能描述出用户之间的关注关系而忽略了账户的自身属性p。在此基础上,研究者们结合社交网络的特点,将情感分析、文本分析等方法应用于Page Rank算法的改进。Meeyoung Cha L4 J提出了一种基于用户行为和用户关系的BehaviorRelationship Rank算法(BRR),该算法包含入度、博文被转发以及博主被“”3种用户行为,然而这种方法刻画的是用户在过去某个时刻的影响力而不具备对当前或是未来某时刻影响大小进行度量的能力,因此不具备实用性。Chen和Kimura
7、将研究方向转向信息的传播和扩散过程上,用贪婪算法进行仿真模拟,最终将问题转化为如何挑选关键节点使得信息传播可以实现影响力最大化”冉1。Weng则将微博平台看做一个复杂的网络系统,对不同信息主体下收稿日期:20160902 基金项目:国家社会科学基金项目(16BGLl45);北京市社会科学基金项目(14SHB015);北京市教育委员会科学研究计划基金项目(SM201410038013)作者简介:张硕(1992一),女,北京人,硕士研究生,研究方向为智能算法、信息经济学;杨一平(1954一),男,教授、博士生导师,研究方向为管理信息系统、信息经济学;武装(1970一),男,副教授、硕士生导师,研究
8、方向为智能算法、图形图像与软件工程。140万方数据信息的传播路径进行分析,通过实验证明了在不同的信息类别下草根用户拥有比大V用户更强的影响能力u1。在国内的研究中,石磊等人综合考虑了用户粉丝数、关注数、博文数等,将活跃度指数引入用户影响力计算。唐杰和吴斌等人则建立了不同主题以及不同邻域下用户影响力传播模型,以此研究不同主题内容下用户影响力的大小归”J。而后,随着网络的进一步发展,研究则集中于应对微博中大批出现的水军和僵尸粉的干扰。Dejin等用PR值表示用户节点的入度,构建了User Active Rank模型并引入用户活跃度和博文实时性等重要参数来衡量用户节点的影响力大小,该方法的弊端是会倾
9、向于发博文数较多的用户节点111。Eytan Bakshy认为口碑信息的传播存在级联关系,因此为了有效解决僵尸粉的影响,他从最受欢迎节点的URL开始,滚动追踪一系列跟随者的URL地址,直至传播过程终止2|。但是该方法计算过程复杂,效率不高,最重要的是忽略了用户节点本身的特性。与上述工作相比,本文的研究在用户粉丝数、关注数和博文数等广泛被研究的因素之外,将用户所在的社团关系网络特性引入了影响力的计算模型之中,应用岛屿模型的思想提出了一种基于多学习因子的粒子群算法(MPSO)。该算法综合考量了用户自身属性以及所在的关系网络特性,克服了水军和僵尸粉的干扰,同时这种改进的粒子群算法增加了粒子在后期进化
10、过程中的多样性,避免陷入局部最优。最后通过与Page Rank算法、BRR算法进行对比,证明了MPSO算法的准确性和高效性。2相关研究以及特征属性提取21 Page Rank算法Page Rank算法是上世纪末由Google创始人提出的,该算法的主要思想是将用户浏览网页的行为模型化,进而利用网页之间的链接结构来确定该网页的重要程度1。由于社交网络中用户的关注和被关注关系与网页中的链入和链出关系非常类似,因此大量的研究者们将PageRank算法应用到在线社会网络的研究中,借此评估某用户节点在消息传播网络中的重要程度。其计算公式为:一PaeeRankfP、PageRank(Pf)。d+(1一d)专
11、雨亨上(1)PE村(P) uj式(1)中,P表示单个用户,M(Pi)为该用户的入度,L(P。)为该用户的出度,d为阻尼系数,表示该用户随机关注其他用户的概率。但是,在上述计算方法中仅仅是将这些用户节点比拟为静态的网页,并没有考虑其背后所具有的关系网络特性。主要忽视了以下3个方面:(1)节点间的信息传播方式;(2)节点之间存在的弱链接关系;(3)社交网络中邓巴数字的影响。针对Page Rank算法的不足,学者们做了大量的改进。然而这些研究中大都将用户行为作为重要考虑的方面,很少去关注导致这些用户行为发生的一些社会特性。为了克服之前研究工作的不足,本文以用户为切入点,同时对用户自身属性以及所在的社
12、团关系网络特性进行分析,将2种影响因子引入模型的计算,进而度量用户的信息传播能力。22微博用户影响力特征提取221用户自身属性微博具有实时性、自主性以及共享性等特点,每天都有大量的用户在微博平台上参与热点话题的讨论。用户登录微博之后不仅可以对外发布信息还可以浏览来自于其他用户的信息,当看到感兴趣的话题时,用户通常会根据认知水平挑选出自认为有价值的内容进行分享和转发,同时作为信息源头的博主也会因此获得更多的关注。在整个过程中,大V用户的分享、评论等行为对信息的传播起到至关重要的影响。研究发现,微博账户的粉丝数、关注数以及互粉数最能体现单个微博用户的账户状态心。31“。因此,为了评估微博平台上用户
13、影响力的大小,定义声望值P如下:r、上1P=坦(坐掣)(2)。Vg(肛)+1上式中,N,代表用户斗的粉丝数(即肛的入度),N;代表用户肛的关注数(即斗的出度)。222社团密度趋同性是社会网络最基础的特征之一,指的是处于不同环境下的角色之间会相互影响、相互借鉴,直至趋向一致。Singla等在真实社会网络中进行了大规模的趋同性实验,其实验结果验证了大规模在线社会网络上趋同性的存在H“。通过提取微博用户的相关信息,借助网络可视化分析工具PKUVIS构建信息传播网络结构图(如图1所示)。从图1可以看出,信息完全围绕着几个关键用户节点(粉丝数10万以上)进行传播,很少在离散的节点上聚集。雹图1信息传播网
14、络结构图将网络社团结构进行划分,设节点v。所属的网络社团编号为Or,节点v;所属的网络社团编号为叮,当盯。=叮;时,8(叮;,盯,)=l。则社团密度函数Q钊可以定义为: 厶LQ 2孺1乏ai一寄)8(Or) (3)式(3)中,a。表示网络邻接矩阵中的元素,M=a。2代表网络社团中边的数目,k,和k分别代表节点v;、v;的度。若Q的函数值接近1,表明社团内部结构高度紧密很多的社会学研究者们已经证明了在社交网络中没有直接联系的节点同样会对整个社交网络中信息传播起到一定作用,其中比较著名的例子有三元闭包的概念。邓巴数字是英国牛津大学人类学家罗宾邓巴提出,指人类的智力允许人类拥有稳定的社交网络的人数为
15、150人左右。141-万方数据链接。在实际应用中,Q E03,07。3用户影响力度量模型31标准粒子群算法标准粒子群算法在基本公式中引入了惯性权重因子用来平衡全局与局部搜索能力,粒子的速度与位置更新公式如下“:秽f(n+1)=刚l(n)+clrl(P。一咒。(t) +C 2r2(P一戈:(n) (4)戈。(n+1)=算f(n)+口f(n+1) (5)其中,i=1,2,3,in代表了不同的粒子,(I)(0,1)用来对粒子当前速度进行调控,c,c:为大于零的学习因子,r,和r:为介于0,1之间服从均匀分布的随机数,n为迭代次数,xi(n)为粒子当前位置,P,为粒子自身历史最佳位置,P。为邻域历史最
16、佳位置。站在社会学的角度,式(4)的第一部分是“记忆”项,表示粒子当前速度对之前速度的继承;第二部分是“自身认知”项,代表微粒根据自身经验能够及时做出自我调整的能力;第三部分是“群体认知”项,代表微粒对社会经验的认知能力,同时这也反映出粒子之间是存在着信息共享行为的,而粒子也正是凭借自身认知和群体认知得出来的结果来为下一步行动做出决策。32 多学习因子粒子群算法(MPSO)由于标准粒子群算法在进化过程中仅仅对群体以及自身的最佳适应度值进行考量,因而粒子在进化过程后期缺乏多样性、收敛精度低、容易陷入局部最优。本文将岛屿模型的思想应用于标准PS0算法的改进,提出了一种多学习因子粒子群算法(MPS0
17、)。该算法的主要思想如下,根据整个种群中的粒子数目将其均分为1T1个子群体,并在其中任选一个作为主群,在每一个子群都独立进行搜索,待各个子群的搜索结束之后再将计算出来的最佳适应度值汇报到主群中。整个过程中,只采取单向的传播机制,即主群并不反向将汇总而来的最佳适应度值广播给各个子群。重新定义粒子的状态更新方程如下:口;(n+1)=伽f(n)+妒lClyl(P。一zi(n)+9 2c2y2(P z一菇。(n)+C zy 3(P,一戈i(n) (6)菇i(n+1)=戈。(n)+移i(n+1) (7)上式中,P;为单个粒子自身最佳位置,P。为各子群中最佳粒子适应度的值,P。为主群中最佳粒子适应度的值,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 学习 子粒 子群 算法 用户 影响力 分析
限制150内