基于用户行为的微博网络信息扩散模型-刘红丽.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于用户行为的微博网络信息扩散模型-刘红丽.pdf》由会员分享,可在线阅读,更多相关《基于用户行为的微博网络信息扩散模型-刘红丽.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901基于用户行为的微博网络信息扩散模型 刘红丽黄雅丽罗春海胡海波y(华东理工大学管理科学与工程系,上海200237)(2016年3月13日收到; 2016年5月3日收到修改稿)利用新浪微博数据对用户行为进行分析,在此基础上构建了基于用户行为的微博网络信息扩散模型SIRUB,同时计算了模型中各用户阅读微博和转发微博的概率.在微博网络中的实验表明,只有同时考虑阅读和转发概率时模型才能较准确地预测用户的转发行为. SIRUB模型对用户转发行为预测的F-score最高为0.228,高于经典SIR模型和SICR
2、模型,此外该模型对微博扩散范围的预测其误差的均值和标准差也均小于SIR模型和SICR模型.关键词:微博网络,用户行为,信息扩散PACS: 89.65.-s, 87.23.Ge DOI: 10.7498/aps.65.1589011引言近年来,微博平台成为人们获取和传播信息的重要途径,因而对微博网络中信息扩散的研究具有重大的社会经济意义1.微博网络中某些微博转发量可达到几十万甚至上百万,信息受众更是数以千万计,而另一些微博从一开始就被人们忽略,造成这种扩散差异的原因是多方面的,就此学者们对影响微博网络信息扩散的因素和扩散机制进行了大量的研究.影响信息扩散的因素可以分为用户特征、社交关系特征和微博
3、文本特征三个方面.在用户特征影响信息扩散的显著性方面学者们存在不同观点,有些学者认为转发关系中上游用户的粉丝数、朋友数会影响下游用户的转发行为2;3,而另有研究则表明粉丝数对下游用户的转发行为影响不显著4;5.在社交关系特征上学者们则一致认为社交关系强度和信息扩散范围呈正相关关系,如用户间主题兴趣相似度越高6;7、交互强度越大5;8,信息越容易在两个用户之间扩散.微博文本特征也会影响信息扩散,如微博和用户兴趣相似度正向影响用户转发行为5;9,不同的信息不仅在用户和用户之间扩散的概率不同,不同信息重复暴露对其被采用的边际贡献率也不同10,学者们对不同的微博文本特征对信息扩散的影响显著性也存在不同
4、的观点.根据社交网络上信息扩散的机制和过程,研究者们提出了各种理论模型11 14,如基于传染病传播的模型、线性阈值模型、独立级联模型等,这些模型为信息扩散研究提供了理论基础. Xiong等15认为在微博环境下,节点转发某条微博后,微博将保留在他的主页上,易感节点和传播节点接触要么转变成传播状态(I),要么转变成接触状态(C),而且只有接触状态的节点才能转变成免疫状态(R),模型达到稳态后网络中将包含I和R状态的节点; Prakash等16提出了Susceptible-Infected1-Infected2-Susceptible(SI1I2S)模型,研究了网络中两种竞争信息的扩散的结果,研究发
5、现处于优势的信息最终会“赢者通吃” (winner-takes-all),将处于劣势的信息排挤出网络; Liu等17将用户兴趣和信息内容结合起来提出了一种基于信息亲和机制的Susceptible-Known-Informed-Refractory(SKIR)扩散模型,研究表明信息亲和阈值影响了信息的最终扩散范围.目前绝大多数的信息扩散理国家自然科学基金(批准号:61473119, 61104139)和中央高校基本科研业务费专项资金(批准号:WN1524301)资助的课题通信作者. E-mail: 2016中国物理学会Chinese Physical Society http:/158901-
6、1物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901论模型是建立在传染病传播模型基础上的11 13.虽然在理论模型研究上取得了很大的进展,但模型的参数设置往往缺少真实数据的支撑,因而实验结果的可靠性受到了质疑,如Goel等用结构化可传染性(structural virality)指标刻画了介于广播式扩散和传染病式扩散之间的扩散情况,传染病模型仿真结果显示,模型无法再现真实情况下结构化可传染性的多样性18,因此目前学者们在研究微博网络信息扩散时更偏向于数据驱动的模型.如Liu等7根据用户主题兴趣和间接影响力,提高了预测Twitter用户转发行为的准
7、确度; Goyal等19在常规阈值模型基础上,建立了静态模型、连续时间和离散时间模型,并根据用户活动的先后顺序计算了基于影响力的转发概率.有些学者根据用户的历史数据,利用各种计算方法来预测未来的信息扩散5;9;20,也有学者研究了用户的在线阅读行为,并基于用户粉丝阅读行为的分析计算了用户的影响力21.此外,分支过程也已广泛应用到数据驱动的信息扩散模型中22 24.信息在微博网络中扩散,网络节点传播信息的前提是节点接收到了信息,早期的信息扩散理论模型大多假设信息在一个封闭、同质的人群中扩散,传播者和他的邻居会无差异地接触,信息会被他的邻居无差异地传播.但是在微博环境下,信息量大、信息更新速度快,
8、用户的粉丝之间差异巨大,无法保证用户所发的每条微博会被其每个粉丝阅读.因此同转发行为一样,用户的阅读行为也会影响微博网络中信息的扩散,但是目前对用户阅读行为尤其是同时考虑阅读行为和转发行为对信息扩散的影响的研究仍不够深入.本研究利用新浪微博数据,首先分析用户的阅读行为和转发行为,在此基础上构建基于用户阅读概率和转发概率的微博网络信息扩散预测模型,并与其他模型的预测效果进行比较.2用户行为分析2.1数据描述本研究利用新浪微博提供的API接口(http:/ 102 10410-510-410-310-210-110010-510-410-310-210-1100 102 104($(a) (b)图
9、1有转发关系的用户的粉丝数(a)和朋友数(b)分布Fig. 1. The distributions of the numbers of fans (a) and friends (b) of users among which there existsreposting relationship.158901-2物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901图1给出了该网络的出度和入度分布,出度代表用户的粉丝数,入度代表用户的朋友(用户关注的人)数.图1(a)表明一段时间内与用户有转发关系的粉丝的数量近似于幂律分布.虽然已有研究认为用户的粉
10、丝数、朋友数均服从幂律分布,但图1(b)表明只有当朋友数大于某一特定值(20)时才表现出幂律行为,微博网络中超过一半的用户(53.9%)和少于20位的朋友有转发关系.2.2用户阅读行为微博网络上用户的朋友发表的微博会按时间顺序显示在用户页面上,用户登陆后按顺序翻阅微博.阅读过程中用户如果觉得某条微博有趣、值得跟粉丝分享,就会转发该微博.微博发表的时间越长越被排在用户页面的后面,用户一次登录一般不会翻阅完所有的微博,以至于有些微博会被用户忽略,这些微博即使用户感兴趣也不会被转发,由此可见用户转发某条微博的前提是他必须阅读到该微博.虽然用户的阅读行为不会被记录下来,但是如果知道一位用户登陆微博的时
11、间和用户登录后的信息阅读量,就可以根据一条微博的发表时间来判断该用户会不会阅读到这条微博.我们定义转发延迟为微博被创建和被转发之间的时间间隔,根据用户在一天内各时间段登录微博的频率和用户的转发延迟时间,可推测用户阅读到某条微博的概率.为此,本小节首先分析用户所发表的微博在一天内各时间段的分布,之后推测用户登录微博的频率分布,并分析用户转发延迟时间分布.2.2.1用户登录微博的行为假设用户每次登录微博发文数量和登陆时间是不相关的,即用户发文数量的时间分布只和各时间段用户登录微博的频率有关,那么该时间分布可用于推测用户登录微博的概率在一天内的分布.对微博发表时间进行分析,可得原创微博与转发微博在一
12、天内各时间段的分布,如图2所示.可见晚上11点至次日早上6点用户发文数量剧减,早上6点以后开始增加,早上8点到晚上8点发文数量分布较为均匀,晚上9至10点处于一天的最高峰,这说明用户一天内各时间段登录微博的频率是不同的.2.2.2转发延迟分析用户阅读和转发一条微博的行为几乎是同时发生的,所以可用转发微博的时间点表示阅读时间点.转发延迟时间分布如图3所示,该分布近似于幂律分布,说明大部分转发延迟较小.延迟小于8.77小时的占75%,小于35.38小时的占90%,说明微博消息具有很强的时效性,发表时间越长的消息越少人去关注.0 2 4 6 8 10 12 14 16 18 20 2200.51.0
13、1.52.02.53.03.54.04.5r/105yrr/h图2原创微博与转发微博在一天内各时间段的分布Fig. 2. The distributions of original and reposted mi-croblog in a day.100 101 102 103 104 105 106 107100101102103104105/minr图3微博转发延迟分布Fig. 3. The delay distribution of microblog reposting.2.3用户转发行为的影响因素本节对影响用户转发行为的因素展开分析,其中包含上游用户的粉丝数、上游用户的微博平均转发数
14、、用户交互强度、微博主题和用户主题兴趣相似度四个因素.用户交互强度是指历史上用户相互转发对方微博的次数.本研究对收集的微博进行清理、分词后,用Twitter-Latent Dirichlet Allocation(Twitter-LDA)主题分析模型25对微博文本进行主题分析,得到每个用户主题兴趣分布DT矩阵、158901-3物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901每条微博所属主题和每个主题的词汇分布. DT为D T矩阵, D表示用户数量, T表示主题数量,DT(i;j)以概率的形式表示用户i对主题j的感兴趣程度,其值越大表明i对j越感
15、兴趣.从而我们可以得到微博所属主题在用户主题兴趣分布DT矩阵中的值,并用以衡量微博主题和用户主题兴趣相似度.本节从数据集中随机抽取20989个转发微博和21054个忽略微博(即用户阅读了微博,但是未转发该微博.为确保用户阅读了微博,抽取的忽略微博的阅读延迟时间小于15 min)分别作为实验组和参照组,首先检验同一影响因素在实验组和参照组中是否有显著差异,之后比较同一影响因素在实验组和参照组中的累积概率分布.实验组和对照组的四个转发影响因素的均值和标准差如表1所列,各影响因素原始数值已经经过以自然常数为底的对数处理.用户的交互强度原始值为非负数,其值越大交互强度就越大.微博主题和用户主题兴趣相似
16、度原始值在0与1之间,取对数后为非正数,其值越大相似度也就越大.以实验组和对照组的影响因素的均值相等为零假设H0,统计分析表明在0.01显著水平下拒绝原假设,认为上游用户的粉丝数、上游用户的微博平均转发数、用户交互强度、微博主题和用户主题兴趣相似度四个因素在实验组和参照组中有显著差异.表1各影响因素的统计信息Table 1. The statistics of inuencing factors.影响因素均值标准差上游用户粉丝数(实验组/参照组) 14.32/13.92 2.58/3.40上游用户微博平均转发数(实验组/参照组) 5.24/4.38 3.92/5.60用户交互强度(实验组/参照
17、组) 1.69/0.92 1.48/1.19微博主题和用户主题兴趣相似度(实验组/参照组) 3:50/ 4:31 1.41/1.66图4是四个影响因素的累积概率分布图,该分布差异越大说明影响因素越能区分转发行为和未转发行为.可见,虽然假设检验表明四个影响因素在实验组和对照组中有显著差异,但粉丝数和微博平均转发数不能很好地区分转发行为和未转发行为,尤其在粉丝数和微博平均转发数达到一定数量后,累积概率分布差异很小,仅依靠粉丝数或微博平均转发数不能很好地区分转发和未转发行为,而用户交互强度、微博主题和用户主题兴趣相似度则可以很好的区分这两种行为.4 6 8 10 12 14 16 1800.20.4
18、0.60.81.0%-4 -2 0 2 4 6 8 1000.20.40.60.81.0r0 1 2 3 4 5 60.20.40.60.81.0yZB-7 -6 -5 -4 -3 -2 -1 000.20.40.60.81.0ryZ#Z1k3333(c) (d)(b)(a)图4各影响因素累积概率分布(a)粉丝数; (b)微博平均转发数; (c)用户交互强度; (d)微博主题和用户主题兴趣相似度Fig. 4. The cumulative probability distributions of various inuencing factors: (a) the number of fans
19、; (b)the average reposted number of microblog; (c) the intensity of users interaction; (d) the similarity betweenmicroblog topics and users topic interests.158901-4物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 1589013微博网络信息扩散预测模型3.1模型的假设和信息扩散机制基于微博用户行为的分析,本研究假设:用户只阅读和转发其关注的用户发表的微博;用户只有在阅读完某条微博后才决定是否转发该
20、微博;用户每次登录微博后拥有一个固定不变的阅读量,阅读量用阅读延迟时间表示,假设用户u的阅读量为tu_intvl,则该用户登陆后会无差别地阅读完阅读延迟小于tu_intvl的微博.显然,用户是否转发微博是由用户阅读到这条微博的概率和用户对微博的转发概率决定的,设p1( )为用户阅读到微博的概率, p2( )为用户转发阅读到的微博的概率.对一条微博而言,不同用户的活跃程度、登录时间以及登陆后的阅读量不同,他们阅读到该微博的概率也就不同,此外,不同用户对同一微博内容的感兴趣程度也不同,因此p1( )、p2( )会因人而异.本研究基于用户行为提出可预测微博扩散效果的Susceptible-Infec
21、ted-Recoveredbased on Users Behaviors(SIRUB)模型,模型将微博网络中的节点分为易感节点(S)、转发节点(I)和免疫节点(R).易感节点指未阅读到微博的节点,转发节点指转发了微博的节点,免疫节点指阅读到微博但是没有转发的节点.模型的扩散机制如下:1)当易感节点(S)所关注的节点变为转发节点(I)后,他以概率p1( )阅读微博;2)阅读到微博的易感节点(S)以概率p2( )变为转发节点(I),以概率1 p2( )变为免疫节点(R);3)转发节点不会改变状态,一直处于已转发状态,等待他的粉丝节点阅读微博.3.2阅读概率计算假设用户u在一天中各时间段登录微博的
22、概率密度为fu(t),则u在两个时间点t1, t2之间登录微博的概率为pu(t1;t2) = t2t1fu(t)dt,设t = t2 t1,当t足够小时有pu(t1;t2) =t fu(t).根据文献21,本文利用公式pu(t1;t2) =1 (1 u(t1;t2) nu来推测用户在时间区间t2-t1内登录微博的概率,其中1/ 表示用户每次访问微博平均发文数量, nu表示用户u一天平均发布微博的数量, nu则表示用户u平均每天访问微博的次数, u(t1;t2)表示u在t2-t1时间区间内发布的微博数量与u发布的微博总数的比值.阅读延迟主要是由微博发表时间和用户登陆时间间隔引起的,这种时间间隔越
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 用户 行为 网络 信息 扩散 模型 刘红丽
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内