《基于用户行为的微博网络信息扩散模型-刘红丽.pdf》由会员分享,可在线阅读,更多相关《基于用户行为的微博网络信息扩散模型-刘红丽.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901基于用户行为的微博网络信息扩散模型 刘红丽黄雅丽罗春海胡海波y(华东理工大学管理科学与工程系,上海200237)(2016年3月13日收到; 2016年5月3日收到修改稿)利用新浪微博数据对用户行为进行分析,在此基础上构建了基于用户行为的微博网络信息扩散模型SIRUB,同时计算了模型中各用户阅读微博和转发微博的概率.在微博网络中的实验表明,只有同时考虑阅读和转发概率时模型才能较准确地预测用户的转发行为. SIRUB模型对用户转发行为预测的F-score最高为0.228,高于经典SIR模型和SICR
2、模型,此外该模型对微博扩散范围的预测其误差的均值和标准差也均小于SIR模型和SICR模型.关键词:微博网络,用户行为,信息扩散PACS: 89.65.-s, 87.23.Ge DOI: 10.7498/aps.65.1589011引言近年来,微博平台成为人们获取和传播信息的重要途径,因而对微博网络中信息扩散的研究具有重大的社会经济意义1.微博网络中某些微博转发量可达到几十万甚至上百万,信息受众更是数以千万计,而另一些微博从一开始就被人们忽略,造成这种扩散差异的原因是多方面的,就此学者们对影响微博网络信息扩散的因素和扩散机制进行了大量的研究.影响信息扩散的因素可以分为用户特征、社交关系特征和微博
3、文本特征三个方面.在用户特征影响信息扩散的显著性方面学者们存在不同观点,有些学者认为转发关系中上游用户的粉丝数、朋友数会影响下游用户的转发行为2;3,而另有研究则表明粉丝数对下游用户的转发行为影响不显著4;5.在社交关系特征上学者们则一致认为社交关系强度和信息扩散范围呈正相关关系,如用户间主题兴趣相似度越高6;7、交互强度越大5;8,信息越容易在两个用户之间扩散.微博文本特征也会影响信息扩散,如微博和用户兴趣相似度正向影响用户转发行为5;9,不同的信息不仅在用户和用户之间扩散的概率不同,不同信息重复暴露对其被采用的边际贡献率也不同10,学者们对不同的微博文本特征对信息扩散的影响显著性也存在不同
4、的观点.根据社交网络上信息扩散的机制和过程,研究者们提出了各种理论模型11 14,如基于传染病传播的模型、线性阈值模型、独立级联模型等,这些模型为信息扩散研究提供了理论基础. Xiong等15认为在微博环境下,节点转发某条微博后,微博将保留在他的主页上,易感节点和传播节点接触要么转变成传播状态(I),要么转变成接触状态(C),而且只有接触状态的节点才能转变成免疫状态(R),模型达到稳态后网络中将包含I和R状态的节点; Prakash等16提出了Susceptible-Infected1-Infected2-Susceptible(SI1I2S)模型,研究了网络中两种竞争信息的扩散的结果,研究发
5、现处于优势的信息最终会“赢者通吃” (winner-takes-all),将处于劣势的信息排挤出网络; Liu等17将用户兴趣和信息内容结合起来提出了一种基于信息亲和机制的Susceptible-Known-Informed-Refractory(SKIR)扩散模型,研究表明信息亲和阈值影响了信息的最终扩散范围.目前绝大多数的信息扩散理国家自然科学基金(批准号:61473119, 61104139)和中央高校基本科研业务费专项资金(批准号:WN1524301)资助的课题通信作者. E-mail: 2016中国物理学会Chinese Physical Society http:/158901-
6、1物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901论模型是建立在传染病传播模型基础上的11 13.虽然在理论模型研究上取得了很大的进展,但模型的参数设置往往缺少真实数据的支撑,因而实验结果的可靠性受到了质疑,如Goel等用结构化可传染性(structural virality)指标刻画了介于广播式扩散和传染病式扩散之间的扩散情况,传染病模型仿真结果显示,模型无法再现真实情况下结构化可传染性的多样性18,因此目前学者们在研究微博网络信息扩散时更偏向于数据驱动的模型.如Liu等7根据用户主题兴趣和间接影响力,提高了预测Twitter用户转发行为的准
7、确度; Goyal等19在常规阈值模型基础上,建立了静态模型、连续时间和离散时间模型,并根据用户活动的先后顺序计算了基于影响力的转发概率.有些学者根据用户的历史数据,利用各种计算方法来预测未来的信息扩散5;9;20,也有学者研究了用户的在线阅读行为,并基于用户粉丝阅读行为的分析计算了用户的影响力21.此外,分支过程也已广泛应用到数据驱动的信息扩散模型中22 24.信息在微博网络中扩散,网络节点传播信息的前提是节点接收到了信息,早期的信息扩散理论模型大多假设信息在一个封闭、同质的人群中扩散,传播者和他的邻居会无差异地接触,信息会被他的邻居无差异地传播.但是在微博环境下,信息量大、信息更新速度快,
8、用户的粉丝之间差异巨大,无法保证用户所发的每条微博会被其每个粉丝阅读.因此同转发行为一样,用户的阅读行为也会影响微博网络中信息的扩散,但是目前对用户阅读行为尤其是同时考虑阅读行为和转发行为对信息扩散的影响的研究仍不够深入.本研究利用新浪微博数据,首先分析用户的阅读行为和转发行为,在此基础上构建基于用户阅读概率和转发概率的微博网络信息扩散预测模型,并与其他模型的预测效果进行比较.2用户行为分析2.1数据描述本研究利用新浪微博提供的API接口(http:/ 102 10410-510-410-310-210-110010-510-410-310-210-1100 102 104($(a) (b)图
9、1有转发关系的用户的粉丝数(a)和朋友数(b)分布Fig. 1. The distributions of the numbers of fans (a) and friends (b) of users among which there existsreposting relationship.158901-2物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901图1给出了该网络的出度和入度分布,出度代表用户的粉丝数,入度代表用户的朋友(用户关注的人)数.图1(a)表明一段时间内与用户有转发关系的粉丝的数量近似于幂律分布.虽然已有研究认为用户的粉
10、丝数、朋友数均服从幂律分布,但图1(b)表明只有当朋友数大于某一特定值(20)时才表现出幂律行为,微博网络中超过一半的用户(53.9%)和少于20位的朋友有转发关系.2.2用户阅读行为微博网络上用户的朋友发表的微博会按时间顺序显示在用户页面上,用户登陆后按顺序翻阅微博.阅读过程中用户如果觉得某条微博有趣、值得跟粉丝分享,就会转发该微博.微博发表的时间越长越被排在用户页面的后面,用户一次登录一般不会翻阅完所有的微博,以至于有些微博会被用户忽略,这些微博即使用户感兴趣也不会被转发,由此可见用户转发某条微博的前提是他必须阅读到该微博.虽然用户的阅读行为不会被记录下来,但是如果知道一位用户登陆微博的时
11、间和用户登录后的信息阅读量,就可以根据一条微博的发表时间来判断该用户会不会阅读到这条微博.我们定义转发延迟为微博被创建和被转发之间的时间间隔,根据用户在一天内各时间段登录微博的频率和用户的转发延迟时间,可推测用户阅读到某条微博的概率.为此,本小节首先分析用户所发表的微博在一天内各时间段的分布,之后推测用户登录微博的频率分布,并分析用户转发延迟时间分布.2.2.1用户登录微博的行为假设用户每次登录微博发文数量和登陆时间是不相关的,即用户发文数量的时间分布只和各时间段用户登录微博的频率有关,那么该时间分布可用于推测用户登录微博的概率在一天内的分布.对微博发表时间进行分析,可得原创微博与转发微博在一
12、天内各时间段的分布,如图2所示.可见晚上11点至次日早上6点用户发文数量剧减,早上6点以后开始增加,早上8点到晚上8点发文数量分布较为均匀,晚上9至10点处于一天的最高峰,这说明用户一天内各时间段登录微博的频率是不同的.2.2.2转发延迟分析用户阅读和转发一条微博的行为几乎是同时发生的,所以可用转发微博的时间点表示阅读时间点.转发延迟时间分布如图3所示,该分布近似于幂律分布,说明大部分转发延迟较小.延迟小于8.77小时的占75%,小于35.38小时的占90%,说明微博消息具有很强的时效性,发表时间越长的消息越少人去关注.0 2 4 6 8 10 12 14 16 18 20 2200.51.0
13、1.52.02.53.03.54.04.5r/105yrr/h图2原创微博与转发微博在一天内各时间段的分布Fig. 2. The distributions of original and reposted mi-croblog in a day.100 101 102 103 104 105 106 107100101102103104105/minr图3微博转发延迟分布Fig. 3. The delay distribution of microblog reposting.2.3用户转发行为的影响因素本节对影响用户转发行为的因素展开分析,其中包含上游用户的粉丝数、上游用户的微博平均转发数
14、、用户交互强度、微博主题和用户主题兴趣相似度四个因素.用户交互强度是指历史上用户相互转发对方微博的次数.本研究对收集的微博进行清理、分词后,用Twitter-Latent Dirichlet Allocation(Twitter-LDA)主题分析模型25对微博文本进行主题分析,得到每个用户主题兴趣分布DT矩阵、158901-3物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901每条微博所属主题和每个主题的词汇分布. DT为D T矩阵, D表示用户数量, T表示主题数量,DT(i;j)以概率的形式表示用户i对主题j的感兴趣程度,其值越大表明i对j越感
15、兴趣.从而我们可以得到微博所属主题在用户主题兴趣分布DT矩阵中的值,并用以衡量微博主题和用户主题兴趣相似度.本节从数据集中随机抽取20989个转发微博和21054个忽略微博(即用户阅读了微博,但是未转发该微博.为确保用户阅读了微博,抽取的忽略微博的阅读延迟时间小于15 min)分别作为实验组和参照组,首先检验同一影响因素在实验组和参照组中是否有显著差异,之后比较同一影响因素在实验组和参照组中的累积概率分布.实验组和对照组的四个转发影响因素的均值和标准差如表1所列,各影响因素原始数值已经经过以自然常数为底的对数处理.用户的交互强度原始值为非负数,其值越大交互强度就越大.微博主题和用户主题兴趣相似
16、度原始值在0与1之间,取对数后为非正数,其值越大相似度也就越大.以实验组和对照组的影响因素的均值相等为零假设H0,统计分析表明在0.01显著水平下拒绝原假设,认为上游用户的粉丝数、上游用户的微博平均转发数、用户交互强度、微博主题和用户主题兴趣相似度四个因素在实验组和参照组中有显著差异.表1各影响因素的统计信息Table 1. The statistics of inuencing factors.影响因素均值标准差上游用户粉丝数(实验组/参照组) 14.32/13.92 2.58/3.40上游用户微博平均转发数(实验组/参照组) 5.24/4.38 3.92/5.60用户交互强度(实验组/参照
17、组) 1.69/0.92 1.48/1.19微博主题和用户主题兴趣相似度(实验组/参照组) 3:50/ 4:31 1.41/1.66图4是四个影响因素的累积概率分布图,该分布差异越大说明影响因素越能区分转发行为和未转发行为.可见,虽然假设检验表明四个影响因素在实验组和对照组中有显著差异,但粉丝数和微博平均转发数不能很好地区分转发行为和未转发行为,尤其在粉丝数和微博平均转发数达到一定数量后,累积概率分布差异很小,仅依靠粉丝数或微博平均转发数不能很好地区分转发和未转发行为,而用户交互强度、微博主题和用户主题兴趣相似度则可以很好的区分这两种行为.4 6 8 10 12 14 16 1800.20.4
18、0.60.81.0%-4 -2 0 2 4 6 8 1000.20.40.60.81.0r0 1 2 3 4 5 60.20.40.60.81.0yZB-7 -6 -5 -4 -3 -2 -1 000.20.40.60.81.0ryZ#Z1k3333(c) (d)(b)(a)图4各影响因素累积概率分布(a)粉丝数; (b)微博平均转发数; (c)用户交互强度; (d)微博主题和用户主题兴趣相似度Fig. 4. The cumulative probability distributions of various inuencing factors: (a) the number of fans
19、; (b)the average reposted number of microblog; (c) the intensity of users interaction; (d) the similarity betweenmicroblog topics and users topic interests.158901-4物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 1589013微博网络信息扩散预测模型3.1模型的假设和信息扩散机制基于微博用户行为的分析,本研究假设:用户只阅读和转发其关注的用户发表的微博;用户只有在阅读完某条微博后才决定是否转发该
20、微博;用户每次登录微博后拥有一个固定不变的阅读量,阅读量用阅读延迟时间表示,假设用户u的阅读量为tu_intvl,则该用户登陆后会无差别地阅读完阅读延迟小于tu_intvl的微博.显然,用户是否转发微博是由用户阅读到这条微博的概率和用户对微博的转发概率决定的,设p1( )为用户阅读到微博的概率, p2( )为用户转发阅读到的微博的概率.对一条微博而言,不同用户的活跃程度、登录时间以及登陆后的阅读量不同,他们阅读到该微博的概率也就不同,此外,不同用户对同一微博内容的感兴趣程度也不同,因此p1( )、p2( )会因人而异.本研究基于用户行为提出可预测微博扩散效果的Susceptible-Infec
21、ted-Recoveredbased on Users Behaviors(SIRUB)模型,模型将微博网络中的节点分为易感节点(S)、转发节点(I)和免疫节点(R).易感节点指未阅读到微博的节点,转发节点指转发了微博的节点,免疫节点指阅读到微博但是没有转发的节点.模型的扩散机制如下:1)当易感节点(S)所关注的节点变为转发节点(I)后,他以概率p1( )阅读微博;2)阅读到微博的易感节点(S)以概率p2( )变为转发节点(I),以概率1 p2( )变为免疫节点(R);3)转发节点不会改变状态,一直处于已转发状态,等待他的粉丝节点阅读微博.3.2阅读概率计算假设用户u在一天中各时间段登录微博的
22、概率密度为fu(t),则u在两个时间点t1, t2之间登录微博的概率为pu(t1;t2) = t2t1fu(t)dt,设t = t2 t1,当t足够小时有pu(t1;t2) =t fu(t).根据文献21,本文利用公式pu(t1;t2) =1 (1 u(t1;t2) nu来推测用户在时间区间t2-t1内登录微博的概率,其中1/ 表示用户每次访问微博平均发文数量, nu表示用户u一天平均发布微博的数量, nu则表示用户u平均每天访问微博的次数, u(t1;t2)表示u在t2-t1时间区间内发布的微博数量与u发布的微博总数的比值.阅读延迟主要是由微博发表时间和用户登陆时间间隔引起的,这种时间间隔越
23、大,微博被阅读的可能性也就越小,超过一定时间间隔后微博就不会再被阅读到.用二值函数hu(tu twv)表示用户u在时间tu登陆微博后是否会阅读到所关注用户v于时间twv发表的微博wv,如果u阅读到了微博wv,则该函数为1否则为0,用tlast表示u某次登陆后阅读最后一条微博的时间点,则hu(tu twv) =8 tu tlast:(1)模型假设每位用户都有一个不变的阅读量,用户登录微博后能否阅读到具体的某条微博是由用户登陆时间和该微博的发布时间决定的,因此(1)式可写为hu(tu twv) =8 tu_intvl:(2)2.2.1节分析了各用户在一天内各时间段使用微博的概率,至此可以得出用户u
24、在tu时刻登录并且阅读到微博wv的概率p1(u;wv;tu) = t fu(tu) hu(tu twv)(1 (1 u(tu;tu + t) nu)hu(tu twv): (3)3.3转发概率计算为了预测用户的转发行为,需要选取影响转发行为的因素.本研究选取包括微博发布者特征、微博文本特征和社交关系特征三方面的16个影响因素来预测用户未知的转发行为,如表2所列.其中微博平均转发数是指上游用户平均每条微博被转发的次数,微博平均转发率是指上游用户平均每条微博被其粉丝转发的比例.用户主题兴趣相似度的计算需要用到用户主题兴趣分布DT矩阵,根据文献6对用户u和v主题兴趣差异的定义:dist(u;v) =
25、 2DJS(u;v),可以测量两位用户间主题兴趣的差异,其中DJS(u;v)表示两位用户主题分布的Jensen-Shannon散度,其他因素可从微博本身特征中直接获取.因素6, 1014只有是和否两种情况,统一采用1表示是, 0表示否,因素15, 7, 8, 16原始数值都经过了底为自然常数的对数处理.158901-5物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901表2影响用户转发行为的因素Table 2. The factors that inuence users repostingbehavior.特征类别序号特征名称上游用户特征1粉丝数
26、2微博数3微博平均转发数4微博平均转发率5注册时间6是否认证社交关系特征7用户交互强度8用户主题兴趣相似度微博文本特征9微博长度10是否包含URL11是否提及他人12是否包含Hashtag13是否非转发微博14是否包含图片15发文时间(取值范围为023)16微博主题和用户主题兴趣相似度对用户u转发行为的预测属于二分类问题,将微博历史数据Mu作为训练集,通过对用户u的历史行为的分析预测该用户对未知微博的转发概率.本研究采用逻辑回归模型计算用户的转发概率:p2(u;wv) = p(yu = 1jXwv)= 1/1 +e (b+Bu Xwv); (4)其中yu表示用户u对微博的转发决策, yu =
27、1表示用户转发该微博,否则为0, Xwv表示微博wv的特征集合,包含了表2中提到的16个特征,它为模型自变量, Bu为自变量系数, b为常系数.在微博集合Mu下,用y1, y2, , yjMuj表示转发决策观察值,对逻辑回归模型进行最大似然估计,得到似然函数L(Bu;b) =jMuji=1pyii (1 pi)(1 yi); (5)pi表示(4)式的转发概率,当BulnL(Bu;b) =lnL(Bu;b)/Bu = 0, lnL(Bu;b)/b = 0时可得Bu, b,对于要预测的微博只要知道它的特征集合就可以用Bu和b计算用户u的转发概率.了解各影响因素的系数的分布有助于深入理解微博网络中的
28、信息扩散.本研究对收集的21992位用户进行逻辑回归分析,除去没有关注关系的用户共得到20978位用户,因此得到一个20978 16的系数矩阵,每个因素的系数分布如图5所示.我们发现,第一,影响因素系数分布大部分属于正态分布,只有少部分向左或向右偏,如注册时间长度、是否非转发微博等,说明大部分影响因素只对部分用户的转发行为有显著影响,并且这种影响既有正向又有负向,只有少部分影响因素偏负向或正向;第二,影响因素系数大小不同,有的偏大,有的则偏小,如是否非转发微博、平均转发率,说明各影响因素对用户转发行为的影响程度存在差异;第三,用户交互强度的系数分布在横坐标为0.085时有一个异常峰值,本文在确
29、认数据处理无误的情况下尚无法解释该异常峰值出现的原因.3.4微博扩散范围令S(t), I(t)和R(t)分别表示易感节点、转发节点和免疫节点在t时刻的数量, Fv表示用户v的粉丝集合,则微博wv在t时刻的扩散过程为8:S(t + t) S(t)= v2I(t)u2(FvS(t)(1 (1 u(t;t+t) nu)hu(t twv);I(t + t) I(t)=v2I(t)u2(FvS(t)(1 (1 u(t;t + t) nu)hu(t twv) 11 +e (b+Bu Xwv):(6)因为各用户的1/ 和阅读量不能从用户的历史数据中计算出来,所以本研究根据用户同质相聚的现象为每个用户的各度粉
30、丝设置相同的1/ 和阅读量,并在后续实验中为每个用户的粉丝寻找最优的1/ 和阅读量.直接求解(6)式较困难,用离散求解的方法可得在稳态时微博wv被转发的数量的期望Iwv,依此可测量微博的扩散效果:Iwv =u2Fv(1 (1 u(twv;twv + 1) nu)hu(1)11 +e (b+Bu Xwv)+u2Fvtu_intvl=2(1 (1u(twv;twv + ) nu) hu( )11 +e (b+Bu Xwv)+ Iwu; (7)其中 是离散计算的时步, Iwu是微博从节点u开始的扩散范围.实验在用户转发关系网络中进行,计算时步 取1/4 h.158901-6物理学报Acta Phys
31、. Sin. Vol. 65, No. 15 (2016) 158901-0.932 -0.332 0.26800.050.100.150.20-1.814 -0.868 0.07800.050.100.150.20-0.628 -0.170 0.28800.050.100.150.20-0.694 -0.058 0.57800.050.100.150.20-2.887 -0.989 0.90900.050.100.150.20-1.845 -0.455 0.93500.050.100.150.20-0.581 0.485 1.55100.050.100.150.20-1.196 0.054
32、1.30400.10.20.30.4-2.387 -0.131 2.12500.050.100.150.20-1.808 -0.540 0.72800.050.100.150.20-1.725 -0.369 0.987400.050.100.150.20-1.732 -0.480 0.77200.050.100.150.20-0.906 3.2832radraeryZ1ka#5!aeURLaeHashtagacyZByZ#Z1krrr7.47200.050.100.150.20-3.490 -0.832 1.82600.050.100.150.20-4.217 -1.441 1.33400.0
33、50.100.150.20-0.255 0.361 0.97700.050.100.150.20(b)(c) (d)(e)(g) (h)(i) (j)(k) (l)(n)(o) (p)(a)(f)(m)图5各影响因素系数概率分布图(a)粉丝数; (b)微博数; (c)微博平均转发数; (d)微博平均转发率; (e)注册时间;(f)是否认证; (g)用户交互强度; (h)用户主题兴趣相似度; (i)微博长度; (j)是否包含URL; (k)是否提及他人; (l)是否包含Hashtag; (m)是否非转发微博; (n)是否包含图片; (o)发文时间; (p)微博主题和用户主题兴趣相似度Fig. 5
34、. The probability distributions of coecients of various inuencing factors: (a) The number of fans; (b) thenumber of microblog; (c) the average reposted number of microblog; (d) the average reposted rate of microblog;(e) registration time; (f) authentication; (g) the intensity of users interaction; (
35、h) the topic interest similarity ofusers; (i) microblog length; (j) including URL; (k) mentioning other users; (l) including Hashtag; (m) not repostedmicroblog; (n) including pictures; (o) posting time; (p) the similarity between microblog topics and users topicinterests.158901-7物理学报Acta Phys. Sin.
36、Vol. 65, No. 15 (2016) 1589014实验与结果分析本节用收集的数据验证SIRUB模型对信息扩散预测的有效性.前2/3的数据用于计算模型参数nu, u,逻辑回归模型系数,并为用户各度粉丝确定最佳的阅读量tu_intvl和每次登陆发文数量1/ ,从而确定pu(t1;t2)和hu( ),后1/3的数据用于检验模型的有效性.经典Susceptible-Infected-Recovered (SIR)模型是其他传染病模型的基础,而Susceptible-Infected-Contacted-Recovered (SICR)模型是文献15依据微博转发机制提出的信息扩散模型,较符合微
37、博网络环境,因此本研究将SIRUB模型与经典SIR和SICR模型的预测结果进行比较.对于经典SIR模型,易感节点(S)和转发节点(I)接触后以概率 变为转发节点,同时转发节点以概率 变为免疫节点(R),不失一般性本文假设 = 1,并利用训练数据集以0.001的增量在0至1之间寻找最优的 .而对于SICR模型,易感节点(S)和转发节点(I)接触后以概率 变为转发节点,未变为转发节点(I)的则变为接触节点(C),接触节点(C)或者以概率 自发的变为免疫节点(R),或者以概率 再次被它的处于转发状态的邻居节点感染.本研究将设定为0.4,并同样利用训练数据集以0.001的增量在0至1之间为SICR寻找
38、最优的 .为了更好地比较不同模型的预测效果,本节以微博平均转发次数最多的50个用户和他们所发的微博作为研究对象,分析模型对用户转发行为的预测效果以及模型对微博扩散效果的预测准确度.4.1对转发行为的预测筛选的50位用户在测试集中共有2306条微博,我们以这些微博在微博网络中的22249个转发行为为预测样本,实验时,以这50位用户为信息源,每条微博从信息源开始,预测微博在网络中扩散时哪些用户转发了该微博.对于一个样本微博wv,可以用SIRUB模型计算用户u从用户v阅读并转发微博wv的概率p1(u;wv) p2(u;wv)(下文称为预测概率),模型的预测概率越大表示用户越有可能转发微博.为了衡量S
39、IRUB模型的预测效果,本文给定不同的阈值 ,考察模型在某一阈值下预测概率大于该阈值的用户的准确率、召回率和F-score值.准确率是指预测概率大于该阈值的用户中真实转发的用户所占比例,召回率是指预测概率大于阈值并且真实转发了微博的用户占所有真实转发用户的比例,分别用P和R表示准确率和召回率,则F-score = 2PR/(P + R), F-score折中考察了准确率和召回率.我们先分析SIRUB模型的阅读概率和转发概率对转发行为的预测效果,再将预测效果与经典SIR和SICR模型比较.4.1.1阅读概率和转发概率对SIRUB模型的影响考察SIRUB模型在只考虑阅读概率和转发概率或者同时考虑两
40、者时对用户转发行为的预测效果,结果如图6所示.图6(a)表明三条曲线均随阈值的增加而增大,在阈值为0.99时分别达到最大值0.029, 0.018和0.321,同时注意到,在同时考虑阅读概率和转发概率时预测准确率远高于只考虑其一的准确率,表明同时考虑两种概率可以提高识别用户转发行为的准确率.其原因是阅读概率p1( )越大表明用户登录微博的概率越高,同时登录微博后的信息阅读量越大,而转发概率p2( )越大表明用户对微博越感兴趣,因此p1( ) p2( )越大的用户越有可能转发微博.对于一条微博而言,用户登录概率高或者用户对该微博感兴趣,都不能很准确地判断用户的转发行为,只有在用户登录概率高同时对
41、微博很感兴趣时,才能较为准确地判断用户的转发行为.图6(b)表明只考虑阅读概率或转发概率时的召回率比同时考虑两者的高,原因是同时考虑二者时用于预测用户转发行为的概率比只考虑其一时的低.图6(c)表明从综合指标F-score来看,同时考虑阅读概率和转发概率时的预测效果远比只考虑其一时要好.4.1.2模型预测效果比较对于经典SIR和SICR模型,本文通过训练寻找最优的转发概率,用此概率预测用户的转发行为.表3给出了经典SIR、SICR和SIRUB模型的最优预测结果.可见SIRUB模型的准确率为0.201,优于SIR和SICR模型,同样SIRUB模型的F-score为0.228,也优于SIR和SIC
42、R模型. SIR和SICR模型的召回率都比SIRUB模型高,这是因为二者对转发行为的预测是一个以转发概率 为参数的0-1分布, 即为转发用户的微博的粉丝数量占用户所有粉丝数量的比例,因此可以认为 也是SIR、SICR模型预测的召回率R,而准确率P158901-8物理学报Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901是相对不变的.由F-score=2PR/(P + R),可得F-score=2P/(P/R + 1), F-score是R的单调增函数,因此当转发概率在最大值附近时,召回率R和F-score取得最大值.0 0.2 0.4 0.6 0.8 1
43、.000.050.100.150.200.250.300.35N6=6=(a)0 0.2 0.4 0.6 0.8 1.000.20.40.60.81.086=6=(b)0 0.2 0.4 0.6 0.8 1.000.050.100.150.200.25F-score6=6=(c)图6 (网刊彩色)不同阈值下SIRUB对转发行为的预测效果(a)准确率; (b)召回率; (c) F-scoreFig.6. (coloronline)ThepredictionresultsofSIRUBmodel for reposting behavior under dierent thresh-olds: (
44、a) Precision; (b) recall; (c) F-score.在一个近2.2万个节点、59万条边的微博网络中预测一条微博从某一条边被转发是一项非常困难的任务,且预测难度随着网络规模的增大而增加.文献9提出的因子图模型预测的F-score为0.325,文献20利用随机场方法在1000个节点的网络中可以获得F-score为0.662的预测效果,但该方法的预测效果随着网络规模的增加而下降.文献20没有进一步增大网络,本文的网络规模是文献20的22倍,文献9也没有提供实验网络的规模,所以本文暂不能对各方法进行评价.表3经典SIR, SICR和SIRUB模型对转发行为的预测结果Table
45、3. The prediction results of classic SIR, SICRand SIRUB models for reposting behavior.准确率召回率F-scoreSIR 0.020 0.947 0.039SICR 0.019 0.985 0.037SIRUB 0.201 0.265 0.2284.2对微博扩散效果的预测SIRUB模型可以预测一条微博在微博网络中的扩散效果,我们以筛选的50位用户的测试集微博在网络中的转发次数为预测对象,对于用户v可得其所发微博的平均转发次数Iv = wv2WvIwv/jWvj;其中Wv表示用户v所发微博的集合.图7按实际平均转发量从小到大给出了微博转发次数最多的50位用户的微博预测结果和真实值,可见SIRUB模型的预测结果和真实转发量较为接近,两者走势相似,曲线波动较小,说明该模型可以较准确地预测用户在一段时间内所发微博的平均转发数. SIR和SICR模型的预测曲线走势相似,不随真实值而改变,预测结果和真实情况差异较大.yZBS/T800 10 20 30 40 5001020304050607080SIRSICRSIRUBSIRSICRSIRUB07020304050608010图7 (网刊彩色)用户真实平均转发数和模型预测的平均转发数Fig. 7. (color
限制150内