基于情感分析的社会网络用户影响力模型研究-郭宇.pdf
《基于情感分析的社会网络用户影响力模型研究-郭宇.pdf》由会员分享,可在线阅读,更多相关《基于情感分析的社会网络用户影响力模型研究-郭宇.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 2017年11月 第36卷 第11期 Journal of the China Society for Scientific and Technical Information, Nov. 2017, 36(11): 1139-1147 收稿日期: 2017-03-14; 修回日期: 2017-08-08 基金项目: 国家自然科学基金面上项目“信息生态视角下新媒体信息消费行为机理及服务模式创新研究” ( 71673108) ,中国博士后科学基金面上项目“新媒体环境下知识社群智慧型生态构建研究” ( 2017M611334) 。 作者简介: 郭宇,女 1982 年生,博士后,主要研究领
2、域为知识管理、用户行为, E-mail: ;王晰巍,女, 1975 年生,教授,博士生导师,主要研究领域为知识管理、信息生态;李师萌,女, 1989 年生,硕士研究生,主要研究领域为知识管理;王楠阿雪,女, 1993 年生,硕士研究生,主要研究领域为智库。 基于情感分析的社会网络用户 影响力模型研究 郭 宇,王晰巍,李师萌,王楠阿雪 (吉林大学管理学院,长春 130022) 摘 要 在社会网络环境下,用户的评论信息可作为信息分析的重要数据源,评论信息中包括用户对产品、服务等多个方面的情感倾向,对用户情感的分析可以帮助企业、组织、机构了解产品或者服务的优缺点。本文从情感分析和用户影响力入手, 构
3、建了情感分析的用户影响力模型。 利用八爪鱼采集软件获取同程旅游网中的评论信息,从数据预处理、词表的建构、用户情感分析和预测等方面对社交网络用户在线评论情感词进行分类和判断,以检验所构建模型的实际可用性。研究结果显示,所构建的模型可以帮助用户获取评论中的情感信息,模型对于正向和中性词汇的辨析效果高于负向情感倾向的词汇,同时根据数据结果绘制了评论信息的情感雷达图、用户影响力的幂律图和情感词的标签云图。 关键词 情感分析;在线评论;用户影响力 Research on the Influence Model of Social Network Users Based on Emotional Anal
4、ysis Guo Yu, Wang Xiwei, Li Shimeng and Wang Nanaxue (School of Management, Jilin University, Changchun 130022) Abstract: In the social network environment, the users comment can be used as an important data source for the in-formation analysis. Users comment contains emotional tendencies of product
5、ions and services so it can be helpful for enterprises, organizations or institutions to understand the merits and demerits of their productions and services through the sentiment analysis of users comment. Based on the sentiment analysis, this study constructed a model of user influence. Users comm
6、ent information was obtained from the website of Tongcheng Tirp with web crawler Bazhuayu. To examine the usability of the model, this study made a classification and judgment of the sentimental words of users online comment through data preprocessing, the construction of a word table and user senti
7、ment analysis and prediction. The results show that the model can help to obtain the sentimental information from users comment. The discrimination effect of positive words and neutral words is higher than that of passive words. Finally this study drew the radar map of sentimental words, the power l
8、aw graph of user influence and the tag cloud of sen-timental words. Key words: emotional analysis; online review; user influence 万方数据1140 情 报 学 报 第 36 卷 1 引 言 随着移动互联网设备的普及和网络规模的不断扩大,社交网络成为用户信息交流和娱乐消遣的重要平台,越来越多的用户利用微信群、自建 APP、QQ 群进行情感的交流互动,企业通过在线购物网站、微博、论坛等社群实现人、信息与资源的连接,利用大数据与云服务增强社群的运营能力,为用户带来更好的服务
9、与体验。截至 2016 年 12 月,中国互联网用户规模达到 7.31 亿, 手机网民达到 6.95 亿,互联网普及率为 53.2%1。 旅游企业的品牌营销及产品的推广由线下转移到线上,借助互联网低成本的快速传播,可以充分挖掘用户有针对性与观点性的评论内容,发现用户的行为习惯,提高企业品牌形象优化和口碑宣传。 近几年,用户的行为分析成为国内外学者关注的热点, Liang 等2结合用户社交网络信息和语义关系提出概率矩阵分解模型,以提高转发行为的预测性能。 Dai 等3基于混合相似性的特征和集成时间依赖性的传输机制,预测了不同用户活动迁移的行为,并以诺基亚移动数据和麻省理工学院的现实挖掘数据为例进
10、行实证分析。 Phan 等4以自底向上的算法提出了深度学习本体模型,从自我激励、社会影响、环境等方面对人类行为进行预测。 Argadea 等5提出移动电子商务预测系统,挖掘和预测移动商务环境下用户的行为,提高预测的精度以最大限度减少存在的风险。 郭淼等6以新浪微博中南京宝马肇事案为数据源,在改进 SEIR 模型基础上提出了复杂网络环境下微博用户转发行为预测模型。 赵玲等7从理论基础、动机、特性、影响与预测 4 个维度对微博用户行为进行详细的分析。李美其等8以 Pareto/NBD 模型为基础,对大众点评网用户的行为进行预测分析。 综上可以看出,国内外学者利用模型对行为进行预测分析已经取得了较多
11、的成果,国外学者强调以各种模型或者系统为基础,提高用户行为的预测能力。而国内学者也提出模型的研究,在实证分析的过程中以微博为数据源进行分析的成果较多,但在研究的过程中引入情感因素的研究相对较少。因此本研究拟从用户情感角度出发,拟解决以下三个主要问题:用户在信息评论过程中的情感倾向是否会影响用户的行为?能否根据用户对信息的浏览、转发、评论等行为建立影响因素模型为未来用户的选择进行指导?如何有效地收集和整理用户评价的信息以对模型进行实证分析?本研究为用户行为分析提供新的途径,在理论研究层面,利用语义词典和社会网络分析法建立用户影响力模型;在应用研究层面,以同程旅游评论信息为数据源,利用网络中真实数
12、据获取用户观点、态度等情感信息,对用户评论中的情感词进行分类和判断,从而挖掘用户的行为习惯。 2 相关理论 2.1 用户影响力 Ritzer9认为用户影响力是“个体在交互过程中引起其他群体在情感、思想、态度或者行为上的变化” 。 Cha 等10认为用户影响力由粉丝数、转发数和浏览数决定。本文认为在社会网络环境中,用户 a针对某个主题发布或者传播一条有价值的信息,其他用户(如用户 b)会关注该条信息,通过浏览、转发、评论或者点赞的方式与用户 a 进行互动,形成一定的社会网络关系。在此过程中,用户 a 改变其他受众的态度或者行为的能力被认为是用户的影响力,即用户的影响力由用户自身发布信息的能力与信
13、息的浏览、转发、评论或者点赞等互动能力共同决定,如公式( 1)所示。 ababababaE(a,b) R (B F C P ) = + ( 1) 其中, E(a,b) 表示用户 a 对用户 b 的影响力, Ra表示用户 a 发布信息数量,b aB表示用户 b 浏览用户a 发布信息的数量,b aF表示用户 b 转发用户 a 发布信息的数量,b aC表示用户 b 评论用户 a 发布信息的数量,b aP表示用户 b 对用户 a 发布信息点赞的数量。 2.2 情感分析 情感分析( sentiment analysis) ,又称倾向性分析 (orientation analysis)、情感分类 (sen
14、timent classi-fication)、意见抽取( opinion extraction) 、评论挖掘( review mining) 、情感挖掘( sentiment mining)或主观分析( subjectivity analysis) ,是用户对商品、服务等评论内容的分析、处理、归纳和推理,对评论中表达的观点和情感进行分类,主要包括情感表达的主体、客体和内容11-12。情感分析的技术方法主要有语义词典方法和机器学习法,语义词典方法是对词语中倾向于正面或者负面的程度进行计算;机器学习法需要大量的训练样本以建立分类模型,目前情感分析的模型主要有朴素贝叶斯、支持向量机 万方数据第 1
15、1 期 郭 宇等:基于情感分析的社会网络用户影响力模型研究 1141 和最大熵等。本文主要强调主观幸福感( subjective well-being) ,即人们对发生事情在情绪上的解释,可通过情感平衡和生活满意度来衡量,情感平衡包含积极情感和消极情感两个方面,具体如公式( 2)所示: pnpnN (u) N (u)swb(u)N (u) N (u)-=+( 2) 其中, swb(u)表示用户 u 的主观幸福感,pN(u)和nN (u) 分别代表用户 u 的积极情感和消极情感。 2.3 基于情感分析的用户影响力问题的提出 情感在人们决策的过程中起着重要的作用,决策者的情绪会直接影响决策者的行为
16、,在社交网络过程中,情感统计和抽取的技术逐渐成熟,从网络用户情感角度对社会活动进行预测有了一定的基础。目前情感分析主要应用于股市预测13、政治选举的预测14、电影票房的预测15等多个领域。网络信息在传播过程中,由于浏览、转发、评论和点赞都带有情感倾向,所以不同情感下用户所具有的影响力应有所不同,因此,本文采取语义词典的情感分析方法,利用八爪鱼采集软件获取同程旅游网用户评论数据,从情感角度对社交网络用户在线评论进行分类和判断,挖掘不同情感词对用户的影响,从而对用户将来的行为进行指导。 3 基于情感分析的用户影响力模型构建 为了进一步分析用户的行为,本文构建了基于用户评论的情感分析模型,在词表构建
17、的基础上计算用户的情感影响力,具体模型如图 1 所示,主要包括数据预处理、词表的建构、用户情感分析和预测可视化分析 4 个部分。 图 1 基于用户评论的情感分析模型 1)数据预处理 数据预处理对研究范围的确定和研究的准确性有重要的作用。本文首先利用网络爬虫软件获取研究主题的相关评论数据,然后对不同类型的评论数据信息进行存储。由于网络爬虫所获取数据存在的不规则性和多样性,因此需要对所获取的数据进行冗余的删除、字符的过滤、词形的转换等信息清洗工作,使信息转换成可用于分析的文本格式,最后以人工方式筛选归纳出所有的词汇。 2)词表的建构 本文词表的构建采用张华平博士研制的 NLPIR分词系统,以进行中
18、文和英文的分词、词性标注和关键词的提取,情感词表分类按照大连理工大学情感本体库中的七元情绪划分,即乐(高兴) 、好(喜好) 、怒(愤怒) 、哀(悲伤) 、惧(恐惧) 、恶(厌恶) 、惊(惊讶) ,其中乐和好属于正向情感倾向,怒、哀、惧、恶、惊属于负向情感倾向。从形容词、动词和感叹词中抽取出具有明显情感表达的词和搭配,记录评论中情感词出现的次数,根据公式( 2)计算出词汇的积极情感和消极情感。 3)用户情感分析 用户的影响力是指用户自身的行为可以改变他人行为的能力16,按照影响力的不同可以分为积极影响力、消极影响力和没有影响力,当用户所提出的观点被网络中其他用户接受即为产生积极影响;当用户所提出
19、的观点受到网络中其他用户的反对即为产生消极影响;当用户所做的行为并没有引起其他人的关注即认为没有影响力。可用如下公式表示用户的影响力: l+1 lp ppE =(1 r) E A- ( 3) l+1 lnnnE =(1 r) E A- ( 4) 其中, Ep和 En分别代表积极影响力和消极影响力向量, n 表示用户的数量, r 表示衰退因子, l 代表循环的次数,pA 和nA 分别代表用户的邻接矩阵。 4)可视化分析 可视化分析方法是以视觉感知为通道,将人脑智能和机器智能进行有效的结合和转换,以可视化的交互界面显示数据分析和推理的过程。用户可以依靠可视化的分析结果透视不同领域的结构,分析复万方
20、数据1142 情 报 学 报 第 36 卷 杂的网络结构以预测不同领域发展的前沿和态势,该方法是定性与定量方法相结合的综合性研究方法。 4 实证分析 4.1 数据获取 同程旅游网是国家高新技术企业、国内专业的休闲旅游预定平台,是商务部首批电子商务示范企业,是中国在线旅游行业三大企业集团之一17。本文以同程旅游网不同评论信息为“信息源” ,累计收集 929 个话题的数据评论信息,信息源发布时间为2016 年 12 月 20 日至 2017 年 2 月 1 日, 所抽取的样本评论部分数据如表 1 所示。 除了评论具体内容外,研究还收集了发表评论用户的编号、用户满意度、用户星级、话题评论数量和评论时
21、间等信息。整体数据显示网站给出的平均用户满意度达到 90%以上,所抽取的部分数据如表 2 所示。 表 1 样本选择表(部分) 用户编号 评论文本 评论级别137*5536 一共五个场馆,而且还有很多表演,最 喜欢 极地世界里面白鲸的表演,在灯光的映衬下显得非常唯美。 好评 186zeler877 收到二维码短信,网络取票口有好几个, 非常方便 ,白鲸表演 非常推荐看 ,小盆友看得很 开心 。 好评 B40C7106339F 特别的 好 ,玩的很 开心 ,第一次去,赶上这么便宜的一次, 不错 ! 好评 187*9815 太美 了!很 值得 一去 好评 momo7315 总体 一般 。但是海豚表演
22、也时间太短了,弄个人在那跳来跳去的谁要看人啊! 中评 0D1F919E6E586 人太多,去的时候赶上下雨,馆内基本上没有休息的地方,只能一路向前走走走,出去下雨又没办法休息,整体感觉 不太好 。 中评 ME 环境 不 是很好,去的时候人很多每个馆都要排队至少半小时以上,馆内光线 不好 ,通风也不好。吃饭的地方更 差 了,居然没有桌子,只能端着在地上吃饭, 太差 了,很 失望 的一次。 差评 165EDF5E738E5 太对不起游客了,动物不多,人多,地方小,太拥挤了,没有什么吸引人的地方,商业气息很浓重,带孩子去不好, 很差的体验 ,不建议大家去。 差评 盐城球 很 垃圾 的一次观赏体验!走
23、马观花,动物很少。真的 没啥好印象 。十分最多给五分! 差评 13916lvtfwx 怎么会有这么 垃圾 的工作人员,这么 混乱 的旅游环境,完全沒法理解,必须 差评 , 差评 ! 差评 表 2 样本选择表(部分) 序号 用户编号 用户满意度 用户星级 评论总数 序号 用户编号 用户满意度 用户星级 评论总数1 3019 98% 5.0 9930 11 3041 99% 5.0 8972 2 3150 98% 5.0 9876 12 181784 98% 5.0 8947 3 3115 98% 5.0 9829 13 32292 98% 5.0 8943 4 4464 98% 5.0 9760
24、 14 3239 98% 5.0 8962 5 3297 99% 5.0 9572 15 179998 98% 5.0 8933 6 7930 97% 5.0 9748 16 23860 99% 5.0 8847 7 3271 98% 5.0 9448 17 25329 99% 5.0 8788 8 32289 98% 5.0 9412 18 19705 97% 5.0 8584 9 3233 98% 5.0 9219 19 180423 99% 5.0 8289 10 29514 99% 5.0 9063 20 187489 98% 5.0 8303 4.2 评论词表构建 情感分析是对网站中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 情感 分析 社会 网络 用户 影响力 模型 研究 郭宇
限制150内