基于svm的中文微博情绪分析研究-丁晟春.pdf
《基于svm的中文微博情绪分析研究-丁晟春.pdf》由会员分享,可在线阅读,更多相关《基于svm的中文微博情绪分析研究-丁晟春.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、专题研究一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一情报资料工作2016年第3期丁晟春啦王颖1李霄1(1南京理工大学经济管理学院信息管理系 江苏210094;:江苏省社会公共安全科技协同创新中心南京210094)摘要 文章以中文微博为研究对象,结合心理学和自然语言处理,将微博情绪划分为乐、怒、哀、恶、惧五大类。然后在类别划分的基础上,使用情感特征、句式特征、句间特征来表示微博情绪,并借助于SVM模型形成了微博情绪分类模型。最后借助NLP&CC 2013的公开评测数据对提出的模型进行了验证,实验结果表明本文所提的方法是有效的。关键词 情绪
2、类别 情绪分析特征选择SVM 中文微博SVM-mased Chinese Microblog Sentiment AnalysisDing Shengchun Wang Ying Li Xiaof1Department of Information Management,School of Economics&Management,Najing University of Science&Technology,Jiangsu,210094;2Jiangsu Collaborative Innovation Center of Social Safety Science and Technolo
3、gy,Nanjing,210094)Abstract 7IKs paper toke CMnese Microblog as the research object,combined psychology and naturallanguage processing,divided MicroblogS emotion into five categories,which are“happiness”,“anger”,“sad-ness”,“fear”,“evil”Based on these categories,it used emotional features,structure of
4、 sentences features andfeatures between sentences to express the emotional of MicroblogAnd then by using the SVM model the paperformed Microblog emotional classification modelFinally,the corpus of NLP&CC 2013 was used to testing theproposed model。and the results proves the effectiveness of the metho
5、dKeywords emotion categories, emotional analysis, feature selection, SVM, Chinese Microblog1引言微博作为一种分享与评论的工具凭借其发布的便捷性、传播的实时性,迅速成为最受欢迎的网络社交媒体。微博包含了各种各样的话题,用户可以对自己感兴趣的话题发表个人的观点,表达个人的情绪,抒发个人的情感由此可见微博内容包含了大量有价值的信息对微博文本内容进行挖掘可以辅助政府进行网络舆情监测还可以帮助企业进行产品改进、微博营销等。微博情感分析作为微博文本挖掘一个重要的方向,已成为近年学者们研究的热点。微博情感分析是指通过
6、微博文本内容的分析判断微博发布者对某一评价对象的观点、态度、意见或者是情感倾向。目前情感分析的研究主要集中在微博情感倾向性分析这一方面。已有的研究将微博情感倾向分为正面(褒义)、负面(贬义)两大类或者正面(褒义)、负面(贬义)及中性三大类。但是微博用户多会表达个人的情绪,不含有任何观点仅仅用正面、负面来划分微博的情感,不仅忽略了用户情绪的表达也未能完全涵盖用户的情感由此可知将情绪考虑到微博情感中,细化微博情绪的分类,深入挖掘微博情感是十分必要的。本文以微博为研究对象结合心理学中情绪类别本文系国家社会科学基金项目“基于社会网络分析的网络舆情主题发现研究”(嫡号:15BTQ063)、国家社会科学基
7、金重点项目“大数据环境下社会舆情与决策支持方法体系研究”(编号:14AZD084)和 苏高校优势学科建设工程资助项目的研究成果之一。万方数据情报资料工作2016年第3期一一一一一一一一一一-一一一一一划分的方法,尝试从自然语言处理角度划分情绪类别,之后构建微博情绪语料库,分析微博情绪特征,探索基于SVM模型的微博情绪分析方法。2相关工作目前关于微博情绪分析研究还处于初级阶段主要有两种方法一种是基于规则的方法即在分析微博情绪语料的基础上,结合表情符号、情感词、程度副词等情绪影响因素,设置情绪分类的规则库,依据规则库规则进行情绪自动分析。该方法也是目前使用比较多的方法:另一种是基于机器学习的方法。
8、即分析微博情绪语料进行情绪特征的选择与计算使用机器学习模型对语料库进行训练与测试自动对微博情绪进行分析。Yang等I-】以酒店评论数据为例,利用了中文情感词典提出了改进SOPMI算法该算法能有效进行权重计算和情感词典构建。Ouan等田构建了专门用于博客情绪分析的语料库包含了八种情感类别、情绪强度、情感词、程度词、否定词等,用于分析情绪的表达。Quan等翻又借助了中文情绪语料库对比利用了决策树、SVM、NB等模型对句子的情绪分类进行了比较,并将八种基本(期待、快乐、爱、惊奇、焦虑、悲伤、愤怒和憎恨)情绪分类思想与有监督的多项式核方法结合。实验证实了其有效性。Strapparava等口将新闻标题中
9、的情绪分为六类比较评价了基于知识和语料库的几种方法。Chaffar等四采用了监督机器学习的方法识别六种基本的情绪(愤怒、厌恶、恐惧、幸福、悲伤和惊奇),并证实SVM效果优于其他分类器。NLP&CC 2013固中文微博情绪分析评测中首次提出的中文微博情绪分析的任务其情绪类别划分是依据徐琳宏等【)】构建情感本体的情绪类别。具体为喜好、愤怒、厌恶、恐惧、惊讶、悲伤、高兴七大类。何跃等人罔在对微博预处理的基础上基于文档频率和信息增量进行特征向量空间的构建,并对比多种文本分类方法来构建最优情绪分类器其实验结果表明基于机器学习的方法更加适用于语料库规模较大的微博研究而且SVM模型更适用于细粒度的情绪分析。
10、潘明慧等人阳嘴微博情绪分为喜、怒、哀、惧四大类,提出了以情绪词典为基础,基于规则的微博情绪分析方法。该方法为高精度的情绪分析提供了参考。在其后研究中又将情绪划分为“喜”、“哀”、“怒”、“惧”、“恶”、“惊”六类借助互信息方法构建表情符号词典,采用词典与规则结合的方法针对微博进行情绪分析。李寿山等人-针对文本中的隐含情绪分类进行研究。基于情绪相关事件的上下文来辅助情绪分析以提升情绪分类的性能。欧阳纯萍等人t玛在研究基于朴素贝叶斯情绪微博识别问题的基础上提出基于多策略(SVM和KNN算法)的微博情绪分类方法。实验结果说明基于多策略的分类方法要优于单一的方法。寺情绪分析是一个细粒度的分类问题。通过
11、已有的:意研究发现,细粒度的分类问题存在很大的挑战,基于规:研则的方法效率比较低需要耗费大量的人力去收集词:究典、制定规则,而基于机器学习的方法虽然系统运行效:率高。但是特征和算法的选择是非常重要的。因此,如:何选择合适的特征去区分每个类别如何选择合适的-分类方法都是需要重点研究的问题。3方法针对微博情绪分析问题。本文首先结合心理学从自然语言处理角度进行情绪类别的划分将情绪划分为“乐”、“怒”、“哀”、“惧”、“恶”五大类;然后深入分析微博情绪特征基于SVM模型进行微博情绪分析,而情绪分析实质上是一个文本分类的过程。31支持向量机SVM支持向量机(Support Vector Machines
12、,SVM)是Vapink根据统计学习理论中的结构风险最小化提出的【堋。SVM能够尽量提高学习机的推广能力。即使由有限数据集得到的判别函数对独立的测试集仍能够得到较小的误差。近几年来,SVM方法已经在信号处理、基因图谱识别和图像识别等方面凭借其优势得到了成功的应用。SVM是从线性可分情况下的最优分类面发展而来的通过核函数实现到高维空间的非线性映射。所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。此外,课题组先前采用SVM进行了商品垃圾评论识别。获得比较好的实验结果嗍,由此发现了SVM在处理短文本分类问题上的优势而中文微博正属于短文本,所以本文选取SVM作为实验分类模型。32方法流程下
13、页图1为本文提出的微博情绪分析方法流程。(1)数据采集与处理:利用微博数据抓取程序获取微博数据过滤掉含有链接、广告等垃圾微博数据。(2)语料预处理:针对语料进行分词及词性标注,并进行停用词过滤处理。(3)特征选择与计算:从情绪本体、微博内容特征等方面进行微博情绪分类特征的选择并确定每个特征的计算方法(4)微博情绪分析:依照特征选择和计算的方法,使用空间向量模型对微博进行特征表示基于构建的情绪分析语料库构建基于SVM的情绪分类模型。最后使用NLP&CC 2013提供的情绪语料进行测试,验证本文所提出的情绪分析方法的有效性。33情绪类别划分心理学上将情绪定义旧为人在加工外界输入的信息时。不仅能认识
14、事物的属性、特性及其关系,还会产生对事物的态度,引起个人的满意、不满意、喜爱、厌恶、憎恨等主观体验。国外关于情绪类别划分的研究比较早,冯特回芷19世纪就提出了三维理论,其认为情绪万方数据专题研究一一一一一一一一一一一一一一一一一一一一一情报资料工作2016年第3期图1微博情绪分析方法流程是由愉快一不愉快、激动一平静、紧张一松弛三个维度构成每种具体情绪都是在三个维度的两级之间不同位置上,这为情感的维度理论奠定了基础。ComeliusIl7】和EkmanV目将情绪分为快乐、悲伤、恐惧、憎恶、愤怒和惊讶六种。Shayer等人旧对情感进行归纳后,总结出快乐、悲伤、恐惧、憎恶、愤怒和惊讶六种基本情感。近
15、代心理学家林传鼎阅将情绪划分了24类。具体包括安静、喜悦、恨怒、悲痛、哀怜、忧愁、忿急等类别。许小颖等人刚将情感词汇划分为基于心理感受和基于表现力两大类其中将基于心理感受的词汇又细化为12类。将基于表现力的词汇细化为4大类徐琳宏等【】所构建的情感词汇本体是从汉语语言学角度出发将情绪分为7大类、21小类,其中7大类分别为乐、好、怒、哀、惧、恶、惊并将情感强度分为五级。已有研究都是从心理学角度出发,但是却没有一个统一的划分标准;同时很少有学者从自然语言处理领域来对情绪进行划分如何结合自然语言处理和心理学两个方面对情绪类别进行划分成为研究的难点。本文在文献71的基础上结合心理学、情感词的情绪状态以及
16、自然语言处理等多方面的影响因素将情感划分为乐、怒、哀、恶、惧5大类,具体的定义与描述如下:(1)乐。乐是盼望的某一目的达到后,继而紧张解除后的情绪体验,它是具有正性色调的情绪,使人产生接纳感、愉悦感和自由感。乐的程度取决于满足的程度。其程度从接受、满意到大喜、狂喜。本文所提的乐指的是接受、放松、快乐、安心、尊敬、赞扬、相信、喜爱、惊喜等类的情感。万方数据情报资料工作2016年第3期一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一。一一一一一一一一一一一一(2)怒。怒是由于人受到干扰而不能达到目标时所产生的情绪体验。当人的目的和其愿望不能达到一再受到阻碍,从而积累
17、了不满等情绪,最终就会产生愤怒特别是遇到挫折或者不合理的事情时愤怒易发生。怒的程度依次是不满、生气、愠怒、愤、激愤、大怒、暴怒。本文所提的怒是指不满、烦恼、恼怒、愤怒、狂怒等类情感。(3)哀。哀与个人所失去的盼望、所追求的东西和目的有关。主要是指在希望破灭、失去心爱的对象、理想与现实不符时所产生的情绪体验其程度主要取决于希望、理想和对象的重要性与价值。悲哀的程度依次是遗憾、失望、难过到哀痛等。而其会带来情绪的释放,如哭泣。本文中哀是指悲痛、遗憾、失望、沮丧、内疚、忧郁、难过、哀伤,悲伤、哀痛等情绪。(4)恶。恶是指个人对周围的事物、事件与自己期待不相符的,甚至相悖时所产生的情绪体验,其主要是指
18、烦闷、憎恶、轻蔑、贬责、妒忌、怀疑等情绪。(5)惧。惧是指企图摆脱或者逃避某种危险情景时所产生的情绪体验引起恐惧的主要原因是缺乏处理和摆脱可怕情景的能力与手段。本文所提的惧指的是慌、恐惧、羞、惊吓、惊恐等情绪。34特征分析本文结合语言学文献和相关情感词典从情感特征、句式特征、句间特征三个角度详细分析中文微博的情绪特征。(1)情感特征:是情绪分类非常重要的特征之一。微博发布者在表达自己情绪时,会使用情感词、表情符号或者表情图片。对这些关键词的情绪类别确定后。微博的情绪也就很容易确定情感词:情感词是微博情绪分类中是必不可少的特征以往所使用的情感词都是分为正面、负面或者是褒义、贬义,并没有做进一步的
19、分类,为了使情绪分类更加准确,本文选择使用文献闭构建的情感词汇本体该本体中共收录了7大类别21个小类的27 476个情感词。此外,由于微博发布的随意性,导致微博中会出现大量的网络情感词,如“NND”、“他妈的”、“SB”、“SuperBov”等,这些词在微博中出现的频率非常高,但是在情感本体中并不存在,因此本文在文献r71构建的情感本体基础上新增了136个情感词并对其赋予类别和情感强度以完善情感词汇本体。表情符号和表情图片:这些表情符号和图片其表达情感的方式更为直接。本文从腾讯微博、新浪微博中收集了1278个表情符号和表情图片对每个表情符号和图片的情感强度打分,并添加到情感本体中。本方法选取情
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 svm 中文 情绪 分析研究 丁晟春
限制150内