基于合并模型的中文文本情感分析.pdf
《基于合并模型的中文文本情感分析.pdf》由会员分享,可在线阅读,更多相关《基于合并模型的中文文本情感分析.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于合并模型的中文文本情感分析李思1,张浩,徐蔚然,郭军北京邮电大学模式识别与智能系统实验室,北京,100876E-mail:1lsl 98cfgmailcom ,摘要:本文研究中文文本的篇章倾向性分析问题。针对于传统的只考虑单一粒度:的情感分析方法,本文提出了一种新颖的基于不同粒度的结合模型的中文文本情感分析算法,该方法结合了摹于词语级和句子级的篇章情感分析。在基于词语级篇章情感分析方法中采用条件随机场(CRFs)模型对情感词进行识别并判断出词的倾向性;针对句子级情感方法采用基于最大熵的文本情感倾向性判别模型。采用基于合并模型的方法,在提升结果的准确率的同时,确保J,召【里】率。实验证明,相
2、对于单一粒度上的情感分析方法,本文的方法取得r良好的效果。关键词:合并模型:词语级;句子级;情感分析。Oh i nese Text Sent i ment Ana l ys i SBased on Comb i nat i on Mode ISi Li,Hao Zhang,Weiran Xu,Jun GuoPattem Recognition and Intelligent System LabBeijing University ofPosts and Telecommunications,Beijing 100876E-mail:1Isl 98cfgmailcornAbstract:111
3、is paper focuses on the task of text sentiment analysisFor just one level was considered by thetraditional text sentiment aimlysis,a hovel combination model based on different level was presented to Chinesetext sentiment analysisThis model included phrase1evel and sentence-levelIn the phlase-level s
4、entimentanalysis,Conditional Random Fields(CRFs)Was used tO identify the sentiment wordThe Maximum Entropymodel Was uesd in the senteneeAevel sentiment analysisThe expriement resulit proves that the combinationmodeI is better than one leveI modelKeywords:Combination Model,Phrase-level,Sentiment-leve
5、l,Sentiment Analysis1 引言随着网络媒体的内容、形式日益丰富,其中带有个人情感色彩的文章、言论也越来越多,尤其以各类BBS论坛、Weblog等形式的网络媒体为典型。这些文本中的内容经常是对一些新闻时事、法规政策、大众人物、消费产品、影视娱乐等话题的个人评论,反映的是用户个体的观点。如何采用机器白动处理的手段对这些网络文本的内容进行情感分析判别,成为当前互联网智能信息处理的一个研究热点,是一项具有较人实用价值的关键技术,可以与多种现有互联网庶刚相结合,应用于国计氏生的众多领域,如电子商务中的推荐系统、信息安全中的过滤系统、网络搜索中的个性化观点检索、网络社区中用户兴趣挖掘等等
6、。文本情感分析主要是指文本的褒贬分类,一般将文章分为三类,褒义、中性、贬义。+国家863计划项I:1资助,编号:2007AA012417;国家自然科学基会资助,编吁:60905017;高等学校学科创新一川智计划资助,编号:B08004。同时,文本的情感分析可以分别基于词语级、句子级、段落级或篇章级进行处理。本文主要针对词语级与句子级结合的处理模式进行研究。在进行情感分析前,首先假设中文文本的情感表达具有内在的构成机制,这种机制可以通过构成文本的词语的有序排列来表示。在中文自然语言处理中,包括分词、命名实体识别等I=作都显式或者隐式的使用了这一假设,本文也以此假设为出发点。在基于词语级文本情感分
7、析中,首先对文本中的情感词进行识别并进行倾向性判断。依据前文所提到的假设,利用词,词性,否定词表,转折词表等作为特征,使用CRFs模型从训练语料中学习,并对测试语料中的情感词进行自动识别和倾向性判断。按照文本中包含情感词的不同倾向性的比例计算该文本的情感倾向性。对于基丁:句子级文本情感分析,采用最大熵建立文本倾向性模型,并对测试语料中文文本包含的句子判断其倾向性,按照文本中包含句子倾向性的比例计算该文本的情感倾向性。本文具体章节安排如下。第二节介绍当前国内外文本倾向性分析的方法;第三节具体介绍本文所采用的基于词语级、句子级文本情感分析的方法及合并模型;第四节给出实验结果,对本文的提出的方法进行
8、验证;第五节,结论及对以后工作的展望。2相关工作英文情感词的抽取已经有了一定的研究,由于中文表达的复杂性,近几年才开始进行中文情感词抽取方面的研究,目前还处于探索阶段。Hatzivassiloglou等人1】提出了一种四步法的有监督学习算法,根据语言学上的连接词对形容词的语义倾向的约束关系,由已知词语的极性,推测与其由连接词所关联的其它词语的语义倾向。Turney2使用了种无监督的方法来判断一个短语的情感倾向性,他使用互信息的方法计算该单词与“execllent”和“poor”的互信息,然后两个结果相减得到该短语的平均情感倾向性指标,从而判断它的极性。Riloff3提出了使用bootstrap
9、ping的方法抽取主观表达模式,然后使用这些模式抽驭语料集中的主观情感词。在中文情感词抽取方面,朱嫣岚等人【4】提出了一种基丁:HowNet的中文词语情感倾向性计算方法。Yao等人【5在计算中文词汇情感倾向性时,不仅考虑了辞典中词汇的倾向性,而且分析了词语上卜文中的情感倾向性,并对结果做出修正。乔春庚等人【6】提出了从一些种子情感词出发,利用句型结构,根据共现特征,扩展情感词,对扩展后的情感词进行选择评价得到带有极性的情感词,将新的情感词加入种子情感词,再进行下一轮扩展,直到不出现新的情感词为I:。然而,这些方法都始于一个情感词辞典,针对目前互联网上用户产生的大量文本无法做到更有效的分析,例如
10、“她是影坛最红的明星”和“这是一个红色杯子”中,在第一句“红”表示著名、受欢迎,属于褒义的情感词,而第二句的“红”不包含任何情感含义,它不是情感词。同样都是作为形容词出现在句子中,如果单靠情感词辞典是无法准确识别情感词的。本节针对这个问题,本文采用基丁LMR模板的中文情感词抽取算法。对于篇章的情感分析Pang等人【7】最早利用机器学习方法来解决文本情感分类问题,以internet上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝nt斯、最火熵、SVM对电影评论进行分类。在他们的另一项I:作【8】中,把文本的极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基-F minim
11、umcut的分类器,对文本进行极性分类。张猛【9】等人以情感词识别的结果,采刚支持向量机模型,利朋各类情感类别词数之和,融合多种信息对文本的倾向性进行判别。王克【10】等在中文文本文本土客观分析中,分别采用对句子级中的情感词的个数判别句子的主客观性和基于情感词分数之和得剑323句子的主观分数。刘康等【1l】分别采用基于机器学习的观点倾向性判别方法和基于情感词典的观点倾向性判别方法。宋锐等121首先基于“大连理-I:大学信息检索实验室的情感词汇本体库”中的情感词汇从语料中提取出情感词汇,然后依据篇章的情感强度和情感词汇和文章词汇的比例来判断文本的倾向性。现今情感分析一般会采用基丁情感词典和基于机
12、器学习的方法,由丁语言表达有其自身的复杂性,同一词句在不同的文本中会有不同的倾向性,基于机器学习的方法会略好于情感词典的方法。然而这些方法般都基于单一粒度的情感分析。从理论角度,在文本处理上,粒度越小,召回率就越高。合并模型的优势在于,在确保准确率的同时,又保证了召同率。、3基于结合模型的中文文本情感分析31 基于词语级文本情感分析针对同一词语在不同的句子可能出现不同的情感倾向,本节采用了基于CRFs模型和LMR模板131的情感词识别算法。31I LMR模板在设定LMR情感词模板来模拟词语序列的情感表达之前,首先假设中文文本的情感表达具有内在的构成机制,这种机制可以通过构成文本的词语的有序排列
13、来表示。词与词之间信息的位置关系通常会体现某种情感表达。一个包含n+m+1个词的序列可以表示为L。Ln1L1MRlR。lRm,其中,M为待判定的词,L为文本序列中M词左侧序列的词,R为文本序列中M词右侧序列的词。LMR情感词模板通过对情感词序列建模米判别M位置词的情感倾向性和极性。本文中选取词,词性,句法分析结果,转折词表,否定词表,词与词之间的依存句法关系141作为特征。312 基于CRFs模型的情感分析算法CRFs是一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,该模型是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态
14、的分布。标记序列的分布条件属性,让CRFs可以很好拟合真实世界的数据,而在这些数据中,标记序列的条件概率是依赖于观察序列中非独立的、相互作用的特征,并通过赋予这些特征不同的权值来表示该特征的重要程度。令x=表示输入的观察序列,y=是有限状态的集合,其中每个状态和一个标记了!l对应lL。根据随机域的基本理论,给定观察序列X的特定标记序列的联合概率具有以一F形式: ,pI五允)oc叫莩名,乙川,y,)+莩。J。,f) , “ 在式(1)中tj(yj1,Yi,x,i)表示对于观察序列的标记序列位置i-1与i之间的转移特征函数, Sk(yi,X,i)表示观察序列的i位置的状态特征函数。入j和u-分11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 合并 模型 中文 文本 情感 分析
限制150内