中文微博情感分析汇总ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《中文微博情感分析汇总ppt课件.ppt》由会员分享,可在线阅读,更多相关《中文微博情感分析汇总ppt课件.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用基于情感词典的中文微博情感倾向分析研究导师:何婷婷华中师范大学 NLP实验室经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用内容提要情感分析的研究背景情感分析的研究现状微博情感分析的相关概述和理论微博情感分析的研究内容和方法微博情感倾向分析具体实践经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用1.情感分
2、析的研究背景 在Web2.0 时代,最具有影响力的产品无疑是微博,它实现了把信息发布与社会网络紧密结合在一起。自2006 年问世至今,微博作为一个新兴的科技信息产物,目前在全球已成为一个能高度互动的信息转播平台。在国内,短短几年时间里,微博从互联网的新秀跃升为互联网的基础应用之一,以微变革的力量,打开了一个大时代之门。庞大的微博信息流揽括了众多话题,也许这些信息看似琐碎,而且非常不规则,可事实上蕴藏着巨大的潜在价值。微博平台上的各种互动,往往与用户的心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分析。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的
3、损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用2.情感分析的研究现状 通过目前收集到的国内外刊物及会议论文来看,关于文本情感分析方法的文献大致分为两类:(1)使用情感词典及与其关联信息分析文本情感(2)使用机器学习方法分析文本情感经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用2.1使用情感词典及与其关联信息分析文本情感使用情感词典及与其关联信息来分析文本情感,其优点是应用在词语特征级,句子级,粒度细,分析精准。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据集中隐藏着的重要模式,使得未
4、来研究工作中还有很大的提高空间。徐琳宏、林鸿飞等从句子的词汇和结构作考虑,提取影响语句情感的9个语义特征,采用手工与自动获取相结合的方法,构建情感词汇本体库,对情感分析研究做了初步的尝试。李钝、曹付元等从语言学的角度出发,采纳“情感倾向定义”权重优先的计算方式得到短语中词语语义倾向度,并分析词语的组合方式特点,提出中心词概念对词语的倾向性做计算,从而识别出短语的倾向性及其强度。闻彬,何婷婷等提出一种基于语义理解的文本情感分类方法,通过在情感词识别中引入情感义原,赋予概念情感语义,对概念的情感相似度重新定义,得到词语情感语义值。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受
5、到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用2.2使用机器学习方法分析文本情感 这类方法常用的机器学习模型有:中心向量分类法,朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy),K最近邻分类和支持向量机(SVM)。国外有用机器学习的方法对电影评论进行情感极性分类的实验,分为正向情感和负向情感,分别采用了朴素贝叶斯、最大熵、支持向量机三种分类方法做实验,并将之与手工分类结果做比较,发现支持向量机方法在这种机器学习方法中效果最好,分类精确度达到80%。由此,可见机器学习方法在情感分析中展示出了一定的优势。经营者提供商品或者服务有欺诈行为的,应当按照消费
6、者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.微博情感分析的相关概述和理论微博的相关概述文本预处理技术特征选择算法经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.1 微博的相关概述3.1.1 微博的定义和发展 微博是微型博客的简称,英文名称为MicroBlog。它是一个基于用户关系的信息传播、分享以及获取的平台,用户可以通过多种渠道(如WEB,WAP 以及各种客户端组件,即时通讯等)即时更新信息,每次更新内容将限制在一定数目内(中文微博通常为140 字左右),它具有便捷
7、性、原创性、互动性、传播速度快及内容碎片化等特点。2009 年8 月,新浪率先推出了“新浪微博”内测版,随后国内几大综合门户网站网易、搜狐、腾讯等相继推出。一时间微博呈现出井喷式发展,中国也真正进入了微博时代。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.1.2 微博文本中的符号1网页链接:通常在用户分享后的文本末尾会跟随出现一个以“http”开头的地址,提供了分享视频、网页、图片等功能,这类文本符号在本文的情感倾向分析中是没有用处的,应该在文本预处理阶段过滤掉。2标签符号:通常微博应用最广泛的标签符号有四
8、类。下面将作分别介绍:代表at,意思是“对某人说”或者“需要引起某人的注意”。#:两个#框起来的文字,可以理解为“话题”。/:一般是由微博系统自动添加的,出现在再一次转发已转发并带有评论的微 博时,主要起分隔针对同一微博的多人多次评论的作用。V:代表该用户是通过微博官方认证的,是特殊身份的象征。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3表情符号。很多微博用户喜欢使用表情符号来表达自己当时的心情。例如:表情符号 经抓取后转变为了哈哈,表情符号在本文情感倾向分析中起着重要作用。经营者提供商品或者服务有欺诈行为
9、的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.1.3 微博情感分析研究的困难1.微博文本的特点 中文微博的文本内容都限制为140个字,用户可以发布更有深度的内容(评论、新闻、分析等),微博用语多为非书面语言,口语化严重,大多不规范、语句结构杂乱,这在自然语言理解上给情感分析带来难度。2.情感词典的构建 汉语表达比较灵活,同样的词语,短语存在多义性,甚至同一个词语既有褒义又有贬义,根据所处的语境不同所表达的感情倾向往往不相同,给感情色彩的判别带来了偏差。微博中大量网络用语的出现表现尤为明显,这对判断情感倾向同样造成了困难,构建一个适用于微博
10、的情感词典是一个难点。3中文微博的数据获取 目前,还没有一个公共地、统一地、可供用作测试的微博语料集。研究人员还得依赖于微博平台官方提供的API接口获取数据,而当前大多数微博都只开放部分API接口,并对用户的访问权限进行了一定的限制。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.2 文本预处理技术3.2.1 中文分词 中文微博的情感倾向分析首要解决的就是对文本内容进行分词。中文是以字为基本书写单位,单个字往往不足以表达一个意思,通常认为词是表达语义的最小元素。在汉语中,一句话的意思通过一段连续的字符串来表达
11、,字符串之间并没有明显的标志将其分开,计算机如何正确识别词语是非常重要的步骤。一个例子:输入例句:S=“高等人工智能课程非常有意思”词表:dict=高等,人工智能,课程,非常,意思最后分词结果应该为:高等/人工智能/课程/非常/有/意思经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.2.2 去除停用词 停用词也被称为功能词,与其它词相比通常是没有实际含义的。微博文本中不仅包含针对传统文本信息的停用词处理,还包含其它一些对情感无关符号处理。例如微博消息中常见的“、V、#、http:/”等。这些字符在微博文本中起
12、辅助作用,但在情感分析研究中没有实际意义。若计算机对其处理不但是没有价值的工作,还会增加运算复杂度,通常文本的停用词处理中可采用基于词频的方法将其除去。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.3 特征选择算法词频法文档频次法信息增益互信息法经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.3.1 词频法词频法(Word Frequency,WF):词频是指一个词语在文本中出现的次数,一般由统计获得,通常特征选择的时候可
13、将词频低于某个阀值的词语删除,从而减小特征空间的维数。3.3.2 文档频次法文档频次法(Document Frequency,DF)是指整个数据集中,有多少个文档包含了某个特征项,占数据集中总文档数目的比值,其计算公式如下所示:公式中,Nti为出现特征项ti的文档数,Nall为整个数据集中的总文档数。该方法通过对每个特征项在数据集出现的频率进行统计,然后根据预先给定的特征向量维数或者设定的阀值,去除掉那些DF 值小于某个阀值或大于某个阀值的特征项。其思想在于这两种状态代表两种极端情况,若DF值过小,表明包含某特征的文档数目过少,该特征项没有代表性。反过来,若DF值过大,这表明包含某特征项的文档
14、数目过多,该特征项没有区分度。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.3.3 信息增益 信息增益(Information Gain,IG)是指某个特征在文档中出现或不出现对判断文本隶属类别所能提供的信息量大小。信息增益借助了信息论中熵的概念,定义为信息熵的有效减少量,即不考虑任何特征时与考虑该特征时两文档的熵值之差。其计算公式如下所示:公式中,P(cj)表示cj类文档在训练文档集中出现的概率,P(ti)表示训练文档集中包含特征项ti的文档频率,P(cj|ti)表示文档包特征项ti时属于cj类的条件概率
15、,表示训练文档集中不包含特征项ti的文档频率,表示文档不包含特征项ti时属于cj条件概率。信息增益是一个统计量,用于度量特征对分类贡献的大小,其值越大,该特征就越重要,越有助于分类,故应选择信息增益值较大的候选特征。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.3.4 互信息法 互信息(Mutual Information,MI)在统计语言模型中被广泛运用。它是用来度量两个随机变量之间的关联性。在分类系统中体现的是特征项与类别之间的依赖程度。若相互之间依赖程度越大,其特征项就越重要。特征ti与类别cj之间的
16、互信息公式如下所示:公式中,P(ti|cj)为特征ti在类别cj中出现的概率,P(ti)为特征ti出现的概率。当MI(ti|cj)=0时,表明特征ti与类别cj不相关,两者之间是相互独立的。如果词频法(WF)的特征值越高,其两者时间的关联性越大。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用3.3.5 微博的特征选择方法 传统的文本分类大多是把测试数据集中的文档归入预先设定好的文档类别中去,比如:“体育、艺术、军事、经济、政治、文学等”,这可通过文本的主题、属性及内容来划分。文本的情感分类则是特殊的文本分类,需
17、要从语义级别上做考虑,根据文本内容所能体现出的观点、态度、立场等相关情感信息做倾向性分类。微博消息的文本内容虽然限制为140 个字符,但是包含的信息却是丰富多彩的,有文字、链接、表情、标签符号等,如何从短文本信息中获取情感信息是非常关键的。比如:从文本内容获取具有情感倾向的词语与短语、或从自然语言处理领域做基于语义的文本理解、抑或通过微博文本中的表情符号获取情感倾向性等。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用4.微博情感分析的研究内容和方法微博情感分析关键是如何判别微博消息的情感倾向性,首要条件是构建一
18、个合适的情感词典,依靠情感词语、微博表情符号及语气句子等作为特征提取方法,对不同情况下微博消息做相应处理,最后进行加权计算,由最终的权重结果判别出微博消息的情感极性。主要研究内容有以下几点:1.微博情感词典的构建 研究情感词获取方法,尽可能构建一个足够大、覆盖面广的情感词典应用于微博消息文本的特征提取中。一方面对当前已有情感词汇资源进行总结和整理,另一方面采用扩展的情感倾向点互信息算法(Semantic Orientation Pointwise MutualInformation,SO-PMI),从微博语料集中自动获取领域情感词,构建了微博情感词典。2.微博情感倾向的判别 基于中文微博表达多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 情感 分析 汇总 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内