中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt》由会员分享,可在线阅读,更多相关《中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中文微博情感分析系统LTLAB上海交通大学中德语言技术联 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望简介在本届评测设立的3个评测任务中,LTLAB分别参加了任务1(观点句识别)和任务3(情感要素抽取)。对于任务1:采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。对于任务3:参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息。1.预处理预处理过程主要进行句子的分词、句法分析、以及评价词抽取。鉴于微博文本
2、的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分:URL用户名及转发标志:变现为:“+用户名”,或“|+用户名”话题:即一对“#”包裹的非空格字符正常文本信息分词和句法分析分词使用了中科院的分词系统ICTCLAS,句法分析使用了Stanford Parser。为了改善分词效果,评测小组成员从网络和评测样例数据中收集了一部分常用网络用语,加入用户词典中。1.预处理评价词抽取基于评价词词典对词或词组进行匹配分为正面评价词词典和负面评价词词典词典来源由3部分构成:Hownet情感词集合、NTUSD情感词集合、来自网络和评测数据样例的评价词词典加入正则表达式模板,如“丢.1,4的脸
3、”可以匹配“丢我的脸”对于抽取出的评价词,首先设定初始评价极性为词典中的极性;然后向前一个范围内寻找是否含有表否定的词语,如“不”、“没有”等,每找到一个词就对当前评价极性进行一次反转。2.观点句识别基于VFI(Voting Feature Interval)分类器进行二值分类,正例即为观点句:人工标注了评测样例数据作为训练数据。VFI分类器的原理较简单,它假设各维特征独立,每维特征对所有类标识进行投票,每类的得分正比于该类得到的票数。VFI分类器不显式考虑先验概率。由于训练数据不平衡(正例较少),因此有助于提高结果的召回率。下表是我们在小范围数据上使用各种分类器得到的结果。准确率准确率召回率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 情感 分析 系统 LTLAB 上海交通大学 德语 技术
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内