基于Web的比较式挖掘研究-北京大学计算机科学技术研究所.ppt
《基于Web的比较式挖掘研究-北京大学计算机科学技术研究所.ppt》由会员分享,可在线阅读,更多相关《基于Web的比较式挖掘研究-北京大学计算机科学技术研究所.ppt(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NLP&CC2013跨语言情感分类评测万小军北京大学计算机科学技术研究所北京大学计算机科学技术研究所评测背景n情感分类随着网络评论的海量增长受到人们越来越多的重视。n情感分类系统通常依赖于标注语料并结合分类算法来实现。然而,情感标注语料的分布在不同语言下是极不均衡的。n因此在当前语言的标注语料缺乏时,利用其他语言的资源来实现情感分类已经成为了一个热门的研究课题。2 北京大学计算机科学技术研究所评测任务介绍n本任务要求参赛队伍在仅利用组织方提供的资源的前提下,对测试集内的每条中文评论进行倾向性分类(正面和负面)。n评测资源包括:英文标注数据少量中文标注数据英文情感词典中文未标注语料3 北京大学计
2、算机科学技术研究所评测数据n英文标注数据英文标注数据为A的用户评论,共包含3个不同领域:DVD,书籍,音乐。每个领域内有2000条正面评价和2000条负面评价。n英文情感词典提供MPQA情感词典(Multi-PerspectiveQuestionAnsweringSubjectivityLexicon),共包含2789个正向词和6079个负向词。4 北京大学计算机科学技术研究所评测数据n中文标注数据(验证数据)提供包含DVD,书籍,音乐三个领域的少量中文标注数据,正负例各20条。n中文未标注数据提供包含DVD,书籍,音乐三个领域的大量中文未标注数据,正负例不均衡。5 北京大学计算机科学技术研究
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 比较 挖掘 研究 北京大学 计算机科学 技术研究所
限制150内