欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    中文微博情感评测报告.ppt

    • 资源ID:57178937       资源大小:977KB        全文页数:24页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文微博情感评测报告.ppt

    中文微博情感评测报告 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。微博情感分析l情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。l主要技术:(1)情感词典与规则相结合的方法(2)机器学习意义l过滤不合法网络舆论信息,营造良好的网络环境l监督舆论的走势,辅助社会管理l实现商品个性化推荐l对社会计算的研究有重要的意义提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务清单l任务一:观点句判定l任务二:分析情感倾向 l任务三:提取情感要素技术准备l分类器:SVM、CRFl情感词典扩充:加入网络用语和表情符号 l中文分词技术:海量云分词提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务处理流程构建特征集人工标注训练语料训练集及训练模型生成预测集生成及预测人工标注l利用本团队自主开发的标注工具标注l严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注l标注内容包括:是否为观点句、情感倾向性、情感要素训练语料任务一:人工标注的1219条微博任务二:任务一训练语料中451条为观点句的微博任务一特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2表情符号是否含有情感表情符号参考网络表情符号词典3情感词是否出现情感词在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充。4情感词个数情感词出现的个数5标点符号是否出现感叹号和问号。!?6标点符号是否出现连续的感叹号和问号。!,?7反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之内)8程度副词是否含有程度副词。很,特别等9语气词是否含有语气词。啊,哪,啦,呀,吧,呢10网络用语是否存在网络用语参考网络用语词典内容11目标值是否为观点句任务二特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2正面表情符号正向情感表情符号个数参考网络用语表情词典3负面表情符号负向情感表情符号个数参考网络用语表情词典4正面情感词正向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。5负面情感词负向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。6反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之内)7问号是否出现问号8标点符号是否出现问号或者连续的问号。9目标值情感正负训练模型生成网络用语、表情特征提取提取特征训练模型格式转换分词SVM训练人工标注语料海量分词格式分词结果训练集格式转换预测集生成网络用语、表情特征提取提取特征格式转换分词待预测微博海量分词格式分词结果预测集格式转换预处理预测集生成及预测细节任务一分词前预处理:过滤类似“我感到很高兴”这样的主观抒发情感句,并定为非观点句。任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博使用SVM对预测集进行预测评测结果任务微平均宏平均正确率召回率F值正确率召回率F值一0.6450.9590.7720.6490.9600.770二0.8040.7710.7870.8090.7780.793任务三流程分词特征提取CRF训练及预测结构化标注 情感要素提取任务三特征集特征序号特征类型特征内容描述1Token即该词语名称分词所得的某一个词的名称2POSToken的词性该词的词性,可以在分词结果中取得3上下文窗口某Token上下Token的特征选取了上下文窗口为5的词语的Token、POS特征4目标值结构化标注 用于提取情感要素特征训练集生成使用与任务二相同的人工标注集作为训练语料结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词SO为情感词,BG为背景情感要素确定u标注为SO,即情感词,作为微博情感倾向u标注为TP-B或TP-E,则可能是情感要素u没有标注TP-的角色,那么就认为该句没有情感要素总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。感谢各位专家、学者聆听感谢各位专家、学者聆听本次报告!本次报告!

    注意事项

    本文(中文微博情感评测报告.ppt)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开