欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据处理下网络舆情监测系统分析(精品).docx

    • 资源ID:17885795       资源大小:18.40KB        全文页数:6页
    • 资源格式: DOCX        下载积分:9.18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要9.18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据处理下网络舆情监测系统分析(精品).docx

    数据处理下网络舆情监测系统分析摘要:针对目前热门焦点问题更新频率高,企业对本身舆情监测不到位的情况,设计开发出一套完好体系性的企业网络舆情监测系统。该系统可针对企业的相关信息进行非构造化数据处理,同时利用情感分析及个性化处理技术,构成可视化的舆情分析报告,为企业分析预测本身舆情提供了完善的渠道。关键词:数据抓取;非构造化数据处理;舆情分析;监测目前,很多企业在进行舆情把控时,未能做到有效处理舆情信息并针对舆情做出及时的应对对策。通常企业内部鲜有专门设立的应对舆情的部门,而是其媒体部门负责对企业舆情进行分析并对外给出有效的回答。在此基础上,舆情分析系统成为了企业内部进行舆情应对的一大工具,其可帮助分析调研数据,给出统计结论,并根据分析结果给出具有一定参考性的预警预测,这在当今信息爆炸的时代背景下具有鲜明的商业可拓展性。而本文所述的研究具有更实际的意义,从技术层面对目前的舆情技术进行革新。网络舆情形式多元化,信息量级特别庞大,且大多均为图片、文段等非构造化的数据类型。目前市面上对非构造化数据的处理还较为薄弱,而本研究针对这一市场痛点,对文本处理的技术进行了深度优化,有效解决企业对舆情的情感判别问题。进而企业能够直观地了解舆情情况,并针对系统分析得到的统计结果得出应对方案。1网络舆情系统的相关技术1.1网络爬虫技术在爬虫算法的基础上进行改良,主要包含网络请求模块、流程控制模块、内容解析模块和链接去重模块。其中网络请求模块主要负责根据URL链接向服务器发送请求,并获取响应内容;流程控制模块负责组织调度各个功能模块和控制URL列表的爬取顺序;内容解析模块负责处理网络请求获得的响应,其中大部分响应为JSON格式的数据,本文采用BeautifulSoup库对返回的响应进行解析;链接去重模块主要负责对待爬取的URL进行选择,去掉重复的URL,同时对解析之后的响应内容进行文本去重化处理。本文使用Scrapy框架详细实现网络爬虫。Scrapy使用了Twisted异步网络框架来处理网络通讯,加快数据下载速度,并包含各种中间件接口,能够灵敏地实现各种需求图1。1.2非构造化文本数据挖掘技术文本挖掘的主要目的是获得文本的主要内容特征,如文本设计的主题、文本主题的类属、文本内容的浓缩等。本系统采用互信息,信息增益,文本证据权和x2统计法等评价函数进行独立评估,对每一个特征根据给定的权值大小进行排序,选择最佳特征子集作为特征提取的结果1。对于文本特征数高,特征互相关联,冗余严重的特点,本系统采用基于支持向量机的文本分类技术2。而在中文信息处理的经过中,分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,本系统主要采用基于词典的分词方法5。基于Trie树构造实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG,采用了动态规划查找较大概率途径,找出基于词频的较大切分组合。对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。1.3数据库技术数据库存储技术在网络舆情监测系统中非常重要,在数据爬取和Web建站经过中都要用到数据库。在数据库中,数据一般以表的形式进行数据的存储和管理。本系统采用sqlite数据库,并设计了如下四个表:1.4Web建站技术本文采用的MTV形式与传统的MVC形式有所不同。MTV形式包括模型Model、模板Template和视图View,其中,模型同样负责业务对象与数据库的映射关系,模版负责怎样把页面展示,而视图负责业务逻辑,并在适当时候调用模型和模版。在工作经过中,Django框架接收用户的请求和参数后,通过正则表达式匹配URL,转发给对应的视图进行处理,视图再调用模型处理数据,最后调用模版返回界面给阅读器。2系统关键模块实现结巴分词改良:jieba分词在处理中文文本分析是比拟常用的工具,实现文本jieba分词的常用流程是加载自定义词典、获取关键词、去除停用词、数据处理。jieba分词自带词典,但是由于详细应用领域的不同,可能不能包括一些专业词汇,会造成分词结果不准确,本系统通过自定义词典解决这一问题。改良专业词汇识别准确率。获取关键词主要借助jieba.cut和jieba.lcut两个函数完成,两个函数生成的对象不同,前者生成字符串而后者生成list。Jieba分词还提供了去除停用词功能,去除停用词后能够更精准的进行文本分析。停用词词表能够借鉴网上的中文停用词词表,需要加载本地停用词表,然后针对不同的对象采用特定的方法进行停用词去除。本系统核心功能模块使用Python实现,词法分析接口可向用户提供分词、词性标注等功能;能够识别出文本串中的基本词汇分词,对这些词汇的词性进行识别标注。分别建立名词、动词、形容词的词典,识别词性后保存到词典中,记录数量。3系统测试3.1核心功能测试本系统分词功能模块的测试数据为摘自新浪新闻的25篇企业新闻,总字数为6683字,使用用户词典,通过计算准确率Precision,召回率Recall和两者的加权调和平均F-Measure来衡量模块质量,计算方法详见表5。分词部分结果如图2。3.2测试环境使用结果我们使用BosonNLP实现了对企业舆情的部分分析。上述新闻文本数据经过情感分析模块处理后计算得到了相关负面系数,见图3。此外,我们还测试了文本关键词提取的功能,该模块可找出和目的企业相关性较强的关键词以及新闻数据的主题词,并实现对关键词的自动加权。见图4。4结束语本系统基于非构造化数据处理实现的网络舆情分析系统,通过对网络上大量的非构造化信息的处理与分析,将杂乱无章的,冗余的、无意义的内容进行提取、分析从中获取有意义的,有价值的内容。对各个领域的发展提供数据支持,针对各大企业对于网络舆情获取的需要,设计企业网络舆情监测系统,针对网络上不同的企业相关信息进行非构造化数据处理,同时利用情感分析及个性化处理技术,构成可视化的舆情分析,以便企业将舆情分析运用到生产实践中。

    注意事项

    本文(数据处理下网络舆情监测系统分析(精品).docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开