数据处理下网络舆情监测系统分析(精品).docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据处理下网络舆情监测系统分析(精品).docx》由会员分享,可在线阅读,更多相关《数据处理下网络舆情监测系统分析(精品).docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据处理下网络舆情监测系统分析摘要:针对目前热门焦点问题更新频率高,企业对本身舆情监测不到位的情况,设计开发出一套完好体系性的企业网络舆情监测系统。该系统可针对企业的相关信息进行非构造化数据处理,同时利用情感分析及个性化处理技术,构成可视化的舆情分析报告,为企业分析预测本身舆情提供了完善的渠道。关键词:数据抓取;非构造化数据处理;舆情分析;监测目前,很多企业在进行舆情把控时,未能做到有效处理舆情信息并针对舆情做出及时的应对对策。通常企业内部鲜有专门设立的应对舆情的部门,而是其媒体部门负责对企业舆情进行分析并对外给出有效的回答。在此基础上,舆情分析系统成为了企业内部进行舆情应对的一大工具,其可帮
2、助分析调研数据,给出统计结论,并根据分析结果给出具有一定参考性的预警预测,这在当今信息爆炸的时代背景下具有鲜明的商业可拓展性。而本文所述的研究具有更实际的意义,从技术层面对目前的舆情技术进行革新。网络舆情形式多元化,信息量级特别庞大,且大多均为图片、文段等非构造化的数据类型。目前市面上对非构造化数据的处理还较为薄弱,而本研究针对这一市场痛点,对文本处理的技术进行了深度优化,有效解决企业对舆情的情感判别问题。进而企业能够直观地了解舆情情况,并针对系统分析得到的统计结果得出应对方案。1网络舆情系统的相关技术1.1网络爬虫技术在爬虫算法的基础上进行改良,主要包含网络请求模块、流程控制模块、内容解析模
3、块和链接去重模块。其中网络请求模块主要负责根据URL链接向服务器发送请求,并获取响应内容;流程控制模块负责组织调度各个功能模块和控制URL列表的爬取顺序;内容解析模块负责处理网络请求获得的响应,其中大部分响应为JSON格式的数据,本文采用BeautifulSoup库对返回的响应进行解析;链接去重模块主要负责对待爬取的URL进行选择,去掉重复的URL,同时对解析之后的响应内容进行文本去重化处理。本文使用Scrapy框架详细实现网络爬虫。Scrapy使用了Twisted异步网络框架来处理网络通讯,加快数据下载速度,并包含各种中间件接口,能够灵敏地实现各种需求图1。1.2非构造化文本数据挖掘技术文本
4、挖掘的主要目的是获得文本的主要内容特征,如文本设计的主题、文本主题的类属、文本内容的浓缩等。本系统采用互信息,信息增益,文本证据权和x2统计法等评价函数进行独立评估,对每一个特征根据给定的权值大小进行排序,选择最佳特征子集作为特征提取的结果1。对于文本特征数高,特征互相关联,冗余严重的特点,本系统采用基于支持向量机的文本分类技术2。而在中文信息处理的经过中,分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,本系统主要采用基于词典的分词方法5。基于Trie树构造实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG,采用了动态规划查找较大概率途径,找出基于词频的较大切
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 网络 舆情 监测 系统分析 精品
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内