2022年网络舆情监测设计方案 .pdf
《2022年网络舆情监测设计方案 .pdf》由会员分享,可在线阅读,更多相关《2022年网络舆情监测设计方案 .pdf(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 第一章 项目的背景及必要性1.1项目背景近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到巨大作用。如“5.12”汶川特大地震中传统媒体与新媒体的充分联动,又如“7.23”甬温线特别重大铁路交通事故中微博发挥的重要作用,再到2012年此起彼伏的社会群体事件。公共危机事件爆发时, 犹如以石击水,相关信息在短时间内迅速传播,引起群众的广泛关注。一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感,甚至影响到群众对党和政府的信任,影响到消费者对某一企业品牌的认同。如不及时采取正确的措施分析和应对,会造成难以估计的后果
2、。随着互联网技术和应用的发展, 网络舆情在数据体量、复杂性和产生速度等方面发生巨大变化。网络舆情分析方法已超出了现有常用的分析框架,必须在大数据分析的思维下有所创新。本项目主要利用网络爬虫技术和大数据技术的融合应用,建立基于贵州交通行业网络舆情监测平台。通过网络爬虫技术对各大新闻门户网站、微博、知名论坛、贴吧、博客、搜索引擎等舆情信息采集,充分使用大数名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 28 页 - - - - - - - - - 2 据技术对采集到的网络舆情
3、信息进行挖掘与分析。实现重大负面舆情信息、突发事件实时预警,并根据舆情分布、影响力、发展趋势等进行分析和来源追踪。1.2项目的必要性当前,网络舆情可以说是网络舆情管理的基础和晴雨表。以大数据观念变革传统网络舆情管理思维,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下做好网络舆情管理工作具有重要的理论意义和实践价值。因此,贵州交通行业应采取各种有效措施做好网络舆情的应对工作。增加信息透明度,准确、及时地发布权威信息,使谣言破灭,从而有效引导舆论。建立权威专业的组织体系、加强互联网人才队伍建设、采取适当的舆情引导与控制手段,是建立科学有效的舆情应对机制的必需。加强网络舆情分析与
4、研判工作,区分不同性质的涉及本行业负面舆情,可以正确的为相关部门提供决策参考。善与媒体沟通,借助媒体传达贵州交通行业的声音,掌握舆论引导主动权。第二章 设计原则2.1 全面性对网络信息的获取要尽量做到全面,不漏掉有价值的舆情信息。需要监控的站点主要分布于门户网站、知名论坛、搜索引擎、博客、贴吧,微名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 28 页 - - - - - - - - - 3 博等网络载体中。2.2 准确性已经获取到的网络信息形形色色、要对信息做进一步筛选
5、,将最焦点的、最常用的、最需要的、最关注的舆情信息做相应的分类展示,方便下一步工作。2.3 时效性舆情信息的第一时间获取、第一时间分析、第一时间展示、第一时间预警。网络信息的一大特点就是传播快,出现重大事件后,相关部门必须第一时间了解到相关情况,否则就会在整个事件的处理上处于被动局面。2.4 易维护性整套解决方案的数据维护简单,容易操作,完全通过WEB 方式完成,采用云技术,降低维护的技术难度,也减少了人为隐患的发生。2.5 安全、稳定、准确、及时采用先进的算法,多个模块组成一个安全、稳定、准确、及时的网络舆情监测平台。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组
6、成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 28 页 - - - - - - - - - 4 第三章 总体架构3.1 总体概述网络舆情监测平台采用J2EE 技术体系,前端采用Ajax 开发技术,操作简单、易用、高效、稳定。平台所有功能均采用纯B/S 结构设计,零客户端维护。实时采集网络舆情信息,如门户网站、知名论坛、搜索引擎、博客、贴吧,微博等,7*24 小时为用户提供信息采集、 信息
7、处理、信息编辑功能,实时掌握所关注的网络舆情信息,为贵州交通行业相关部门提供决策参考依据。3.2 业务流程网络舆情监测平台是针对互联网这一新兴媒体,通过对海量网络舆情信息进行实时的自动采集、分析、汇总、监视、并识别其中的关键信息,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 28 页 - - - - - - - - - 5 及时通知到相关人员,从而第一时间应急响应,为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。第四章 本项目涉及的关键技术4.1 网络爬虫概念
8、网络爬虫又被称为网页蜘蛛、网络机器人,在FOAF 社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。4.1.1 网络爬虫工作原理Web 网络爬虫系统一般会选择一些比较重要的、出度(网页中链出链接名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 28 页 - - - - - - - - - 6 数) 较大的网站的 URL 作为种子 URL 集合。网络爬虫系统将这些种子集合作为
9、初始 URL,开始数据的抓取。由于网页中含有链接信息,通过已有网页的 URL 会得到一些新的 URL,可以把网页之间的指向视为一个森林,每个种子 URL对应的网页是森林中的一棵树的根节点。这样, Web 网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于先深搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因此一般采用先广搜索算法采集网页。 Web 网络爬虫系统首先将种子 URL 放入下载队列,然后简单地从队首取出一个 URL 下载其对应的网页。得到网页的内容将其存储后,再经过解析网页中的链接信息可以得到一些新的 URL,将这些 URL加入下载
10、队列。然后再取出一个URL ,对其对应的网页进行下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。4.2 云计算技术分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关
11、键功能。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 28 页 - - - - - - - - - 7 目前业界比较流行分布式文件系统有Google 文件系统 (GFS)、分布式文件系统(HDFS)、文件系统 (KFS),这 3 种分布式文件系统都是基于Google 提出的分布式文件系统理论进行研发的。Google 提出的 GFS 就是解决其海量数据存储和搜索、分析等问题,而和KFS 是基于 GFS 理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。分布式
12、并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:MapReduce 是提出的一个并行计算框架, 它可以在大量 PC 机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、 容错、数据分布、负载均衡等复杂的细节
13、。同时它又对上层应用提供良好简单的抽象接口。 MapReduce 主要应用在搜索、数据仓库、数据挖掘领域。Pregel 是 Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel 的主要应用场景是大型的图计算, 例如交通线路、 疾病爆发路径、 WEB 搜索等相关领域。Dryad 是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows 操作系统的分布式计算平台,总体用来支持有向无环图类型数据名师资料总结 - - -精品资料欢迎下载 - - - - - - -
14、- - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 28 页 - - - - - - - - - 8 流的并行程序。微软于年宣布,停止对Dryad 进行版本升级,转投Hadoop 即 MapReduce 计算框架。目前业界开源的云计算平台包含HDFS 和 MapReduce ,为海量数据挖掘平台提供完备的云计算支撑平台。4.3 舆情智能分析技术1)自动分类技术基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到 95% 以上。先设置分类关键词, 每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析, 分别对标题
15、和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。2)自动聚类技术基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。3)相似性排重技术采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.75 以上的文章系统默认处理为“已处理” ,无需再进行任何操作,相似度名师
16、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 28 页 - - - - - - - - - 9 位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。4.4 自然语言智能处理技术1)自动分词技术以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。综合运用基于概率统计的语言模型方法,分词准确性达到99%。2)自动关键词和自动摘要技术对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。3)全文检索技术全文检索将传统的
17、全文检索技术与最新的WEB搜索技术相结合,大大提升检索引擎的性能指标。还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。4.5 网络舆情处理流程网络舆情监测主要由网络数据采集、数据处理、舆情分析与报告三大部分构成。舆情信息采集对象主要以新闻门户网站、微博、论坛、博客、贴吧等,从海量的网页中采集数据为舆情分析提供基础数据。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 28 页 - - - - - - - - - 10 第五章 方案设计5.1 平台实现的主要功能1
18、. 数据采集:根据用户设置的信息源对数据进行采集。2. 数据处理:1) 信息预处理:去除网页中的广告、图片、链接等无价值、无需关注的信息。并自动识别标题、来源、作者、发布时间、正文等信息。2) 二次分析处理:利用“多重双向数据过滤模型”、知识库引擎、中文分词、全文检索、文本自动摘要等,进行舆情过滤、自动分类、相似性排重、舆情分析。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 28 页 - - - - - - - - - 11 3) 数据统计:对信息处理结果作进一步统计
19、分析,以图表方式展现给用户浏览。3. 信息管理1) 系统配置:用于配置检索数据源和检索规则2) 用户管理:配置用户登录账户和角色权限3) 用户自定义设置:用户根据需要自行设置浏览的信息范围。4. 舆情浏览:根据系统配置和用户设置在网页上显示舆情信息。5. 舆情操作:用户可以手动操作舆情。如:设置属性、加入简报、收藏、上报等。6. 自动预警:经过分析出现重大负面信息时,系统将启动预警机制,迅速报警提示。5.2 网络拓扑结构网络舆情监测平台对目标网站进行舆情采集,通过防火墙将外网与内网隔离,从而保证内网服务器的网络安全;经过一系列服务器群组对舆情数据清洗、过虑、分析后,最终以网页的方式供用户浏览。
20、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 28 页 - - - - - - - - - 12 5.3 功能架构图5.4 舆情浏览舆情浏览包含了五个子模块:分类浏览、舆情来源、本地浏览、信息要素、舆情统计。最新舆情实时展现最新获取到的舆情信息,通过正负舆情研判后,按时间进行倒排。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 28 页 - -
21、 - - - - - - - 13 分类浏览根据舆情内容分类, 将舆情分类为正面舆情、 负面舆情、突发事件等,根据用户选择的分类显示舆情文章,默认显示所有舆情文章。舆情来源根据用户选择的来源网站显示舆情信息;默认显示所有网站的舆情信息。本地浏览分为本省和省外显示舆情信息。本省:为登录账户所在省份,分支为本省所有城市;默认显示本省所有舆情信息;可根据用户选择的城市分站点刷新显示舆情。省外:分支为除本省外国内其它省份,可根据用户选择显示省外所有或指定省份的舆情信息。信息要素舆情信息分页浏览,每页显示15条记录,通过第一页、上一页、下一页、最后一页进行翻页;每条记录显示舆情标题、摘要、高频词数、点击
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年网络舆情监测设计方案 2022 网络 舆情 监测 设计方案
限制150内