舆情管理软件介绍(共40页).doc
《舆情管理软件介绍(共40页).doc》由会员分享,可在线阅读,更多相关《舆情管理软件介绍(共40页).doc(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上总体框架网络舆情监控系统以基础硬件为支撑,海量互联网数据源为采集对象,以标准、规范和安全体系为保障,提供给客户集舆情信息的采集、分析、展示、预警、管理、应急导控处置于一体的监控平台。系统总体框架由硬件支撑层、数据采集层、应用层和操作层组成。采用面向服务的思想,利用松散耦合的分层方式将系统整体上分为四个层次和两个体系,各层间的界限清晰,功能明确而不交叉,具有较高的可配置性和伸缩性。1 硬件支撑层硬件支撑层所需设备由客户投入建设,主要由服务器(若干)、存储设备、路由器、网络、安全基础设备等构成,一般放置在信息中心的机房中,也可托管于网通或电信机房,为整个系统提供基础的硬件
2、支撑。互联网信息采集设备需接入互联网,内部用户访问可使用局域网。2 数据采集层实现对上万个全国知名网站及论坛、地方性网站及论坛、行业网站及论坛、境外重点中文网站及论坛信息的实时监控;实现对国内外著名博客、微博、贴吧、SNS、QQ群、带文字的音视频、手机网站的信息监控采集。对重点来源网站信息实现5分钟频率更新,一般网站信息更新频率为30-60分钟内。3 应用层应用层是整个系统的核心,采用面向服务的思想,为用户输出舆情监测结果和用户对信息的查询、管理等任务。应用层由五大应用平台组成,包括舆情搜索展示平台、舆情管理工作台、应急导控处置平台、用户管理平台和通讯平台,利用Web Services技术为系
3、统升级服务或为其他外部系统提供基于SOAP的远程方法调用接口,用以完成异构系统之间的数据交换和同步。4 操作层系统为操作员提供友好的操作界面,易操作、易使用。5 安全保障体系从技术安全、运行安全和管理安全三方面构建安全防范体系,切实保护系统的可用行、机密性、完整性、抗抵赖性、可审计性、可控性。6 标准规范体系为保证系统有效运行及与后续建设系统有效的集成,在系统建设和运行中,需遵循和制定相关的业务规范、技术标准和运行管理规范。此外系统还满足高可扩展性和易操作的特性。可根据用户单位的业务需求变化对软件功能进行扩充与拓展;同时软件操作和维护操作简单,便于使用。技术路线及系统架构在技术实现上,本互联网
4、舆情监测系统是采用目前最流行的B/S架构,使用面向对象的JAVA开发语言研发而成,具有高扩展性、高移植性和良好的跨平台性。系统总体架构图如下:舆情搜索和采集系统互联网信息采集技术是舆情监控系统的基础技术,考察采集技术优劣有及时性和全面性两个指标,及时性要求重要网站信息的5分钟采集入库,一般性网站信息的30分钟采集入库;全面性要求采集来源能覆盖全国性、地方性及行业性的知名网络,凡对舆论传播有着影响力的新闻站点、知名论坛、博客、微博、视频均需纳入监控范围。此外还要求采集引擎具有可操作性,用户可对采集环节进行调整和优化。及时性和全面性是一组对立指标。客户自建的网络舆情项目,一般投入有限,设备和网络建
5、设不可能支撑到对整个互联网的监测,而要追求采集的及时性,需采集频率快,势必会减少监控的采集范围,将舆情采集范围更多地优化为具有舆论传播价值的网络媒体,而非整个互联网。本果网络舆情采集引擎,主要帮助客户监测重点舆论发布及传播网站、跟踪传播内容、分析首发媒体及事件传播演变过程,通过信息和数据为舆情预警、研判和应急处置提供支持,我司舆情产品具有以下采集特色及优势:(一) 重点采集对舆情高发网站和主流网站设置最高采集优先级权重,以5分钟的采集频率采集信息,这些重点网站包括:1. 地方性、行业性新闻网站及论坛:一般情况下,地方性、行业性新闻网站及论坛是舆情的首发地,以普通网友为发布人,表现为各种爆料求证
6、信息,是舆情的重要监测来源,这类信息的发现有助于传播早期的舆论控制和引导;2. 全国性的新闻及社区网站:这些网站的用户量大,浏览量大,是舆情最重要的传播渠道,因能快速形成关注和传播,且扩大传播面,如在这类网站上出现报道,也表示舆情事件的传播进入了发展或爆发期,需采取和早期不同的应对和处置办法,也是舆情的重要监测来源;3. 重点人的网络ID:对于重点人的网络(包括论坛、博客及微博账户)发言和活动, 能代表网上大部分人的言论,或是煽动言论,或是有害言论,是舆情的重要监测源;4. 自动启动重点采集任务:在设置专题和导控任务后,会自动启动重点采集任务,调整其优先级和采集频率,确保重点任务的完成;5.
7、重点文章回复数/评论数及内容的采集,用于分析网友观点及态度;6. 导控任务采集:追踪文章在网络上的发展动态,u 文章是否存在,u 在各大搜索引擎是否存在快照,快照是否被删除,u 点击/回复数量的增幅情况;7. 热词采集:采集百度热词。(二) 采集任务可操作性用户可手动调整采集任务:1. 自定义采集频率:用户可自定义网站的采集频率,为不同权重的网站设置不同采集频率;2. 自主添加采集网站:用户可自行添加采集的网站;3. 自定义网站权重及优先级:监测网站的权重可维护,用户也可为不同权重网站设置采集优先级;4. 自定义采集任务:用户不仅可以调整单个网站的采集频率,也可对其采集进程进行管理,关停或暂停
8、网站的采集任务;5. 自定义微博地址:用户可添加微博地址到采集库,系统还提供导入模板供用户批量导入微博地址。6. 自主全网搜索添加:在全网搜索功能中,用户可指定关键词随时搜索互联网,并可将搜索结果形成结构化数据加入数据库。7. 定制搜索:提供关键词、来源、时间、网站性质等多种条件,供用户定制搜索方案,用于经常性的搜索请求。(三) 核心采集技术采用定点采集和全网搜索相结合的采集机制,定点采集可确保第一时间采集到重点网站的信息,全网搜索可进行传播全面性的补充采集;1. 定点采集:系统内置的重点监测网站,采用定点采集方式;2. 全网搜索:通过关键词对新闻类搜索引擎、论坛类搜索引擎、博客类搜索引擎、微
9、博类搜索引擎及大型网站的站内搜索工具的信息聚合搜索;3. 内嵌脚本执行引擎:随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设。内嵌脚本引擎对脚本语言的自动解析和执行,实现对采用脚本语言的论坛、博客以及新闻评论网站的采集;4. 7X24小时不间断采集,5分钟采集频率,信息更新扫描最小间隔为1分钟;5. 关联采集:在针对QQ群监测中,系统可以自动将QQ群内成员的腾讯微博加入到采集源中;6. 对新浪微博、腾讯微博、境外推特、Facebook实行无限制、无屏蔽访问搜索。(四) 支持网络媒体形式网络媒体形式全:本系统内置上万个网站,可以对各类网络媒体进行监测:
10、1. 门户网站:系统可采集以媒体发布为主的新闻网站的信息;2. 论坛:各种形式的BBS、贴吧、论坛、社区;3. 博客:各博客网站的博客信息;4. 微博:国内外微博网站信息监测;5. 电子报:各类报纸的电子报的信息监测;6. QQ群:可监测QQ群内的聊天记录;7. 问答:对问答类网站的采集;8. 视频:对视频网站文字信息的采集;9. 境外信息:集成代理技术,通过代理服务器采集屏蔽访问的境外网站,监控涉及国家安全、煽动等信息;10. RSS:对RSS聚合信息的采集;11. WAP:对WAP网站信息的采集;12. 搜索引擎:对搜索引擎信息的聚合。(五) 采集内容丰富通过自动识别技术识别并抽取网页的要
11、素,包括:标题、来源网站、来源频道、发布人、发布时间、链接(URL)、正文、图片、快照、表格,自动剔除广告(图片或flash)等垃圾部分,除此以外,针对不同媒体,还采集了其他要素:1. 新闻:是否头版,专题,评论数,评论内容;2. 论坛:点击数,回帖数,是否论坛首页、置顶,加精,推荐,热帖,回帖人,回帖内容; 3. 博客:回帖数,回帖人,回帖时间,回帖内容;4. 微博:转发次数,评论数,粉丝数,评论人,评论内容,博主信息,粉丝名,话题;5. 视频网站:播放次数,评论数,评论内容;6. QQ群:群内发言,群内成员,发言时间,发言QQ,发言图片;7. 附件采集:支持对.doc/.xls/.pdf/
12、.txt文档的监测8. 网站属性:TCP/IP信息,采集网站TCP/IP备案信息,网站所属地域;采集存储:系统抽取各类网络媒体的信息要素,统一形成结构化信息,供后续分析、检索、查询、统计和展示。(六) 其他采集技术1. 支持验证码采集;2. 支持多页合并采集。(七) 支持多语言采集自动识别多种字符集编码,支持对中文、英文、中文简体、中文繁体、彝文、维文、藏文、蒙文、朝鲜语、韩国语、日语、西班牙语等语言的采集,并可以转换为统一编码格式。(八) 智能采集1. 需要登录与需要验证码的网站信息采集,采集过程完全仿人工,实现了“登录验证”采集。2. 长期大量采集网站信息,会引起网站重视并可能导致封锁IP
13、,通过自动获取代理IP地址并及时替换代理IP地址等技术,防止个别网站进行反采集,反监测。支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。(九) 增量采集与自动更新对于初次采集目标网站,软件支持完全采集。而对于已采集过的站点支持增量采集。自动检测站点是否发生更新,并不会遗漏任何一个重要信息。(十) 带宽占用优化可采用分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,提高采集和数据管理效率,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页
14、的抓取信息。(十一) 主题跟踪采集针对热点话题进行信息跟踪采集,自动启动更高的优先级,调动全网搜索模式,进行信息量的快速聚合。跟踪内容包括:信息来源、转载量、转载地址、地域分布、发布人等元素。根据新闻来源的权威度、评论数、发言时间频率等参数,识别出设定时间段内的热门话题。数据处理及分析技术分析技术包括信息及数据处理技术及与舆情分析技术,其中舆情分析技术主要包括热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、截取证据、趋势分析、突发事件分析等。(一) 信息及数据处理技术主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:1. 漏斗式过滤技术:采用漏斗式多重过滤技术,逐层过
15、滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。 第一层:URL和广告类信息过滤。采用URL规则和广告类信息规则将无关信息过滤掉; 第二层:舆情过滤。按照设定的舆情词规则提取舆情信息。 第三层:舆情排除。以舆情排除规则将初步筛选的舆情信息中的干扰类信息过滤掉。 第四层:相似性聚合。采用相似性分析技术判断相关、相似的文章,用于传播过程及路径分析,减少舆情工作者的阅读量。2. 相似性分析技术:采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.75以上
16、的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。3. 自动摘要功能:以各维度分类的关键词为基础,根据不同等级关键词的频次归纳全文的摘要,以100字左右的摘要归纳文章大意,减少客户阅读时间。4. 中文分词:采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。5. 要素分析对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中,针对文章要素的分析如下:n 标题:可用于相似性
17、判断,以标题的相似度判断文章的相似度;n 来源网站及频道:包含以下分析项目: 地域分析:自动采集网站的ICP备案信息,按不同来源网站或地区进行统计并生成来源网站或地区表,直观展现舆情或专题的地域分布,同时以报表形式直观显示各网站的报道量排序。 舆情高发网站分析:通过对负面舆情的发生量统计,分析出舆情的高发网站和频道,可设置对这些网站和频道的优先级采集,及设置分站浏览。 网站及频道发布排行版:在指定时间段内统计舆情发布量的网站排行榜统计,同时还统计该网站的发布人排行榜。n 发布人:发布人信息提取用于重点人分析、炒手分析及溯源分析,追踪分析第一原创发布人。n 发布时间:发布时间是分析传播情况的重要
18、参数。 系统根据各分类每天采集信息生成图形化分析报表,可按每日、每周、每月、每季统计信息的更新情况,可按每日、每周、每月、每季统计信息的更新情况,以小时或天为最小粒度展示更新情况,并可按工作日、节假日、白天、晚上分时段浏览; 用于专题分析:时间参数和发布人用于溯源分析,时间参数也是专题发展趋势的重要指标,以传播量分析出重要的时间节点,便于掌握时机对敏感信息开展处置工作。n 正文:对正文中重要数据的提取和分析: 提取出文章中提及的地域; 提取出文章中提到的QQ号码,手机号码,邮箱等信息; 提取出文章中涉及的领导人; 提取出文章中的敏感信息; 对分页展示的正文进行合并处理。n 图表解析:文章中的图
19、片和表格,采集后的信息会保留图表的原始样式。n 点击数:系统会存储点击数的增量值。系统会分析单位时间内较大增量的帖子,重点展示给客户;同时还对敏感信息进行等级预警。n 回复数:系统会存储回复数的增量值。系统会分析单位时间内较大增量的帖子,重点展示给客户;同时还对敏感信息进行等级预警。n 重点人微博分析:实时跟踪重点人微博的最新发言,以及被转发和评论的情况,同时还对重点人微博的个人信息,如备注、关注数、博文数、粉丝数、等信息进行记录。6. 数据挖掘:关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情: 分析出舆情高发网站及频道; 挖掘专题事件的传播途径、过程及数据; 挖掘
20、文本中的重要信息,如联系电话、QQ号码、邮件地址等信息; 分析出舆情高发人群; 推荐网民关注度高的舆情; 筛选新词、热门话题;7. 关联性分析:采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。相关性和相似性分析:本果具有业界领先的相关性引擎模块,基于语境框架和领域框架的COS相似度计算方式,自动抽取每则信息的代表特征,并加以存储和处理,建立信息间的相关性模型网络,算出每条信息间的相关度系数。通过设定的相似度阈值,由机器自动对文章相似度分析,计算相同文章及数量、相似文章
21、及数量、相关文章及数据,同时在舆情搜索展示平台的各模块展现,用户进入系统即可看到,从而查阅转载传播情况。与“人”的关联性分析:自动聚合关注人在网上的活动轨迹,监控其个人网页、论坛账号、博客账号及微博账号上发布的信息,以及涉及此人的网络信息,按时间要素进行汇总,同时还形成其人际关系归纳,进行关联分析。(二) 舆情分析技术舆情分析技术是用于舆情信息分类和判断,按照关注的人物、地域、单位、事件、主题等要素进行舆情分类,并对敏感舆情的传播情况包括传播源头、发布人、传播媒体、传播内容、传播路径进行抽取和分析,提供各类统计数据和图表,掌握舆情事件在网络中传播的全貌。1. 分类技术:系统内置一套较为科学和完
22、整的舆情分类体系,通过自动分类技术,对用户关注的敏感信息和国计民生的各个重点领域进行实时监控,及时发现负面、有害信息。系统还提供灵活的多维度信息分类自定义设置,展示给客户丰富的舆情分类浏览: 按主题分类:按关注主题自定义分类,如政法、医疗卫生、教育等,进行常规的监测过滤分析; 按照特定的人物分类:设置关注人名,包括党政机关领导人、政治人物或敏感人,对人的网络活动进行分析; 按网站性质分类:按照网站性质如新闻、论坛等方式分类信息; 按特定的机构:设置各级国家党政机构,以及特定地区的机构; 按照地域分类:按照地域提取各地舆情; 按关注网站分类:设置关注的网站分析相关信息; 按有害信息:如法轮功、色
23、情、民运等反动信息; 按定制搜索分类:设置关注网站和关键词规则进行过滤分析。2. 敏感信息分析技术:负面敏感信息分析是本系统最重要的功能之一,通过预警功能在第一时间将负面或敏感信息告知用户。支持对负面信息分等级预警,参考关注度和负面内容来划分四个预警等级(初级、中级、高级、特级)。系统还提供对有害信息原始网页快照存留来提供证据存取。3. 热点发现与跟踪热点自动发现:自动识别热点新闻事件,发现网民的关注焦点和热点,提供1天、3天、7天等时间序列的符合用户精确度要求的分类热点排序。热点自动追踪:对热点信息的持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势。网络热词自动挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 舆情 管理软件 介绍 40
限制150内