2022年网络舆情监测引导系统研究.docx
《2022年网络舆情监测引导系统研究.docx》由会员分享,可在线阅读,更多相关《2022年网络舆情监测引导系统研究.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用网络舆情监测引导系统讨论摘 要:网络舆情监测与引导是个复杂地技术和治理过程 , 必需充分利用 web数据挖掘技术地优势 , 建立完善网络舆情监测引导系统, 进一步提升信息化、自动化和智能化, 自觉地把互联网地优势转化为推动社会治理地现实动力和强大合力 . 关键词:网络舆情;监测引导;web数据挖掘一、时代背景互联网时代是人类历史上一个空前宏大地技术革命时代 . 现代信息技术、通讯传播技术、网络技术等众多现代化地传播技术已渗透到社会生活地各个领域. 互联网广泛性、即时性、开放性、共享性和互动性地特点及丰富多彩、便利有用地
2、应用形式打算其日益成为反映社情民意地重要阵地, 网上热点层出不穷 , 网络舆情对国家事务、公共事务决策地影响力也日益加大 . 历史缘由曾使中国长期处于封闭状态 , 国内关于舆情地讨论起步较晚, 目前迫切需要提升与之相应地理论和技术支持. 舆情分析与监测是信息深加工, 以往“ 剪报” 式低价值粗加工地信息服务 供应地结果仅局限于单一地信息内容, 虽可按主题范畴搜集 , 但 , 传统地单一线性收集方式已不能够满意人类大脑发散思维地需要 . 二、网络舆情监测引导地技术支撑 在浩渺地网络中 , 政府假如仅仅依靠人工完成网络海量信息地收 集和处理是不现实地 . 而 web数据挖掘能快速、精确地获得有价值
3、 地网络信息 , 利用历史数据猜测将来地行为以及从海量数据中发觉1 / 9 名师归纳总结 - - - - - - -第 1 页,共 9 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用学问. 它克服了一般数据库治理系统无法发觉数据中隐匿地关系和规章及依据现有数据猜测将来地弱点.web 数据挖掘地显现为自动和智能地把互联网上地海量数据转化为有用信息和学问供应了条件. 可有效地从 web猎取并分析相关舆情 , 达到监测、帮助决策和引导地目地 , 为网络舆情预警供应了极大地帮忙 . 一)web数据挖掘web数据挖掘由传统数据库领域地数据挖掘技术演化而来 . 数据挖掘是指
4、从大型数据库地数据中提取出人们感爱好地、可信地、隐含地、明显未知地、新奇地、有效地、具有潜在用处地信息地过程1. 随着互联网地蓬勃进展 , 数据挖掘技术被运用到网络上 ,并依据网络信息地特点进展出新地理论与方法, 演化成网络数据挖掘技术 .web 数据挖掘是指对目标样本进行分析提取特点 , 以此为依 据从 web文档和 web活动中抽取人们感爱好、潜在地有用模式和 隐匿地信息 , 所挖掘出地学问能够用于信息治理、查询处理、决策 支持、过程掌握等方面 . 依据挖掘对象地不同 , 可将 web数据挖掘技术分为三大类 2 :web内容挖掘、 web结构挖掘和 web使用挖掘 .web 内容挖掘是指从
5、 web上检索资源 , 从相关文件内容及描述信息中猎取有价值地潜在 信息. 依据处理对象地不同 ,web 内容挖掘分为文本挖掘和多媒体挖掘.web 结构挖掘地目标是web文档地链接结构 , 目地在于揭示包蕴于文档结构中地信息 , 主要方法是通过对 web站点地结构进行分析、变形和归纳 , 将 web页面进行分类 , 以利于信息地搜寻 . 结构挖2 / 9 名师归纳总结 - - - - - - -第 2 页,共 9 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用掘地重点在于链接信息 .web 使用挖掘是从服务器拜访日志、用户策略、用户对话和事物处理信息中得到用户地
6、拜访模式和感爱好地信息 , 利用这种方法 , 可以获知 web使用者地行为偏好 , 从而猜测其行为 . 二)web挖掘过程web数据挖掘依旧遵循数据挖掘地讨论思路, 挖掘过程分为四个阶段:数据收集、数据预处理、模式发觉和模式分析 如图 1 所 示)3. 1. 数据收集 . 网络信息地收集是网络舆情监测地源头 , 其广度和 深度打算了监测成效 . 对于明确主题地舆情信息采集 , 可以采纳搜 , 索引擎方法 . 由于各个现存搜寻引擎索引数据库地构造方法不同 其索引数据不尽完整 , 所以应将多个单搜寻引擎搜寻结果进行整 合、调用、掌握和优化 . 搜寻中可以以宽度优先、深度优先或启示方式循环地在互联网
7、中发觉相关信息, 可将网络空间按域名、 ip 地址或国别域名划分为独立子空间具体搜寻;或以信息类型为划分 ,如 html 格式、 xml 格式、 ftp 文件、 word 文档、 newsgroup 文章和各种音、视频文件等 . 舆情信息检索结果可按不同维度呈现 , 包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等 . 每个维度下把搜寻结果自动分类统计呈现 , 以便短时间内检索到精确信息 . 2. 数据预处理 . 因原始 web拜访数据地文件格式是半结构化地 ,包含不完整、冗余、错误地数据 , 需进行提取、分解、合并 , 转化3 / 9 名师归纳总结 - - - - - -
8、 -第 3 页,共 9 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用为适合挖掘地格式 , 储存到关系型数据库表或数据仓库中 , 等待进一步处理 . 数据预处理可改进数据质量, 提高后续舆情挖掘过程地精度和性能 . 对采集到地舆情进行初步加工处理 , 如格式转换、数据清理、数据统计 , 对于新闻评论 , 需过滤无关信息 , 储存新闻标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等 . 对于论坛 , 需记录帖子地标题、发言人、发布时间、内容、回帖内容、回帖数量等, 最终形成格式化信息 . 条件答应时甚至可直接对网站服务器地数据库进行操作 . 3.
9、 模式发觉 . 利用数据挖掘地算法可发觉用户聚类、页面聚类、频繁拜访页组、频繁拜访路径等隐匿地用户拜访模式 . 如在挖掘用户浏览模式过程中发觉挑选地数据或属性有偏差 到预期结果 , 需依据反馈结果不断重复以上过程, 或挖掘技术达不 , 通过数据挖掘 , 创建和更新用户模式库 . 模式发觉可应用很多相关领域地方法 , 但需针对 web数据挖掘地特点做出相应地改进 . 统计分析 . 通过分析会话文件 , 可对页视图、浏览时间和浏览路径长度进行各种不同地描述性统计分析 值、中间值和拜访量地时间分布等)质量. 频繁拜访页、频率、均 , 提高网络舆情挖掘地效率和路径分析 . 发觉站点中最常被拜访地路径及
10、其他相关路径信息 .信息采集过程中地静态数据可采纳该技术, 采纳图地方法来分析web页面间地路径关系 .g=v,e ), 其中:v 是页面地集合 ,e 是页面 之间地超链接集合 , 页面定义为图中地顶点 , 而页面间地超链接定4 / 9 名师归纳总结 - - - - - - -第 4 页,共 9 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用义为图中地有向边 . 顶点 v 地入边表示对 v 地引用 , 出边表示 v 引 用了其他地页面 , 这样形成网站地结构图 , 从中可确定最频繁拜访 路径, 此路径指向地信息极有可能就是互联网上地“ 热点” 和“ 焦 点” .
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 网络 舆情 监测 引导 系统 研究
限制150内