基于大数据的网络舆情分析方法研究_唐涛.pdf
《基于大数据的网络舆情分析方法研究_唐涛.pdf》由会员分享,可在线阅读,更多相关《基于大数据的网络舆情分析方法研究_唐涛.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、收稿日期:2013-11-06基金项目:本文系国家社会科学基金项目“移动互联网环境下网络舆情新特征、新问题与对策研究”(项目编号:13CTQ028)研究成果之一。作者简介:唐涛(1982-),男,助理研究员,博士,研究方向:网络舆情、信息产业发展战略,发表论文 10 余篇。理论探索基于大数据的网络舆情分析方法研究唐 涛(上海社会科学院信息研究所,上海 200235)摘要 随着互联网技术和应用的发展,网络舆情在数据体量、复杂性和产生速度等方面发生巨大变化。网络舆情分析方法已超出了现有常用的分析框架,必须在大数据分析的思维下有所创新。本文概述了常用的网络舆情分析方法,归纳了当前网络舆情的大数据特征
2、和分类,提出了网络舆情分析创新要向大数据分析方向发展的观点,并概述了 4 种新思路新方法,对需要注意的相关问题进行了总结,对未来网络舆情分析创新进行了展望。关键词 网络舆情;大数据;舆情分析DOI:10.3969/j.issn.1008-0821.2014.03.001中图分类号 G203 文献标识码 A 文章编号 1008-0821(2014)03-0003-04Research on Method of Internet Public Opinion Analysis Based on Big DataTang Tao(Institute of Information,Shanghai A
3、cademy of Social Sciences,Shanghai 200235,China)Abstract With the development of Internet technology and applications,network public opinion changed dramatically inthe data volume,complexity and generate speed.Network public opinion analysis method has exceeded the existing analyticalframework,and m
4、ust make some innovative under the thinking of big data.The paper summaried commonmethodsof public opin-ion analysis,induced the big data characteristics and classifications of public opinion,proposed the point that innovation of inter-net public opinion analysis should develop toward to big data an
5、alysis.The paper summaried four new methods and some issueswhich should be paid attention to,and forecased the innovation trends of public opinion analysis.Key words internet public opinion;big data;public opinion analysis人类社会的数据产生方式主要有 3 种:一是运营数据,伴随着各类组织的运营而被动产生;二是感知数据,由遍布世界各个角落的传感器等设备监测社会运行和环境变化而自
6、动产生;三是人类原创数据,由人单独创作和人际互动而主动产生 1。其中,人类原创数据在互联网,尤其是Web2.0环境下产生了爆发式增长,形成了庞大的网络数据资源,而其中有相当一部分是由个人和各种社会群体,对自己关心或与自身利益紧密相关的各种公共事务所持有的情绪、意愿、态度和意见 2,也就是网络舆情。我国拥有世界上最多的网民和最大的访问量,有效分析网络舆情,对于政府,可以更好地了解公众意见和诉求,有助于建设安全和谐的网络环境和社会环境;对于媒体,可以突破传统“从记者到读者”的单向信息生产模式,而加强对公众舆论的深层次分析,实现新闻信息增值 3;对于企业,可以掌握客户对产品与服务的评价及客户特征知识
7、,更好地提供个性化产品与服务,实现利润增长。因此,政府、媒体、企业和学术界都越来越重视网络舆情分析,并不断追求分析方法的创新,充分发挥舆情信息的价值。1 网络舆情分析研究与实践现状当前常用的网络舆情分析方法主要有网络调查方法、基于统计规则的模式识别方法、基于内容挖掘的主题监测方法等 4。网络调查方法是将社会调查法移植到网络上,即在网32014 年3 月第 34 卷第 3期现 代 情 报Journal of Modern InformationMar.,2014Vol.34No.3上进行问卷调查。这种方法通过设计问卷、抽样调查、统计分析等一整套科学程序,能够客观地推论社情民意。这种方法应用广泛,
8、许多网站在新闻网页下方设置新闻评论功能和读者态度倾向调查,新华网、人民网等网站在近年全国两会期间专门进行关于民众关注热点的网络舆情问卷调查,一些网站还针对国家重大事件和社会热点进行网络调查。在基于统计规则的模式识别方面,有学者通过统计分析某段时间内用户所关注信息点的记录,构建了互联网内容与舆情的热点/热度、重点/重度、焦点/焦度、敏点/敏度、频点/频度、拐点/拐度、难点/难度、疑点/疑度、粘点/粘度、散点/散度等 10个分析模式和判据 5。在基于内容挖掘的主题监测方面,流程有 3 步:信息提取(包括信息采集、结构化数据存储);信息预处理(包括信息过滤、词法分析、句法分析、概念分析);舆情分析(
9、包括文本标示、主题发现、意见挖掘、倾向分析),主要进行话题识别。近年来浅层分析技术出现,相关研究开始关注网络舆情的情感倾向。这种方法的核心技术包括搜索引擎技术、信息组织技术、自然语言处理技术等。同时,市场上还出现了不少网络舆情监测分析软件,知名的有人民网舆情监测平台、拓尔思网络舆情监控系统、方正智思互联网舆情监控系统、邦富互联网舆情监控系统、军犬网络舆情监控系统等。以人民网舆情监测平台为例,网络舆情信息采集系统可对传统媒体网络版、新闻网站、论坛、博客等进行全天候定向抓取信息,还可利用百度、谷歌、奇虎等搜索引擎进行信息补充,并进行关键词、关注度、转载率等统计分析。但这些舆情监测系统擅长的是抓取新
10、闻网页,在网络社区中,如 BBS、博客、微博、QQ群、新闻跟帖等则效果有效,网络社区中的舆情主要依靠人工分析 6。在传统数据时代,我们分析舆情走势时,往往比较关注网民的言论,而忽视有多少人持此意见;往往重视解读文字内容,而忽视网民互动的社会关系网络。2网络舆情的大数据特征及分类2.1网络舆情的大数据特征大数据是指无法在一定时间内用常规软件工具进行抓取、管理和处理的数据集合 7,其在数据体量、复杂性和产生速度 3个方面均大大超出了传统的数据形态,具有 4V特征:规模性(Volume)、多样性(Variety)、变化快速性(Velocity)、价值(Value)。对当前网络舆情状况的观察可以看出,
11、互联网的开放性使数量庞大的网民和各种社会群体可以在网上方便快捷地发表观点,这使得网络舆情的数据量急速增长。其次,多媒体的发展使网络舆情的数据形态既有文本,又有图片、音频、视频等,呈现出多样性特征。再次,现代社会价值观念多元,各种观点交流交融交锋,舆论多元多样多变,网络舆情变化快速。各种因素共同作用,使得网络舆情数据越来越呈现出大数据特征。2.2显性舆情和隐性舆情当公共事务发生后,网民在浏览、搜索、互动的过程中会随时发表言论信息,这些信息直接呈现了网民的情绪、态度、意见,可以被称为“显性”网络舆情大数据。此外,还有一些数据并不是直接的网络舆情内容,但却从侧面客观反映了网民的关注热点、舆情主体之间
12、关系等,可以被称为“隐性”网络舆情大数据。如,网民在浏览相关信息时,网站服务器端的日志记录了浏览页面 URL等数据,在搜索相关信息时,搜索引擎服务器端的日志记录了搜索关键词等数据,可以反映用户的浏览偏好和搜索热点。网络社区用户之间互相“加关注”成为“粉丝”,服务器端记录的人际关系数据能够描述用户构成的社会化网络。用户之间互相转发和评论帖文所形成的转发量和评论量数据,可以反映帖文的重要程度。3 网络舆情大数据分析方法创新网络调查方法主要是进行采样分析,其结果精确性随着采样随机性的提高而提高,与样本数量的增加关系不大,也就是说,样本的随机性比样本的数量更重要,但实现这样的随机性非常困难,以至于如果
13、抽样对象是互联网用户这样的复杂和海量对象时,就很难找到一个“最优抽样”的标准,更不可能奢求抽样得到的小样本能够精确反映整体的所有特征。基于统计规则的模式识别方法具有有效性,但由于不同信息源的信息产生方式有较大差异,该方法适用于对特点对象进行定点监测,有一定的局限性。基于内容挖掘的主题监测方法主要针对“显性”网络舆情大数据,从现有的实践来看,由于受限于当前语义分析技术的精确度和速率,语义支持的缺失仍然是普遍存在的问题,一些工具难以有效地处理复杂的人类语言和不断变化的网络语言,而且对大规模数据分析的支持也较弱 8,仍然需要大量采用抽样分析和人工分析。而人工分析又具有很强的定性化色彩,所以不少舆情分
14、析报告经常使用“普遍表示赞成”、“不少网民认为”、“少数网民持反对态度”等定性化的语言,舆情分析的准确性难以进一步提高。因此,要不断创新网络舆情大数据分析思路。一是绕开语义分析的技术瓶颈,开辟“隐性”舆情分析的“第二战线”;二是突破抽样分析的思维,用大数据方法分析收集42014 年3 月第 34 卷第 3期基于大数据的网络舆情分析方法研究Mar.,2014Vol.34No.3到的全体数据;三是将搜索数据、点击数据、人际关系数据、网民个人特征数据、相关社会数据等关联起来进行分析,深度挖掘出有价值的舆情。四是主动进行网络民意调查,有针对性地收集标准化数据。具体有以下几种方法。3.1基于网络日志数据
15、挖掘的隐性舆情分析当网民关注某公共事件而去浏览或搜索相关信息时,会在网站服务器端产生浏览日志或搜索日志。浏览日志中记录了网民 IP 地址、浏览时间、网页 URL 地址等数据,可以通过分析日志,统计某地区、某时间段内的浏览热点,许多网站推出的“舆情热点排行榜”就是这方面的应用。搜索引擎后台的搜索日志记录了网民 IP 地址、搜索时间、搜索词、被点击的结果网页 URL 地址等数据。通过统计分析用户的搜索词及搜索频率,可以发现网民的关注点及其热度;对一段时间内与某个社会事件相关的搜索词进行词频统计,可以描述网民关注点的产生和变化过程。目前,一些搜索引擎公司已经研发了通过搜索日志挖掘发现网络舆情的技术和
16、应用。谷歌公司开发的“谷歌趋势”应用能统计某个关键词在一定时间段内某个地区被搜索的次数,将其与谷歌上随时间推移的搜索总量及当地的搜索总量相比较,得出该关键词的“相对搜索指数”,并将较长一段时间内的相对搜索指数描绘出来,以预测未来趋势 9。一个成功的应用是谷歌制作发布的全球 20 多个国家的“流感趋势”。设计人员编入一系列与“流感”相关的关键词,包括“流感”、“温度计”、“发烧”、“咳嗽”等。当用户输入这些关键词,系统就认为可能与“流感”发病相关,继而跟踪分析并作出相对搜索量指数图。通过对以往指数的变化情况预测未来趋势,进而预报流感发病率。谷歌“流感趋势”在测试期间就表现出良好的预测效果,比美国
17、疾病控制中心提前 7 10 天公布美国流感预报,且与官方公布的预报数据高度吻合,显示了基于搜索日志大数据进行预测的前瞻性和准确性。3.2基于社会网络分析的舆情主体关系发现中国工程院李国杰院士认为,“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络”10。互联网上不同主体间的互动形成很多社会化网络,以微博为例,用户之间互相关注、转帖、评论,假设用户乙关注了用户甲,则可以画一条由甲指向乙的有向边,表示甲发布的信息可以自动传递给乙。将所有用户之间互相关注的关系都画成有向边,整个微博舆论场就成为一个有向图,每个用户就是一个节点,每个“关注”就是一条有向边,所有人际关系数据最终全景
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 网络 舆情 分析 方法 研究 唐涛
限制150内