基于流式计算的网络舆情分析模型研究-高欢.pdf
《基于流式计算的网络舆情分析模型研究-高欢.pdf》由会员分享,可在线阅读,更多相关《基于流式计算的网络舆情分析模型研究-高欢.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 ISSN 10000135第35卷第7期723729,2016年7月JOURNAL OF THE CHlNA SOCIETY FOR SCIEHTIFICAND TECHNICAL 1NFORMATION ISSN 1000一0135V0135 No7,723729 July 2016dot:103772jissn1000-01352016007006基于流式计算的网络舆情分析模型研究1高 欢(中国人民大学信息资源管理学院,北京 100872)摘要 互联网时代,网络舆情的庞大数据规模和舆情分析的计算复杂性,使对网络舆情的分析和实时掌控变得愈发困难。面向快速、不断产生的网络舆情采用流式
2、计算进行实时处理的分析模型,在时效性、突发性和无限性三个方面都更加符合网络舆情的自身特性。基于流式计算的网络舆情分析模型分为数据收集、舆情分析和舆情治理三个部分,通过对语义保障和负载控制等关键技术的把控,可以实现个案把握向整体掌控、被动响应向主动分析的转变。基于流式计算的网络舆情分析模型具有可扩展性,能够联合众多服务器及资源,具有平台优势,能够解决地方舆情分析中面临的技术门槛,保障网络舆情分析的准确性与及时性。关键词 智能信息分析 流式计算 云计算 网络舆情Research on Model of Network Public OpinionAnalysis based on Stream C
3、omputingGao Huan(Information Resource Management College ofRenmin University,Beijing 100872)Abstract During theInternet age,the network public opinion analysis and realti me control are becoming moredifficult since the large data scale of network public opinion and the computational complexity of pu
4、blic opinion analysisFor rapid,stream data continuously generated in realtime processing,the analysis model has three aspects of advantagesincluding timeliness,sudden and unlimited which is nlore in line with its own characteristics,The model of network publicopinion analysis based on stream computi
5、ng can be divided into three pads:data collection,analysis of public opinion andpublic opinion management,through the key technologies such as semantic security and load control,this model has alsorealized transformation from the ease to overall control and the passive response to proactive analysis
6、The model of networkpublic opinion analysis based on stream computing is scalable,can be combined with many servers and resources,with theadvantages of the platform,it is possible to solve the technical barriers faced by local public opinion analysis to ensurenetwork public opinion analysis accurate
7、 and timelinessKeywords intelligent information analysis,stream computing,cloud computing,network public opinion1 引 言舆情作为中国社会政治思想的重要组成部分,是民众对社会管理者、企业、个人及其他各类组织,围绕社会事件的发生、发展和变化,表达的信念、态度、意见和情绪等表现的总和。随着互联网的普及和发展,人们的行为习惯发生了改变,虚拟和现实世收稿日期:2015年lO月24日作者简介:高欢,男,1990年生,中国人民大学信息资源管理学院信息分析专业博士研究生,丰要研究方向:信息分析,云
8、计算,Email:gaohuanyxhlivecn。1) 本文是国家社科基金重大项目云计算环境下的信息资源集成与服务研究(项目编号:12&ZD220)的研究成果之一。723万方数据情报学报第35卷第7期2016年7月界进行交互,人类社会活动以数据形式被记录、存储和传播。各种形式的社会化媒体,如微博、微信等的出现,使互联网成为公众获取信息、传递信息、交流思想、表达意见的重要平台,也成为了政府有关部门获取舆情、了解公众思想动态的重要渠道。云计算、物联网、移动互连等信息技术的快速发展,促使网络舆情在量上急剧增加,产生、传播的速度也较以往更快,总量已经远远超过历史上的任何时期。在此环境下,舆情分析工作
9、面临比以往更严峻的挑战,如何在复杂而多元化的信息中辨明真伪、把握方向和有效分析网络舆情,已成为政府维护公信力,提高执政能力所面临的重要问题之一。社会舆情在数据体量、复杂性、产生和传播速度等方面发生了巨大变化,科学监测、分析并正确引导舆情,需要越来越高的数据计算和使用能力。在当今社会关系重构的社交媒体时代,要建构科学有效的社会舆情管理体系,必须正视舆论生态新变化,善用大数据技术预测和引导社会舆论。网络舆情分析对数据处理过程的整体延迟要求非常苛刻,如果能够在秒级或更短的时间内得到结果,将有利于作出进一步反应。现有技术并不能很好地满足对海量高速数据进行实时处理和分析的需求,即使是HDFsMapRed
10、uce这种近年来被业界广泛采用的海量数据处理架构,也并不适用于如此高速和复杂的实时数据处理和分析场景。HDFSMapReduce主要是面向静态数据的批处理,使用外存作为中间结果的存储介质,巨大的I0代价成为影响处理过程实时性的瓶颈。海量、高速数据的实时处理引发了越来越多的关沣,一些新的技术已经萌芽。其中,一类面向快速、不断产生的数据进行处理并立即产生结果的流处理模式得到了迅猛发展。流式计算中,数据往往来自最近一个时间窗口,因此延迟较短,能够满足舆情信息分析中的实时性要求。2 流式计算流式计算与其他大数据解决方案的处理方式不同,它是一种内存计算。在数据的有效时间内获取其价值,是流式计算的首要目标
11、。因此,当数据到来后将立即对其进行计算,而不是缓存等待后续全部数据到来再进行计算。以往的数据处理方式(图1),先将收集到的数据储存到数据库中,然后在收到请求后搜索这些数据。例如,分布式系统(其实质是一个批处理系统)中,数据被引入文件系统(如一724一HDFS)并分发到各个节点进行处理;当处理完成时,结果数据返回到文件系统以供使用。这是高效的处理方式,能够反复、多方式地使用数据,分析其中信息,但这也容易造成时间的浪费。流式计算(图2)中,运算法则在接收流数据时就开始对其进行分析。流式计算支持创建拓扑结构来转换没有终点的数据流,不同于分布式处理系统,它们会持续处理到达的数据:川。内存 数据存储 数
12、据处理内存图1批量计算流数据处理数据硬盘图2流式计算流式计算关注的是数据多次处理一次写入,而批量处理关注的是数据一次写入并多次处理使用。流处理系统运行起来后是持续不断的,而批处理系统往往只是在业务需要时调用数据。两者关注及应用的方向不一样,如表1所示。流式计算,是对数据的实时处理,是针对在线业务而存在的计算平台,适用于实时性要求高的情况。表1 流式计算、批量计算部分性能对比计算 常驻 处理 有序 数据 精确性能指标 重现方式 空间 延时 性 速率 度流式计算 实时 内存 短 无 突发 较低 难批量计算 批量 硬盘 长 有 稳定 较高 易随着数据规模和复杂程度的增加,数据处理在吞吐量和响应时间上
13、的要求越来越高。批处理系统(MapReduce)、大规模并行数据库、流处理系统和内存数据库,在数据吞吐量和响应时间上有所不同,如图3。内存数据库是一种基于磁盘静态数据的细粒度处理模式,在内存中重新设计了体系结构,实现了数据缓存、快速算法、并行操作等,数据处理速度快,适合吞吐量要求不高同时需要快速响应的应用。大万方数据基于流式计算的网络舆情分析模型研究规模并行数据库通过并行使用多个CPU和磁盘,将诸如装载数据、建立索引、执行查询等操作并行化。同内存数据库相比,大规模并行数据库拥有更高的吞吐量,但数据处理延迟也会随之增加。随着数据量的不断增加,批处理系统将吞吐量在大规模并行数据库的基础上再次提升了
14、一个数量级,处理速度虽有提升,但在响应时间上仍只适合于实时性要求不高的处理任务。流处理系统面向不断产生的动态数据并进行实时分析。相较于前三类处理模式,流处理系统在拥有高吞吐量的同时,具备了相对最低的处理延时。吞吐量PBGBrtls s min 响应时间图3流处理系统和批处理系统对比3 基于流式计算的网络舆情分析模型构建31必要性分析网络舆情作为舆情的一种形式,具有传统媒介中舆情的特点,也有其自身的特性。互联网的发展,改变了社会的连接方式,降低了信息的交流成本,提升了传播速率,增加了数据总量。网络信息无限性和网民关注能力有限性之问的矛盾,加剧了网络舆论的选择性传播。社会化媒体为信息的传播、分享提
15、供了平台,促进了信息开放,促使沟通更加便捷,凸显传播的个性化,使各类观点更容易找到扎根的土壤,从而相互支持、强化、放大,加剧舆论情绪。41。网络舆情越来越难以掌控,大量相关性、偶发性因素使舆情复杂多变,传统的舆情监测研判手段和方法难以奏效,新的技术手段和方法要求更高。网络舆情分析,需要起到及时引导舆论的作用。为此,网络舆情分析需要及时准确地发现舆情。准确取决于数据是否全面、算法模型是否合理,而及时则更多的取决于信息技术平台的处理速度。传统舆情分析技术更多关注于处理的准确性,对处理时间的要求并不高一“。传统舆情分析的主要步骤是,先建立一套指标体系,再基于网络爬虫等手段获取数据,进行数据预处理,最
16、后进行数据分析“。这一方法耗时较长,并不能在引导舆论时及时地发挥作用。因此,研究基于流式计算的网络舆情分析构建十分必要,它能够从传感器、网络日志、网络点击流等设备实时采集下来的数据,连续注入到流计算平台,流计算平台部署相应业务规则,从而实现实时的业务分析与判断。32基于流式计算的网络舆情分析特点(1)时效性网络舆情实时产生,如若能够实时计算,就能在结果反馈中保证网络舆情分析的时效性。流式计算中,数据在到来后直接于内存中进行计算,其后将部分数据存储到硬盘中进行长久保存。流处理系统具有足够的低延迟计算能力,可以快速地进行数据计算,同时,对时效性强、潜在价值大的数据优先计算,保证在数据价值有效的时间
17、内,体现数据的有用性,挖掘网络舆情的时效价值。(2)突发性网络舆情分析中,舆情数据的产生由数据源确定。由于不同数据源的状态不统一且在不同时空范围内发生动态变化,数据流的产生速率具有突发性。网络舆情的实时分析中,前一时刻数据速率和后一时刻数据速率可能会有巨大的差异,需要系统具有很好的可伸缩性。一方面,在突发高数据流速的情况下,保证不丢弃数据或识别并选择性地丢弃部分不重要的数据;另一方面,在低数据速率的情况下,保证不会太久或过多地占用系统资源。流处理系统能够动态适应突发性数据流,具有很强的系统计算能力和数据流匹配能力。(3)无限性舆情数据是实时产牛、动态增加的,即潜在的数据量是无限的。在数据计算过
18、程中,既没有足够大的空间来存储这些无限增长的数据,也没有合适的软件来有效地管理所有数据,因此,不会保存全部数据。流处理系统具有很好的稳定性,能够保证系统长期而稳定地分析并选取有价值的数据,不需要保存全部数据。一725万方数据情报学报第35卷第7期2016年7月33模型框架图4 基于流式计算的网络舆情分析模型基于流式计算的网络舆情分析主要由数据收集、舆情分析与舆情治理三部分构成,各功能模块如图4所示。网络舆情的数据收集是网络舆情分析的第一步,为分析提供所需的数据。收集全面、真实、准确的舆情信息,是消除信息不对称和确保分析结果准确、客观的关键。数据收集过程应尽量多地扩大信息源,包括门户网站,贴吧、
19、论坛、微博、微信等社交媒体,QQ、MSN等即时通信软件,新闻网站的报道及评论等。网络舆情分析的数据收集若要进一步实现全面、真实和准确,需要多元化的收集渠道,不局限于网民发布的信息,应加强对物联网中信息的收集,必要时可与历史数据对照,做到全面分析、多角度验证,保障数据的全面性和可信性。除数据的全面、真实、准确之外,由于对时效性的追求,网络舆情分析需要进行实时数据收集。数据收集中,数据源实时不问断地形成流式数据,如网站的访问PVUV、用户访问内容、搜索内容等。网络舆情分析要变被动响应为主动分析,最好的方式是对收集的数据进行实时计算,而不是先存储再利用。由于数据源实时不间断导致数据量大且无法预算,收
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 计算 网络 舆情 分析 模型 研究
限制150内