基于主题的网络舆情分析模型及其实现.pdf
《基于主题的网络舆情分析模型及其实现.pdf》由会员分享,可在线阅读,更多相关《基于主题的网络舆情分析模型及其实现.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/情报分析与研究XI ANDAI TUSHU Q INGBAO JISHU49基于主题的网络舆情分析模型及其实现钱爱兵(南京大学信息管理系 南京210093)【摘要】网络舆情分析是信息处理领域内的一个新兴且有实用价值的方向。分析网络舆情分析的基本问题,提出难点以及相关的解决方案,并在此基础上设计基于主题的网络舆情分析模型。【关键词】主题信息采集 网络舆情 舆情分析【分类号】TP391G202A Model for Anal
2、yzing Public Opinion Under theWeb andIts I mplementationQian Aibing(Department of Information Management,Nanjing University,Nanjing 210093,China)【Abstract】In view of the shortcomings of traditionalmethods for analyzing public opinions,this paper proposes a new i2dea of public opinion analysis under
3、theWeb,and then designs a model for it.Experiments show that the proposed modelis an effective solution to analyzing public opinion under theWeb.【Keywords】Focused crawlingPublic opinion under theWebPublic opinion analysis 收稿日期:2007-09-26 收修改稿日期:2007-11-201 引 言 舆情也即舆论,西方用“Pubic Opinion”表示,是指公众关于现实社会以
4、及社会中的各种现象、问题所表达的信念、态度、意见和情绪表现的总和,具有相对的一致性、强烈程度和持续性,对社会发展及有关事态的进程产生影响,其中混杂着理智和非理智的成分1。在网络环境下,舆情的表现形式就是网络舆情,它具有表达快捷、信息多元、方式互动的特点,具备传统媒体无法比拟的优势,仅仅依靠传统的手工方法难以胜任舆情信息的采集、分析和处理工作,从而舆情信息的正确性及传播范围都无法得到有效控制,舆情形成迅速,热点、焦点层出不穷,对社会影响巨大。如何加强网络舆情信息的管理已成为网络舆情监督部门和决策者迫切需要解决的问题。当前,一些学者和研究机构已经取得一定进展2,3,但同时也存在一些不足:一方面分析
5、深度不够,仅停留在相关数据的统计层面,没有剖析数据背后的深层含义;另一方面虽然提出一些分析模式和判据4,但缺乏利用计算机自动化处理的可操作性,难以在实际工作中加以应用。因此,笔者结合法院系统的实际业务需求,设计并实现基于主题的网络舆情分析模型,并以江苏省法院系统作为案例阐述该模型的实现原理。2 模型设计 基于主题的网络舆情分析模型主要由舆情主题规划、舆情信息采集、舆情信息分析、舆情预警处理4个部分总第163期 2008年 第4期 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.ht
6、tp:/50 现代图书情报技术组成,这4部分构成一个完整的网络舆情分析的生命周期。笔者设计该模型遵循的基本原则是:充分利用计算机进行网络舆情分析工作,最大程度减少人工干预。此外,期望该模型能够达到以下目标:实现网络舆情的自动采集、分析和处理,及时应对网络舆情,由被动防堵转化为主动梳理、引导。模型的总体处理流程如下:(1)基于中文新闻信息分类标准及代码 的一级、二级类目构建网络舆情主题列表及其对应的初始种子URL集合,决策者或舆情监督部门根据自己的舆情需求选择相应的主题;(2)网络舆情采集模块按照设定的舆情主题和种子URL集合自动采集相关舆情信息,经过过滤处理,剔除主题无关的舆情信息,将主题相关
7、的舆情信息保存到舆情信息库中;(3)舆情分析模块对采集到的舆情信息进行关注度、热点、焦点、拐点和重点等分析,生成舆情分析报告;(4)舆情预警模块根据舆情分析报告作出相应的处理,并将分析报告反馈给决策者或舆情监督部门,为管理和决策提供支持。决策者或舆情监督部门获得舆情分析报告后往往会产生新的舆情需求,从而进入到下一轮循环之中,直到其满意为止。模型的总体结构如图1所示:图1 基于主题的网络舆情分析模型3 关键技术3.1 舆情主题规划 舆情主题规划是指决策者或舆情监督部门根据自己的舆情需求选择合适的舆情主题及其对应的种子URL集合,确定舆情信息采集任务。主要包括以下两个部分:(1)舆情主题选择 舆情
8、主题选择的方法与文献5相同,均将 中文新闻信息分类标准及代码 的一级、二级类目作为系统默认的舆情主题分类,每个主题下配备一个主题文本、主题导向词表,在此不再赘述。(2)种子URL集合选择初始种子URL集合的选择对高质量完成舆情信息采集任务起着至关重要的作用。笔者根据美国康奈尔大学教授Jon M.Kleinberg的研究成果6 Web网页分布存在着Hub/Authority特性,进行初始种子URL的筛选工作,具体做法参见文献5。3.2 舆情信息采集 舆情信息采集是指根据舆情主题规划的任务需求,从多种信息渠道收集社情民意,并有效进行过滤和存储,为下一步的舆情分析提供优质素材。(1)舆情页面采集 根
9、据待采集URL队列,利用各种Web协议访问Web,将Web页面下载到本地进行分析。为了能够高效地采集页面数据,笔者采用多线程并行的采集策略。具体方法是将所有待采集URL存储到URL队列中,然后不停地从队首取出URL分配给各个工作线程进行采集,当某个工作线程采集完毕以后,它会主动向主进程发送URL请求,主进程从待采集URL队列中提取URL分发给该进程,循此往复,直到待采集URL队列为空。为了避免采集陷入死循环,将采集深度设为5。(2)舆情页面分析 采集到舆情页面以后,利用HT ML解析器的语法分析功能从中抽取出链接及其上下文数据、标题、全文,为下一步的页面过滤提供判断依据。页面链接及其上下文数据
10、的抽取:利用HT ML解析器对舆情页面进行分析,遇到带有链接的标记如、等,就从标记结构的属性中找出目标URL,并从该标记对之间抽取出正文作为该链接的上下文,这两个数据就代表该链接。链接上下文中如果包含主情报分析与研究 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/XI ANDAI TUSHU Q INGBAO JISHU51题导向词,则该链接所指向的网页与主题相关的可能性较高。页面正文的抽取:通过HT ML解析器找到标记和,将这两个标记之间的内容去除其中所有的HT M
11、L标记即为页面正文。页面标题的抽取:通过HT ML解析器找到标记和,将这两个标记之间的内容去除其中所有的HT ML标记即为页面标题。如果为空,则从页面正文中抽取第一行文字作为标题。(3)舆情页面过滤 为了有效提高舆情信息采集的可靠性和效率,系统需要在采集过程中判断舆情页面与给定舆情主题的相关性。笔者采用的方法与文献5相似,采用页面元数据分析和全文内容分析相结合的方法进行主题相关性判定,对页面进行分析和过滤。基于页面元数据判断主题相关性 利用页面元数据来为每一条舆情信息打分,将得分大于或等于设定阈值的舆情信息归类到相应主题,并存储到舆情主题库中;将得分小于设定阈值的舆情信息存储到系统缓存中,系统
12、将根据它的全文内容进行二次判断。整个页面元数据类型可分为3种:页面标题,如果舆情页面标题包含某个主题词,则这条舆情信息与该主题词所属主题很可能密切相关;页面链接,如果一个舆情链接中包含某个主题词,则这个链接所指向的舆情页面很可能是跟这个主题词所属主题密切相关;链接上下文,如果舆情链接的上下文中包含某些主题词,则这个链接所指向的页面很可能是跟这些主题词所属主题密切相关。相应的计算公式如下:基于页面内容判定主题相关性 目前,判断页面内容与主题的相关性的方法仍然是基于关键词,本文采取的方法就是基于关键词的向量空间模型算法,算法描述参见文献5。3.3 舆情信息分析 舆情信息分析是指对采集到的舆情信息素
13、材进行分析、挖掘,生成舆情分析报告并提交给舆情预警处理模块。文献4提出基于信息点进行网络舆情分析,笔者加以引申提出主题的概念,进而提出基于主题进行网络舆情分析思想。笔者对文献4提出的几种分析模式作了深入的研究,并结合当前的实际业务需求,剔除掉难以实现计算机自动化处理的散点、粘点、疑点、难点、频点、敏点等分析模式,对其余适用于计算机自动化处理的模式进行适当的改造和借鉴,设计出以下几种分析模式:主题关注度分析、热点分析、焦点分析、拐点分析、重点分析,其中主题关注度分析是其他分析模式的核心与基础。这些分析模式所需的相关统计数据均是通过与笔者独立开发的新闻全文检索系统相结合而获取,由于新闻全文检索系统
14、不是本文要阐述的内容,在此不再赘述。(1)主题关注度分析主题关注度是指过去某一时间段内,舆情主题被关注的程度,用该主题的相关网页数进行衡量。若用坐标系的横轴表示时间t,纵轴表示某一舆情主题(主题导向词群)的相关网页数,则关于某一个舆情主题S的相关网页数随时间的变化可以用函数rS(t)表示。根据文献4相关信息点的计算公式,得到在过去某一时间段t1到t2内关于舆情主题S的相关网页数(即关注度)的计算公式:RS(t1,t2)=rS(t2)-rS(t1)(2)通过公式(2)计算得到的结果RS(t1,t2)即为舆情主题S在t1到t2时间段内的关注度。为了描述主题关注度的变化趋势,系统有3种统计周期(日、
15、周和月)供选择,默认的最小统计周期为日。此外,主题关注度分析的起始时间和终止时间可以自定义设置。(2)热点分析 本文所述的“热点”与文献4基本一致,但范围有所扩大,由信息点扩展到舆情主题,即在某一时间段内相对更加被关注或集中关注的舆情主题,用该主题的关注度进行衡量。将所有舆情主题S1、S2、S3 的关注度RS1(t1,t2)、RS2(t1,t2)、RS3(t1,t2)与热度阈值R进行比较,大于R的设为热点,反之不是;最后对所有设为热点的主题按关注度的降序进行排列,生成t1到t2时间段内的热点主题排行榜。热点主题的判断公式如下:总第163期 2008年 第4期 1994-2010 China A
16、cademic Journal Electronic Publishing House.All rights reserved.http:/52 现代图书情报技术H(Si)=Max(RSi(t1,t2,R)=1 热点0 非热点(3)其中,i为大于0的整数。(3)焦点分析 此处的“焦点”是指过去某一时间段内被各类媒体刊登与播出频次较高的舆情信息,而文献4是按位次变化得到焦点,两者有着本质不同。用坐标系的横轴表示时间,纵轴表示关于某一舆情信息的所有相关网页数,则关于某一舆情信息N的相关网页数随时间的变化可以用函数fN(t)表示。在过去某一时间段t1到t2内,关于某一舆情信息N出现的相关网页数的计算
17、公式如下:FN(t1,t2)=fN(t2)-fN(t1)(4)通过公式(4)计算得到的结果称为舆情信息N在t1到t2时间段内的焦度。将所有舆情信息(Web页面)N1、N2、N3的焦度FN1(t1,t2)、FN2(t1,t2)、FN3(t1,t2)与焦度阈值F进行比较,大于F的设为焦点,反之不是;最后对所有设为焦点的舆情信息按焦度的降序进行排列,生成t1到t2时间段内的舆情焦点排行榜。舆情焦点的判断公式如下:F(Ni)=Max(FNi(t1,t2),F)=1 焦点0 非焦点(5)其中,i为大于0的整数。(4)拐点分析 文献4提出的“拐点”是按相对位次变化得到,而本文依据的是关注度变化的剧烈程度,
18、即过去某一统计周期内关注度剧烈变化的舆情主题,两者在内容表现上虽然有所不同,但均考虑到用变化幅度来衡量。为了衡量关注度变化的剧烈程度,与文献4一样,引入拐度的概念,但计算公式不同,本文提出的计算公式如下:t2j-t2j-1=TISi(Tj)=RSi(t2j+1,t2(j+1)-RSi(t2j-1,t2j)(6)其中,常数T表示舆情主题关注度变化的统计周期,即时间段t2j-1到t2j,Tj表示第j个变化周期,i和j均为大于0的整数,ISi(Tj)表示舆情主题Si第j个变化周期的拐度。假设有m个舆情主题,n个统计周期,则可以构造一个m行n列的拐度矩阵。第i行数据表示舆情主题Si在各个统计周期内的拐
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 主题 网络 舆情 分析 模型 及其 实现
限制150内