文本倾向性分析在舆情监控系统中的应用研究.pdf
《文本倾向性分析在舆情监控系统中的应用研究.pdf》由会员分享,可在线阅读,更多相关《文本倾向性分析在舆情监控系统中的应用研究.pdf(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究姓名:张超申请学位级别:硕士专业:计算机科学与技术指导教师:刘辰20080228北京邮电大学硕士学位论文摘要文本倾向性分析在舆情监控系统中的应用研究摘要舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度【。随着网络的普及,网络舆情以“舆论多元 为最大特点f 4 l,网络舆情的信息丰度呈现“爆炸的态势,一是网络舆情信息的数量极为庞大,二是其类别繁多,三是背景信息复杂,尤其是突发事件和社会流行事件,常常会立即引发各种社会集团、政治势力的共同关注。在这种情况下,要
2、人工去甄别每个意见的具体情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料进行分析整理,才能够建立起全面、有效、快速的舆情监控预警机制。传统的网络舆情监控系统中,话题发现方法多采用聚类基础上考察相关评论规模的方法,往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性特性进行区分。近年来,虽然有学者对舆情的特性进行了深度分析的研究,给出了一些舆情关键点的定义,但是没有给出具体的数学模型,也没有提出可行的发现方案,发现方法多是手工采集整理。本文尝试将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中,对文本倾向性分析技术在舆情监控系统
3、中的应用进行了研究。本文首先对引入文本倾向性分析技术的舆情监控系统进行了整体设计,并详细设计了各主要模块;在建立词语倾向性词典的基础上,研究了多种网络评论倾向性分析方案的优缺点,分析比较了多种段落评论分析方案;最后在对主题文章进行聚类的基础上,根据参与评论的网民规模发现其中的热点话题,建立包含网民倾向性因素的极性话题、焦点话题、敏感话题发现模型,以提高舆情监控系统的实用价值。关键字:倾向性分析,舆情,极性话题,焦点话题,敏感话题北京邮电大学硕士学位论文R E S E A R C HO NT H EA P P L I C A T I O NO F T E X TO I U E N T p 汀I
4、O NA N A L Y S I SI NT H EP U B L I CO P I N I O NM O N I T O R I N GS Y S T E MA B S T R A C TP u b l i co p i n i o nm e a n st h ep o l i t i c a la t t i t u d e so fm a j o r i t yp e o p l et o w a r d st h es t a t em a n a g e r sa b o u tt h eo c c u r r e n c ea n dd e v e l o p m e n to f
5、s o m es o c i a li s s u e su n d e rs o m ek i n do fs o c i a lc i r c u m s t a n c e s W i t ht h ep o p u l a r i t yo ft h eI n t e r n e t,n e t w o r kp u b l i co p i n i o nt a k e”m u l t i m e d i a”a st h eb i g g e s tf e a t u r e,n e t w o r ki n f o r m a t i o na b u n d a n c eo
6、fp u b l i co p i n i o ns h o w e x p l o s i v e p o s t u r e F i r s t t h ea m o u n to fn e t w o r kp u b l i co p i n i o ni n f o r m a t i o ni sh u g e,a n dt h es e c o n di si t sn u m e r o u sc a t e g o r i e s;t h i r d,t h eb a c k g r o u n di n f o r m a t i o ni sc o m p l i c a
7、 t e,e s p e c i a l l ys u d d e ne v e n t sa n ds o c i a le p i d e m i ce v e n t s,o f t e nc a u s ec o m m o nc o n c e r no fv a r i o u ss o c i a lg r o u p sa n dp o l i t i c a lf o r c e si m m e d i a t e l y I ns u c hc i r c u m s t a n c e s,s p e c i f ya n dc l a s s i f ya l lt
8、h ev i e w sb yh a n di Su n r e a l i s t i c O n l yb yu s i n gc o m p u t e rt e c h n o l o g yt oc o l l e c ta n da n a l y s i sp u b l i co p i n i o nc o r p u sa u t o m a t i c a l l yc a ne s t a b l i s hac o m p r e h e n s i v e,e f f e c t i v ea n df a s tp u b l i co p i n i o nm
9、o n i t o r i n ge a r l y-w a r n i n gm e c h a n i s m I nt h et r a d i t i o n a lp u b l i co p i n i o nm o n i t o r i n gs y s t e m,t h et o p i cw a sd e t e c t e db yt e x tc l u s t e r i n gm e t h o d,d e s i g n e r so f t e nt a k el i t t l ec o n c e r na b o u te m o t i o n a l
10、f a c t o r so ft h ec o m m e n t,o f t e no n l yr e a c ht h el e v e lo fh o tt o p i cd i s c o v e r y I nr e c e n ty e a r s,a l t h o u g ht h e r ei ss o m es t u d yo nt h ec h a r a c t e r i s t i c so fp u b l i co p i n i o nc o n d u c t e di n d e p t ha n a l y s i s,a n dt h e yp
11、r e s e n t e dt h ed e f i n i t i o no fs o m ek e yp o i n t so fp u b l i co p i n i o n,b u tt h e yd i dn o tg i v eas p e c i f i cm a t h e m a t i c a lm o d e l,f o u n dn ov i a b l eo p t i o n sd i s c o v e r ym e t h o d sm o r et h a nm a n u a lm e t h o d s T h i sP a p e l a t t e
12、 m p t st oIb r i n gt h en a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g y,o r i e n t a t i o na n a l y s i so ft h et e x t i n t ot h ep u b l i co p i n i o nm o n i t o r i n gs y s t e m,s t u d i e do nt h ea p p l i c a t i o no ft h et e x to r i e n t a t i o na n
13、a l y s i st e c h n o l o g yi np u b l i co p i n i o nm o n i t o r i n gs y s t e m T h i sp a p e rf i r s ti n t r o d u c e dt h es y s t e md e s i g no fp u b l i co p i n i o nm o n i t o t i n gs y s t e mt h a tw i t ht e x to r i e n t a t i o na n a l y s i s一一t e c h n o l o g y,a n d
14、t h e ng a v et h ed e t a i l e dd e s i g no ft h em a i nm o d u l e s O nt h eb a s i so ft h ef o u n d a t i o no fw o r dp o l a r i t yd i c t i o n a r y,t h i sp a p e rs t u d i e dt h ef e a t h e r so fs e v e r a lc o m m e n to r i e n t a t i o na n a l y s i ss c h e m e s A tl a s
15、t,t h i sp a p e rd e t e c tt h eh o tt o p i cb yt h es c a l eo ft h ec o m m e n t so fn e t i z e n sp a r t i c i p a t e di nt h ec l u s t e r a n dp r e s e n t e dt h ed e t e c tm o d e lo fp o l a rt o p i c,f o c u st o p i c,s e n s i t i v et o p i ct oe n h a n c et h ep r a c t i c
16、a lv a l u eo ft h ep u b l i co p i n i o nm o n i t o r i n gs y s t e m K E YW O R D S:o r i e n t a t i o na n a l y s i s,p u b l i co p i n i o n,p o l a rt o p i c,f o c u st o p i c,s e n s i t i v et o p i cI V独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其
17、他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论本人签名:处,本人承担一切相关责任。日期:丝握主!蕴关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规
18、定)保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论姓黧文雅秽胡,本人签名:至竺篁兰导师签名:二丛孕L适用本授权书。日期:日期:沙而弓掰北京邮电大学硕上学位论文文本倾向性分析在舆情监控系统中的应用研究1 1 课题背景第一章绪论当前,我国正处在新的历史转型期,社会充满了生机,但同时也存在许多矛盾。这些矛盾开始时是自发的、零散的和轻微的,这时如果不及时发现和解决,就有可能升华成为自觉的、有组织的、严重的群体性对抗,甚至是大范围的、激烈的冲突。如何避免这样的问题发生已经成为我国能否顺利转型的关键。舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体
19、的国家管理者产生和持有的社会政治态度l l J。舆情机制是隐含了民众的“三位一体 的主体地位的决策机制H:建立有效的社会问题预警机制,首先要能够收集分析反映社会生活的舆情信息。基本要求是要做到“快、准、深、精,新、全 I j J。其中网络舆情信息是非常重要的一块。网络彻底打破了地域的界限,模糊身份的特征,使得广大弱势群体能够充分揭露出社会底层的深刻现状;而且网络还具有实时性强、交互性好的特点,因此,对网络舆情的分析和整理对于构建有效的社会问题预警机制具有很大的作用。随着网络的普及,网络舆情以“舆论多元一为最大特点1 4 J,网络舆情的信息丰度呈现“爆炸的态势,一是网络舆情信息的数量极为庞大,二
20、是其类别繁多,三是背景信息复杂,尤其是突发事件和社会流行,常常会立即引发各种社会集团、政治势力的共同关注。在这种情况下,要人工去甄别每个意见的具体情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料进行分析整理,才能够建立起全面、有效、快速的社会问题预警机制。近年来,一些学者和研究机构已经进行了一些重要的舆情分析方面的研究,取得了一定的研究成果。同时也存在一些不足,主要表现在:其一,将数理统计软件化来代替舆情分析判据科学性纠;其二,将经典概率理论简单图示化来代替舆情分析判据复杂性纠;其三,将热点重点层面的分析代替舆情分析的深层性。如虽强调主题检测和追踪T D T(T o p i
21、 ed e t e c t i o na n dt r a c k i n g)技术【o J,试图自动发现并追踪社会热点和焦点内容及舆情,但分析模式仅仅停留在热点发现方面,难以深化。究其原因,根本在于忽视互联网内容及舆情本身的性质和特点,忽视内容及舆情内在的深层结构和关系,忽视内容及舆情演化的规律和条件【7 1。虽然有一些学者对舆情的内在特性进行了研究,并对热点、焦点、敏点等【7】舆情问题给出了定义,但是给出的数学模型过于简化,而且对文本倾向性的考虑不足。对舆情的大多数特点的研究还仅仅是在分析模式方面,没有可行的数学模型和关键点提取方案。1 2 舆情相关理论研究现状舆情分析涉及到的技术非常多,
22、而核心是自然语言理解技术。自然语言理解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响应p J。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关键p J。从自然语言理解的角度来讲,处理文本需要进行三步工作:理解所出现的每个词;从词义构造表示语句意义的结构;从句子语义结构表示言语的结构。在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题例。国外关于自然语言理解方面的研究起步较早,一些卓有成就的语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影响的理论有:转换
23、生成语法、依存语法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理论、概念依存理论、境况语义学、语料库语言学等。另外还有许多计算语言学家或学者在总结前人的经验与成果的基础上又提出了不少新方法、新理论和新思路,这为计算语言学的不断发展作出了贡献【剐。相比之下,国内在自然语言理解方面较为系统的研究成果则为数不多。因为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使
24、得汉语自然语言理解研究工作困难重重1 6 J。令人欣慰的是,近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现2北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究了不少拓荒之作,取得了骄人的成果【8 1。近年来,我国在汉语自然语言理解方面的成绩主要有:(1)机器翻译:以冯志伟教授等为代表的计算语言学学者早期在机器翻译研究方面做了大量的工作,并总结出不少珍贵的经验和方法,为后来的计算语言学研究奠定了基础【1 0
25、1。从发展趋势看,规则和统计相结合的方法应该是机器翻译技术的一个发展趋势【1 1 1。(2)语料库研究:清华大学的黄昌宁教授领导的计算语言学研究实验室,主要从事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动生成句法规则、自动统计字、词、短语名子的使用及关联频率方面做了大量的工作并发表了不少极具参考价值的论文嗍。(3)语篇理解研究:东北工学院的姚天顺教授和哈尔宾工业大学的王开铸教授等在计算语言学的语篇理解方面(特别在结合语义方面)的研究进行了有价值的尝试并取得了一定的成绩咧。(4)概念层次网络理论:中国科学院的黄曾阳先生提出了删C(H i e r a r c h i c a lN
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 倾向性 分析 舆情 监控 系统 中的 应用 研究
限制150内