微博舆情管理平台:数据分析系统的设计与实现-学位论文.doc
《微博舆情管理平台:数据分析系统的设计与实现-学位论文.doc》由会员分享,可在线阅读,更多相关《微博舆情管理平台:数据分析系统的设计与实现-学位论文.doc(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 毕业设计(论文)中文题目:微博舆情管理平台 数据分析系统的设计与实现英文题目: MicroBlog Public Opinion Management Platform: The Design and Implementation of the Data Analysis System中文摘要随着网络技术应用的普及和发展,舆情的传播方式和传播速度都发生了根本性变化, 网络舆情对人类的社会状态产生了全方位的影响,微博舆情则是网络舆情的重要组成部分,它的特点有:直接性,突发性,偏差性,丰富性和互动性。本文以微博消息为研究对象,研究了微博消息传播的特点与模型,通过对抓取数据的分析发现了微博传播的单
2、向性,便捷性,背对脸等特点,还有微博意见领袖在微博传播中的重要作用,微博热点的产生规律。根据对数据分析的结果提出了趋势分析的算法。利用空间向量模型完成对微博内容的结构数据化,利用K-means算法完成对微博消息的聚类分析,找到所要分析的某类微博内容,进而在这类微博中找出微博消息意见领袖,提出微博意见领袖影响力评估算法,WeiboRank算法,并结合算法完成了微博消息预警模块的实现,初步实现了微博舆情管理平台的数据预警分析功能。关键词:微博舆情 文本聚类 趋势分析 1北京交通大学毕业设计(论文) AbstractAlong with the universal application and r
3、apid development of network technology, the approaches that the net-mediated public sentiment spread have been fundamentally changed. The net-mediated public sentiment has exerted huge influence on the way that the society operates. As the one of the most significant parts of the net-mediated public
4、 sentiment, the public sentiment which is produced and spread by the microblog has several important characters, such as directness, immediacy, deviation, variability, interactivity.Taking the microblog messages as our investigating subject, this paper aimed to do research on the characteristics and
5、 models of delivering messages between microblog users, Through the analysis of the capture data found unidirectional, micro-blog communication convenience, back on the face and other characteristics, and raised an effective algorithm to sort these kinds of messages. Using the spatial vector model,
6、the K-means algorithm did cluster analysis on microblog messages, and found out the opinion leaders among tremendous messages. Then, an influential estimation algorithm of the microblog opinion leaders was raised,WeiboRank algorithm. Together with the estimation algorithm, we also achieved the early
7、 warning part and some basic data warning analysis functions on the whole microblog-mediated public sentiment platform.Key words:microblog-mediated public sentiment, text clustering, trend analysis目 录一、概述11.1 课题背景与研究意义11.1.1课题背景11.1.2研究现状31.1.3研究意义31.2论文结构4二、微博消息传播模型42.1微博消息传播的特点42.2微博用户状态62.3微博意见领袖
8、72.4微博传播模型9三、微博舆情管理平台的设计与实现123.1微博舆情管理平台的总体流程123.2数据分析系统设计流程13四、微博舆情管理平台的实现144.1样本选取与数据来源144.2微博数据转化154.3微博文本聚类174.3.1文本聚类定义174.3.2机器学习184.3.3K-means算法194.4微博意见领袖重要性评估214.4.1 PageRank算法214.4.2 WeiboRank算法224.4.3 算法对比234.5微博舆情预警模块254.5.1微博舆情预警254.5.2趋势分析模块264.6趋势分析结果比较29五、结论与展望315.1系统不足315.2未来展望325.2
9、.1改进预期325.2.2新增功能325.3结束语33参考文献34附录: 翻译原文35Cluster Analysis:Basic Concepts and Algorithms351Overview401.1.1What Is Cluster Analysis?401.1.2 Different Types of Clusterings411.1.3Different Types of Clusters442.Road Map47 K-means47 Agglomerative Hierarchical Clustering48 DBSCAN48附录: 中文翻译48聚类分析:基本概念及算法4
10、81概述511.1.1什么是聚类分析?511.1.2不同类型的群集合521.1.3簇的不同类型532.路线图56K-means算法56凝聚层次聚类56DBSCAN5656北京交通大学毕业设计(论文) 第 页一、 概述1.1 课题背景与研究意义1.1.1课题背景随着时代的进步,技术的发展和web2.0时代的到来,网络舆情也呈现蓬勃发展的势头,截至2012年12月底,我国网民规模达5.64亿,手机网民规模也已达到4.20亿,我国微博用户规模为3.09亿,较2011年底增长了5873万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。相当一部分用户访问和发送微博的行为发生在手机终端上,
11、截至2012年底手机微博用户规模达到2.02亿,即高达65.6%的微博用户使用手机终端访问微博。微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。美国埃文威廉姆斯推出的twitter是最早的微博平台,也是目前最著名的平台。2007年,中国第一家带有微博色彩的网站“饭否网”开张,到2009年新浪微博的开通,中国第一家推出微博的门户网站,微博正式进入中文上网主流人群视野。2011年10月,中国微博用户总数达到2.498亿,成世界第一大国。微博成为网络舆情的一大组
12、成部分。舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于舆情的内涵,国内的研究者们有着不同的认识。有研究者指出:“所谓舆情,实际上就是大众密切关心的热门话题或反映了某些社会心理的观点与看法,其较高层次是思潮,基本层次是情绪。大众传媒对此应该有足够的敏感,并以恰当的方式进行舆论引导,减少社会震荡。”另有研究者认为:“舆情即民意情况,涉及公众对社会生活中各个方面的问题尤其是热点问题的公开意见(外露的部
13、分)或情绪反应(既可能外露又可能不外露的部分)。”更多的学者倾向于如下认识:“舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度。”这一定义将舆情界定为民众的社会政治态度,突出了民众与国家管理者之间的关系,抓住了舆情的核心,因此本文在以下的论述中,也采用这一定义。任何一种技术的出现及发展,或多或少会对社会生活造成一定的冲击和影响。网络从诞生的那一天起,就开始深刻地影响人们的生活、学习、思考、交流和娱乐的方式。与此同时,现实生活与虚拟世界交互影响,呈现出一种你中有我、我中有你的局面。以
14、网络为平台,通过新闻、评论、发帖、回复等为载体表现出来的舆情,就是网络舆情。以网络为载体的网络舆情,核心是单个或多个事件,是海量网民感情、态度、建议、观点的表达,互动与传播,以及后续的影响力的集合。 带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。舆情管理与监控,就是通过对互联网信息挖掘采集技术的整合,实现自动抓取互联网中的海量信息,可以利用一些算法自动对信息分类,主题分析,倾向分析等功能,形成图表或者简报结论,便于用户掌握。舆情的本质是民众的社会政治态度,而在网络上,某种抽象的社会政治态度是需要以一些具体的形式反映出来的。或者说,舆情在网络上要为人所知、激起网民共鸣
15、、或者在网络上被传播,必然要借助于一定的载体。在网络上,舆情的载体主要有新闻评论,论坛(社区)发帖、跟帖,博客,播客,微博等。与传统舆情相比,网络舆情具有传播快速和实时互动的特点。网络的出现使得地球村的梦想得以实现,一条消息可以在瞬间传遍世界。相应的,某个舆情通过各大网站、论坛的转贴可以在极短时间内为大量人知晓,这在以前是难以想象的;在网络舆情体现最明显的论坛、社区、博客、微博等空间,每一个网民都可以实时地发表自己的观点,大家共同讨论或辩论,不同观点或立场的网民进行交锋,可以通过互动推动舆情的发展或深化,引起更多人的关注。1.1.2研究现状随着网络技术的发展和时代的进步,网络舆情的重要性已经毋
16、庸置疑,有关网络舆情管理与检测的研究也日趋成熟,有关网络舆情管理与监测的系统越来越多,微博舆情的分析平台也有出现,不过多数为政府和企业服务,只监控有可能爆发的负面信息和重大事件,不对普通用户开放,而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析,缺乏对微博消息未来走向的一个分析预测,也无对微博消息传播范围广度的分级。1.1.3研究意义网络舆情反映了民情民意,在为国家管理者决策提供参考依据的同时也存在引发社会问题的风险,尤其是国内外敌对势力经常利用互联网,别有用心地煽动不良情绪或发动串联,以期影响我国社会稳定。因此,研究如何发现互联网上的舆情、做出预警并在必要时采取合
17、理的预控措施,成为摆在相关部门面前亟待解决的问题。1.2论文结构论文分为4章。第一章概述介绍了我选择这个课题的背景,叙述了目前国内外关于微博舆情管理平台的研究现状,分析了微博舆情管理平台的重要意义。第二章分析了微博消息传播的模型,研究了微博消息传播的特点,建立了微博消息传播的模型。第三章概述了微博舆情管理平台的总体流程,详细讲解了数据分析系统的设计流程,讲述了分词模块,聚类模块及趋势分析模块的算法思想,基本原理。第四章针对数据分析系统的局限性,提出了未来的改进方向。二、微博消息传播模型2.1微博消息传播的特点微博舆情作为网络舆情重要组成部分,有着与网络舆情共同的特点,网络舆情的特点有以下几点:
18、直接性,突发性,偏差性,丰富性和互动性。网民根据现实社会或者网络上发生的新闻可以在各种平台上直接发表自己的见解和意见,根据其他网民的见解进行交换观点,而网络的虚拟性也使虚假不良信息的发布变得容易和更具蛊惑性,容易成为热点。这也对网络舆情的监管提出了要求。而微博也有其自身独特的特点:便捷性,原创性,背对脸。随着智能手机的普及以及各种便捷移动电子设备的出现,各种微博移动终端使得微博消息的发表与接收变得非常便捷,使得网络舆情的直接性和突发性表现的更为突出。而以新浪微博为例,其用户可以选择一个或多个的关注组别,例如娱乐,新闻,经济等,这就让用户可以更加便捷的了解自己需要的某些方面的信息。微博的便捷性让
19、网络舆情的消息爆发更加突然,在前不久的雅安地震中,震后3分钟即有第一条关于震区震后实情的微博消息出现,这与微博的便捷性是分不开的。微博消息是由140字左右的短文本构成的,所以其原创性远大于例如BBS,论坛,博客等平台,可能表达的意思相同,但发出的微博却不一样,同样以雅安地震为例,“为雅安祈福”,“雅安平安”,“支援雅安”等消息出现在微博上,虽然是不同文本,但同样表达了对雅安地震灾情的关注和祝福,这种原创性大大丰富了微博的内容,也直接体现了网络舆情的偏差性与丰富性。但也为微博舆情管理增加了难度,对微博内容的分类提出了更高的要求。背对脸这种特性,则是很生动表明了微博与平常网络平台相比最大的特点,其
20、传播消息的途径是单向的,被关注者发布消息无需理会关注者的反应,关注者关注着被关注者的消息,就类似一个人在玩电脑游戏,而他的粉丝就是站在他背后观看的人,观看者可以看到游戏的进度,但游戏者却不用理会观看者在做什么,这就是微博消息传播背对脸的特性。根据微博典型的这3种特点,我们看出它与其他网络平台舆情传播的显著差别,而想要对微博舆情进行管理,必须很好的利用这三种特点。2.2微博用户状态在调研文献时,病毒在传播的时候会出现三种用户状态,感染态,免疫态,易感染态。由于病毒传播与微博消息的相似性,假设一个用户发布一条消息后,他的粉丝用户都一定会看到这条消息,类比病毒传播的三种状态,将微博用户也分为三种状态
21、,未知状态,转发状态,已知不传播状态。未知状态就是不知道消息的状态,通常就是他所关注的人中没有传播这条消息;转发状态就是这个用户知道这条消息,并且对这条消息很感兴趣,转发了这条状态,就把这条消息通过他的粉丝继续传播了下去;已知不传播状态则是知道了这条消息,但是因为不感兴趣,没有转发这消息或发布相关的消息。如图2-1所示,这是一个用户状态示意图,用户A发布了一条状态,B和C关注了A,所以知道了A发布的消息,B不感兴趣,忽略了这条消息,成为了已知不传播状态,这条消息的传播在B处中断,而C对这条消息很感兴趣,转发了这条消息,则成为转发状态,继续向C自己的粉丝传播这条消息,则D由不知道这条消息的未知状
22、态变为了知道这条消息的已知不传播状态,而E关注了B,虽然被D关注,但根据微博背对脸的特性,E无法知道这条消息,一直处于未知状态。在消息传播过程中,这三种状态是单向转变的,未知状态可以变成已知不传播状态,已知不传播状态可以变成转发状态,但不能反向转变,已知不传播状态可能在多次从不同用户得知同一消息后变得感兴趣从而转变为转发状态。图2-1 微博用户状态图2.3微博意见领袖意见领袖这一说法起源于20世纪40年代初传播学关于媒介传播效果的研究,传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现,大部分选民的投票不依靠大众传媒,依靠的是身边的亲戚、朋友和团体的影响。从而有了意见领袖这一概念,在人际
23、传播网络中经常为他人提供信息、意见、评论,并对他人施加影响的“活跃分子”,是大众传播效果的形成过程的中介或过滤的环节。而在微博消息传递过程中,人际传播网络化为微博用户传播网络,微博意见领袖在其中发挥着巨大作用【10】。微博意见领袖通常有着数量庞大的粉丝群,通常用户有着几十或几百的粉丝,而微博领袖的粉丝数量则通常为上万甚至几十万上百万,成为微博平台上的明星,通过发布微博消息领导着他们的粉丝意见。通过对收集到的数据的分析,从数据表明,基本上可以认为20%的意见领袖用户领导着80%的用户的意见,如图2-2,从一条转发量为561次的微博消息的前10名的数据可以看出,昵称为“思想焦距”“杜子健”“历史尘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 舆情 管理 平台 数据 分析 系统 设计 实现 学位 论文
限制150内