海外自媒体中涉华舆情传播机制的大数据分析——基于reddit平台的海量舆情信息-龚为纲.pdf
《海外自媒体中涉华舆情传播机制的大数据分析——基于reddit平台的海量舆情信息-龚为纲.pdf》由会员分享,可在线阅读,更多相关《海外自媒体中涉华舆情传播机制的大数据分析——基于reddit平台的海量舆情信息-龚为纲.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2017年第3期霪车稚诟海外自媒体中涉华舆情传播机制的大数据分析基于Reddit平台的海量舆情信息龚为纲,张 严,蔡恒进【摘要】文章基于谷歌云计算平台,以国际自媒体平台Reddit 20072015年间涉华信息所构成的舆情大数据为分析对象。透视国际自媒体领域涉华舆情的传播机制,并试图提出相应的理论解释。通过卷积神经网络等文本挖掘技术法,文章对涉华舆情的两个方面,即63万条涉华新闻帖子以及540万条涉华评论的情感倾向进行分类。研究发现,Reddit平台上涉华信息的传播并不是随机分布的,消极负面帖子明显多于积极正面帖子,相对于客观中立和积极的帖子,消极负面帖子具有更高的被关注度和更强的传播力;在受
2、众所发出的涉华评论中,其情感倾向的分布也呈现出负面主导的突出特征,即客观中立和积极正面评论被淹没在消极负面评论的汪洋大海中。涉华舆情的这样一种传播模式与国际自媒体的用户构成有关,也与西方主流媒体在自媒体中的“舆论领袖”地位有关,还与消极负面信息本身具有更强传播能力的传播规律有关。本研究将涉华舆情的上述传播特征归纳为国际自媒体平台上涉华舆情的偏态传播,涉华舆情的偏态传播给国家形象塑造与对外传播构成巨大挑战。文章最后对如何在国际自媒体中提高中国对外传播效果提出若干对策建议。关键词】谷歌云计算;大数据;自媒体;涉华舆情;卷积神经网络算法;计算社会科学作者简介】龚为纲,武汉大学社会学系讲师,博士后;张
3、严,武汉大学国际软件学院硕士研究生;蔡恒进,通讯作者,武汉大学国际软件学院教授。湖北武汉430072【中图分类号】C91;G20 【文献标识码】A 文章编号】10044434(2017)0300211 1一、问题研究的缘起在互联网技术的发展催生全球新闻传播革命的浪潮中网络舆论已经拥有超越传统媒体的影响力因此,对国际自媒体上涉华舆情的传播及其影响进行研究成为当下对外传播研究的重要内容。而在大数据时代的背景下,科学、客观地从不同来源的海量数据信息中提取、处理和分析涉华舆情的代表性信息,发现这些信息的传播规律,以服务于提高中国形象管理水平的需求,是本研究的主要目的。对自媒体涉华新闻的传播过程及其影响
4、进行的分析能直接反映国际社会的涉华舆论及其动向。进而为我国实施对外传播战略提供参考,具有重要实践价值。在对自媒体的新闻信息及其传播过程进行分析的相关研究当中国内学界主要针对新浪微博展开。与对国内微博舆情研究相比较,国内学界对国际自媒体涉华舆情的研究基本空白。凤毛麟角的几项研究,都是从网上直接检索和搜集小规模样本展开分析,基于大数据和全样本的分析还没有开始【1】(相德宝,2015)。本研究基于国际知名的社会化新闻网站Reddit20072015年间全部涉华新闻语料库和评论内容语料库,通过大数据分析方法,以海量涉华舆情数据为分析对象(本文将涉华舆情操作化为与中国有关的新闻帖子,以及围绕这些帖子展开
5、的讨论,包含全部涉华新闻帖子大约65万条和涉华评论内容500万条),透视涉华新闻的传播特征,涉【基金项目】国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展趋势研究”(16ZDA086)、中国博士后科学基金第60批面上资助项目(2016M602372)、第10批特别资助项目(2017T100587)、武汉大学自主科研项目一带一路沿线文化认同与文化隔阂的大数据分析”(2017QN047)等项目资助习近平:网络安全是国家安全的战略组成部分,微头条,2014年4月25日。21万方数据华评论内容的情感倾向性,传播主体(用户)行为特征以及涉华舆情的传播特征。在媒介大融合的背景下,全球涉华舆情
6、信息在国际自媒体平台上如何流动的、传播效果如何、内在的传播机制具有怎样的特征等是本文试图回答的主要问题。二、基于谷歌云的大数据分析方法介绍(一)数据来源在一个国际化的信息传播平台上。涉华舆情一般而言都会包含“China”“Chinese”等重要词汇及其各种大小写的形式。所以,我们根据Reddit平台上的标题以及评论内容是否包含ChinaehinaCHINAChinesechineseCHINESE六个关键词对涉华舆情信息进行识别。这种信息识别方式的优点在于相对好操作,在国际语境下应该能够抓住大部分涉华舆情信息;缺点在于,部分新闻信息比如涉及中国的一些企业、城市、著名人物或者组织的信息可能被遗漏
7、掉。不过由于本文的分析目的在于理解涉华舆情的传播机制,因而以上述六个核心词汇来筛选数据应该与研究的目比较接近。本文分析时间跨度为2006年至2015年12月。分析对象是Reddit平台上所有的涉华新闻帖子以及对这些帖子的评论其中涉华新闻帖子大致约有64万条。而涉华评论性帖子约有540万条,这些海量文本信息以及发表这些帖子的用户、发表时间等相关数据被导人谷歌云计算平台,我们通过Google Bigquery分析工具对数据进行透视。(二)非结构化文本数据的处理方法介绍对非结构化数据比如文本进行情感倾向分类是大数据分析领域的重点。本研究对新闻帖子的标题和评论内容进行情感倾向分类,主要使用到一种称为卷
8、积神经网络(Convolutional Neural Network)的机器学习方法,属于深度学习的一个分支。卷积神经网络算法对英文单词的处理,使用到基于词向量的分布式表示法(Distributed Representation)。在一种特定的计算模型下,每个单词将映射至一个多维的实数向量,该向量表示了该单词的语义特征。通过计算向量之间的欧氏距离或余弦相似度等数值,就能够判断出两个单词在语义上的相似度。本文的研究使用Google的开源项目word2vec塞踊塞桶a拍nd一挣争强拍 l;一号鹾搏:矿l -一二嗽、j 一。1吐?! v】j_+。图1卷积神经网络算法示意图中的一套预训练的词向量集,约
9、包含3,000,000个单词与词组,向量维数为300。一个含有n个单词的文本序列在k维的词向量表示法下可以表示成一个nxk的矩阵。该矩阵作为卷积神经网络输入层的内容,进入卷积层进行卷积运算。卷积层中P个滤波器,利用不同的取样宽度和卷积核,对输入层进行采样和运算,输出相应的P个特征表。对每个特征表取最大值,形成一个P维的特征向量,这个过程称为池化(Pooling)。池化处理保证了任意文本序列的特征向量的维数均为P。将该特征向量输入分类器,就得到对该文本序列的分类结果。分类器模型的训练方法同样基于该卷积神经网络,它计算出预标记的所有文本序列的特征向量再根据同一标记下所有特征向量,生成该标记的特征域
10、用于对未标记的特征向量进行分类f2l(Yoon Kim2014;Chen,Yahui,2015)。(三)Reddit平台介绍Reddit是全球知名的自媒体平台,号称“互联网的门户网站”“美国版的天涯论坛”。每天全球新闻信息在这里筛选、聚合、转载,全球有16的互联网用户使用并登录过Reddit。2014年的第一天,社会化新闻网站Reddit对2013年进行了回顾总结并公布了2013年的各项数据。下面我们通过数据了解2013年的Reddit:(1)560亿页面访问数;(2)731亿独立访客;(3)平均每次访问的停留时间为15分钟55秒;(4)40855032条帖子;(5)404603286亿条评论
11、;(6)3676091578亿条评论投票;(7)3037413635亿条链接投票;(8)67亿总投票。Reddit上独立访客数最多的10个国家分别是美国、加拿大、英国、澳大利亚、德国、日本、瑞典、荷兰、法国和巴西。每天来源于全球各种媒体的新闻信息被用户载入这个平台的18万多个虚拟社区在论坛上具体内容可以参考:Yahui ChenConvolutional Neural Network for Sentence ClassificationUWSpacehttp:hdlhandleneffl00129592,2015-Yoon Kim,Convolutional Neural Networks
12、for Sentence,Classification,arXiv:14085882【csCL,or arXiv:14085882v2【CSCL,2014数据来源:https:enwikipediaorgwikiReddit。根据笔者2016年12月对reddit网站相关内容的统计。22万方数据活动的用户根据自己的关注程度对这些新闻进行投票、评论、转载,进而实现了对新闻信息的筛选和分类,使有些新闻成为热点,被更多的Redditor阅读,引发更多评论,同时被再次转载进入全球的各种媒体中,流向世界各地;也有很多新闻信息被载入后无人问津,传播力和影响力很低。所以,Reddit这个平台的突出特征,就是
13、它构成了一个全球新闻信息的筛选机制,助推一些帖子成为热帖,另外一些不能引发注意力和关注的新闻则成为冷门信息。信息筛选的过程,由网民投票、转载、评论等行为构成只有网民对某条新闻信息感兴趣,积极关注,它才会成为热点。所以,信息的传播过程,本身就是一个舆情的表达过程,而且,Redditor在平台上不但对新闻进行转载,还会发表各种评论,对这些评论的信息内容进行分析,也是透视国际涉华舆情的一个角度。Reddit上的用户构成(传播主体)、传播过程、传播内容(信息的属性特征)、传播效果(引发的评论)等构成本研究分析的重点。三、涉华舆情的基本情况根据我们对Reddit网站的统计,20072015年间,Redd
14、it论坛上一共有涉华帖子“万条左右,将这64万条涉华信息转载进入Reddit论坛的是19万个用户名(author),这些信息分布在大致18423万个子论坛(Subreddit,也可以视为虚拟社区、板块等)中,传递信息的用户主要以虚拟社区的方式集结、互动这些涉华信息来源于62000种各种类型的媒体。另外,从传播效果的角度来看,这64万条涉华帖子引发了540多万次评论和153827次转载行为(信息被转载到reddit之外的网络媒体)。下面。我们对reddit论坛上涉华信息的基本面展开分析,归纳出其总体情况和变动趋势。1涉华新闻帖子的总量及其影响力变动。在中国崛起时代,国际自媒体领域涉华信息的生产量
15、及其影响力大幅度攀升。数据分析显示(图2),20072015年Reddit网站上一共有涉华帖子64万条,从2010年开始,涉华帖子的数量快速增加,2015年后呈现加速趋势。与此同时,这些涉华帖子所产生的舆论冲击力也在稳步增长帖子的被评论数量以及被转载次数大幅度增加,其中涉华新闻帖子年度总量增加了10倍。而涉华评论年度总量则增加30多倍。2_,兰釜i纛 。,兰 2一一图2-Reddit平台上涉华新闻帖子的年度增长情况1 40 7084图4 2007年以来reddit论坛涉华帖子的影响力变动涉华帖子影响力的快速增长启示我们,伴随着中国经济影响力和综合国力的增强,以及中国的快速崛起,国际社会对中国的
16、关注度13渐加大,社会化新闻媒体关于中国及其国民的讨论日益增多。涉华信息的世界影响力急剧升温,如果不加以合适引导。任凭这些负面信息泛滥,对改善中国的国际形象是极为不利的。从涉华帖子影响力的变动趋势来看,帖子被评论次数与被转载次数都呈现急剧上升,其中帖子被转载次数在2007-2015年间出现有趣变动,呈现出典型的logistic增长曲线,2007-2010年间处于稳中有升的状况,而2010-2013年间则加速上升。进入2014年之后保持基本稳定。涉华帖子这样一种攀升,当然一方面和网站本身的影响力的扩大有关系,另一方面也反映了涉华舆情在国际上的传播力度越来越大。这个可以通过比较平台影响力的增长速度
17、和涉华舆情影响力的增长速度来进行比较。23隅黪溺豳豳翻闷酬冒万方数据影响力的这样一种变动趋势。与中国成为世界第二大经济体有关,也与国际社会对中国崛起的关注度加大有关。2涉华新闻帖子的来源。从涉华新闻帖子的来源来看(表1),2007-2015年的帖子来源于62000多种各种类型的媒体,占西方主流媒体中转载的涉华新闻绝大多数,来自于Reddit平台本身的新闻只是占涉华新闻的很少一部分。这显示出传统媒体和自媒体的融合趋势十分明显而且西方新兴主流媒体在自媒体上起主导性作用。并成为自媒体平台上的舆论领袖。表1还显示:图片分享网站、视频分享网站immgur和youtube两家新媒体的传播力最强,而且相对于
18、视频分享网站,图片分享网站iimgurcon具有更强的网络影响力。这说明,在自媒体平台上图片信息的传播力视频信息文字信息。作为一种全新的传媒形态,免费的图片分享网站的信息,既具有极强的网络传播力,也具有极强的传播影响力,其网络传播力和传播效果要远远超过以文字信息为载体的传统媒体j图片信息的这样一种极强的传播力和影响力,和网民的阅读习惯和信息接收习惯是相适应的,直观、易懂的图片信息是吸引网民注意力的关键,正是因为迎合了网民的这样一种阅读习惯、信息接收习惯和分享习惯。网民更愿意传播和支持各种一目了然的图片信息,使图片信息在自媒体上得到大量传播。表1 被转载信息总量top40:来源于不同媒体的帖子的
19、传播力和影响力比较被评论的 平均被 被评论的 平均被信息来源 帖子总数 信息来源 帖子总数平均次数 顶次数 平均次数 顶次数iimgurCOB 33008 128 913 guardianCOuk 2909 102 295youtubecorn 31237 63 166 selfexplainlikeimfive 2860 177 345imgurcom 29030 125 691 dailymailCOuk 2781 73 213redditcom 13328 15 57 the-diplomateom 2623 65 128reuterscom 10977 58 172 businessi
20、nsidercom 2567 157 432nytimescom 10429 62 188 CnnCOm 2536 86 229seIfAskReddit 9172 152 63 thediplomatcorn 2517 57 162seIfChina 7657 230 62 bbccorn 2504 120 478scmpcom 7552 39 114 onlinewsjCOB 2368 47 102bbcCOuk 7042 85 229 selfChineseLanguage 2293 98 52theguardiancorn 5274 93 362 selftranslator 2202
21、 31 17newsxinhuanetcom 4921 30 87 huffingtonpostcom 2052 62 286enwikipediaorg 4572 20O 1106 sputniknewseom 1990 09 29bloombergCOB 4555 57 189 seIfredditcom 1928 47 53youtube 4077 66 207 economistcom 192l 81 196washingtonpostcom 3864 81 285 ibtimescom 1905 47 120newsyahooeom 3669 68 196 seIfsharedota
22、2 1814 97 19self1eagueoflegends 3413 247 363 rtcom 1780 67 197flickrcom 3305 19 205 selfShowerthoughts 1775 36 316telegraphCOuk 3246 115 349 chinadailyconcn 1185 120 32OselfAskHistorians 2924 6-4 303 总计 636509 76 242从表1可以看到中国国内的主流媒体被转载的帖子总量不大,但是帖子的传播力和影响力与西方主流媒体差距巨大。来自于中国媒体的信息总量与西方主流媒体差距较大,比如南华早报、新华
23、网、中国日报在过去10年被转载的涉华信息帖子的数量分别有7552、4921、1185条,这与路透社、纽约时报、BBC、英国卫报的差距明显。差距更大的是来源于中国媒体帖子的传播效果:Reddit平台上,新闻24帖子的平均被评论次数、平均被顶次数分别是76和242,国际一流媒体iimgurcom的这两个数字分别是128和913,而来自于新华网的帖子这两个数字分别只有30和87,中国13报网的帖子的传播力相对较强,帖子的平均被评论次数和被顶次数分别为12和32。两家国内媒体的涉华信息被转载到自媒体平台之后,其传播力为何会有这么大的差异?其背后的原因值得深思。在加快中国国际传播万方数据力建设、增强国际
24、话语权和话语引导能力的当下“他山之石,可以攻玉”,借鉴西方具有竞争优势的主流媒体和新兴媒体的成功经验非常重要。3涉华信息的分布领域。伴随着中国崛起和世界影响力的快速增强,自媒体世界涉华舆情呈现爆炸式增长,这些涉华信息主要分布在哪些领域呢?这一问题可以透视出目前国际社会对涉华信息的关注动态。下面我们来看涉华舆情的主要板块分布。表2数据分析显示:Reddit自媒体平台上,642780个涉华帖子大约分布在18423万个板块上,相对来说非常分散,前100个板块所包含的帖子占涉华帖子总量的653,前200个板块所包含的帖子占涉华帖子总量的753。大致有25的帖子分布在另外18万个板块上从中可以看出涉华帖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海外 媒体 中涉华 舆情 传播 机制 数据 分析 基于 reddit 平台 海量 信息
限制150内