国内外大数据可视化学术论文比较研究——基于文献计量与sna方法-陈军.pdf
《国内外大数据可视化学术论文比较研究——基于文献计量与sna方法-陈军.pdf》由会员分享,可在线阅读,更多相关《国内外大数据可视化学术论文比较研究——基于文献计量与sna方法-陈军.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2017年第8期 科技管理研究Science and Technology Management Research 2017 No8doi:103969jissn1000-7695201708007国内外大数据可视化学术论文比较研究基于文献计量与SNA方法陈 军1”,谢卫红12,陈扬森1,李忠顺12(广东工业大学1管理学院;2大数据战略研究院,广东广州510520)摘要:基于web of science和中国知网的大数据可视化期刊文献数据,运用文献计量、共词分析和社会网络方法,从学科分布、期刊分布、高频关键词共现、关键词主题演进等方面对大数据可视化领域的总体情况进行量化比较研究。结果表明,国际
2、大数据可视化理论和技术研究较国内成熟,趋向于生物生命信息可视化、个人健康医疗可视化以及智能可视化的研究。国内理论和技术研究滞后而应用围绕着教育大数据可视化等方面的研究,高水平研究成果相对较少。关键词:大数据可视化;文献计量;SNA;研究趋势;研究热点中图分类号:F0641;G256 文献标志码:A 文章编号:10007695(2017)08004410Comparative Study of Chinese and Foreign Academic Papersof Big Data Visualization Based on Bibliometrics and SNA MethodsCHE
3、N Junl,XIE Weihon91”,CHEN Yangsenl,LI Zhongshunl,2(1School of Management,Guangdong University of Technology;2Big Data Strategy Research Institute of Guangdong University of Technology,Guangzhou 510520,China)Abstract:In this paper,we take the articles of big data visualization which are from Web of S
4、cience and CNKI as datasources,and use the method of literature metrology,Coword analysis,SNA to do quantitative comparative analysis fromcharacteristics of time series,periodical distribution,literature distribution,COword of hJigh frequency keywords,the evolution of keywords and others aspects of
5、the field at home and abroadThe results show that the foreign research on the theoryand technology of big data visualization is mature than those in China which have the trends of research of biological informa-tion visualization,personal health medical visualization,and intelligent visualizationThe
6、 research in China focuses on bigdata visualization of education and highlevel result is less than that of foreign researchThis paper gets the significance forpromoting the theoretical research of the big data visualization in ChinaKey words:big data visualization;bibliometrics;SNA;research trend;re
7、search focus当前,我们的世界已经进入大数据时代o。大数据分析的理论和方法研究其中一个维度是从人的角度出发,强调基于人机交互的、符合人的认知规律的分析方法,这一研究分支以大数据可视化分析嵋。为代表。在历经数据可视时代L3j、科学可视化时代Hj、信息可视化时代o后,数据的分析和展示逐渐向大数据可视化M1方向迈进。大数据可视化就是在大数据进行信息挖掘的同时,利用先进的可视化手段和人机交互技术,融合计算机的计算能力和人的认知能力,通过人类可以感知的任何形式进行交互,以使人类获得对于大规模复杂数据集的洞察力-。为了更加直观地展示大数据时代的数据特点,需要进一步研究大数据的可视化,更好地获取、
8、分析、收稿日期:20161l一19,修回日期:20170227基金项目:国家自然科学基金项目“大数据背景下的网络隐私顾虑影响因素及行为效应研究:基于多维发展理论”(71672043);广东省哲学社会科学规划项目“企业大数据能力构建及影响因素研究”(GDl5XGLl4);广东省科技厅项目“基于大数据的广东省大学生就业信息服务平台设计与实现研究”(15ZS0117);广东省科技计划项目“基于大数据的广东省级企业创新平台创新能力评价与监测研究”(2015AD70703018)万方数据陈军等:国内外大数据可视化学术论文比较研究基于文献计量与SNA方法 45展示大数据。然而,现阶段少有研究运用文献计量、
9、共词分析和社会网络方法对大数据可视化领域的国内外期刊文献进行比较。因此,为了解大数据可视化领域国内外研究现状、研究热点以及研究趋势,以促进我国在大数据可视化领域向纵深化和国际先进应用化方向发展,本文基于Web of Science和中国知网的期刊文献的数据,运用文献计量和社会网络方法进行分析与挖掘,以期研究以下几个问题:国内外大数据可视化领域学术论文时间序列分布、学科分布、期刊分布国别分布特点;2012年至今大数据可视化领域国内外研究热点;2012年至今大数据可视化领域学术期刊研究主题变化情况;国内外大数据可视化研究趋势。1 数据来源与研究方法11数据来源本文基于中国知网(以下简称CNKI)和
10、Web ofScience(以下简称WOS)两大权威文献数据库对大数据可视化相关文献进行深度分析与挖掘。111国内数据来源国内选取CNKI数据库,全面反映大数据可视化在国内的研究状况。CNKI检索策略:(主题=大数据+可视化),学术界一般将2012年定位大数据元年,故检索时间跨度设为2012-2016年,检索时间为2016年10月15日。检索结果为学术期刊860篇。112国外数据来源国外选取WOS的核心子库,以“big data”和“visualization”作为主题检索词,时间范围选取2012-2016年,检索时间截止到2016年10月15日,检索结果710篇文献作为国际学术论文的研究样本
11、。12研究方法本文主要运用文献计量方法和社会网络分析方法(Social Network Analysis,SNA),以CNKI和WOS两大数据库的期刊文献为数据源。运用多种文献计量和SNA的工具,对现有国内外研究大数据可视化的文献进行深度挖掘。121文献计量分析法文献计量分析法利用研究性论文发表的规律,以数理统计等定量研究方法为基础,以可视化分析法直观地说明不同研究范畴间的内在联系,特别是对关键词、核心作者群以及各类共现的可视化,从而科学有效地预测科学研究的发展动向与趋势。本文利用文献计量分析法主要探究大数据可视化国内外时间序列文献分布特点、国内外对大数据可视化文献研究的学科分布特点、国内外对
12、大数据可视化文献研究的期刊分布特点及国外对大数据可视化文献研究的国家分布特点。122社会网络分析方法(SNA)社会网路分析用于描述和测量行动者之间的关系或通过这些关系流动的各种有形或无形的东西,如信息资源等哺1。笔者借用社会网络分析的思想,将大数据可视化为主题的期刊文献视为一个整体网络,通过共词分析,将关键词共现网络直接展现出来。同时利用社会网络中中心性和结构洞等相关概念对关键词进行分析与深度挖掘,以主题词构建大数据可视化领域研究热点和发展趋势。2论文数据统计分析21 时间序列文献分布特点时间序列文献分布有助于了解主题在一段时间内的时间分布特点,以把握区间内的研究主题变化情况。笔者选取了基于C
13、NKI和WOS两大数据库统计2012-2016年的期刊文献,得到数据可视化文献的年代分布图(见图1)。从年代分布上看,2012-2016年发文量基本呈现逐步增长态势,而近3年(包括2016年)发文量呈现爆发式增长。大数据的研究始于美国,在大数据兴起的2012年,国外(特别是美国)对于大数据可视化的研究逐渐火热,而国内处于起步状态,发文量还偏少。而2014年后,国内大数据可视化研究的发文量已经赶超国外,特别的数据截至2016年10月16日,国内对于大数据可视化研究的发文量已经是国外的两倍多,可见,大数据可视化研究在近几年成为国内的研究热点。42二20l 2图1大数据司视化文献的年代分布22学科分
14、布从大数据可视化期刊论文的学科分布图(见图2)可见,国内对于大数据可视化的研究主要集中在计算机软件及计算机应用和新闻与传媒两个学科,分别占比达到26和25,这主要是因为大数据可视化的理论基础建立在计算机软件和计算机应用上。任磊万方数据46 陈军等:国内外大数据可视化学术论文比较研究基于文献计量与SNA方法等。9 o就在软件学报中描述大数据分析与可视化的研究需要从机器或者计算机的角度出发,强调机器的计算能力和人工智能。对于大数据可视化在新闻与传媒中的应用,我们从2012年国际上首设数据新闻奖(Data Journalism Awards,DJA)1to以表彰数据新闻领域优秀工作人员中便可管中窥豹
15、,大数据新闻的实践尺度已经全面展开。国外对于大数据可视化的研究主要集中在compute science(计算机科学)和engineer-工业经济企韭经济自然地理学绘学4信息经济与经济5教育理论管理拿,6ing(工程学),分别占比达到47和24。大数据可视化研究的理论基础建立在计算机学科上,这与国内的分布是一致的。工程学上对于大数据可视化的研究也较多,表明大数据可视化在国外带有更多的技术属性。同时,信息学、地理学、图书情报等多个领域也备受关注。显然,大数据可视化的研究具有多学科融合的特征。ewlRoNMEHr札5rJENC5 01He皓种6Bl阻H礓yMocu蚺目 ECOLO锄擤 1 fe10L
16、()6v3REMOTE,E9-c:搏、M6lscIfN汪pHOTO舻“屹rI CNA06,Y:j图2大数据可视化文献的学科分布23期刊分布国内外大数据可视化研究TOPl0期刊如表1所示。国内CNKI对于大数据可视化研究的载文量比较高的如新闻研究导刊青年记者中国传媒科技新闻世界,这些期刊研究的方向都以大数据可视化在新闻与传媒中的应用为主,可见国内对于大数据可视化研究还是偏向于新闻与传媒的可视化运用。其次现代图书情报技术现代情报载文量也相对较高,大数据可视化在图书情报领域的研究也如火如荼。而在国外,排名前两位的期刊LECTURENOTES IN COMPUTER SCIENCE、PROCEDIA
17、COM-PUTER SCIENCE都是计算机类的期刊,说明国外对于大数据可视化研究更加侧重于对大数据可视化理论基础的研究为主,同时,档案学、生物学在大数据可视化研究方面也走在了前面。表1 大数据可视化文献的期刊分布表万方数据陈军等:国内外大数据可视化学术论文比较研究基于文献计量与SNA方法 4724国家统计分析论文国家地区分布统计分析可以在一定程度反映各国学者对该领域的关注程度、科学前沿以及最新动向【11I。笔者通过对期刊论文第一作者所属国影地区进行统计分析发现从期刊发文数量上看,美国在大数据可视化领域的研究占比达到30之多,发文量为218篇,远远领先于其他国家和地区。中国次之,发文量为116
18、篇,占比达到16。显然,中国和美国对于大数据可视化研究还有不少差距,但是依然远远领先于其他国家。其次是德国、英国、澳大利亚,期刊发文量占比都达到了6以上。从地域上来看,世界各大洲对于大数据可视化的研究都十分关注。尤以亚洲、北美洲、欧洲为代表,亚洲国家如中国、韩国、E1本、印度对于大数据可视化的研究领先于其他亚洲国家。北美洲的美国,加拿大发文量较大。欧洲如德国、英国、意大利、西班牙、法国、俄罗斯、希腊等对于大数据可视化的研究更加火热。同时,南美洲的阿根廷、非洲的南非、澳洲的澳大利亚也对大数据可视化有较深入的研究。图3 大数据可视化文献的国别分布(20122016年)3研究热点及趋势31 高频关键
19、词词汇分布关键词是作者对学术论文的的精炼,在一个领域内高频出现的关键词的常常被视为研究的热点2i。高频关键词在一定程度上反映了某一领域研究的基本趋势。统计860篇CNKI中的期刊文献和710篇WOS中的期刊文献,得到两大数据库高频关键词如表2所示,CNKI中频次较高的关键词如大数据、可视化,出现频次分别达到325次和136次,两者的中心性都为024。其次,两者结合的产物数据可视化出现频次也较高,达到92次。另外,数据新闻、数据挖掘、云计算、可视化分析等也占比较大。而在WOS中,出现频次较高的为big data(大数据)、visualization(可视化),频次分别达到243次和160次,中心
20、性分别为017和014;其次visual analytics(可视化分析)、system(系统)、model(模型)、data visualization(数据可视化)占比也较大。比较而言,两大数据库都出现的高频词汇为大数据、可视化、数据挖掘、数据可视化、云计算、信息可视化等,显然,两大数据库在期刊文献上对于大数据可视化的研究方向与前沿上是具有相似性的。基于统计的两大数据库高频词汇特别是相同的高频词汇,本文利用SNA中个体在整体网络中的中心性的概念,借助中心性中的度数中心度、中介中心度以及结构洞等指标构建两大数据库的高频关键词中心性表。根据社会网络分析方法(SNA)纠中度数中心度的定义,在一个
21、社会网络中,如果一个行为者与其他行为者之间存在越多的直接联系,那么该行为者的度数中心度越高,将处在中心位置。弗里曼。141强调,当一个行动者处于多对行动者之间,那么他的度数一般较低,而这个相对较低的点可能起到重要的中介作用,因而处于网络的中心,值越大越处于中心位置,因此可将关键词的中介中心度作为衡量关键词重要程度的指标。而结构洞纠是描述社会网络关系中的非冗余关系,若一个关键词在网络中处于结构洞的位置,说明与该关键词相万方数据48 陈军等:国内外大数据可视化学术论文比较研究基于文献计量与SNA方法联系的其他关键词之间没有任何联系,即非冗余关系。伯特u刮给出了结构洞指数,主要考虑4个指标:有效规模
22、、效率、限制度、等级度。伯特指出,限制度指标最能有效反映结构洞的大小。本文中提到的结构洞,参考了限制度这个指标的数值。于是,本文构建以度数中心度、中介中心度、结构洞3个指标为核心的关键词中心性表(见表3),以表示高频关键词的重要性程度。表2大数据可视化文献高频关键词表大数据可视化数据新闻数据可视化数据挖掘云计算信息可视化354 3 047833 0512 big data183 524833 0464 visualization71 2500 0656 data mining60 2667 0543 visual analytics45 3000 o732 cloud computing26
23、o500 0567 data visualization17 0000 0705幽猫_岫lj罐h如表3所示,在大数据可视化研究的期刊文献中,无论是CNKI数据库还是WOS数据库,大数据和可视化这两个关键词的度数中心度和中介中心度的值都较高,表明大数据和可视化两个关键词在整体网络中处于中心的位置。大数据和可视化两个关键词的结构洞值是最小的,这也说明在大数据可视化研究的期刊文献中,都是紧紧围绕着“大数据”和“可视化”展开,而相关的其他关键词之间的联系度并不是太强。在CNKI中,数据新闻、数据可视化、数据挖掘、云计算、信息可视化中心性较高,中心性逐渐下降,结构洞值逐渐增高,也说明这些关键词是大数据可
24、视化研究领域的核心关键词。在WOS中,也是数据挖掘、可视化分析、云计算、数据可视化、信息可视化为大数据可视化的主要核心关键词。从中心性数据结果上来看,国内外大数据可视化研究领域的核心关键词基本上保持一致,这几个关键词也是国内外大数据可视化研究领域的重要研究方向与研究热点。32关键词共现分析共词分析方法刊利用文献集中词汇对或名词短语共同出现情况,来确定该文献集所代表学科中各主题之间的关系。通过统计一组词在不同文献中共同出现次数,然后对词的共现做可视化展示,进而能够挖掘隐含信息,反映主题结构变化。一般认为词汇对在同一篇文献中出现次数越多,则代表这两个主题的关系越紧密。为了进一步从可视化、节点、度的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国内外 数据 可视化 学术论文 比较 研究 基于 文献 计量 sna 方法 陈军
限制150内