我国大数据研究现状与热点分析_代芯瑜.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《我国大数据研究现状与热点分析_代芯瑜.pdf》由会员分享,可在线阅读,更多相关《我国大数据研究现状与热点分析_代芯瑜.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39我国大数据研究现状与热点分析代芯瑜,张文曦摘要:本文对我国 2003 年 2012 年期间发表的有关大数据研究论文进行统计,利用文献计量法对文献及期刊分布、论文作者及作者合著度、高频关键词等基本情况进行了初步,得到近十年大数据研究的基本情况;再运用可视化分析方法,对高频关键词共词矩阵进行因子分析及多维尺度分析,从宏观上把握了近年来我国的大数据研究现状及研究重点,并得到相关研究结论。关键词:大数据;共词分析;因子分析随着信息技术以及互联网的不断发展,信息爆炸时代来临,作为基础的“数据”受到越来越多的重视,数据在对社会经济发
2、展中所展现的预测能力、决策支持能力以及对各领域研究实践的深刻影响日益显现,麦肯锡公司最早提出“大数据”时代即将来临,其在报告中还指出,数据已经渗透到当今每一个行业及其业务职能领域,成为重要的生产因素,人们对于数据的挖掘和运用,预示着新一波生产率的增长和消费者盈余浪潮的到来。“大数据”是一个较新兴起的概念,国内外学者目前都尚未给出一个统一的定义,维基百科将其定义为:“没有办法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。”笔者认为大数据并不仅仅是大规模数据的集合,正如 IBM 公司所言,大数据应具有Volume(大量)、Velocity(高速)、Variety(多样)及 V
3、eracity(真实)4 个特点,研究大数据要善于从已有数据中洞悉可能发生的事物以及事物间存在的隐蔽联系,发现有利信息并为我所用,其核心是预测。一、研究方法与数据统计(一)研究方法与思路就大数据研究这一领域而言,鲜有较为深入而完整的研究综述,仅有为数不多的几篇对于该领域研究文献的定量分析,且多采用文献计量和统计学相关方法对这一研究领域进行述评,这种研究方法虽然便于读者能够快速了解该领域研究的基本情况,但却不能较好的揭示大数据研究这一领域的研究热点,也不能清晰展现出这一领域研究内容的发展脉络。本文以近十年来我国大数据研究的相关文献为主要研究对象,提取其中的关键词构建共词关系,综合采用文献计量法、
4、共词网络分析、因子分析等方法,利用 EXCEL 和SPSS 软件进行分析,研究目前我国大数据研究领域的主要研究内容并对当前研究热点进行总结。(二)数据来源本文所选取的数据全部来源于 CNKI 中的中国期刊全文数据库、中国博士学位论文全文数据库和中国优秀硕士学位论文全文数据库等共 3 个数据库中,选择时间区间为 2003 年 2012 年共10 年,分别以篇名“大数据”、“大数据技术”、“Big Data”以及关键词“大数据”、“Big Data”等进行搜索,精确检索后共得到论文数为 582篇,人工删除不相关论文、重复论文以及缺少作者论文等后最终共保留 237 篇有效论文为此次研究的主要对象。由
5、于有的论文缺少关键词或是由数据库提供方根据内容分析法提取的,因此本文对这些论文关键词进行了添加或保留,最终在所进行研究的论文中得到 355 个有效关键词。(三)数据处理论文中的关键词主要由论文作者根据自己所形成的论文进行添加,由于论文作者在添加关键词时有较强的主观性,使得部分关键词虽然采取不同的词汇但却表达相同的意思,在统计时容易造成关键词的混乱,增加统计误差,因此本文在统计时对部分关键词进行了处理,以满足研究需要。具体处理如下:第一,去除泛指关键词,如“发展展望”、“时代”、“解决方案”、“应对策略”、“研究方向”、“发展策略”、“战略”等,这些关键词对941作者简介:代芯瑜,云南大学公共管
6、理学院硕士研究生;张文曦,云南大学公共管理学院硕士研究生(云南 昆明,650091)。于研究文章的内容和领域的指向性较低,没有太大的研究价值,因此将其删除。第二,去除如“大数据”这一为总领域研究的词,因为它代表是整个研究领域,将其加入关键词不但不能准确反映研究状况甚至会对整个统计研究造成干扰。第三,合并表达同一意思的关键词,如将“big data”与“大数据”合并,将“使用数据”与“数据应用”合并,将“数据安全”和“安全策略”合并为“信息安全”等。第四,将一些同一行业领域的词汇统一为其总称,如将“甲骨文”、“麦肯锡”、“IBM”、“中小型企业”等公司或企业统一为“企业”,将各银行、“金融业”、
7、“金融机构”、“金融企业”等统一为“金融行业”等。第五,去除一些没有研究意义的词汇,如“生活”、“家户”、“消费者”、“兰江”、“工业社会”等,这些词汇涉及各个研究领域,指代性不强,所以将其删除。需要说明的是,以上数据的处理只是针对于全体关键词中的高频词汇进行的,这样可以尽力减少在对高频词做研究分析时的可能产生的误差,而对关键词中存在的一些低频词并未做过多的处理,因为这些低频词的存在并不会对研究结果带来影响。并且,在对期刊数据进行处理时,笔者发现有许多刊物刊载的文章虽提及“大数据”这一关键词,但内容却只是浅尝辄止,不属于学术研究的范畴,因此将此类刊物进行去除。二、研究结果及现状分析(一)研究论
8、文的发文时间分析就所选取年份的发文量统计情况来看,2003年 2011 年的发文量都不高,每年的发文量虽有缓慢上升,但总发文量都均在 20 篇以下,至2012 年出现一个突然的增长,发文量达 133 篇,占近十年发文总量的 56.12%。这一发展现象可能以 2011 以来各欧洲发达国家以及各研究领域开始重视大数据研究且大数据的潜在价值不断被挖掘有关。(二)研究论文的作者分析第一,论文核心作者分析。就所统计的论文中,所有署名发文的作者共 446 人,统计可以看出,其中由一位作者独立完成并最终发文的仅占所有署名作者总发文量的 26%。讨论论文作者发文量可以确定目前我国大数据研究领域的核心作者,在一
9、定程度上可以预测和揭示研究人员的研究能力,通过关注其研究方向和重点,了解整个学科的发展以及核心作者所起到的引领作用。根据普赖斯定律,核心作者应完成所有专业论文总和的一半,核心作者的论文下限为 N=0.749 max,其中 max 为最高产作者的发文数量。据统计结果,王珊共发文 6篇,是发文最多的作者,因此 max 等于 6,根据公式得出 N 值为 2,即该领域要作为核心作者存在则发文下限应为 2 篇。而所有作者中发文量在 2 篇及以上的作者共 22 人,占作者总数的4.93%,发 文 量 为 62篇,占 总 论 文 数 的26.16%,远低于 50%,说明我国在大数据研究这一领域的核心作者群还
10、没有形成,而且其中绝大部分都是一次性的研究,没有对大数据进行更长期的跟踪调查及深入探讨。第二,论文作者合著度分析。作者合著度是指某一确定时间内针对某一特定主题作者合著的情况,它是评价科学研究合作程度的重要指标,能够准确反映学科间的交叉、渗透程度,此指标值越高,表明合作智能发挥得越充分,科学研究的合作化趋势也就越明显。笔者借助作者合著网络图对合著作者进行研究,利用合著网络分析研究作者的合著关系能够更清晰的展现出合著作者间的合作关系。图 1 是所有合著作者构成的合著关系网络,箭头所互指的形成一个合著团体。在 237 篇论文中,共有合著文献 121 篇,占论文总量的 53.59%,这是一个很大的合著
11、率,说明大数据研究领域有着较高的合著水平,研究者在对大数据进行研究时注重与他人的合作,但同时从该网络中亦可看出,合著作者形成了许多独立的簇团,各簇团间的网络连通性不强,合著团体多独立存在,总体而言,我国大数据研究领域的研究学者较为分散,小的且孤立的团体众多,不构成复杂网络,合作研究度较低,不利于综合性研究。三、基于关键词共词分析的研究状况分析(一)关键词共词网络初步统计分析关键词是论文作者用于表达文献内容的词,它应该对论文具有高度的概括性,揭示论文的主要内容、研究主题及方法,并在进行文献索引时发挥引导作用。对文献的关键词进行统计,特别是对高频关键词的研究,可以发现近年来某一领域论文的研究情况及
12、研究热点,从宏观层面上把051思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39申彦舒:我国手机图书馆研究文献计量分析 ,图书馆2012 年第 2 期。图 1合著关系网络图握学科发展,迅速了解学科研究重心,发现研究短板,以进一步深入某一领域的研究。笔者在研究我国大数据研究现状时,对所统计的全部论文进行了关键词统计,共统计有 355个关键词,依据 Donohue 于 1973 年提出的高频词低频词界分公式:T=(1+1+8*I1)/2 来进行高低频关键词的区分,其中统计I1 为 355,因此最后计算得出 T 值约等于 26.1,即核心关键词只有大数据和数据挖掘两个,虽然这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 我国 数据 研究 现状 热点 分析 代芯瑜
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内