欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    我国大数据研究现状与热点分析_代芯瑜.pdf

    • 资源ID:69697551       资源大小:711.58KB        全文页数:6页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    我国大数据研究现状与热点分析_代芯瑜.pdf

    思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39我国大数据研究现状与热点分析代芯瑜,张文曦摘要:本文对我国 2003 年 2012 年期间发表的有关大数据研究论文进行统计,利用文献计量法对文献及期刊分布、论文作者及作者合著度、高频关键词等基本情况进行了初步,得到近十年大数据研究的基本情况;再运用可视化分析方法,对高频关键词共词矩阵进行因子分析及多维尺度分析,从宏观上把握了近年来我国的大数据研究现状及研究重点,并得到相关研究结论。关键词:大数据;共词分析;因子分析随着信息技术以及互联网的不断发展,信息爆炸时代来临,作为基础的“数据”受到越来越多的重视,数据在对社会经济发展中所展现的预测能力、决策支持能力以及对各领域研究实践的深刻影响日益显现,麦肯锡公司最早提出“大数据”时代即将来临,其在报告中还指出,数据已经渗透到当今每一个行业及其业务职能领域,成为重要的生产因素,人们对于数据的挖掘和运用,预示着新一波生产率的增长和消费者盈余浪潮的到来。“大数据”是一个较新兴起的概念,国内外学者目前都尚未给出一个统一的定义,维基百科将其定义为:“没有办法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。”笔者认为大数据并不仅仅是大规模数据的集合,正如 IBM 公司所言,大数据应具有Volume(大量)、Velocity(高速)、Variety(多样)及 Veracity(真实)4 个特点,研究大数据要善于从已有数据中洞悉可能发生的事物以及事物间存在的隐蔽联系,发现有利信息并为我所用,其核心是预测。一、研究方法与数据统计(一)研究方法与思路就大数据研究这一领域而言,鲜有较为深入而完整的研究综述,仅有为数不多的几篇对于该领域研究文献的定量分析,且多采用文献计量和统计学相关方法对这一研究领域进行述评,这种研究方法虽然便于读者能够快速了解该领域研究的基本情况,但却不能较好的揭示大数据研究这一领域的研究热点,也不能清晰展现出这一领域研究内容的发展脉络。本文以近十年来我国大数据研究的相关文献为主要研究对象,提取其中的关键词构建共词关系,综合采用文献计量法、共词网络分析、因子分析等方法,利用 EXCEL 和SPSS 软件进行分析,研究目前我国大数据研究领域的主要研究内容并对当前研究热点进行总结。(二)数据来源本文所选取的数据全部来源于 CNKI 中的中国期刊全文数据库、中国博士学位论文全文数据库和中国优秀硕士学位论文全文数据库等共 3 个数据库中,选择时间区间为 2003 年 2012 年共10 年,分别以篇名“大数据”、“大数据技术”、“Big Data”以及关键词“大数据”、“Big Data”等进行搜索,精确检索后共得到论文数为 582篇,人工删除不相关论文、重复论文以及缺少作者论文等后最终共保留 237 篇有效论文为此次研究的主要对象。由于有的论文缺少关键词或是由数据库提供方根据内容分析法提取的,因此本文对这些论文关键词进行了添加或保留,最终在所进行研究的论文中得到 355 个有效关键词。(三)数据处理论文中的关键词主要由论文作者根据自己所形成的论文进行添加,由于论文作者在添加关键词时有较强的主观性,使得部分关键词虽然采取不同的词汇但却表达相同的意思,在统计时容易造成关键词的混乱,增加统计误差,因此本文在统计时对部分关键词进行了处理,以满足研究需要。具体处理如下:第一,去除泛指关键词,如“发展展望”、“时代”、“解决方案”、“应对策略”、“研究方向”、“发展策略”、“战略”等,这些关键词对941作者简介:代芯瑜,云南大学公共管理学院硕士研究生;张文曦,云南大学公共管理学院硕士研究生(云南 昆明,650091)。于研究文章的内容和领域的指向性较低,没有太大的研究价值,因此将其删除。第二,去除如“大数据”这一为总领域研究的词,因为它代表是整个研究领域,将其加入关键词不但不能准确反映研究状况甚至会对整个统计研究造成干扰。第三,合并表达同一意思的关键词,如将“big data”与“大数据”合并,将“使用数据”与“数据应用”合并,将“数据安全”和“安全策略”合并为“信息安全”等。第四,将一些同一行业领域的词汇统一为其总称,如将“甲骨文”、“麦肯锡”、“IBM”、“中小型企业”等公司或企业统一为“企业”,将各银行、“金融业”、“金融机构”、“金融企业”等统一为“金融行业”等。第五,去除一些没有研究意义的词汇,如“生活”、“家户”、“消费者”、“兰江”、“工业社会”等,这些词汇涉及各个研究领域,指代性不强,所以将其删除。需要说明的是,以上数据的处理只是针对于全体关键词中的高频词汇进行的,这样可以尽力减少在对高频词做研究分析时的可能产生的误差,而对关键词中存在的一些低频词并未做过多的处理,因为这些低频词的存在并不会对研究结果带来影响。并且,在对期刊数据进行处理时,笔者发现有许多刊物刊载的文章虽提及“大数据”这一关键词,但内容却只是浅尝辄止,不属于学术研究的范畴,因此将此类刊物进行去除。二、研究结果及现状分析(一)研究论文的发文时间分析就所选取年份的发文量统计情况来看,2003年 2011 年的发文量都不高,每年的发文量虽有缓慢上升,但总发文量都均在 20 篇以下,至2012 年出现一个突然的增长,发文量达 133 篇,占近十年发文总量的 56.12%。这一发展现象可能以 2011 以来各欧洲发达国家以及各研究领域开始重视大数据研究且大数据的潜在价值不断被挖掘有关。(二)研究论文的作者分析第一,论文核心作者分析。就所统计的论文中,所有署名发文的作者共 446 人,统计可以看出,其中由一位作者独立完成并最终发文的仅占所有署名作者总发文量的 26%。讨论论文作者发文量可以确定目前我国大数据研究领域的核心作者,在一定程度上可以预测和揭示研究人员的研究能力,通过关注其研究方向和重点,了解整个学科的发展以及核心作者所起到的引领作用。根据普赖斯定律,核心作者应完成所有专业论文总和的一半,核心作者的论文下限为 N=0.749 max,其中 max 为最高产作者的发文数量。据统计结果,王珊共发文 6篇,是发文最多的作者,因此 max 等于 6,根据公式得出 N 值为 2,即该领域要作为核心作者存在则发文下限应为 2 篇。而所有作者中发文量在 2 篇及以上的作者共 22 人,占作者总数的4.93%,发 文 量 为 62篇,占 总 论 文 数 的26.16%,远低于 50%,说明我国在大数据研究这一领域的核心作者群还没有形成,而且其中绝大部分都是一次性的研究,没有对大数据进行更长期的跟踪调查及深入探讨。第二,论文作者合著度分析。作者合著度是指某一确定时间内针对某一特定主题作者合著的情况,它是评价科学研究合作程度的重要指标,能够准确反映学科间的交叉、渗透程度,此指标值越高,表明合作智能发挥得越充分,科学研究的合作化趋势也就越明显。笔者借助作者合著网络图对合著作者进行研究,利用合著网络分析研究作者的合著关系能够更清晰的展现出合著作者间的合作关系。图 1 是所有合著作者构成的合著关系网络,箭头所互指的形成一个合著团体。在 237 篇论文中,共有合著文献 121 篇,占论文总量的 53.59%,这是一个很大的合著率,说明大数据研究领域有着较高的合著水平,研究者在对大数据进行研究时注重与他人的合作,但同时从该网络中亦可看出,合著作者形成了许多独立的簇团,各簇团间的网络连通性不强,合著团体多独立存在,总体而言,我国大数据研究领域的研究学者较为分散,小的且孤立的团体众多,不构成复杂网络,合作研究度较低,不利于综合性研究。三、基于关键词共词分析的研究状况分析(一)关键词共词网络初步统计分析关键词是论文作者用于表达文献内容的词,它应该对论文具有高度的概括性,揭示论文的主要内容、研究主题及方法,并在进行文献索引时发挥引导作用。对文献的关键词进行统计,特别是对高频关键词的研究,可以发现近年来某一领域论文的研究情况及研究热点,从宏观层面上把051思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39申彦舒:我国手机图书馆研究文献计量分析 ,图书馆2012 年第 2 期。图 1合著关系网络图握学科发展,迅速了解学科研究重心,发现研究短板,以进一步深入某一领域的研究。笔者在研究我国大数据研究现状时,对所统计的全部论文进行了关键词统计,共统计有 355个关键词,依据 Donohue 于 1973 年提出的高频词低频词界分公式:T=(1+1+8*I1)/2 来进行高低频关键词的区分,其中统计I1 为 355,因此最后计算得出 T 值约等于 26.1,即核心关键词只有大数据和数据挖掘两个,虽然这并不能很好地反映出研究的根本问题,但同时也说明所选期刊的载文量可能不足以概括这一研究领域。本文主要选取关键词数为 6 的词汇来进行高频关键词的分析,如表 2 所示。对所统计得出的高频关键词构建共词矩阵,进行共词网络分析可以发现这一学科知识结构和研究热点。图 2 为截取的部分通过 EXCEL 软件形成的高频关键词共词关系矩阵。图3 通过 NETDAW 软件,根据之前所形成的共词矩阵而得到高频关键词共词网络成分布局图,图中节点为关键词,节点大小取决于与该节点相连的关系数量即节点的度,相连接的关系越多则节点越大,在整个共词网络中也更重要,节点间的线条表示共词关系。由此可见共现次数最大是“数据挖掘”,它独立作为一层,占据及其重要的地位,这说明了人们对于挖掘数据中的有价值的信息一直在进行探索与研究。其后为“数据挖掘”以及“数据处理”、“数据分析”等进行提取有用数据为使用者服务的类团。“企业”也是其中一个共现此处较高的节点,它与数据库、数据处理、物联网、信息安全等多个节点都有共现关系,说明“企业”是大数据研究领域中的重要研究构成;主成分图中还出现有“GIS”、“遥感影像”等与地理研究关系十分紧密的节点,且这些节点与可视化、移动互联网和云计算等也有联结关系,这些现象说明大数据研究的涉及范围较广,研究领域并不仅仅局限于某一学科,大数据的潜在价值已被越来越多的领域所认识,并有更多相关领域的研究人员介入到其数据价值的挖掘研究中。另外,“政府建设”和“决策支持”等与政府高度相关的词汇在共词网络主成分图中虽然不处于中心,但是却与其他多个节点有着密切的联系,这也说明大数据的研究已经开始上升到政府层面,相信大数据研究将迎来一个全面繁荣的发展时期。151我国大数据研究现状与热点分析代芯瑜张文曦王宪磊:信息管理论,北京:社会科学文献出版社,2004 年,第 333 页。马费成,李小宇:我国信息政策法规研究现状、热点与进展,载李纲 情报学研究进展,武汉:武汉大学出版社,2012 年,第 1 30 页。表1高频关键词表序号关键词数量(个)序号关键词数量(个)1大数据7619数据应用82数据挖掘2620GIS83大数据量2521Hadoop84数据处理2522Mapeduce85数据分析2123遥感影像86数据存取2124数据开放87企业1725金融行业88数据库1726计算机语言79大数据集1727内存映射文件710计算机技术1728数据仓库711数据技术1529移动互联网712非结构化数据1530树型结构数据713云计算1231数据源614数据中心1132物联网615信息安全1133政府建设616互联网1034决策支持617可视化935聚类分析618聚类算法9(二)基于关键词共词分析的因子分析因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量,是基于共词分析的动态科学图谱表示。因子分析的基本思想是通过对相关变量做相关系数矩阵或协方差矩阵内部结构的研究,缩减变量数量,找出能够反映所有变量的少数几个变量去描述多个变量之间的相关性,然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。笔者首先对得到的 34 个高频关键词所形成的共词矩阵进行斯皮尔曼(Spearman)相关系数处理,再结合使用协方差矩阵等相关矩阵研究,最终通过旋转成分矩阵完成操作,共提取出 11个因子,其累计方差解释率为 77.91%,即将34 个高频关键词分为 11 类后,可以很好的解释全部信息的 77.91%,具有较高的概括率。如表 2 所示,可以看出绝大多数高频关键词都被规划到对应的因子中。构成每一个因子的关键词的载荷值是由绝对值大于 0.5 的词汇构成的,对因子进行命名时则主要根据载荷值大于0.7 就对因子解释有帮助的原则,综合考虑因子中其他主题词的属性,对获得的 11 个因子后再进行人工命名加以区分,但由于第 9 个因子中有负载核主题词,因此不便于对其命名。因子 1 主要涉及的是与网络密切相关的数据,重视信息安全及数据的有效利用;因子 2 与政府转型及发展高度相关,决策支持与数据开放都是现代政府健设中需要注重提高的方面;因子3 是对计算机技术的研究,提高对大数据集的运算效率;因子 4 涉及使用计算机技术及语言进行相关的数据描述;因子 5 都是属于研究大数据的数据技术;因子 6 是数据挖掘的重要构成,因子7 涉及到大数据的原始数据收集、维护及应用;因子8主要是数据挖掘技术中可视化技术的使251思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39俞立平等:基于因子分析的学术期刊评价指标分类研究 ,图书情报工作2009 年第8 期。王 君:我国图书馆硕博士学位论文研究热点可视化分析 ,图书情报工作2010 年第 19 期。陈金霞:国外数字信息资源研究热点分析 ,情报理论与实践2008 年第 4 期。表 2高频关键词 34*34 共词矩阵(部分)GISHadoopMap educe大数据集大数据量非结构化数据互联网计算机技术计算机语言金融行业聚类分析聚类算法GIS000001210000Hadoop001001010000Mapeduce01000102000大数据集000001020000大数据量000000001035非结构化数据111000014110互联网100002000000计算机技术112000300100计算机语言000140010000金融行业000011000000聚类分析000310000004聚类算法000501210040决策支持000002000000可视化100110001000内存映射文件100000010000企业101004240100树型结构数据000120000000数据仓库000003000300数据处理001202110200数据存取011015010000数据分析113005100200数据技术001001210200数据开放000020002000数据库013111062000数据挖掘000402100001数据应用000001200000数据源000003000100数据中心000001120000图 2高频关键词共词网络主成分图351我国大数据研究现状与热点分析代芯瑜张文曦表 3高频关键词 11 个因子高频关键词因子表1、网络安全与数据应用2、政府转型与发展3、计算机内存映射技术4、计算机语言及数据描述互联网0.711决策支持0.789Mapeduce0.684计算机语言0.802数据仓库0.552数据开放0.757计算机技术0.877树形结构数据0.829数据存取0.628政府建设0.708内存映射文件0.773遥感影像0.742数据分析0.853信息安全0.596移动互联网0.5265、数据技术6、数据挖掘7、数据维护与传输8、可视化技术应用非结构化数据0.824大数据集0.649数据应用0.647可视化0.848数据技术0.672聚类分析0.780云计算0.69企业0.526聚类算法0.681数据中心0.743数据处理0.5929、金融数据10、物联网系统架构11、地理信息系统金融行业0.584物联网0.853GIS0.796数据存取0.590Hadoop0.723大数据量0.706用,特别是企业对数据处理更为重视;因子 10是大数据中被高度重视物联网技术的研究;因子11 是在地理研究中处于重要地位的大数据的处理研究。以上分析的 11 个因子基本可以从整体上反映出了目前我国大数据研究领域主要的研究热点,显示出目前我国大数据研究基础理论研究相对缺乏,多以计算机领域研究为主导进行应用性研究。四、结论2012 年是大数据研究浪潮开始的一年,由于受到发达国家对大数据研究热潮的影响,我国许多领域开始意识到大数据所具有巨大的隐性价值,许多研究者开始投入到这一研究中,推动了大数据研究的迅速发展。就统计研究结果而言,主要有以下几个方面的结论:第一,我国大数据研究目前正处于起步阶段,研究成果不突出,比较研究更是匮乏,并未将国外先进研究成果未转化为对我国有用的资源。所以在今后的大数据研究中,我们要注重全面了解国外研究进程,深入研究已有成果,结合我国国情,兼收并蓄,推动我国大数据研究的发展。第二,我国科研人员多注重于技术方面的探讨,而企业或金融行业等更多偏重于大数据潜在的经济价值和决策支持价值的挖掘,使得研究领域单一,研究面较窄。因此在深入研究大数据之时,不能仅停留在技术层面之上,还应结合其他行业,拓展研究领域,深度挖掘大数据潜在价值,丰富我国大数据研究的内容。第三,我国对大数据研究的支持不明显,对大数据的重视程度较低,这可能将在一定程度上减缓大数据研究进度,不利于大数据所蕴含的价值的实现。据此,我国政府应从政策和资金上加强对大数据研究的支持力度,并搭建一个由政府领导,各领域研究者共同参与的研究平台,鼓励研究者从各方面深入研究大数据,充分挖掘大数据的潜在价值,使大数据所隐藏巨大价值资源得到真正的利用,从而促进经济、科技、文化乃至综合国力的显著提升。(责任编辑南竹)451思想战线2013 年人文社会科学专辑 第 39 卷.2013 Vol.39

    注意事项

    本文(我国大数据研究现状与热点分析_代芯瑜.pdf)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开