大数据的概念、特征及其应用.pdf
《大数据的概念、特征及其应用.pdf》由会员分享,可在线阅读,更多相关《大数据的概念、特征及其应用.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、马建光等:大数据的概念、特征及其应用(2013-09-05 16:15:35)转载标签:杂谈分类:学习资料大数据的概念、特征及其应用马建光,姜巍(国防科技大学人文与社会科学学院,湖南长沙410074)源自:国防科技2013 年 4 月摘要随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要
2、解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。关键词大数据;非结构化信息;解决核心问题;未来挑战一、引言自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取
3、数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计 1,即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了 62%,达到 80 万 PB(1PB 等于 10 亿 GB),到 2011 年全球数据总量已经达到1.8ZB(1ZB 等于 1 万亿 GB,),并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长 20 倍以上,到 2020 年,地球上人均数据预计将达5247GB
4、。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的 75%。如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年 3 月 22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划(Big Data Research and Development
5、 Initiative)”2,欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。这是继1993 年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,战略地位堪比工业时代的石油,其影响除了体现在科技、经济方面,同时将也对政治、文化等方面产生深远的影响。在商业方面,2013 年,Gartner 发布了将在未来三年对企业产生重大影响的十大战略技术中,大数据名列其中,提出大数据技术将影响企业的长期计划、规划和行动方案,同时,IBM、Intel、EMC、Walmart、Teradata、Ora
6、cle、Microsoft、Google、Facebook 等发源于美国的跨国巨头也积极提出自己的应对大数据挑战的发展策略,他们成了发展大数据处理技术的主要推动者。在科技领域,庞大的数据正在改变着人类发现问题、解决问题的基本方式,采用最简单的统计分析算法,将大量数据不经过模型和假设直接交给高性能计算机处理,就可以发现某些传统科学方法难以得到的规律和结论。图灵奖得主吉姆格雷提出的数据密集型科研第四范式 3,不同于传统的实验、理论和计算三种范式,第四种范式不需要考虑因果关系,以数据为中心,分析数据的相关性,打破了千百年来从结果出发探究原因的科研模式,大规模的复杂数据使得新的科研模式成为可能。虽然大
7、数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。二、国内外开展的相关工作近年来,大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的关注和研究,有一些相关
8、的研究成果。早在1980 年,阿尔文托夫勒4等人就前瞻性地指出过大数据时代即将到来。此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用,2008 年 Nature 出版专刊“Big Data”5,分析了大量快速涌现数据给数据分析处理带来的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。2011 年 Science 推出关于数据处理的专刊“Dealing with data”6,讨论了数据洪流(Data Deluge)所带来的挑战,提出了对大数据进行
9、有效的分析、组织、利用可以对社会发展起到巨大推动作用。在大数据领域,国内学者也有大量的相关工作,李国杰等人 7阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。文献 810主要关注大数据分析、查询方面的理论、技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。随着大数据理念逐渐被大众了解,出现了一些阐述大数据基本概念与思想的专著,舍恩伯格等在大数据时代 11一书中用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。近年来,大数据对经济的推动作用被广
10、泛接受,出现了探讨大数据在商业领域的应用的文章和专著,Martin Klubeck 等人在量化:大数据时代的企业管理12一书中提到,进入大数据时代,数据发挥着关键的作用,探讨了如何从空前膨胀的海量数据中挖掘出有用的指标和信息。朱志军等人所著的转型时代丛书:大数据大价值、大机遇、大变革13中介绍了大数据产生的背景、特征和发展趋势,从实证的角度探讨了它对社会和商业智能的影响,并认为大数据正影响着商业模式的转变,并将带来新的商业机会。三、大数据的概念与特点大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为14:大数据是指利用常用软
11、件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。笔者认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。IDC 在对大数据作出的定义为 15:大数据一般会涉及2 种或 2 种以上数据形式。它要收集超过100TB 的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner 给出了这样的定义16:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描
12、述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V 特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。(一)数据量大大数据聚合在一起的数据量是非常大的,根据IDC 的定义至少要有超过100TB 的可供分析的数据,
13、数据量大是大数据的基本属性。导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、
14、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect 等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根
15、据数据获取、处理能力来设定。不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。(二)数据类型多样数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通
16、常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数
17、据可以通过常规的技术手段处理。而随着互联网络与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10
18、倍到 50 倍。在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。(三)数据处理速度快要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈
19、爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性,大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概念 特征 及其 应用
限制150内