简析大数据及其处理分析流程.pdf
《简析大数据及其处理分析流程.pdf》由会员分享,可在线阅读,更多相关《简析大数据及其处理分析流程.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、昆明理工大学空间数据库期末考察报告简析大数据及其处理分析流程学院:国土资源工程学院班级:测绘 121 姓名:王易豪学号:201210102179 任课教师:李刚简析大数据及其处理分析流程【摘 要】大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,对现有的IT 架构以及计算能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇。本文从大数据的概念特征、处理分析流程、大数据时代面临的挑战三个方面进行详细阐述,分析了大数据的产生背景,简述了大数据的基本概念。【关键词】大数据;数据处理技术;数据分析引言大数据时代已经到来,而且数据量的增长趋势明显。据统计仅在2011
2、年,全球数据增量就达到了1.8ZB(即 1.8 万亿 GB)1,相当于全世界每个人产生200GB 以上的数据,这些数据每天还在不断地产生。而在中国,2013 年中国产生的数据总量超过0.8ZB(相当于 8 亿 TB),是2012 年所产生的数据总量的2 倍,相当于 2009 年全球的数据总量2。2014 年中国所产生的数据则相当于2012 年产生数据总量的10 倍,即超过 8ZB,而全球产生的数据总量将超40ZB。数据量的爆发式增长督促我们快速迈入大数据时代。全球知名的咨询公司麦肯锡(McKinsey)2011年 6 月份发布了一份关于大数据的详尽报告“Bigdata:The next fro
3、ntier for innovation,competition,and productivity”3,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入 2012 年以来,大数据的关注度与日俱增。处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划4中,把信息处理技术作为项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关。由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡。如何将巨大的原始数据进行有
4、效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在。1 大数据的概念数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应 GB(1GB1024MB)级别的数据,“海量”一般表示的是 TB(1TB1024GB)级的数据,而现在的“大数据”则是PB(1PB 1024TB)、EB(1EB1024PB)、甚至 ZB(1ZB1024EB)级别以上的数据。2013 年 Gartner 预测世界上存储的数据将达到1.2 ZB,如果将这些数据刻录到CD-R 只读光盘上,并堆起来,其高度将是
5、地球到月球距离的5 倍5。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。大数据的产生在科学研究(天文学、生物学、高能物理等)6、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势美国互联网数据中心(IDC)指出,互联网上的数据每年将增长50以上,每 2 年便将翻一番,而目前世界上90以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息。大数据概念的提出年,Gartner Group 的 Howard Dresn
6、er首次提出“商业智能”(Bussiness intelligence)这一术语7。商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术8。随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题。由此,IT 界诞生了一个
7、新的名词“大数据”。根据维基百科的定义,“大数据”(Big Data)指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。关于数据量达到多少可以叫大数据,目前尚无统一说法。通常认为,大数据一般应在10TB1PB(P 为 T 的 1024 倍)以上。大数据的特征在日新月异的业界,各个企业对大数据都有着自己不同的解读但大家都普遍认为,大数据有着 4“”特征,即 Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)9:(1)量大(Volume Big)。数据量级已从
8、 TB(210GB)发展至 PB(210TB)乃至 ZB(220PB),可称海量、巨量乃至超量。(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360 全方位视频监控的“死角”处,可能会挖掘出最有价值的图像
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简析大 数据 及其 处理 分析 流程
限制150内