简析大数据及其处理分析流程.pdf
昆明理工大学空间数据库期末考察报告简析大数据及其处理分析流程学院:国土资源工程学院班级:测绘 121 姓名:王易豪学号:201210102179 任课教师:李刚简析大数据及其处理分析流程【摘 要】大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,对现有的IT 架构以及计算能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇。本文从大数据的概念特征、处理分析流程、大数据时代面临的挑战三个方面进行详细阐述,分析了大数据的产生背景,简述了大数据的基本概念。【关键词】大数据;数据处理技术;数据分析引言大数据时代已经到来,而且数据量的增长趋势明显。据统计仅在2011 年,全球数据增量就达到了1.8ZB(即 1.8 万亿 GB)1,相当于全世界每个人产生200GB 以上的数据,这些数据每天还在不断地产生。而在中国,2013 年中国产生的数据总量超过0.8ZB(相当于 8 亿 TB),是2012 年所产生的数据总量的2 倍,相当于 2009 年全球的数据总量2。2014 年中国所产生的数据则相当于2012 年产生数据总量的10 倍,即超过 8ZB,而全球产生的数据总量将超40ZB。数据量的爆发式增长督促我们快速迈入大数据时代。全球知名的咨询公司麦肯锡(McKinsey)2011年 6 月份发布了一份关于大数据的详尽报告“Bigdata:The next frontier for innovation,competition,and productivity”3,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入 2012 年以来,大数据的关注度与日俱增。处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划4中,把信息处理技术作为项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关。由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡。如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在。1 大数据的概念数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应 GB(1GB1024MB)级别的数据,“海量”一般表示的是 TB(1TB1024GB)级的数据,而现在的“大数据”则是PB(1PB 1024TB)、EB(1EB1024PB)、甚至 ZB(1ZB1024EB)级别以上的数据。2013 年 Gartner 预测世界上存储的数据将达到1.2 ZB,如果将这些数据刻录到CD-R 只读光盘上,并堆起来,其高度将是地球到月球距离的5 倍5。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。大数据的产生在科学研究(天文学、生物学、高能物理等)6、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势美国互联网数据中心(IDC)指出,互联网上的数据每年将增长50以上,每 2 年便将翻一番,而目前世界上90以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息。大数据概念的提出年,Gartner Group 的 Howard Dresner首次提出“商业智能”(Bussiness intelligence)这一术语7。商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术8。随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题。由此,IT 界诞生了一个新的名词“大数据”。根据维基百科的定义,“大数据”(Big Data)指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。关于数据量达到多少可以叫大数据,目前尚无统一说法。通常认为,大数据一般应在10TB1PB(P 为 T 的 1024 倍)以上。大数据的特征在日新月异的业界,各个企业对大数据都有着自己不同的解读但大家都普遍认为,大数据有着 4“”特征,即 Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)9:(1)量大(Volume Big)。数据量级已从 TB(210GB)发展至 PB(210TB)乃至 ZB(220PB),可称海量、巨量乃至超量。(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360 全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。(5)复查 Complexity:处理和分析的难度非常大。大数据的应用领域发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响。将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各领域的运行效率,取得更大的收益。其中,包括:商业、金融、医疗、制造业等。大数据处理分析流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据的处理分析流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释个阶段。数据采集大数据的“大”,原本就意味着数量多、种类复杂,因此,通过各种方法获取数据信息便显得格外重要 数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别()、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等。数据处理与集成数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。数据分析数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在。传统的数据处理分析方法已经不能满足大数据时代数据分析的需求。在数据分析技术方面,Google 公司于 2006 年率先提出了“云计算”的概念,其内部各种数据的应用都是依托Google 自己内部研发的一系列云计算技术10,例如分布式文件系统GFS、分布式数据库 BigTable、批处理技术MapReduce,以及开源实现平台Hadoop11等。这些技术平台的产生,提供了对大数据进行处理、分析很好的手段。数据解释在一个完善的数据分析流程中,数据结果的解释步骤至关重要。但随着数据量的加大,数据分析结果往往也越复杂,用传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,为了提升数据解释、展示能力,现在大部分企业都引入了“数据可视化技术”12作为解释大数据最有力的方式。通过可视化结果分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术,等等。3 大数据时代面临的挑战大数据面临的挑战是多方面的:(1)数据的快速增长对存储空间、存储技术、数据压缩技术、能源消耗的挑战:大数据需要占用大量的存储空间,尽管存储性价比在提高,压缩技术也在不断发展,但保存数据所消耗能也在大量增长。解决办法是研制出新一代高密度、低能耗存储设备。(2)数据本身安全及个人隐私泄露面临的挑战:在海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严峻。大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,严重的将导致企业的商业机密及个人隐私泄露。保障数据及应对人隐私泄露的解决办法有:通过物理隔离以及与权限控制相结合,实现对数据的隔离,保证数据不被非法访问并保证用户数据的隐私。通过信息加密的功能,防止用户信息被盗取。用户的关键信息,如登录密码和系统访问等其他鉴权信息,无论是传输时还是在存储时必须加密。通过对硬盘实施有效的保护:保证即使硬盘被窃取,非法用户也无法从硬盘中获取有效的用户数据。将数据切片存储在不同的云存储节点和硬盘上,数据无法通过单个硬盘恢复。故障硬盘无需进行数据清除即可直接废弃,用户数据不会通过硬盘泄露。通过立法来保障企业的商业机密及个人隐私不被非法应用。(3)网络带宽能力与对数据处理能力面临的挑战:网络带宽是瓶劲,尤其表现在各网络接入商之间的互联互通出口上;大数据时代网络必须有足够的带宽支持,才能保证数据实时性。数据计算能力是应对数据洪流时的又一挑战,采用分布式计算可以解决其中的一些问题,但部署相对较复杂。(4)有效数据撷取面临的挑战:从海量数据中提取隐含在其中的、潜在有用信息和知识的过程十分复杂的,需要反复“去伪存真”。通常要经过业务理解、数据理解、数据准备、建立挖掘模型、评估和部署等多个步骤。即在开始数据分析之前,我们必须了解业务需求,根据需求明确业务目标和要求;接下来便是对现有数据进行评估,并对原始数据进行组织、清理、集成、变换等一系列数据收集和预处理工作;在搞好数据清理的基础上,应用相关算法和工具建立分析模型;之后对所建立的模型进行评估,重点具体考虑得出的结果是否符合最初的业务目标;最后,便可将发现的结果以及过程利用各种可视化技术(报表、报告、图形等)呈现出来。4 结语大数据的发展,促使人类的活动范围在扩大,需求在增长,世界已经逐渐在全球范围内分工协作和业务整合,促使人类把学习、生活和工作的模式从局部走向全局,利用网络思维,把个人、企业、组织、政府、自然和社会重新定义并且赋予新的联系,通过它们之间的智能化互动运转,使用群体智能改善人类生存环境和提升公共服务质量,提高性能、效率和生产力。大数据技术进步和产业升级,将催生出新的市场、新的业务模式和新的产业规律,显示一个国家寻求战略优势的集体意志。虽然大数据概念火热,提供了人类通过观察数据全貌以深刻理解世界的机遇,但是距离利用大数据获取数据智能和人类智慧仍存在较大距离。参考文献:1 李新华.浅谈大数据时代的机遇与挑战J.通讯世界.2013(06)2 沈松雨.大数据环境下 GIS 技术发展研究 J.科技创新与应用.2015(10)3 孟小峰,慈祥.大数据管理:概念、技术与挑战 J.计算机研究与发展.2013(1)4 刘智慧,张泉灵.大数据技术研究综述 J.浙江大学学报(工学版).2014(06)5 何非,何克清.大数据及其科学问题与方法的探讨J.武汉大学学报(理学版).2014(01)6 吴吉义,傅建庆,张明西,平玲娣.云数据管理研究综述 J.电信科学.2010(05)7 余长慧,潘和平.商业智能及其核心技术 J.计算机应用研究.2002(09)8 熊忠阳.面向商业智能的并行数据挖掘技术及应用研究重庆:重庆大学,2004 9 严霄凤,张德馨.大数据研究计算机技术与发展,2013,23(4):16817210 李乔,郑啸.云计算研究现状综述 计算机科学,2011,38(4):3237 11 杨宸铸.基于HADOOP 的数据挖掘研究 D 重庆:重庆大学,2010 12 贺全兵.可视化技术的发展及应用J.中国西部科技.2008(04)