《大数据分析的时代.pdf》由会员分享,可在线阅读,更多相关《大数据分析的时代.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析的时代大数据分析的时代+当数据以成百上千 TB 不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。c%全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。何谓大数据?何谓大数据?5 F3 k;i:O2 R,Q2?(G.i+H 大数据,也就是国外常说的 Big Data。大数据概括成了三个 V,即大量化(Volume)、多样化(Variety)和快
2、速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),我们也可以认为,四个 V 高度概括了大数据的基本特征。业界比较一致对大数据的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。极具挑战性的是,传统的数据库部署不能处理数 TB 数据,也不能很好的支持高级别的数据分析。在几年中,Hadoop 平台和列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展,我们开始看到,技术升级带来的已知架构之间的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的 NoSQL 等平台。大数据分析的时代 本文中,我们将向
3、大家介绍迄今为止,包括 EMC 的 Greenplum、Hadoop 和 MapReduce等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台 Vertica 数据仓库分析工具等。下面,就让我们来了解业界大数据分析的这些产品:1、模块化 EMC Appliance 处理多种数据类型 1、模块化 EMC Appliance 处理多种数据类型 7 B%f5 d!N7 S u+B8 p 2010 年 EMC 收购了 Greenplum,随后,利用 EMC 自身存储硬件和支持复制与备份功能的Greenplum 大规模并行处理(MPP)数据库,推出了 EMC Greenplum Data Com
4、puting Appliance(DCA)。通过与 SAS 和 MapR 等合作伙伴,DCA 扩大了对 Greenplum 的数据库支持。&0 X%J!)Z5 E$5 7 b#j 支持大数据分析的 EMC Appliance 今年 5 月,EMC 推出了自己的 Hadoop 软件工具,而且该公司还承诺,今年秋季发布的模块化 DCA 将支持 Greenplum SQL/关系型数据库,Hadoop 部署也能在同样的设备上得到支持。借助 Hadoop,EMC 能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。模块化的 DCA 也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测
5、需求。相对来说,EMC 的重点在利用 Greenplum 平台推进自身存储硬件的销售,在 Greenplum平台的演进过程中,逐步发现 MPP 架构的局限性,通过引入 Hadoop 的 MapReduce 架构,顺利解决了超大规模数据的处理的问题。2、Hadoop 和 MapReduce 提炼大数据2、Hadoop 和 MapReduce 提炼大数据 Hadoop 是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的 TB 甚至 PB 级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop 提供的 M
6、apReduce(和其他一些环境)是处理大数据集理想解决方案。MapReduce 能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。y4 X#i)3 5 Q P.p5 j;m9 g)S x#i-p,E6 X!M1 v&:q MapReduce 结构图 Hadoop 可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头,比如 AOL、eHarmony(美国在线约会网站)、易趣、Facebook、Twitter 和 Netflix 大数据分析的主要解决方案。也有更多传
7、统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。3、惠普 Vertica 电子商务分析 3、惠普 Vertica 电子商务分析(V,g)P o,M,K;r6 q-|q#Q,M 今年二月被惠普收购的 Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86 硬件的 HP Vertica。通过 MPP 的扩展性可以让 Vertica 为高端数字营销、电子商务客户(比如 AOL、Twitter、Groupon)提供数据
8、处理服务。$_/v)Z _3 Z h.H 惠普 Vertica 实时分析平台 其实,早在惠普收购之前,Vertica 就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增 Hadoop 链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica 支持惠普的云服务自动化解决方案。Vertica 自身高端数据应用的定位,限制了平台的应用范围和推广速度,但是利用其自身实时数据分析的特点,在交易风险分析中获得了一席之地。4、Infobright 减少 DBA 工作量和查询时间4、Infobright 减少 DBA 工作量和查询时间1|5 u9 P)m&f1
9、 o:D;f Infobright 列存储数据库,旨在为数 TB 级别数据提供各类分析服务。InfoBright 还表示,建立在 MySQL 基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。0 L#f+O:n;z9 a 列存储数据库能够自动创建索引,而且无需进行数据分区和 DBA 调整。相比传统数据库,它可以减少 90%的人工工作量,而且由 于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。;V7 L$r8 M!p s)R/,H7 q-h3 G Knowledge Grid 查询引擎 InfoBright 最新的 4.0 版本产品,新增了一个 DomainExpert 的功能。企业用户可以借此忽略不断重复的那些数据,比如邮箱地址、URL 和 IP 地址。与此同时,公司还可以增加与呼叫记录、业务交易或者地理位置信息相关的数据。Kowledge Grid 查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。
限制150内