大数据分析解决方案5016137.docx
《大数据分析解决方案5016137.docx》由会员分享,可在线阅读,更多相关《大数据分析解决方案5016137.docx(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析的三个技巧 2013年01月08日09:03 来源:CIO时代网【文章摘要】大大数据的性质质是有他的三三个特点(数数据量大、种种类多、处理理速度快)决决定的,数据据分析的角色色和作用理所所当然是由大大数据的性质质决定的。当当数据分析作作用于大数据据时,大数据据必须身兼数数职。意思就就是数据分析析在一个组织织中扮演着多多种角色和担担负着多重责责任。数据分析的的职位是由DDJ Pattil和Jeff Hammeerbachher制定的的,他们试图图称呼数据组组的同事们,而而又不想因为为称呼而限制制他们的能力力。(beccause of immpropeer jobb titlle lik
2、ke bussinesss anallyst oor ressearchh scieentistt Buillding Data Sciennce Teeams)随着大数据据在驱动企业业成功中越来来越有决定性性作用,数据据分析也变得得越来越受欢欢迎。然而,一一些领导者对对数据分析扮扮演的角色和和它所起的作作用仍然不是是很了 解,就像很很多时候领导导者不知道怎怎么从大数据据中抽取有用用的信息,虽虽然很清楚的的知道这些大大数据是很可可信的。他们们的脚步落后后了他们们的眼光在大大数据的利用用上其 实是模糊的的。大数据的性性质是有他的的三个特点(数数据量大、种种类多、处理理速度快)决决定的,数据据分析
3、的角色色和作用理所所当然是由大大数据的性质质决定的。当当数据分析作作用于大数据据时,大数据据必须身兼数数职。意思就就是数据分析析在一个组织织中扮演着多多种角色和担担负着多重责责任。多种知识的的掌握为了解决数数据量大的问问题,大数据据平台(例如如:Apacche Haadoop、LexissNexiss HPPCC)要求数据据是被整理过过的。数据分分析员应该具具有大数据平平台应用的全全方位知识,这这样才能熟练练的应用数据据平台处理大大数据。数据据分析元应当当具有以下知知识:1、了解大大数据平台的的框架,例如如:DFS和MapReeduce,他他们的编程框框架提供强大大的应用程序序设计。这就就意味
4、着数据据分析员还要要有软件构筑筑和设计的能能力。2、精通大大数据平台支支持的编程语语言,例如:Java, Pythhon, CC+, oor ECLL, 等等。3、具有熟熟练的数据库库知识,特别别是用到SQQL语言的数数据库,像:HBasee, CouuchDB, 等等。因因为大数据平平台经常需要要数据库来存存储和转换数数据。4、具有数数学/统计学、机机器学习、数数据挖掘领域域的专业知识识。一个企业的的成功不是由由数据量决定定的,而是由由能否成功的的从大数据中中发现和抽取取有用的知识识模式和关系系决定的,然然后用这些有有价值的信息息创造出有价价值的产 品。统计学学、机器学习习和数据挖掘掘可以很
5、好的的用于理解数数据和发掘数数据的价值。自自然,为了成成功数据分析析者必须具备备这些领域的的专门知识。会会使用一些数数据挖掘工具具 或者平台(例例如:R, Excell, SPSSS andd SAS)是是最好的,可可以Topp Anallyticss and big ddata ssoftwaare toools这这本书。5、熟练应应用自然语言言处理的软件件或工具。大大数据的内容容大都来自于于文本文件、新新闻、社交媒媒体和报告、建建议书等等。因因此了解和掌掌握至少一种种自然语言处处理软件或工工具对于做一一个成功的分分析者起着决决定性的作用用。6、应用至至少一种数据据可视化工具具。为了更有有效
6、的演示数数据存在的模模式和关系,能能应用好数据据可视化工具具无疑是对数数据分析员的的一个加分。这这里有20款数据可可视化工具的的链接。创新好好奇随着数据变变化速度的加加快,经常也也会有新的发发现和问题出出现,数据分分析员应该对对那些变化敏敏感、对新发发现好奇,并并且找出应对对新问题的方方法。他/她也要热情情的及时相互互沟通,从新新问题中探索索新产品的思思路和解决方方案,成为产产品创新的驾驾驭者。商业技能首先,数据据分析员多元元化的性质决决定了数据分分析员要好很很强的沟通能能力,在企业业里数据分析析员必须和不不同的人沟通通,其中包括括:沟通和理理解业务需求求、应用程 序的要求、把把数据的模式式和
7、关系翻译译给市场部、产产品开发组和和公司高管看看。对于企业业来说有效的的沟通是及时时采取行动应应对大数据新新发现的关键键。数据分析析员应该是能能 联系所有,很很好的沟通者者。第二、数据据分析员要具具有良好的规规划和组织能能力。这样他他/她才能巧妙妙地处理多个个任务、树立立正确的优先先顺序、保证证按时完成任任务。第三,数据据分析员应该该具有说服力力、激情、和和演讲能力。才才能引导人们们基于数据的的发现做出正正确的决定,让让人们相信新新发现的价值值。数据分析析员在某种意意义上说是领领导者,驱动动产品创新。所有这些大数据据的性质决定定了数据分析析员该具备的的技巧和他们们在企业中扮扮演的角色。盘点大数
8、据分析析的十二大杀杀手锏分类:BIMapReeduce22011-111-19 13:122218人人阅读评论(0)收藏举报当数据以成百上上千TB不断增长长的时候,我我们需要一种种独特技术来来应对这种前前所未有的挑挑战。大数据分析迎来来大时代全球各行各业的的组织机构已已经意识到,最最准确的商务务决策来自于于事实,而不不是凭空臆想想。这也就意意味着,他们们需要在内部部交易系统的的历史信息之之外,采用基基于数据分析析的决策模型型和技术支持持。互联网点点击数据、传传感数据、日日志文件、具具有丰富地理理空间信息的的移动数据和和涉及网络的的各类评论,成成为了海量信信息的多种形形式。极具挑战性的是是,传统
9、的数数据库部署不不能处理数TTB数据,也也不能很好的的支持高级别别的数据分析析。在过去十十几年中,大大规模并行处处理(MPPP)平台和列列存储数据库库开启了新一一轮数据分析析史上的革命命。而且近年年来技术不断断发展,我们们开始看到,技技术升级带来来的已知架构构之间的界限限变得更加模模糊。更为重重要的是,开开始逐步出现现了处理半结结构化和非结结构化信息的的NoSQLL等平台。大数据分析迎来来大时代本文中,我们将将向大家介绍绍迄今为止,包包括EMC的Greennplum、Hadooop和MapReeduce等等提供大数据据分析的产品品。此外,惠惠普前段时间间收购实时分分析平台Veerticaa、I
10、BM独立的的基于DB22智能分析系系统和Nettezza的的相关产品。当当然,也有微微软的Parrallell Dataa Wareehousee、SAP旗下公公司Sybaase的Sybasse IQ数数据仓库分析析工具等。下下面,就让我我们来了解业业界大数据分分析的这十二二大产品:1.模块化EMMC Apppliancce处理多种种数据类型2010年EMMC收购了Greeenpluum,随后,利利用EMC自身存存储硬件和支支持复制与备备份功能的GGreenpplum大规规模并行处理理(MPP)数据据库,推出了了EMC GGreenpplum DData CComputting AApplia
11、ance (DCA)。通通过与SASS和MapR等合合作伙伴,DDCA扩大了了对Greeenplumm的数据库支支持 。支持大数据分析析的EMC Appliiance今年5月,EMMC推出了自自己的Haddoop软件件工具,而且且该公司还承承诺,今年秋秋季发布的模模块化DCAA将支持Greeenpluum SQLL/关系型数数据库,Haadoop部部署也能在同同样的设备上上得到支持。借借助Hadooop,EMC能够解解决诸如网络络点击数据、非非结构数据等等真正大数据据分析的困难难。模块化的的DCA也能够够在同样的设设备上支持长长期保留的高高容量的存储储模块,从而而满足监测需需求。2.Hadoo
12、op和MapReeduce提提炼大数据Hadoop是是一个开放源源码的分布式式数据处理系系统架构,主主要面向存储储和处理结构构化、半结构构化或非结构构化、真正意意义上的大数数据(通常成成百上千的TTB甚至PB级别数据据)应用。网网络点击和社社交媒体分析析应用,正在在极大地推动动应用需求。Hadoop提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。MapReduuce能将大大数据问题分分解成多个子子问题,将它它们分配到成成百上千个处理节点之之上,然后将将结果汇集到到一个小数据据集当中,从从而更容易分分析得出最后后的结果。MapReduuce结构图图Hadoop可可以运行在低
13、低成本的硬件件产品之上,通通过扩展可以以成为商业存存储和数据分分析的替代方方案。它已经经成为很多互互联网巨头,比比如AOL、eHarmmony(美美国在线约会会网站)、易易趣、Faccebookk、Twittter和Netfllix大数据据分析的主要要解决方案。也也有更多传统统的巨头公司司比如摩根大大通银行,也也正在考虑采采用这一解决决方案。3.惠普Verrtica电电子商务分析析今年二月被惠普普收购的Veerticaa,是能提供供高效数据存存储和快速查查询的列存储储数据库实时时分析平台。相相比传统的关关系数据库,更更低的维护和和运营成本,就就可以获得更更快速的部署署、运行和维维护。该数据据库
14、还支持大大规模并行处处理(MPPP)。在收购购之后,惠普普随即推出了了基于x866硬件的HP Vertiica。通过过MPP的扩展展性可以让VVerticca为高端数数字营销、电电子商务客户户(比如AOOL、Twittter、 Grouupon)分分析处理的数数据达到PBB级。惠普Vertiica实时分分析平台其实,早在惠普普收购之前,Vertica就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增Hadoop链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica支持惠普的云服务自动化解决方案。4.IBM提供供运维和分析析数据仓库去年,IBM
15、推推出了基于DDB2的Smartt Anallytic Systeem(图中左左侧),那么么它为何还要要收购另外的的Netezzza方案平平台呢?因为为前者是具备备高扩展性企企业数据仓库库的平台,可可以支持成千千上万的用户户和各类应用用操作。比如如,呼叫中心心通常拥有大大量的雇员需需要快速回拨拨客户的历史史通话记录。Smart Analytic System提供了整合信息的DB2数据库,预配置Cognos BI软件模块,可以在IBM Power System(RISC或者X86架构)上运行。Smart AAnalyttic Syystem及及NetezzzaNetezzaa致力于为数数字化营销
16、公公司、电信、和和其他挖掘成成百上千TBB甚至PB级别数据据的公司,提提供高可扩展展分析应用的的解决方案。IBM的Netezza TwinFin数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。Netezza支持多种语言和方式进行数据库分析,其中包括Java、C、C+、Python和MapReduce。与此同时,它还支持如SAS,IBM SPSS使用的矩阵操作方法和R编程语言。IBM Netezza最近增加了一个高容量长期存档设备以满足更多要求。5.Infobbrightt减少DBA工作量量和查询时间间Infobriight列存存储数据库,旨旨在为数十TTB级别数据据提供各类分分析服
17、务。而而这一块也正正是甲骨文和和微软SQLL Servver的核心心市场之一。InfoBright还表示,建立在MySQL基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。列存储数据库能能够自动创建建索引,而且且无需进行数数据分区和DDBA调整。相相比传统数据据库,它可以以减少90%的人工工作作量,而且由由 于其采用高高数据压缩,在在数据库许可可和存储等方方面的开支也也可以减少一一半。Knowleddge Grrid查询引引擎InfoBriight最新新的4.0版本产产品,新增了了一个DommainExxpert的的功能。企业业用户可以借
18、借此忽略不断断重复的那些些数据,比如如邮箱地址 、URL和IP地址。与与此同时,公公司还可以增增加与呼叫记记录、业务交交易或者地理理位置信息相相关的数据。Kowledge Grid查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。6.Kogniitio提供供三倍速度和和虚拟多维数数据集Kognitiio是一家本本身不生产硬硬件产品的数数据库厂商,它它看到了客户户对快速部署署的广泛兴趣趣和市场需求求,推出了在在惠普、IBBM硬件产品上预预配置有WX2数据库库的Lakees、Riverrs和Rapidds解决方
19、案案。Lakes能够够以低成本、10TB数据存储和每个模块48个运算核心提供大容量存储服务。电信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。Rivers则提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48个运算核心。而追求查询性能的Rapids,其预配置提供有96个运算核心,每个模块仅仅为1.5TB。该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。Kognitiio基于内存存运算的数据据仓库和数据据分析今年, Koggnitioo新增了一个个虚拟化OLLAP风格的的Pabloo分析引擎。它它提供了灵活活的、为企业业用户进行分分
20、析的解决方方案。用户可可升级选用WWX2构建一一个虚拟多维维数据集。因因此,WX22数据库中任任何一个维度度的数据都可可在内存中用用于快速分析析。这种分析析的前端接口口是我们常见见的Micrrosoftt Exceel。7.微软SQLL Servver新增PDW功能今年年初微软发发布的SQLL Servver R22 Paraallel Data Warehhouse(PDW,并行行数据仓库),一一改以往SQQL Serrver部署署时间需要花花 费两年半时时间的历史,它它可以帮助客客户扩展部署署数百TB级别数据据的分析解决决方案。支持持这一产品的的包括有合作作伙伴惠普的的硬件平台。发发布之初
21、,虽虽然微软官网网提供有让利利折扣,但PPDW售价仍仍超过130000美元/TB(用户户和硬件访问问量)。SQL Serrver PPDW和很多产品一样样,PDW使用了了大规模并行行处理来支持持高扩展性,但但微软进入这这一市场实属属“姗姗来迟”,而且在一一定程度上说说,数据仓库库分析和内存存分析计算市市场落下了后后腿。目前,微微软寄希望于于其整体数据据库平台在市市场上带来的的差异化竞争争力。这意味味着,所有沿沿袭了基于微微软平台的数数据和数据管管理,将被广广泛应用在信信息集成领域域Repportinng andd Anallysis Serviices,而而这一切都基基于SQL Serveer
22、数据库。微软在今年100月12日通过推推出Apacche Haadoop和和相关的SQQL Azuure Haadoop服服务,宣布进进入大数据领领域。Azuure服务将将在20111年底亮相,而而相应的本地地配套软件要要在明年上半半年推出,现现在也不清楚楚微软是否会会与其他硬件件合作伙伴或或者相关大数数据设备厂商商合作。8.甲骨文讲述述Enginneeredd Systtems的故故事甲骨文表示,EExadatta(图中左左侧)是迄今今以来发布的的产品中最为为成功的产品品,自从20008年推出出以来,已经经拥有超过11000名客客户。而enngineeered ssystemm使得甲骨文文1
23、1g数据库库,可以支持持基于X866的数据处理理和磁盘存储储层,其闪存存缓存也使得得可以实现超超快速查询处处理。它既可应用在任任意事务环境境中,也可以以应用在数据据仓库(但不不能同时进行行)。Exaadata的的混合柱状压压缩能够实现现列存储数据据库的某些高高效率特点,提提供高达100:1的压缩缩比,而大部部分行存储数数据库的平均均压缩比为44:1。甲骨文在9月通通过宣布Orracle SuperrClustter(图中中右侧),扩扩展了enggineerred syystemss产品家族。它它采用了最新新的Sun Sparcc T-4芯芯片。SupperCluuster支支持全机架/半机架配
24、置置,而且用户户可以在半机机架容量基础础上进行扩容容。满额配置置提供有12200个CPU线程,4TBB内存,97TTB至198TBB磁盘存储,88.66TBB闪存。甲骨文大数据分分析系统设施施甲骨文声称,SSuperCClusteer事务处理理和数据仓库库性能相比传传统服务器架架构能分别带带来10倍和50倍速度提提升。但作为为一个专有的的Unix机器器,甲骨文想想通过SupperCluuster,在在面向x866硬件的数据据仓库部署迁迁移大潮中力力挽狂澜。甲甲骨文的Exxadataa和Exaloogic都基基于x86架构而而且运行Liinux系统统。在十月召开的OOraclee OpennWo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 解决方案 5016137
限制150内