大数据分析解决方案clei.docx
大数据分析的三个技巧 2013年01月08日09:03 来源:CIO时代网【文章摘要】大数据的性质是有他的三个特点(数据量大、种类多、处理速度快)决定的,数据分析的角色和作用理所当然是由大数据的性质决定的。当数据分析作用于大数据时,大数据必须身兼数职。意思就是数据分析在一个组织中扮演着多种角色和担负着多重责任。数据分析的职位是由DJ Patil和Jeff Hammerbacher制定的,他们试图称呼数据组的同事们,而又不想因为称呼而限制他们的能力。(because of improper job title like business analyst or research scientist Building Data Science Teams)随着大数据在驱动企业成功中越来越有决定性作用,数据分析也变得越来越受欢迎。然而,一些领导者对数据分析扮演的角色和它所起的作用仍然不是很了 解,就像很多时候领导者不知道怎么从大数据中抽取有用的信息,虽然很清楚的知道这些大数据是很可信的。他们的脚步落后了他们的眼光在大数据的利用上其 实是模糊的。大数据的性质是有他的三个特点(数据量大、种类多、处理速度快)决定的,数据分析的角色和作用理所当然是由大数据的性质决定的。当数据分析作用于大数据时,大数据必须身兼数职。意思就是数据分析在一个组织中扮演着多种角色和担负着多重责任。多种知识的掌握为了解决数据量大的问题,大数据平台(例如:Apache Hadoop、LexisNexis HPPC)要求数据是被整理过的。数据分析员应该具有大数据平台应用的全方位知识,这样才能熟练的应用数据平台处理大数据。数据分析元应当具有以下知识:1、了解大数据平台的框架,例如:DFS和MapReduce,他们的编程框架提供强大的应用程序设计。这就意味着数据分析员还要有软件构筑和设计的能力。2、精通大数据平台支持的编程语言,例如:Java, Python, C+, or ECL, 等等。3、具有熟练的数据库知识,特别是用到SQL语言的数据库,像:HBase, CouchDB, 等等。因为大数据平台经常需要数据库来存储和转换数据。4、具有数学/统计学、机器学习、数据挖掘领域的专业知识。一个企业的成功不是由数据量决定的,而是由能否成功的从大数据中发现和抽取有用的知识模式和关系决定的,然后用这些有价值的信息创造出有价值的产 品。统计学、机器学习和数据挖掘可以很好的用于理解数据和发掘数据的价值。自然,为了成功数据分析者必须具备这些领域的专门知识。会使用一些数据挖掘工具 或者平台(例如:R, Excel, SPSS and SAS)是最好的,可以Top Analytics and big data software tools这本书。5、熟练应用自然语言处理的软件或工具。大数据的内容大都来自于文本文件、新闻、社交媒体和报告、建议书等等。因此了解和掌握至少一种自然语言处理软件或工具对于做一个成功的分析者起着决定性的作用。6、应用至少一种数据可视化工具。为了更有效的演示数据存在的模式和关系,能应用好数据可视化工具无疑是对数据分析员的一个加分。这里有20款数据可视化工具的链接。创新好奇随着数据变化速度的加快,经常也会有新的发现和问题出现,数据分析员应该对那些变化敏感、对新发现好奇,并且找出应对新问题的方法。他/她也要热情的及时相互沟通,从新问题中探索新产品的思路和解决方案,成为产品创新的驾驭者。商业技能首先,数据分析员多元化的性质决定了数据分析员要好很强的沟通能力,在企业里数据分析员必须和不同的人沟通,其中包括:沟通和理解业务需求、应用程 序的要求、把数据的模式和关系翻译给市场部、产品开发组和公司高管看。对于企业来说有效的沟通是及时采取行动应对大数据新发现的关键。数据分析员应该是能 联系所有,很好的沟通者。第二、数据分析员要具有良好的规划和组织能力。这样他/她才能巧妙地处理多个任务、树立正确的优先顺序、保证按时完成任务。第三,数据分析员应该具有说服力、激情、和演讲能力。才能引导人们基于数据的发现做出正确的决定,让人们相信新发现的价值。数据分析员在某种意义上说是领导者,驱动产品创新。所有这些大数据的性质决定了数据分析员该具备的技巧和他们在企业中扮演的角色。盘点大数据分析的十二大杀手锏分类: BI MapReduce2011-11-19 13:12 218人阅读 评论(0) 收藏 举报 当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。大数据分析迎来大时代全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。极具挑战性的是,传统的数据库部署不能处理数TB数据,也不能很好的支持高级别的数据分析。在过去十几年中,大规模并行处理(MPP)平台和列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展,我们开始看到,技术升级带来的已知架构之间的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的NoSQL等平台。大数据分析迎来大时代本文中,我们将向大家介绍迄今为止,包括EMC的Greenplum、Hadoop和MapReduce等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台Vertica、IBM独立的基于DB2智能分析系统和Netezza的相关产品。当然,也有微软的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ数据仓库分析工具等。下面,就让我们来了解业界大数据分析的这十二大产品:1.模块化EMC Appliance处理多种数据类型2010年EMC收购了Greenplum,随后,利用EMC自身存储硬件和支持复制与备份功能的Greenplum大规模并行处理(MPP)数据库,推出了EMC Greenplum Data Computing Appliance (DCA)。通过与SAS和MapR等合作伙伴,DCA扩大了对Greenplum的数据库支持 。支持大数据分析的EMC Appliance今年5月,EMC推出了自己的Hadoop软件工具,而且该公司还承诺,今年秋季发布的模块化DCA将支持Greenplum SQL/关系型数据库,Hadoop部署也能在同样的设备上得到支持。借助Hadoop,EMC能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。模块化的DCA也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。2.Hadoop和MapReduce提炼大数据Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的TB甚至PB级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。MapReduce结构图Hadoop可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头,比如AOL、eHarmony(美国在线约会网站)、易趣、Facebook、Twitter和Netflix大数据分析的主要解决方案。也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。3.惠普Vertica电子商务分析今年二月被惠普收购的Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86硬件的HP Vertica。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB级。惠普Vertica实时分析平台其实,早在惠普收购之前,Vertica就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增Hadoop链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica支持惠普的云服务自动化解决方案。4.IBM提供运维和分析数据仓库去年,IBM推出了基于DB2的Smart Analytic System(图中左侧),那么它为何还要收购另外的Netezza方案平台呢?因为前者是具备高扩展性企业数据仓库的平台,可以支持成千上万的用户和各类应用操作。比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历史通话记录。Smart Analytic System提供了整合信息的DB2数据库,预配置Cognos BI软件模块,可以在IBM Power System(RISC或者X86架构)上运行。Smart Analytic System及NetezzaNetezza致力于为数字化营销公司、电信、和其他挖掘成百上千TB甚至PB级别数据的公司,提供高可扩展分析应用的解决方案。IBM的Netezza TwinFin数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。Netezza支持多种语言和方式进行数据库分析,其中包括Java、C、C+、Python和MapReduce。与此同时,它还支持如SAS,IBM SPSS使用的矩阵操作方法和R编程语言。IBM Netezza最近增加了一个高容量长期存档设备以满足更多要求。5.Infobright减少DBA工作量和查询时间Infobright列存储数据库,旨在为数十TB级别数据提供各类分析服务。而这一块也正是甲骨文和微软SQL Server的核心市场之一。InfoBright还表示,建立在MySQL基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。列存储数据库能够自动创建索引,而且无需进行数据分区和DBA调整。相比传统数据库,它可以减少90%的人工工作量,而且由 于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。Knowledge Grid查询引擎InfoBright最新的4.0版本产品,新增了一个DomainExpert的功能。企业用户可以借此忽略不断重复的那些数据,比如邮箱地址 、URL和IP地址。与此同时,公司还可以增加与呼叫记录、业务交易或者地理位置信息相关的数据。Kowledge Grid查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。6.Kognitio提供三倍速度和虚拟多维数据集Kognitio是一家本身不生产硬件产品的数据库厂商,它看到了客户对快速部署的广泛兴趣和市场需求,推出了在惠普、IBM硬件产品上预配置有WX2数据库的Lakes、Rivers和Rapids解决方案。Lakes能够以低成本、10TB数据存储和每个模块48个运算核心提供大容量存储服务。电信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。Rivers则提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48个运算核心。而追求查询性能的Rapids,其预配置提供有96个运算核心,每个模块仅仅为1.5TB。该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。Kognitio基于内存运算的数据仓库和数据分析今年, Kognitio新增了一个虚拟化OLAP风格的Pablo分析引擎。它提供了灵活的、为企业用户进行分析的解决方案。用户可升级选用WX2构建一个虚拟多维数据集。因此,WX2数据库中任何一个维度的数据都可在内存中用于快速分析。这种分析的前端接口是我们常见的Microsoft Excel。7.微软SQL Server新增PDW功能今年年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),一改以往SQL Server部署时间需要花 费两年半时间的历史,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。支持这一产品的包括有合作伙伴惠普的硬件平台。发布之初,虽然微软官网提供有让利折扣,但PDW售价仍超过13000美元/TB(用户和硬件访问量)。SQL Server PDW和很多产品一样,PDW使用了大规模并行处理来支持高扩展性,但微软进入这一市场实属“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。目前,微软寄希望于其整体数据库平台在市场上带来的差异化竞争力。这意味着,所有沿袭了基于微软平台的数据和数据管理,将被广泛应用在信息集成领域Reporting and Analysis Services,而这一切都基于SQL Server数据库。微软在今年10月12日通过推出Apache Hadoop和相关的SQL Azure Hadoop服务,宣布进入大数据领域。Azure服务将在2011年底亮相,而相应的本地配套软件要在明年上半年推出,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。8.甲骨文讲述Engineered Systems的故事甲骨文表示,Exadata(图中左侧)是迄今以来发布的产品中最为成功的产品,自从2008年推出以来,已经拥有超过1000名客户。而engineered system使得甲骨文11g数据库,可以支持基于X86的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。Exadata的混合柱状压缩能够实现列存储数据库的某些高效率特点,提供高达10:1的压缩比,而大部分行存储数据库的平均压缩比为4:1。甲骨文在9月通过宣布Oracle SuperCluster(图中右侧),扩展了engineered systems产品家族。它采用了最新的Sun Sparc T-4芯片。SuperCluster支持全机架/半机架配置,而且用户可以在半机架容量基础上进行扩容。满额配置提供有1200个CPU线程,4TB内存,97TB至198TB磁盘存储,8.66TB闪存。甲骨文大数据分析系统设施甲骨文声称,SuperCluster事务处理和数据仓库性能相比传统服务器架构能分别带来10倍和50倍速度提升。但作为一个专有的Unix机器,甲骨文想通过SuperCluster,在面向x86硬件的数据仓库部署迁移大潮中力挽狂澜。甲骨文的Exadata和Exalogic都基于x86架构而且运行Linux系统。在十月召开的Oracle OpenWorld中,甲骨文宣布将新增一个分布式pache Hadoop软件和相关的大数据设备。甲骨文也计划推出一个独立的基于开源BerkeleyDB产品的NoSQL。9.ParAccel大打列存储、MPP和数据库分析组合拳ParAccel是ParAccel Analytic Database(PADB)的开发厂商提供快速、选择性查询和列存储数据库,并基于大规模并行处理优势特点的产品。该公式表示,其平台支持一系列针对各种复杂、先进应用的工作负载报告和分析。ParAccel大数据解决方案内置的分析算法可以为分析师提供高级数学运算、数据统计、和数据挖掘等各种功能,同时,它还提供一个开放的API,可以扩展数据库的各种数据处理能力和第三方分析应用。Table functions被用来传送和接收第三方和采用C、C+等编写的定制算法的数据结果。ParAccel与Fuzzy Logix一家提供各种描述统计学、统计实验模拟和模式识别功能库功能的服务商。此外, Table functions还支持MapReduce和广泛应用在金融服务的700多种分析技术。10.Sybase推进IQ列存储数据库SAP旗下的Sybase是列存储数据库管理系统的首批厂商,而且目前仍然是拥有2000多个客户的畅销厂商。今年夏天推出了Sybase IQ 15.3版本,该版本产品能够处理更多数据和更多数据类型,也能胜任更多查询,当然这主要得益于其包含了一个名叫PlexQ 的大规模并行处理功能。基于MPP大规模并行处理的PlexQ分布式查询平台,通过将任务分散到网格配置中的多台计算机,加速了高度复杂的查询。有报道说,它能提供比现有的IQ部署快12倍的交付能力。Sybase IQ为了支持不同的分析,15.3版本的产品增加了分布式处理功能,来执行PlexQ网格中跨CPU的查询服务。为了确保实现最快速度的查询,PlexQ包含了一个逻辑服务器让管理员对PlexQ网格的物理服务器组成虚拟群集,以便优化分析工作负载、用户需求和应用程序。Sybase IQ和其他大多数的支持MPP功能的产品之间区别主要在于,它采用了全共享的方式。全共享的缺点是CPU会争相访问共享存储(通常是SAN),而这会降低查询性能。不过Sybase坚持认为,从优化查询的角度来说全共享会更加灵活,因为所有的CPU 都会访问所有的数据。所以,我们可以对某个特定的查询尽可能多(或者少)地分配计算资源。11.Teradata从EDWs跨入大规模分析领域一旦成为企业级数据仓库(EDW)的宣传者,近年来Teradata就已经放松了扩展Teradata数据库产品家族的步伐。该公司的高性能、高容量产品被广泛采用和复制,因为其中包括了很多企业工作量管理的功能模块,包括虚拟OLAP(三维立体式)分析模型 。Teradata在数据库分析领域不断推陈出新,但在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果。这也就是为什么该公司要收购Aster Data一家提供SQL-MapReduce框架的公司。MapReduce处理拥有广泛的市场需求,因为存在着大量的互联网点击数据、传感数据和社交媒体内容。Teradata平台产品家族Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。通过收购,Teradata打破了在数据仓储业被认为最广泛、最具扩展性的界限。12.1010data提供基于云计算大数据分析正如标题所说,1010data能够提供基于云计算的大数据分析平台。很大数据库平台供应商提供基于云的沙箱测试和开发环境, 但1010data的管理数据库服务,主要针对将整个工作负载迁移到云的全过程。该服务支持一种提供“丰富而又高级的内置分析功能”,其中包括有预测分析。其一大卖点是服务包括了数据建模和设计、信息集成和数据转换。1010data提供基于云计算大数据分析其客户包括有对冲基金、全球各大银行、证券交易商,零售商和包装消费品公司。何谓大数据?大数据,也就是国外常说的Big Data。IBM把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),我们也可以认为,四个V高度概括了大数据的基本特征。业界比较一致对大数据的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据时代 分析技术如何进化2012-06-19 07:30比特网袁斌关键字:FICO 大数据 费埃哲当你在应用信用卡进行交易时,你可能没有意识到,这笔交易是否成功,是由费埃哲(FICO)公司的产品在后台进行智能判断和监测的。目前,费埃哲公司的Falcon解决方案在帮助客户监控全球2/3的信用卡交易,并从中辨别欺诈活动。显然,这是一个非常典型的大数据应用银行每天的信用卡交易数都是一个天文数字,如何有效处理和鉴别这些数据,帮助企业做出正确的决策?在非结构化数据汹涌增加的今天,费埃哲公司又是如何判断大数据时代的分析技术进展?日前,比特网记者采访了费埃哲(FICO)公司首席执行官Will Lansing先生。费埃哲(FICO)公司首席执行官Will Lansing先生问:大数据对软件和硬件都有非常强的挑战,所以现在业界有一种趋势,要做软硬件结合,以更紧密的一体机形式来提供分析服务。最典型的产品,例如甲骨文公司的 Exalytics系统。那么,您是如何看待这一趋势?费埃哲公司会如何更好地与硬件进行优化整合?答:这是一个非常好的问题。就费埃哲公司而言,基础架构并不是我们的专长,所以我们要和我们的客户去合作。目前,我们有一些合作方式是基于SaaS的,也有一些是基于其它各类解决方案的。费埃哲公司并不强制客户使用某种特定的基础架构来运行我们的应用、捕捉应用数据,而是在客户现有的基础架构运营优化、进行合作。实际上,费埃哲公司也在和一些实验室合作,例如Cloudera,借此来拓展我们的能力,消除我们(对硬件基础设施在理解上)的局限性。问:在大数据的分析方面,数学模型非常重要。我们知道,费埃哲公司在金融领域有很深的积累。那么,这种积累如何推广到其他行业?答:费埃哲公司在垂直行业已经有很长时间的积累了,这也是我们能够将业务拓展到非金融行业的一大原因。我们公司非常擅长分析一些复杂、困难的问题,这些分析技巧不仅适用于金融行业,也适用于其他多个行业。例如,我们对于客户行为的了解,就不局限于金融行业,还包括保险行业和零售行业。在保险行业当中,某些欺诈的行为和在银行业当中的信用卡欺诈的用户行为是非常类似的。而在营销解决方案方面,很多零售行业的客户行为和银行客户的行为也非常近似。所以,我们在金融行业的客户管理经验,也可以应用到零售行业。以费埃哲公司在中国的业务发展为例,银行业务是最传统的领域。但从一年前开始,费埃哲就开始把我们成熟的技术推向保险领域,协助保险公司做理赔的反欺诈。尽管保险行业的业务特点跟银行不太一样,但我们的技术是同样适用的,而且我们在国外的保险行业也有所积累。因此,费埃哲在国内的保险理赔反欺诈的案例就非常成功客户回访时,他们表示,现在能够通过数据分析,实时抓住大批量的理赔欺诈。问:我们也注意到,您提到了信用卡反欺诈这个大数据应用。但相对而言,这都是针对结构化数据的,针对邮件、文本这些非结构化的数据,费埃哲公司将采用哪些解决方案去处理?答:大数据的定义当中,包括3个V(高容量、高速度、多类型)。虽然费埃哲的信用卡反欺诈解决方案只是针对结构化数据,但我们已经能够处理大容量数据和高速的数据。到目前为止,我们还是采用相对传统的方式,将数据简化到一个智能的、可操作的层面,然后基于这些数据来做出快速决策。尽管我们现在只能做到这三个V当中的两个,但我们非常接近完美地来解决这个问题的。随着基础架构不断的完善和演进,费埃哲的解决方案也会发生变化。问:在数据爆发的时代,我们进行数据分析的方式需要改变吗?答:我们关于大数据的绝大多数讨论都集中在数据的规模,并没有相应关注在数据分析方式的改变。 “数据流”的分析对于FICO并不陌生,其中最好的应用莫过于我们的反欺诈解决方案FICO Falcon Fraud Manager。Falcon模型依靠交易特征,它概括了数据在交易过程中的特征,以便计算相关的欺诈特点的变量,而不依赖由此生成的既有数据。我们在数据流特征分析领域不断推动创新,尤其在反欺诈领域。这些创新技术包括:全球智能特征识别技术。它可以自动发现银行卡交易、ATM和商户交易中的不正常行为。再比如FICO公司开发的自我校正分析技术,它可以随着客户行为模式的改变,服务渠道的改变而改善侦测的准确性。另一个由大数据带来的变化是分析必须减少对于固有数据的依赖。分析模型将能够根据数据流中的动态数据自我调整。为了应对不断增加的数据流中的动态数据,我们集中研发了自我学习的一些技术,包括:自适应分析和自我矫正分析技术。我们坚信这些关键技术将弥补传统方式的不足。自学习技术甚至将可能在某些领域取代传统的模式。最近,我们在自己开发的自我校正分析技术上取得了重大进展。已申请专利的“多层自我校正分析技术”的体系结构与神经网络模式类似,但与之不同的是新模式可以在数据流中自我校正。使用多层自我校正模式将需要更少的数据采样,并且可以直接与自适应分析技术联合使用,可以更为动态地发现欺诈。将“多层自我校对系统”与目前通用的技术相比,我们预见未来的分析技术将大幅提高。问:更进一步地说,现在的大数据分析,都是数据进行筛选、过滤到数据仓库当中,然后进行分析。随着硬件设备在性能和容量上不断提升,还有必要对传统分析技术进行大规模改进吗?答:今天的大数据分析情况确实如你所说的这样。但我相信,在不远的将来,我们会需要直接对大数据进行分析。这种分析可能有两种方式:一种是随着数据集的不断增加,我们需要重新建模在数据集不断增加的情况下,可能需要考虑应用Hadoop技术进行存储,否则我们就没有容量足够大的存储空间;另一种方式则是采用基于机器学习的方法,来进行大数据的处理和分析。至于硬件的性能,也许现在还不是问题,但当我们考虑所有数据,并从中找出最有价值的地方时,用现有的基础架构就会显得远远不够。例如,今天的银行客户,他们已经知道,未来他们的数据是分散的、遍布各地的,可能在银行内部,可能在局域网或者在云里面,他们希望这些数据都能够被读取,都对数据进行分析。显然,这是今天的架构无法完成的,这需要将来才可以实现。问:那么,您认为机器学习和传统模型这两种数据分析方式,哪种更有发展前途?答:大数据的最终目标就是利用各种数据来做出最好的决策。大数据最美的地方,就是我们不再受数据容量的局限,它可以不断的增加一些变量,然后增加价值,帮助我们做出更好的决策。如你所提到的,现在我们有两种模型,一种是基于假设的模型,例如前几年麦肯锡提出来的假设模型,说我们要关注哪些高价值数据,关注相关领域的数据,关注那些能够提升效率的数据。另一种模型就是一种不是基于假设的模型,确切地说,是一种机器学习的模型。这种模型跟假设模型完全不同。我并不认为这两种模型可以相互替代。从长期来看,一定会有更多的数据需要我们去关注。对大数据来说,它能够不断的增加变量,帮助我们基于这些数据做出更好的决策,这是它特别有优势的一个地方。我个人认为,在比较长的一段时间之后,机器学习的这种方式,有可能会取代假设的这种模型。问:在金融领域的机器学习应该具有什么特性?答:以小额贷款的机器学习为例,这需要非常快速观察和衡量,能够迅速发现坏帐,这样才能够快速学习、调整。尽管目前也有一些公司推出了所谓的机器学习,但这是非常有局限性的,主要是用于展示,展示出新科技所带来的可能性,并告诉客户这个新科技可以不断完善,并且最终能够降低风险。技术基础:大数据分析技术的发展ZDNet 存储系统 来源: 赛迪网 2012年05月16日 评论(0)关键词: 大数据 MapReduce Google本文摘要大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先,以Google为首的技术型互联网公司提出了MapReduce的技术框架,利用廉价的PC服务器集群,大规模并发处理批量事务。大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先,以Google为首的技术型互联网公司提出了MapReduce的技术框架,利用廉价的PC服务器集群,大规模并发处理批量事务。利用文件系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群+商业数据库方案相比,不仅没有丢失性能,而且还赢在了可扩展性上。之前,我们在设计一个数据中心解决方案的前期,就要考虑到方案实施后的可扩展性。通常的方法是预估今后一段时期内的业务量和数据量,加入多余的计算单元(CPU)和存储,以备不时只需。这样的方式直接导致了前期一次性投资的巨大,并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。而一旦需要扩容,问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构,也就是具有近似的计算和存储能力。而随着硬件的更新,我们通常加入的新硬件都会强于已有的硬件。这样,旧硬件就成为了系统的瓶颈。为了保证系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。其次,即使是当前最强的商业并行数据库,其所能管理的数据节点也只是在几十或上百这个数量级,这主要是由于架构上的设计问题,所以其可扩展性必然有限。而MapReduce+GFS框架,不受上述问题的困扰。需要扩容了,只需增加个机柜,加入适当的计算单元和存储,集群系统会自动分配和调度这些资源,丝毫不影响现有系统的运行。如今,我们用得更多的是Google MapReduce的开源实现,即Hadoop。除了计算模型的发展,与此同时,人们也在关注着数据存储模型。传统的关系型数据库由于其规范的设计、友好的查询语言、高效的数据处理在线事务的能力,长时间地占据了市场的主导地位。然而,其严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NoSQL数据存储模型开始风行。NoSQL,也有人理解为Not Only SQL,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等。而比较流行的,不得不提到Google提出的Bigtable。Bigtable是一种用于管理海量结构化数据的分布式存储系统,其数据通常可以跨成千个节点进行分布式存储,总数据量可达PB级(10的15次方字节,106GB)。HBase是其开源实现。如今,在开源社区,围绕Google MapReduce框架,成长出了一批优秀的开源项目。这些项目在技术和实现上相互支持和依托,逐渐形成了一个特有的生态系统。这里借用Cloudera所描绘的架构图来展现Hadoop生态系统。这个系统为我们实现优质廉价的大数据分析提供了坚实的技术基础。使用Storm实现实时大数据分析!实时Storm大数据摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobbs上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。Shruthi Kumar、Siddharth Patankar共同效力于Infosys,分别从事技术分析和研发工作。本文详述了Storm的使用方法,例子中的项目名称为“超速报警系统(Speeding Alert System)”。我们想实现的功能是:实时分析过往车辆的数据,一旦车辆数据超过预设的临界值 便触发一个trigger并把相关的数据存入数据库。Storm对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性:· 易于扩展。对于扩展,你只需要添加机器和改变对应的topology(拓扑)设置。Storm使用Hadoop Zookeeper进行集群协调,这样可以充分的保证大型集群的良好运行。· 每条信息的处理都可以得到保证。· Storm集群管理简易。· Storm的容错机能:一旦topology递交,Storm会一直运行它直到topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务。· 尽管通常使用Java,Storm中的topology可以用任何语言设计。当然为了更好的理解文章,你首先需要安装和设置Storm。需要通过以下几个简单的步骤:· 从Storm官方下载Storm安装文件· 将bin/directory解压到你的PATH上,并保证bin/storm脚本是可执行的。Storm组件Storm集群主要由一个主节点和一群工作节点(worker node)组成,通过 Zookeeper进行协调。主节点:主节点通常运行一个后台程序 Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。这个很类似于Hadoop中的Job Tracker。工作节点:工作节点同样会运行一个后台程序 Supervisor,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。ZookeeperZookeeper是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装进Storm中的“topology”。topology则是一组由Spouts(数据源)和Bolts(数据操作)通过Stream Groupings进行连接的图。下面对出现的术语进行更深刻的解析。Spout:简而言之,Spout从来源处读取数据并放入topology。Spout分成可靠和不可靠两种;当Storm接收失败时,可靠的Spout会对tuple(元组,数据项组成的列表)进行重发;而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法就是nextTuple(),该方法会发射一个新的tuple到topology,如果没有新tuple发射则会简单的返回。Bolt:Topolo