《大数据处理技术研究2416130.docx》由会员分享,可在线阅读,更多相关《大数据处理技术研究2416130.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、郑州轻工业学院课程设计说明书题目: 大数数据处理技术术研究 姓 名: 王超 田启森 院 (系): 计算机与通通信工程 专业班级: 计计算机科学与与技术 学 号: 544100700101388 54100070100137 指导教师: 钱慎慎一 成 绩: 时间: 20113年6月 26 日至 2013 年 6 月27日目录1.摘要:42. 大数据概况;43. 大数据定义:54. 大数据技术的发展:55. 大数据技术组成:85.1 分析技术85.1.1 可视化分析95.1.2 数据挖掘算法95.1.3 预测分析能力95.1.4 语义引擎95.1.5 数据质量和数据管理95.2 存储数据库105.
2、3 分布式计算技术116. Hadoop-大数据处理的核心技术136.1 Hadoop的组成136.2 Hadoop的优点:166.2.1 高可靠性。166.2.2 高扩展性。176.2.3 高效性。176.2.4 高容错性。176.3 Hadoop的不足176.4 主要商业性“大数据”处理方案186.4.1 IBM InfoSphere大数据分析平台186.4.2 Or a c l e Bi g Da t aApplianc196.4.3 Mi c r o s o f t S QLServer196.4.4 Sybase IQ206.5 其他“大数据”解决方案206.5.1 EMC206.5
3、.2 BigQuery206.6 “大数据”与科技文献信息处理217. 大数据处理技术发展前景:217.1 大数据复杂度降低217.2 大数据细分市场227.3 大数据开源227.4 Hadoop将加速发展227.5 打包的大数据行业分析应用227.6 大数据分析的革命性方法出现237.7 大数据与云计算:深度融合237.8 大数据一体机陆续发布238 结语;239 参考文献:231. 摘要:大数据浪潮汹涌涌来袭,与互互联网的发明明一样,这绝绝不仅仅是信信息技术领域域的革命,更更是在全球范范围启动透明明政府、加速速企业创新、引引领社会变革革的利器。2. 大数据概概况;大数据,IT行行业的又一次
4、次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。数据技术发展历历史如图一所所示:图一3. 大数据定定义:“大数据”是一一个涵盖多种种技术的概念念,简单地说说,是指无法法在一定时间间内用常规软软件工具对其其内容进行抓抓取、管理和和处理的数据据集合。IBBM将“大数数据”理念定定义为4个V
5、V,即大量化化(Voluume)、多多样化(Vaarietyy)、快速化化(Veloocity)及由此产生生的价值(VValue)。如图二;图二4. 大数据技技术的发展:大数据技术描述述了一种新一一代技术和构构架,用于以以很经济的方式式、以高速的的捕获、发现现和分析技术术,从各种超超大规模的数数据中提取价价值,而且未来急急剧增长的数数据迫切需要要寻求新的处处理技术手段段。如图三所示:图三在“大数据”(Big ddata)时时代,通过互互联网、社交交网络、物联联网,人们能能够及时全面面地获得大信息。同时时,信息自身身存在形式的的变化与演进进,也使得作作为信息载体体的数据以远远超人们想象象的速度迅
6、速速膨胀。云时代的到来使使得数据创造造的主体由企企业逐渐转向向个体,而个个体所产生的的绝大部分数数据为图片、文文档、视频等等非结构化数数据。信息化化技术的普及及使得企业更更多的办公流流程通过网络络得以实现,由由此产生的数数据也以非结结构化数据为为主。预计到到2012年年,非结构化化数据将达到到互联网整个个数据量的775%以上。用用于提取智慧慧的“大数据据”,往往是是这些非结构构化数据。传传统的数据仓仓库系统、BBI、链路挖挖掘等应用对对数据处理的的时间要求往往往以小时或或天为单位。但但“大数据”应应用突出强调调数据处理的的实时性。在在线个性化推推荐、股票交交易处理、实实时路况信息息等数据处理理
7、时间要求在在分钟甚至秒秒级。全球技术研究和和咨询公司GGartneer将“大数数据”技术列列入20122年对众多公公司和组织机机构具有战略略意义的十大大技术与趋势势之一,而其其他领域的研研究,如云计计算、下一代代分析、内存存计算等也都都与“大数据据”的研究相相辅相成。GGartneer在其新兴兴技术成熟度度曲线中将“大大数据”技术术视为转型技技术,这意味味着“大数据据”技术将在在未来355年内进入主主流。而 “大数据”的的多样性决定定了数据采集集来源的复杂杂性,从智能能传感器到社社交网络数据据,从声音图图片到在线交交易数据,可可能性是无穷穷无尽的。选选择正确的数数据来源并进进行交叉分析析可以为
8、企业业创造最显著著的利益。随随着数据源的的爆发式增长长,数据的多多样性成为“大大数据”应用用亟待解决的的问题。例如如如何实时地地及通过各种种数据库管理理系统来安全全地访问数据据,如何通过过优化存储策策略,评估当当前的数据存存储技术并改改进、加强数数据存储能力力,最大限度度地利用现有有的存储投资资。从某种意意义上说,数数据将成为企企业的核心资资产。“大数据”不仅仅是一场技术术变革,更是是一场商业模模式变革。在在“大数据”概概念提出之前前,尽管互联联网为传统企企业提供了一一个新的销售售渠道,但总总体来看,二二者平行发展展,鲜有交集集。我们可以以看到,无论论是Googgle通过分分析用户个人人信息,
9、根据据用户偏好提提供精准广告告,还是Faaceboook将用户的的线下社会关关系迁移在线线上,构造一一个半真实的实名名帝国,但这这些商业和消消费模式仍不不能脱离互联联网,传统企企业仍无法嫁嫁接到互联网网中。同时,传传统企业通过过传统的用户户分析工具却却很难获得大大范围用户的的真实需求。企业从大规模制制造过渡到大大规模定制,必必须掌握用户户的需求特点点。在互联网网时代,这些些需求特征往往往是在用户户不经意的行行为中透露出出来的。通过过对信息进行行关联、参照照、聚类、分分类等方法分分析,才能得得到答案。“大数据”在互互联网与传统统企业间建立立一个交集。它它推动互联网网企业融合进进传统企业的的供应链
10、,并并在传统企业业种下互联网网基因。传统统企业与互联联网企业的结结合,网民和和消费者的融融合,必将引引发消费模式式、制造模式式、管理模式式的巨大变革革。大数据正成为IIT行业全新新的制高点,各各企业和组织织纷纷助推大大数据的发展展,相关技术术呈现百花齐齐放局面,并并在互联网应应用领域崭露露头角,具体体情况如下图图四所示:图四大数据将带来巨巨大的技术和和商业机遇,大大数据分析挖挖掘和利用将将为企业带来来巨大的商业业价值,而随随着应用数据据规模急剧增增加,传统计计算面临严重重挑战,大规规模数据处理理和行业应用用需求日益增增加和迫切出出现越来越多多的大规模数数据处理应用用需求,传统统系统难以提提供足
11、够的存存储和计算资资源进行处理理,云计算技技术是最理想想的解决方案案。调查显示示:目前,IIT专业人员员对云计算中诸多多关键技术最最为关心的是是大规模数据据并行处理技技术大数据并并行处理没有有通用和现成成的解决方案案对于应用行行业来说,云云计算平台软软件、虚拟化化软件都不需需要自己开发发,但行业的的大规模数据据处理应用没没有现成和通用的的软件,需要要针对特定的的应用需求专专门开发,涉涉及到诸多并并行化算法、索索引查询优化化技术研究、以以及系统的设设计实现,这这些都为大数数据处理技术术的发展提供供了巨大的驱动力力,5. 大数据据技术组成:大数据技术由四四种技术构成成,它们包括括:5.1 分析析技
12、术分析技术意味着着对海量数据据进行分析以以实时得出答答案,由于大大数据的特殊殊性,大数据据分析技术还还处于发展阶阶段,老技术术会日趋完善善,新技术会会更多出现。大大数据分析技技术涵盖了以以下的的五个方面5.1.1 可视化分析析数据可视化无论论对于普通用用户或是数据据分析专家,都都是最基本的的功能。数据据图像化可以以让数据自己己说话,让用用户直观的感感受到结果。5.1.2 数据挖掘算算法图像化是将机机器语言翻译译给人看,而而数据挖掘就就是机器的母母语。分割、集集群、孤立点点分析还有各各种各样五花花八门的算法法让我们精炼炼数据,挖掘掘价值。这些些算法一定要要能够应付大大数据的量,同同时还具有很很高
13、的处理速速度。5.1.3 预测分析能能力数据挖掘可以让让分析师对数数据承载信息息更快更好地地消化理解,进进而提升判断断的准确性,而而预测性分析析可以让分析析师根据图像像化分析和数数据挖掘的结结果做出一些些前瞻性判断断。5.1.4 语义引擎非结构化数据的的多元化给数数据分析带来来新的挑战,我我们需要一套套工具系统的的去分析,提提炼数据。语语义引擎需要要设计到有足足够的人工智智能以足以从从数据中主动动地提取信息息。5.1.5 数据质量和和数据管理数据质量与管理理是管理的最最佳实践,透透过标准化流流程和机器对对数据进行处处理可以确保保获得一个预预设质量的分分析结果。我们知道大数据据分析技术最最初起源
14、于互互联网行业。网网页存档、用用户点击、商商品信息、用用户关系等数数据形成了持持续增长的海海量数据集。这这些大数据中中蕴藏着大量量可以用于增增强用户体验验、提高服务务质量和开发发新型应用的的知识,而如如何高效和准准确的发现这这些知识就基基本决定了各各大互联网公公司在激烈竞竞争环境中的的位置。首先先,以Gooogle为首首的技术型互互联网公司提提出了MappReducce的技术框框架,利用廉廉价的PC服服务器集群,大大规模并发处处理批量事务务。利用文件系统存存放非结构化化数据,加上上完善的备份份和容灾策略,这这套经济实惠惠的大数据解解决方案与之之前昂贵的企企业小型机集集群+商业数数据库方案相相比
15、,不仅没没有丢失性能能,而且还赢赢在了可扩展展性上。之前前,我们在设设计一个数据据中心解决方方案的前期,就就要考虑到方方案实施后的的可扩展性。通通常的方法是是预估今后一一段时期内的的业务量和数数据量,加入入多余的计算算单元(CPPU)和存储储,以备不时时只需。这样的方式直接接导致了前期期一次性投资资的巨大,并并且即使这样样也依然无法法保证计算需需求和存储超超出设计量时时的系统性能能。而一旦需需要扩容,问问题就会接踵踵而来。首先先是商业并行行数据库通常常需要各节点点物理同构,也也就是具有近近似的计算和和存储能力。而而随着硬件的的更新,我们们通常加入的的新硬件都会会强于已有的的硬件。这样样,旧硬件
16、就就成为了系统统的瓶颈。为为了保证系统统性能,我们们不得不把旧旧硬件逐步替替换掉,经济济成本损失巨巨大。其次,即即使是当前最最强的商业并并行数据库,其其所能管理的的数据节点也也只是在几十十或上百这个个数量级,这这主要是由于于架构上的设设计问题,所所以其可扩展展性必然有限限。而MappReducce+GFSS框架,不受受上述问题的的困扰。需要要扩容了,只只需增加个机机柜,加入适适当的计算单单元和存储,集集群系统会自自动分配和调调度这些资源源,丝毫不影影响现有系统统的运行5.2 存储数数据库存储数据库(IIn-Memmory DDatabaases)让让信息快速流流通,大数据据分析经常会会用到存储
17、数数据库来快速速处理大量记记录的数据流流通。比方说说,它可以对对某个全国性性的连锁店某某天的销售记记录进行分析析,得出某些些特征进而根根据某种规则则及时为消费费者提供奖励励回馈。但传统的关系型型数据库严格格的设计定式式、为保证强强一致性而放放弃性能、可可扩展性差等等问题在大数数据分析中被被逐渐暴露。随随之而来,NNoSQL数数据存储模型型开始风行。NoSQLL,也有人理理解为Nott Onlyy SQL,并并不是一种特特定的数据存存储模型,它它是一类非关关系型数据库库的统称。其其特点是:没没有固定的数数据表模式、可可以分布式和和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的
18、一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等NoSQL数数据库是一种种建立在云平平台的新型数数据处理模式式,NoSQLL在很多情况况下又叫做云云数据库。由由于其处理数数据的模式完完全是分布于于各种低成本本服务器和存存储磁盘,因因此它可以帮帮助网页和各各种交互性应应用快速处理理过程中的海海量数据。它它为Zyngga、AOLL、Ciscco以及其它它一些企业提提供网页应用用支持。正常常的数据库需需要将数据进进行归类组织织,类似于姓姓名和帐号这些数据据需要进行结结构化和标签签化。但是NNoSQL数数据库则完全全不关心这些些,它能处理理各种类型的的文
19、档。在处理海量数据据同时请求时时,它也不会会有任何问题题。比方说,如如果有10000万人同时时登录某个ZZynga游游戏,它会将将这些数据分分布于全世界界的服务器并并通过它们来来进行数据处处理,结果与与1万人同时时在线没什么么两样。现今今有多种不同同类型的NooSQL模式式。商业化的的模式如Coouchbaase、100gen的mmongoDDB以及Orracle的的NoSQLL;开源免费费的模式如CCouchDDB和Casssandrra;还有亚亚马逊最新推推出的NoSSQL云服务务。5.3 分布式式计算技术分布式计算结合合了NoSQQL与实时分分析技术,如果想要同同时处理实时时分析与Noo
20、SQL数据据功能,那么么你就需要分分布式计算技技术。分布式式技术结合了了一系列技术术,可以对海海量数据进行行实时分析。更更重要的是,它它所使用的硬硬件非常便宜宜,因而让这这种技术的普普及变成可能能。SGI的的Sunnyy Sunddstromm解释说,通通过对那些看看起来没什么么关联和组织织的数据进行行分析,我们们可以获得很很多有价值的的结果。比如如说可以分发发现一些新的的模式或者新新的行为。运运用分布式计计算技术,银银行可以从消消费者的一些些消费行为和和模式中识别别网上交易的的欺诈行为。分布式计算技术术让不可能变变成可能,分布式计算算技术正引领领着将不可能能变为可能。SSkyboxx Ima
21、gging就是是一个很好的的例子。这家家公司通过对对卫星图片的的分析得出一一些实时结果果,比如说某某个城市有多多少可用停车车空间,或者者某个港口目目前有多少船船只。它们将将这些实时结结果卖给需要要的客户。没没有这个技术术,要想快速速便宜的分析析这么大量卫卫星图片数据据将是不可能能的。如图五所示:图五分布式计算技术术是Googgle的核心心,也是Yaahoo的基基础,目前分布式式计算技术是是基于Gooogle创建建的技术,但但是却最新由由Yahooo所建立。GGooglee总共发表了了两篇论文,22004年发发表的叫做MMapRedduce的论论文介绍了如如何在多计算算机之间进行行数据处理;另一
22、篇于22003年发发表,主要是是关于如何在在多服务器上上存储数据。来来自于Yahhoo的工程程师Dougg Cuttting在读读了这两篇论论文后建立了了分布式计算算平台,以他他儿子的玩具具大象命名。如图六所示图六而Hadoopp作为一个重重量级的分布布式处理开源源框架已经在在大数据处理理领域有所作作为6. Hadooop-大数据处处理的核心技技术大数据技术涵盖盖了硬软件多多个方面的技技术,目前各各种技术基本本都独立存在在于存储、开开发、平台架架构、数据分分析挖掘的各各个相对独立立的领域。这这一部分主要要介绍和分析析大数据处理理的核心技术术Haddoop。6.1 Haadoop的的组成大数据不
23、同于传传统类型的数数据,它可能能由TB甚至PB级信息组组成,既包括括结构化数据据,也包括文文本、多媒体体等非结构化化数据。这些些数据类型缺缺乏一致性,使使得标准存储储技术无法对对大数据进行行有效存储,而而且我们也难难以使用传统统的服务器和和SAN方法来来有效地存储储和处理庞大大的数据量。这这些都决定了了“大数据”需需要不同的处处理方法,而而Hadooop目前正是是广泛应用的的大数据处理理技术。Haadoop是是一个基于Javaa的分布式密密集数据处理理和数据分析析的软件框架架。该框架在在很大程度上上受Googgle在2004年白白皮书中阐述述的MapRReducee的技术启发发。Hadooop
24、主要组组件包含如图图七:图七Hadoop Commoon:通用模模块,支持其他Haddoop模块块Ha d o o p Dii s t r i b u t e dd Fi ll eSysstem(HDFS):分布式文件件系统,用以以提供高流量量的应用数据据访问Hadoop YARN:支持工作调调度和集群资资源管理的框框架HadoopMMapRedduce:针针对大数据的的、灵活的并并行数据处理理框架其他相关的模块块还有:ZooKeepper:高可可靠性分布式式协调系统Oozie:负负责MapRReducee作业调度HBase:可可扩展的分布布式数据库,可可以将结构性性数据存储为为大表Hive:
25、构建建在MapRRudecee之上的数据据仓库软件包包Pig:架构在在Hadooop之上的高高级数据处理理层在Hadoopp框架中,最底层的HDFFS存储Hadooop集群中中所有存储节节点上的文件件。HDFSS的架构是基基于一组特定定的节点构建建的(如图八),图八这些节点包括一一个NameeNode和和大量的DaataNodde。存储在在HDFS中的的文件被分成成块,然后将将这些块复制制到多个计算算机中(DaataNodde)。这与与传统的RAAID架构大大不相同。块块的大小(通通常为64MMB)和复制制的块数量在在创建文件时时由客户机决决定。NammeNodee可以控制所所有文件操作作。H
26、DFSS内部的所有有通信都基于于标准的TCCP/IP协协议。NammeNodee在HDFS内内部提供元数数据服务,负负责管理文件件系统名称空空间和控制外外部客户机的的访问。它决决定是否将文文件映射到DDataNoode上的复复制块上。DDataNoode通常以以机架的形式式组织,机架架通过一个交交换机将所有有系统连接起起来。H aa d o o p M a p RR e d u c ee 是Gooogle MMapRedduce的开开源实现。MMapRedduce技术术是一种简洁洁的并行计算算模型,它在在系统层面解解决了扩展性性、容错性等等问题,通过过接受用户编编写的Mapp函数和Reeduc
27、e函函数,自动地地在可伸缩的的大规模集群群上并行执行行,从而可以以处理和分析析大规模的数数据6。Hadoop提供了大量的接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。在H a d o o p 应用实例中,一个代表客户机在单个主系统上启动Ma pRe d u c e的应用程序称为JobTracker。类似于NameNode,它是Ha d o o p 集群中唯一负责控制MapReduce应用程序的系统。在应用程序提交之后,将提供包含在HDFS中的输入和输出目录。JobTr a cke r使用文件块信息(物理量和位置)确定如何创建其他TaskTracker从属
28、任务。MapReduce应用程序被复制到每个出现输入文件块的节点,将为特定节点上的每个文件块创建一个唯一的从属任务。每个TaskTracker将状态和完成信息报告给JobTracker。如图显示一个示例集群中的工作分布,如图九:图九6.2 Haadoop的的优点:Hadoop能能够使用户轻轻松开发和运运行处理大数数据的应用程程序。它主要要有以下几个个优点:6.2.1 高可靠性。Hadoop按按位存储和处处理数据的能能力值得人们们信赖。6.2.2 高扩展性。Hadoop是是在可用的计计算机集簇间间分配数据并并完成计算任任务的,这些些集簇可以方便地地扩展到数以以千计的节点点中。6.2.3 高效性。
29、Hadoop能能够在节点之之间动态地移移动数据,并并保证各个节节点的动态平平衡,因此处处理速度非常常快。6.2.4 高容错性。Hadoop能能够自动保存存数据的多个个副本,并且且能够自动将将失败的任务务重新分配。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C+。6.3 Haadoop的的不足Hadoop作作为一个处理理大数据的软软件框架,虽虽然受到众多多商业公司的的青睐,但是是其自身的技技术特点也决决定了它不能能完全解决大大数据问题。在在当前Haddoop的设设计中,所有有的metaadata操操作都
30、要通过过集中式的NNameNoode来进行行,NameeNode有有可能是性能能的瓶颈。当当前Hadooop单一NameeNode、单单一Jobttrackeer的设计严严重制约了整整个Hadooop可扩展展性和可靠性性。首先,NNameNoode和JobTrrackerr是整个系统统中明显的单单点故障源。再再次,单一NNameNoode的内存存容量有限,使使得Hadooop集群的的节点数量被被限制到20000个左右右,能支持的的文件系统大大小被限制在在10-500PB,最多多能支持的文文件数量大约约为1.5亿亿左右。实际际上,有用户户抱怨其集群群的NameeNode重重启需要数小时时,这大大
31、降降低了系统的的可用性。随随着Hadooop被广泛泛使用,面对对各式各样的的需求,人们们期望Haddoop能提提供更多特性性,比如完全全可读写的文文件系统、SSnapshhot、Miirror等等等。这些都都是当前版本本的Hadooop不支持持,但是用户户又有强烈需需求的。6.4 主要要商业性“大大数据”处理理方案“大数据”被科科技企业看作作是云计算之后的的另一个巨大大商机,包括括IBM、谷谷歌、亚马逊逊和微软在内内的一大批知知名企业纷纷纷掘金这一市市场。此外,很很多初创企业业也开始加入入到大数据的的淘金队伍中中。Hadooop是非结结构数据库的的代表,低成成本、高扩展展性和灵活性性等优势使其
32、其成为各种面面向大数据处处理分析的商商业服务方案案的首选。OOraclee、IBM、MMicrossoft三大大商业数据提提供商是Haadoop的的主要支持者者。很多知名名企业都以HHadoopp技术为基础础提供自己的的商业性大数数据解决方案案。这一部分分主要介绍以以Hadooop为基础的的典型商业性性大数据解决决方案。6.4.1 IBM InnfoSphhere大数数据分析平台台I B M于22 0 1 1 年5 月推出的InfoSSpheree大数据分析析平台是一款款定位为企业业级的大数据据分析产品。该该产品包括BBigInssight s和Strreams,二二者互补,BBiglnssi
33、ghtss基于Hadooop,对大大规模的静态态数据进行分分析,它提供供多节点的分分布式计算,可可以随时增加加节点,提升升数据处理能能力。St reamss采用内存计计算方式分析析实时数据。它它们将包括HHadooppMapReeduce在在内的开源技技术紧密地与与IBM系统统集成起来。研研究Hadooop这样开开源技术的人人很多,但是是IBM这次次是真正将其其变成了企业业级的应用,针针对不同的人人员增加不同同的价值。IInfoSpphereBBigInssight s 1.33的存储和运运算框架采用用了开源的HHa d oo o pMa pRe d u c ee,同时针对对Ha d o o
34、p 框架架进行了改造造,采用了IIBM特有的的通用并行文文件系统GPFS。利利用GPFSS的目的是为为了避免单点点故障,保证证可用性。BBigInssightss中还有两个个分析产品Cognnos和SPPSS,这两两个分析产品品在传统功能能上加强了文文本分析的功功能,提供了了一系列文本本分析工具,并并使用高级语语言进行自定定义规则,如如文本格式转转换等。目前前BigInnsightts提供两种种版本,一种种是企业版(EEnterpprise Editiion),用用于企业级的的大数据分析析解决方案。另另一种是基础础版(Bassic Edditionn),去掉了了企业版中的的大部分功能能,用户可
35、以以免费下载,主主要提供给开开发人员和合合作伙伴试用用。St rr e amms 最大的的特点就是内内存分析,利利用多节点PPC服务器的的内存来处理理大批量的数数据分析请求求。St rreams的的特点就是“小小快灵”,数数据是实时流流动的,其分分析反应速度度可以控制在在毫秒级别,而而BigInnsightts的分析是是批处理,反反应速度无法法同St rreams相相比。总体来来说,二者的的设计架构不不同,也用于于处理不同的的大数据分析析需求,并可可以形成良好好的互补。IInfoSpphere平平台仅仅是IIBM大数据据解决方案中中的一部分。IIBM大数据据平台包括44大部分:信信息整合与治治
36、理组件、基基于开源Appache Hadooop的框架而而实现的Bii g I n s ii g h t s 平平台、加速器器,以及包含含可视化与发发现、应用程程序开发、系系统管理的上上层应用。通通过IBM的的解决方案可可以看出,解解决大数据问问题不能仅仅仅依靠Haddoop。6.4.2 Or a cc l e Bi g Da t aAppliiancOracle Big DData AAppliaance准确确地说是一款款硬件产品,添添加了Haddoop装载载器、应用适适配器以及OOr aclle新的NoSQQL数据库,主主要目的是为为了将非结构构化数据加载载到关系型数数据库中去,并并对软硬
37、件的的集成做了一一些优化。OOraclee BigDatta机包括开源AApachee Hadooop、Orracle NoSQLL数据库、OOraclee数据集成HHadoopp应用适配器器、OraccleHa d oo o p 装载载器、Op e n SSo u rr c eDistrributiion off R、Orracle Linuxx和Oraccle Jaava HootSpott虚拟机。它它能够快速、便便捷地与Orracle数数据库11gg、Oraccle Exxadataa数据库云服服务器和Orracle Exalyytics商商务智能云服服务器集成。分分析师和统计计人员可以
38、运运行现有的RR应用,并利利用R客户端端直接处理存储在在Oraclle数据库111g中的数数据,从而极极大地提高可可扩展性、性性能和安全性性。6.4.3 Mi c rr o s o f tt S QLLServeer微软已经发布HHadoopp Conneectorffor SQQL Se r ve r PPa r aa l leel Dat aWarehhouse和和Hadooop Conneectorffor SQQL Serr ver社区技技术预览版本本的连接器。该该连接器是双双向的,用户户可以在Haadoop和和微软数据库库服务器之间间向前或者向向后迁移数据据。微软的SSQL Seer
39、ver 2012将将并入Haddoop分布布式计算平台台,微软还将将把Hadooop引入WWindowws Serrver和AAzure(微微软的云服务务)。6.4.4 Sybasse IQSybase IQ是Syybase公公司推出的特特别为数据仓仓库设计的关关系型数据库库,添加了HHadoopp的集成,并并提供了MaapReduuce的APPI。相比于于传统的“行行式存储”的的关系型数据据库,Sybbase IIQ使用了独独特的列式存存储方式,在在进行分析查查询时,仅需需读取查询所所需的列,其其垂直分区策策略不仅能够够支持大量的的用户、大规规模数据,还还可以提交对对商业信息的的高速访问,其
40、其速度可达到到传统的关系系型数据库的的百倍甚至千千倍。6.5 其他他“大数据”解解决方案“大数据”解决决方案并非只只有Hadooop一种,许许多知名企业业还提供了其其他的解决方方案。6.5.1 EMCEMC 提供了了两种大数据据存储方案,即即Isiloon和Atmoss。Isiloon能够提供供无限的横向向扩展能力,Atmos是一款云存储基础架构,在内容服务方面,Atmos是很好的解决方案。在数据分析方面,EMC提供的解决方案、提供的产品是Greenplum,Greenplum有两个产品,第一是GreenplumDatabase,GreenplumDatabase是大规模的并行成立的数据库,它
41、可以管理、存储、分析PB量级的一些结构性数据,它下载的速度非常高,最高可以达到每小时10 T B,速度非常惊人。这是EMC可以提供给企业、政府,用来分析海量的数据。但是Gr e e n p l umDa t a b a s e面对的是结构化数据。很多数据超过9 0 % 是非结构化数据,E M C 有另外一个产品是GreenplumHD,GreenplumHD可以把非结构化的数据或者是半结构化的数据转换成结构化数据,然后让GreenplumDatabase去处理。6.5.2 BigQuueryBigQu ee r y是是Go ogg l e 推出的一项项We b服服务,用来在在云端处理大大数据。
42、该服服务让开发者者可以使用GGo o gg l e 的架构来运运行SQL语语句对超级大大的数据库进进行操作。BBigQueery允许用用户上传他们们的超大量数数据并通过其其直接进行交交互式分析,从从而不必投资资建立自己的的数据中心。GGooglee曾表示BiigQuerry引擎可以以快速扫描高高达70TBB未经压缩处处理的数据,并并且可马上得得到分析结果果。大数据在在云端模型具具备很多优势势,BigQQuery服服务无需组织织提供或建立立数据仓库。而而BigQuuery在安安全性和数据据备份服务方方面也相当完完善。免费帐帐号可以让用用户每月访问问高达1000GB的数据据,用户也可可以付费使用用
43、额外查询和和存储空间。6.6 “大数数据”与科技技文献信息处处理“大数据”目前前主要指医学学、天文、地地理、Webb日志、多媒媒体信息等数数据,鲜有提提及文献信息息。事实上,现现在的科技文文献信息日益益凸显出“大数数据”的特征征,主要表现现在以下几个个方面:更新新周期缩短;数量庞大;文献的类型型多样;文献献载体数字化化;文献语种种多样化;文文献内容交叉叉;文献信息息密度大。科科技文献中所所含的信息类类型多样,既既有结构性数数据,也有非非结构性文本本和公式,如如何利用“大大数据”技术术对文献内容容进行分析,挖挖掘用户访问问日志、评价价反馈等数据据的价值,为为用户提供服服务成为科技技信息服务业业急
44、需思考和和解决的问题题。在科技文文献信息处理理中,文本分分析技术、语语义计算技术术、数据安全全需要与“大大数据”解决决方案结合起起来考虑实施施,这样才能能更有效地提提供知识服务务。7. 大数据处处理技术发展展前景:随着大数据时代代的来临,应应用越来越广广,其发展前前景是很光明明的。7.1 大数据据复杂度降低低大数据技术的落落地将会有两两个特点:一一个是对MaapReduuce依赖越越来越少,另另外一个是会会把Hadooop技术深深入的应用到到企业的软件件架构中。对对于第一个特特点,像Cllouderra的Imppala和微微软的PollyBasee这样的软件件会得到充分分发展,他们们绕开了Ma
45、apReduuce,直接接对存在HDDFS中的数数据进行处理理。对于第二二个特点,大大规模的使用用Hadooop是个必然然趋势,渐渐渐的就会形成成行业的标准准,进而成为为更有价值的的软件基础,而而不仅是自己己内部使用。7.2 大数据据细分市场大数据相关技术术的发展,将将会创造出一一些新的细分分市场。例如如,以数据分分析和处理为为主的高级数数据服务,将将出现以数据据分析作为服服务产品提交交的分析即服服务(AnaalyzeasaServiice)业务务;将多种信信息整合管理理,创造对大大数据统一的的访问和分析析的组件产品品;基于社交交网络的社交交大数据分析析;甚至会出出现大数据技技能的培训市市场,
46、教授数数据分析课程程等。7.3 大数据据开源开源软件为大数数据市场带来来更多机会。与与人们的传统统理解不同,大大数据市场开开源软件的盛盛行不会抑制制市场的商业业机会,相反反开源软件将将会给基础架架构硬件、应应用程序开发发工具、应用用、服务等各各个方面的相相关领域带来来更多的机会会。7.4 Haadoop将将加速发展做为大数据领域域的代表技术术,许多企业业都把明年的的计划聚焦在在Hadooop之上。据据预测,用户户对Hadooop的优化化将更注重硬硬件,同时,对对企业友好的的Hadooop技术市场场将达到前所所未有的高峰峰。从整体上上说,不仅是是Hadooop本身本会会得到迅猛的的发展,同时时H
47、adooop在多个数数据中心中的的配置和无缝缝集成技术也也将成为热门门。Hadooop的专业业知识正在飞飞速增长,但但是这方面优优秀的人才仍仍然很缺乏。基基于SQL的的Hadooop工具将会会得到持续发发展”。7.5 打包的的大数据行业业分析应用随着大数据逐渐渐走向各个行行业,基于行行业的大数据据分析应用需需求也日益增增长。未来几几年中针对特特定行业和业业务流程的分分析应用将会会以预打包的的形式出现,这这将为大数据据技术供应商商打开新的市市场。这些分分析应用内容容还会覆盖很很多行业的专专业知识,也也会吸引大量量行业软件开开发公司的投投入。7.6 大数据据分析的革命命性方法出现现在大数据分析上上,将出现革革命性的新方方法。就像计计算机和互联联网一样,大大数据可能是是新一波技术术革命。从前前的很多算法法和基础理论论可能会产生生理论级别的的突破。7.7 大数据据与云计算:深度度融合大数据处理离不不开云计算技技术,云计算算为大数据提提供弹性可扩扩展的基础设设施支撑环境境以及数据服服务的高效模模式,大数据据则为云计算算提供了新的的商业价值,大大数据技术与与云计算技术术必有更完美美的结合。同同样的,云计计算、物联网网、移动互联联网等新兴计计算形态,既既是产生大数数
限制150内