大数据处理技术研究2416130.docx





《大数据处理技术研究2416130.docx》由会员分享,可在线阅读,更多相关《大数据处理技术研究2416130.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、郑州轻工业学院课程设计说明书题目: 大数数据处理技术术研究 姓 名: 王超 田启森 院 (系): 计算机与通通信工程 专业班级: 计计算机科学与与技术 学 号: 544100700101388 54100070100137 指导教师: 钱慎慎一 成 绩: 时间: 20113年6月 26 日至 2013 年 6 月27日目录1.摘要:42. 大数据概况;43. 大数据定义:54. 大数据技术的发展:55. 大数据技术组成:85.1 分析技术85.1.1 可视化分析95.1.2 数据挖掘算法95.1.3 预测分析能力95.1.4 语义引擎95.1.5 数据质量和数据管理95.2 存储数据库105.
2、3 分布式计算技术116. Hadoop-大数据处理的核心技术136.1 Hadoop的组成136.2 Hadoop的优点:166.2.1 高可靠性。166.2.2 高扩展性。176.2.3 高效性。176.2.4 高容错性。176.3 Hadoop的不足176.4 主要商业性“大数据”处理方案186.4.1 IBM InfoSphere大数据分析平台186.4.2 Or a c l e Bi g Da t aApplianc196.4.3 Mi c r o s o f t S QLServer196.4.4 Sybase IQ206.5 其他“大数据”解决方案206.5.1 EMC206.5
3、.2 BigQuery206.6 “大数据”与科技文献信息处理217. 大数据处理技术发展前景:217.1 大数据复杂度降低217.2 大数据细分市场227.3 大数据开源227.4 Hadoop将加速发展227.5 打包的大数据行业分析应用227.6 大数据分析的革命性方法出现237.7 大数据与云计算:深度融合237.8 大数据一体机陆续发布238 结语;239 参考文献:231. 摘要:大数据浪潮汹涌涌来袭,与互互联网的发明明一样,这绝绝不仅仅是信信息技术领域域的革命,更更是在全球范范围启动透明明政府、加速速企业创新、引引领社会变革革的利器。2. 大数据概概况;大数据,IT行行业的又一次
4、次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。数据技术发展历历史如图一所所示:图一3. 大数据定定义:“大数据”是一一个涵盖多种种技术的概念念,简单地说说,是指无法法在一定时间间内用常规软软件工具对其其内容进行抓抓取、管理和和处理的数据据集合。IBBM将“大数数据”理念定定义为4个V
5、V,即大量化化(Voluume)、多多样化(Vaarietyy)、快速化化(Veloocity)及由此产生生的价值(VValue)。如图二;图二4. 大数据技技术的发展:大数据技术描述述了一种新一一代技术和构构架,用于以以很经济的方式式、以高速的的捕获、发现现和分析技术术,从各种超超大规模的数数据中提取价价值,而且未来急急剧增长的数数据迫切需要要寻求新的处处理技术手段段。如图三所示:图三在“大数据”(Big ddata)时时代,通过互互联网、社交交网络、物联联网,人们能能够及时全面面地获得大信息。同时时,信息自身身存在形式的的变化与演进进,也使得作作为信息载体体的数据以远远超人们想象象的速度迅
6、速速膨胀。云时代的到来使使得数据创造造的主体由企企业逐渐转向向个体,而个个体所产生的的绝大部分数数据为图片、文文档、视频等等非结构化数数据。信息化化技术的普及及使得企业更更多的办公流流程通过网络络得以实现,由由此产生的数数据也以非结结构化数据为为主。预计到到2012年年,非结构化化数据将达到到互联网整个个数据量的775%以上。用用于提取智慧慧的“大数据据”,往往是是这些非结构构化数据。传传统的数据仓仓库系统、BBI、链路挖挖掘等应用对对数据处理的的时间要求往往往以小时或或天为单位。但但“大数据”应应用突出强调调数据处理的的实时性。在在线个性化推推荐、股票交交易处理、实实时路况信息息等数据处理理
7、时间要求在在分钟甚至秒秒级。全球技术研究和和咨询公司GGartneer将“大数数据”技术列列入20122年对众多公公司和组织机机构具有战略略意义的十大大技术与趋势势之一,而其其他领域的研研究,如云计计算、下一代代分析、内存存计算等也都都与“大数据据”的研究相相辅相成。GGartneer在其新兴兴技术成熟度度曲线中将“大大数据”技术术视为转型技技术,这意味味着“大数据据”技术将在在未来355年内进入主主流。而 “大数据”的的多样性决定定了数据采集集来源的复杂杂性,从智能能传感器到社社交网络数据据,从声音图图片到在线交交易数据,可可能性是无穷穷无尽的。选选择正确的数数据来源并进进行交叉分析析可以为
8、企业业创造最显著著的利益。随随着数据源的的爆发式增长长,数据的多多样性成为“大大数据”应用用亟待解决的的问题。例如如如何实时地地及通过各种种数据库管理理系统来安全全地访问数据据,如何通过过优化存储策策略,评估当当前的数据存存储技术并改改进、加强数数据存储能力力,最大限度度地利用现有有的存储投资资。从某种意意义上说,数数据将成为企企业的核心资资产。“大数据”不仅仅是一场技术术变革,更是是一场商业模模式变革。在在“大数据”概概念提出之前前,尽管互联联网为传统企企业提供了一一个新的销售售渠道,但总总体来看,二二者平行发展展,鲜有交集集。我们可以以看到,无论论是Googgle通过分分析用户个人人信息,
9、根据据用户偏好提提供精准广告告,还是Faaceboook将用户的的线下社会关关系迁移在线线上,构造一一个半真实的实名名帝国,但这这些商业和消消费模式仍不不能脱离互联联网,传统企企业仍无法嫁嫁接到互联网网中。同时,传传统企业通过过传统的用户户分析工具却却很难获得大大范围用户的的真实需求。企业从大规模制制造过渡到大大规模定制,必必须掌握用户户的需求特点点。在互联网网时代,这些些需求特征往往往是在用户户不经意的行行为中透露出出来的。通过过对信息进行行关联、参照照、聚类、分分类等方法分分析,才能得得到答案。“大数据”在互互联网与传统统企业间建立立一个交集。它它推动互联网网企业融合进进传统企业的的供应链
10、,并并在传统企业业种下互联网网基因。传统统企业与互联联网企业的结结合,网民和和消费者的融融合,必将引引发消费模式式、制造模式式、管理模式式的巨大变革革。大数据正成为IIT行业全新新的制高点,各各企业和组织织纷纷助推大大数据的发展展,相关技术术呈现百花齐齐放局面,并并在互联网应应用领域崭露露头角,具体体情况如下图图四所示:图四大数据将带来巨巨大的技术和和商业机遇,大大数据分析挖挖掘和利用将将为企业带来来巨大的商业业价值,而随随着应用数据据规模急剧增增加,传统计计算面临严重重挑战,大规规模数据处理理和行业应用用需求日益增增加和迫切出出现越来越多多的大规模数数据处理应用用需求,传统统系统难以提提供足
11、够的存存储和计算资资源进行处理理,云计算技技术是最理想想的解决方案案。调查显示示:目前,IIT专业人员员对云计算中诸多多关键技术最最为关心的是是大规模数据据并行处理技技术大数据并并行处理没有有通用和现成成的解决方案案对于应用行行业来说,云云计算平台软软件、虚拟化化软件都不需需要自己开发发,但行业的的大规模数据据处理应用没没有现成和通用的的软件,需要要针对特定的的应用需求专专门开发,涉涉及到诸多并并行化算法、索索引查询优化化技术研究、以以及系统的设设计实现,这这些都为大数数据处理技术术的发展提供供了巨大的驱动力力,5. 大数据据技术组成:大数据技术由四四种技术构成成,它们包括括:5.1 分析析技
12、术分析技术意味着着对海量数据据进行分析以以实时得出答答案,由于大大数据的特殊殊性,大数据据分析技术还还处于发展阶阶段,老技术术会日趋完善善,新技术会会更多出现。大大数据分析技技术涵盖了以以下的的五个方面5.1.1 可视化分析析数据可视化无论论对于普通用用户或是数据据分析专家,都都是最基本的的功能。数据据图像化可以以让数据自己己说话,让用用户直观的感感受到结果。5.1.2 数据挖掘算算法图像化是将机机器语言翻译译给人看,而而数据挖掘就就是机器的母母语。分割、集集群、孤立点点分析还有各各种各样五花花八门的算法法让我们精炼炼数据,挖掘掘价值。这些些算法一定要要能够应付大大数据的量,同同时还具有很很高
13、的处理速速度。5.1.3 预测分析能能力数据挖掘可以让让分析师对数数据承载信息息更快更好地地消化理解,进进而提升判断断的准确性,而而预测性分析析可以让分析析师根据图像像化分析和数数据挖掘的结结果做出一些些前瞻性判断断。5.1.4 语义引擎非结构化数据的的多元化给数数据分析带来来新的挑战,我我们需要一套套工具系统的的去分析,提提炼数据。语语义引擎需要要设计到有足足够的人工智智能以足以从从数据中主动动地提取信息息。5.1.5 数据质量和和数据管理数据质量与管理理是管理的最最佳实践,透透过标准化流流程和机器对对数据进行处处理可以确保保获得一个预预设质量的分分析结果。我们知道大数据据分析技术最最初起源
14、于互互联网行业。网网页存档、用用户点击、商商品信息、用用户关系等数数据形成了持持续增长的海海量数据集。这这些大数据中中蕴藏着大量量可以用于增增强用户体验验、提高服务务质量和开发发新型应用的的知识,而如如何高效和准准确的发现这这些知识就基基本决定了各各大互联网公公司在激烈竞竞争环境中的的位置。首先先,以Gooogle为首首的技术型互互联网公司提提出了MappReducce的技术框框架,利用廉廉价的PC服服务器集群,大大规模并发处处理批量事务务。利用文件系统存存放非结构化化数据,加上上完善的备份份和容灾策略,这这套经济实惠惠的大数据解解决方案与之之前昂贵的企企业小型机集集群+商业数数据库方案相相比
15、,不仅没没有丢失性能能,而且还赢赢在了可扩展展性上。之前前,我们在设设计一个数据据中心解决方方案的前期,就就要考虑到方方案实施后的的可扩展性。通通常的方法是是预估今后一一段时期内的的业务量和数数据量,加入入多余的计算算单元(CPPU)和存储储,以备不时时只需。这样的方式直接接导致了前期期一次性投资资的巨大,并并且即使这样样也依然无法法保证计算需需求和存储超超出设计量时时的系统性能能。而一旦需需要扩容,问问题就会接踵踵而来。首先先是商业并行行数据库通常常需要各节点点物理同构,也也就是具有近近似的计算和和存储能力。而而随着硬件的的更新,我们们通常加入的的新硬件都会会强于已有的的硬件。这样样,旧硬件
16、就就成为了系统统的瓶颈。为为了保证系统统性能,我们们不得不把旧旧硬件逐步替替换掉,经济济成本损失巨巨大。其次,即即使是当前最最强的商业并并行数据库,其其所能管理的的数据节点也也只是在几十十或上百这个个数量级,这这主要是由于于架构上的设设计问题,所所以其可扩展展性必然有限限。而MappReducce+GFSS框架,不受受上述问题的的困扰。需要要扩容了,只只需增加个机机柜,加入适适当的计算单单元和存储,集集群系统会自自动分配和调调度这些资源源,丝毫不影影响现有系统统的运行5.2 存储数数据库存储数据库(IIn-Memmory DDatabaases)让让信息快速流流通,大数据据分析经常会会用到存储
17、数数据库来快速速处理大量记记录的数据流流通。比方说说,它可以对对某个全国性性的连锁店某某天的销售记记录进行分析析,得出某些些特征进而根根据某种规则则及时为消费费者提供奖励励回馈。但传统的关系型型数据库严格格的设计定式式、为保证强强一致性而放放弃性能、可可扩展性差等等问题在大数数据分析中被被逐渐暴露。随随之而来,NNoSQL数数据存储模型型开始风行。NoSQLL,也有人理理解为Nott Onlyy SQL,并并不是一种特特定的数据存存储模型,它它是一类非关关系型数据库库的统称。其其特点是:没没有固定的数数据表模式、可可以分布式和和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的
18、一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等NoSQL数数据库是一种种建立在云平平台的新型数数据处理模式式,NoSQLL在很多情况况下又叫做云云数据库。由由于其处理数数据的模式完完全是分布于于各种低成本本服务器和存存储磁盘,因因此它可以帮帮助网页和各各种交互性应应用快速处理理过程中的海海量数据。它它为Zyngga、AOLL、Ciscco以及其它它一些企业提提供网页应用用支持。正常常的数据库需需要将数据进进行归类组织织,类似于姓姓名和帐号这些数据据需要进行结结构化和标签签化。但是NNoSQL数数据库则完全全不关心这些些,它能处理理各种类型的的文
19、档。在处理海量数据据同时请求时时,它也不会会有任何问题题。比方说,如如果有10000万人同时时登录某个ZZynga游游戏,它会将将这些数据分分布于全世界界的服务器并并通过它们来来进行数据处处理,结果与与1万人同时时在线没什么么两样。现今今有多种不同同类型的NooSQL模式式。商业化的的模式如Coouchbaase、100gen的mmongoDDB以及Orracle的的NoSQLL;开源免费费的模式如CCouchDDB和Casssandrra;还有亚亚马逊最新推推出的NoSSQL云服务务。5.3 分布式式计算技术分布式计算结合合了NoSQQL与实时分分析技术,如果想要同同时处理实时时分析与Noo
20、SQL数据据功能,那么么你就需要分分布式计算技技术。分布式式技术结合了了一系列技术术,可以对海海量数据进行行实时分析。更更重要的是,它它所使用的硬硬件非常便宜宜,因而让这这种技术的普普及变成可能能。SGI的的Sunnyy Sunddstromm解释说,通通过对那些看看起来没什么么关联和组织织的数据进行行分析,我们们可以获得很很多有价值的的结果。比如如说可以分发发现一些新的的模式或者新新的行为。运运用分布式计计算技术,银银行可以从消消费者的一些些消费行为和和模式中识别别网上交易的的欺诈行为。分布式计算技术术让不可能变变成可能,分布式计算算技术正引领领着将不可能能变为可能。SSkyboxx Ima
21、gging就是是一个很好的的例子。这家家公司通过对对卫星图片的的分析得出一一些实时结果果,比如说某某个城市有多多少可用停车车空间,或者者某个港口目目前有多少船船只。它们将将这些实时结结果卖给需要要的客户。没没有这个技术术,要想快速速便宜的分析析这么大量卫卫星图片数据据将是不可能能的。如图五所示:图五分布式计算技术术是Googgle的核心心,也是Yaahoo的基基础,目前分布式式计算技术是是基于Gooogle创建建的技术,但但是却最新由由Yahooo所建立。GGooglee总共发表了了两篇论文,22004年发发表的叫做MMapRedduce的论论文介绍了如如何在多计算算机之间进行行数据处理;另一
22、篇于22003年发发表,主要是是关于如何在在多服务器上上存储数据。来来自于Yahhoo的工程程师Dougg Cuttting在读读了这两篇论论文后建立了了分布式计算算平台,以他他儿子的玩具具大象命名。如图六所示图六而Hadoopp作为一个重重量级的分布布式处理开源源框架已经在在大数据处理理领域有所作作为6. Hadooop-大数据处处理的核心技技术大数据技术涵盖盖了硬软件多多个方面的技技术,目前各各种技术基本本都独立存在在于存储、开开发、平台架架构、数据分分析挖掘的各各个相对独立立的领域。这这一部分主要要介绍和分析析大数据处理理的核心技术术Haddoop。6.1 Haadoop的的组成大数据不
23、同于传传统类型的数数据,它可能能由TB甚至PB级信息组组成,既包括括结构化数据据,也包括文文本、多媒体体等非结构化化数据。这些些数据类型缺缺乏一致性,使使得标准存储储技术无法对对大数据进行行有效存储,而而且我们也难难以使用传统统的服务器和和SAN方法来来有效地存储储和处理庞大大的数据量。这这些都决定了了“大数据”需需要不同的处处理方法,而而Hadooop目前正是是广泛应用的的大数据处理理技术。Haadoop是是一个基于Javaa的分布式密密集数据处理理和数据分析析的软件框架架。该框架在在很大程度上上受Googgle在2004年白白皮书中阐述述的MapRReducee的技术启发发。Hadooop
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 技术研究 2416130

限制150内