欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据分析的时代.pdf

    • 资源ID:69616485       资源大小:335.45KB        全文页数:6页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据分析的时代.pdf

    大数据分析的时代大数据分析的时代+当数据以成百上千 TB 不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。c%全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。何谓大数据?何谓大数据?5 F3 k;i:O2 R,Q2?(G.i+H 大数据,也就是国外常说的 Big Data。大数据概括成了三个 V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),我们也可以认为,四个 V 高度概括了大数据的基本特征。业界比较一致对大数据的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。极具挑战性的是,传统的数据库部署不能处理数 TB 数据,也不能很好的支持高级别的数据分析。在几年中,Hadoop 平台和列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展,我们开始看到,技术升级带来的已知架构之间的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的 NoSQL 等平台。大数据分析的时代 本文中,我们将向大家介绍迄今为止,包括 EMC 的 Greenplum、Hadoop 和 MapReduce等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台 Vertica 数据仓库分析工具等。下面,就让我们来了解业界大数据分析的这些产品:1、模块化 EMC Appliance 处理多种数据类型 1、模块化 EMC Appliance 处理多种数据类型 7 B%f5 d!N7 S u+B8 p 2010 年 EMC 收购了 Greenplum,随后,利用 EMC 自身存储硬件和支持复制与备份功能的Greenplum 大规模并行处理(MPP)数据库,推出了 EMC Greenplum Data Computing Appliance(DCA)。通过与 SAS 和 MapR 等合作伙伴,DCA 扩大了对 Greenplum 的数据库支持。&0 X%J!)Z5 E$5 7 b#j 支持大数据分析的 EMC Appliance 今年 5 月,EMC 推出了自己的 Hadoop 软件工具,而且该公司还承诺,今年秋季发布的模块化 DCA 将支持 Greenplum SQL/关系型数据库,Hadoop 部署也能在同样的设备上得到支持。借助 Hadoop,EMC 能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。模块化的 DCA 也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。相对来说,EMC 的重点在利用 Greenplum 平台推进自身存储硬件的销售,在 Greenplum平台的演进过程中,逐步发现 MPP 架构的局限性,通过引入 Hadoop 的 MapReduce 架构,顺利解决了超大规模数据的处理的问题。2、Hadoop 和 MapReduce 提炼大数据2、Hadoop 和 MapReduce 提炼大数据 Hadoop 是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的 TB 甚至 PB 级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop 提供的 MapReduce(和其他一些环境)是处理大数据集理想解决方案。MapReduce 能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。y4 X#i)3 5 Q P.p5 j;m9 g)S x#i-p,E6 X!M1 v&:q MapReduce 结构图 Hadoop 可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头,比如 AOL、eHarmony(美国在线约会网站)、易趣、Facebook、Twitter 和 Netflix 大数据分析的主要解决方案。也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。3、惠普 Vertica 电子商务分析 3、惠普 Vertica 电子商务分析(V,g)P o,M,K;r6 q-|q#Q,M 今年二月被惠普收购的 Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86 硬件的 HP Vertica。通过 MPP 的扩展性可以让 Vertica 为高端数字营销、电子商务客户(比如 AOL、Twitter、Groupon)提供数据处理服务。$_/v)Z _3 Z h.H 惠普 Vertica 实时分析平台 其实,早在惠普收购之前,Vertica 就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增 Hadoop 链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica 支持惠普的云服务自动化解决方案。Vertica 自身高端数据应用的定位,限制了平台的应用范围和推广速度,但是利用其自身实时数据分析的特点,在交易风险分析中获得了一席之地。4、Infobright 减少 DBA 工作量和查询时间4、Infobright 减少 DBA 工作量和查询时间1|5 u9 P)m&f1 o:D;f Infobright 列存储数据库,旨在为数 TB 级别数据提供各类分析服务。InfoBright 还表示,建立在 MySQL 基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。0 L#f+O:n;z9 a 列存储数据库能够自动创建索引,而且无需进行数据分区和 DBA 调整。相比传统数据库,它可以减少 90%的人工工作量,而且由 于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。;V7 L$r8 M!p s)R/,H7 q-h3 G Knowledge Grid 查询引擎 InfoBright 最新的 4.0 版本产品,新增了一个 DomainExpert 的功能。企业用户可以借此忽略不断重复的那些数据,比如邮箱地址、URL 和 IP 地址。与此同时,公司还可以增加与呼叫记录、业务交易或者地理位置信息相关的数据。Kowledge Grid 查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。

    注意事项

    本文(大数据分析的时代.pdf)为本站会员(qwe****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开