欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于hadoop数据仓库.ppt

    • 资源ID:79289165       资源大小:1.52MB        全文页数:32页
    • 资源格式: PPT        下载积分:11.9金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要11.9金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于hadoop数据仓库.ppt

    基于hadoop的数据仓库技术目录Hadoop简介HDFS(Hadoop Distributed File System)MapReduceHive本文的内容主要来自三篇hadoop领域的核心论文1、HiveA Petabyte Scale Data Warehouse Using Hadoop2、MapReduce and Parallel DBMSs:Friends or Foes3、Cheetah:A High Performance,Custom Data Warehouse on Top of MapReduce历史2002-2004:Apache Nutch2004-2006:Google 发表 GFS 和 MapReduce相关论文Apache 在Nutch中实现HDFS和MapReduce2006-2008:Hadoop 项目从Nutch中分离2008年7月,Hadoop赢得Terabyte Sort BenchmarkDoug CuttingHadoop项目负责人Hadoop简介nHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。Hadoop简介nHadoop是 Apache 的一个开源软件项目,由Doug Cutting在2004年开始开发。nHadoop是一个海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS、MapReduce、HBase、Hive、Pig 和 ZooKeeper,其中HDFS是Google的GFS开源版本,HBase 是Google的 BigTable开源版本,ZooKeeper是Google的Chubby开源版本。nHadoop在大量的公司中被使用和研究Hadoop的体系架构Hadoop由以下几个部件组成由以下几个部件组成:Hadoop Common:The common utilities that support the other Hadoop subprojects.Avro:A data serialization system that provides dynamic integration with scripting languages.Chukwa:A data collection system for managing large distributed systems.HBase:A scalable,distributed database that supports structured data storage for large tables.HDFS:A distributed file system that provides high throughput access to application data.Hive:A data warehouse infrastructure that provides data summarization and ad hoc querying.MapReduce:A software framework for distributed processing of large data sets on compute clusters.Pig:A high-level data-flow language and execution framework for parallel computation.ZooKeeper:A high-performance coordination service for distributed applications.Hadoop的体系架构Hadoop-HDFSpHDFS的结构按照GFS设计pA GFS cluster consists of a single master and multiplepchunkservers and is accessed by multiple clientsHDFSFault-tolerant,容错性Run on commodity hardware,在通用的机器上运行Scalable 可扩缩的 1个namenode多个datanodes1111HDFSNameNode存贮HDFS的元数据(metadata)管理文件系统的命名空间(namespace)创建、删除、移动、重命名文件和文件夹接收从DataNode来的Heartbeat 和 BlockreportDataNode存贮数据块执行从Namenode来的文件操作命令定时向NameNode发送Heartbeat和BlockreportHeartbeat和BlockreportNamenodeMetadata:Datanode 1Datanode 2Datanode 31133221,31,22,31313Data FlowFile Read131414Data FlowFile Write14MapReduce的原理编程模型(program model),软件包Map把要处理的数据组合成一个个的对(pair)Reduce把具有相同key的pair聚集在一起,计算一个新的value,从而得到一个新的并输出。MapReduce的原理Mapreduce控制控制数据流数据流一个Jobtracker多个tasktrackersMapReduceJobtraker(Master)接收任务(job)的提交提供任务的监控(monitoring)和控制(control)把job划分成多个tasks,交给Tasktracker执行,并管理这些tasks的执行Tasktracker(Worker)管理单个task的map任务和reduce任务的执行Word count:file0:hello worldfile1:hello mapreducefile2:bye byeInput filesfile0file2file1filesfiles目录Hadoop简介HDFS(Hadoop Distributed File System)MapReduceHiveHadoop的企业级应用What is HIVE数据仓库业务具有多样性、多变性和逻辑复杂性,传统的Parallel DBMSs只能使用SQL语句,语言表达力不够应付现有的类似google,facebook等的数据仓库需求(若使用UDF或UDA自己定义aggregate,则失去了其强大的优化功能),而自己定制的maper和reducer的代码较为低层比较繁琐且重用性也不好,所以就有了Hive,提供一个类SQL的编程接口,简单又不失灵活性,且基于map-reduce.What is HIVE(论文翻译)hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层;提供类似SQL的语言(HQL),通过hadoop-mapreduce完成数据计算;通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。(百科)hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HIVE架构1、操作界面:CLI,Web,Thrift2、driver:hive系统将用户操作转化为mapreduce计算的模块(重点)3、hadoop:hdfs+mapreduce4、metastore:存储元数据HIVE结合HBasereduce阶段写入HBase的方式 map-only job写入HBase的方式HIVE的实现hive的元数据存储在传统的RDBMS中,现在为mysql中。采用JDO(JPOX)。原因:访问这些Metadata,我们想要“很低的延时”,而存在hdfs中是无法满足。(元数据对hive是相当重要的,因此一般要求有备份机制)使用:元数据都是在HQL语句编译的时候,就被生成一个xml文件(包含此次编译所有需要的元数据信息)存储在hdfs中,然后运行mapreduce时传递给mapper和reducer。(减少后期访问)HIVE查询的优化过程GraphWalker遍历(walk)DAG中所有的Node,并检查一个Rule是否满足,在满足的条件下回出发一个对应的Processor。Dispatcher则维护Rule到Processor的映射,并进行Rule的匹配工作。HIVE查询的简单优化步骤1、列裁剪(Column pruning):只有需要用到的列 才进行输出2、谓词下推(Predicate pushdown):尽早进行数据过滤,减少后续处理的数据量3、分区裁剪(Partition pruning):只读取满足分区条件的文件4、map-join:对于join中一些小文件,可以在map阶段进行join操作5、join-reordering:将在reducer中进行join操作时的小table放入内存,而大table通过stream方式读取6、Group-by优化:进行局部聚合进行优化(包括hash-based和sort-based),对于skew的key(key的row num和size在reduce时非常不均)可以进行两次map-reduce的方式优化说明:基本上用于优化的提示(hint)都是一些配置项,map-join除外,需要具体在HQL直接指定。HIVE的physical plan的生成根据上一步优化的结果,分解成一些map/reduce操作,并将最终结果(即一些plan的xml文件)写入到hdfs。以论文的例子加以说明A.Thusoo,J.S.Sarma,N.Jain,Z.Shao,P.Chakka,N.Zhang,S.Antony,and H.Liu,“Hive A Petabyte Scale Data Warehouse Using Hadoop,”Architecture.FROM(SELECT a.status,b.school,b.gender FROM status_updates a JOIN profiles b ON(a.userid=b.userid AND a.ds=2009-03-20)subq1INSERT OVERWRITE TABLE gender_summary PARTITION(ds=2009-03-20)SELECT subq1.gender,COUNT(1)GROUP BY subq1.genderINSERT OVERWRITE TABLE school_summary PARTITION(ds=2009-03-20)SELECT subq1.school,COUNT(1)GROUP BY subq1.schoolHIVE的physical plan的生成The EndThank you k

    注意事项

    本文(基于hadoop数据仓库.ppt)为本站会员(wuy****n92)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开