大数据平台介绍.pptx
《大数据平台介绍.pptx》由会员分享,可在线阅读,更多相关《大数据平台介绍.pptx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 大数据平台介绍大数据二零一五年七月12目录HadoopHadoop大数据生态圈介绍大数据生态圈介绍大数据应用介绍大数据应用介绍3Cloudera ManagerCloudera Manager介绍介绍HadoopHadoop大数据生态圈大数据生态圈 Hadoop生态圈 Hadoop简介Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数
2、据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop能解决哪些问题海量数据需要及时分析和处理。海量数据需要深入分析和挖掘。数据需要长期保存问题:磁盘IO成为一种瓶颈,而非CPU资源。网络带宽是一种稀缺资源硬件故障成为影响稳定的一大因素 HDFS适应条件HDFS:为以流式数据访问模式存储超大文件而设计的文件系:为以流式数据访问模式存储超大文件而设计的文件系统统。流式数据访问 指的是几百MB,几百GB,几百TB,甚至几百PB流式数据访问 HDFS建立的思想是:一次写入、多次读取模式是最高 效的。商用硬件 hadoop不需要运行在昂贵并且高可靠的硬件上。HDFS不适应条件低延迟数据
3、访问 HDFS是为了达到高数据吞吐量而优化的,这是以延迟为代价的,对于低延迟访问,可以用Hbase(hadoop的子项目)。大量的小文件多用户写入,任意修改 HDFS基本单元Block(块):HDFS基本储存单元,是个逻辑单元。一个文件有可能包含多个块,一个块有可以包含多个文件,由文件的大小和块大小的参数决定。参数。Hdfs中Block的大小,默认64MB,如果设置大,就会有可能导致Map运行慢,设置小,有可能导致Map个数多,所有一定要设置适当。(目前主流机器建议设置为128M)设置一个Block 64MB,如果上传文件小于该值,仍然会占用一个Block的命名空间(NameNode meta
4、data),但是物理存储上不会占用64MB的空间Block大小和副本数由Client端上传文件到HDFS时设置,其中副本数可以变更,Block是不可以再上传后变更的 HDFS处理机制Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。NameNode:Master节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedit
5、s,推送给NameNode;紧急情况下,可辅助恢复NameNode,但Secondary NameNode并非NameNode的热备 HDFS文件读取 MapReduce简介简介MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。MapReduce将分析任务分为大量的并行Map任务和Reduce任务两类。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。结构化、半结构化、非结构化数据结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)不方便用数据库二维逻辑表来表现的数据即称为非
6、结构化数据(包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等)所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。MapReduce简介适合处理的任务适用于离线批处理任务是以“行”为处理单位的,无法回溯已处理过的“行”,故每行都必须是一个独立的语义单元,行与行之间不能有语义上的关联。相对于传统的关系型数据库管理系统,MapReduce计算模型更适合于处理半结构化或无结构话的数据。不适
7、合处理的任务不适合一般web应用不适合实时响应的任务不适合小数据集的处理不适合需要大量临时空间的任务不适合CPU密集且具有许多交叉调用的任务 MapReduce工作原理MapReduce执行流程MapReduce角色Client:作业提交发起者。JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业。TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。任务的分配TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的。TaskTracker会主动向JobTracker询问是否有作业要做
8、,如果自己可以做,那么就会申请到作业任务,这个任务可以使Map也可能是Reduce任务。MapReduce工作原理任务的执行申请到任务后,TaskTracker会做如下事情:拷贝代码到本地拷贝任务的信息到本地启动JVM运行任务状态与任务的更新任务在运行过程中,首先会将自己的状态汇报给TaskTracker,然后由TaskTracker汇总告之JobTracker。作业的完成JobTracker是在接受到最后一个任务运行完成后,才会将任务标志为成功。此时会做删除中间结果等善后处理工作。MapReduce工作原理 Hadoop实例根据URL的顶级域名进行分类统计输入、输出格式:文件源文件格式如下:
9、统计目标:Hadoop实例1.编写MapReduce函数,客户端作业Map函数 Hadoop实例Reduce函数Job设置 Hadoop实例编译、打包成jar文件略3.源文件提交到HDFS文件系统文件从本地提交到HDFS文件系统put命令查看HDFS文件系统中已提交的文件 Hadoop实例使用Hadoop命令提交作业提交作业查看作业http:/localhost:50030 Hadoop实例查看执行结果查看执行结果生成的文件查看HDFS文件系统中的结果HDFS文件拷贝到本地,查看结果 Hive简介Hive是什么lhive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 介绍
限制150内