大数据技术基本原理及其应用.doc
《大数据技术基本原理及其应用.doc》由会员分享,可在线阅读,更多相关《大数据技术基本原理及其应用.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术原理及应用大数据处理架构Hadoop简介Hadoop项目包括了很多子项目,结构如下图n Common原名:Core,包含HDFS, MapReduce和其他公共项目,从Hadoop 0.21版本后,HDFS和MapReduce分离出去,其余部分内容构成Hadoop Common。Common为其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote procedure call) 和串行化库。n AvroAvro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中,代码生
2、成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽,Hadoop 的其他子项目(如HBase和Hive)的客户端和服务端之间的数据传输。n HDFS HDFS:是一个分布式文件系统,为Hadoop项目两大核心之一,是Google file system(GFS)的开源实现。由于HDFS具有高容错性(fault-tolerant
3、)的特点,所以可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口(POSIX,Portable Operating System Interface)的要求,这样就可以实现以流的形式访问文件系统中的数据。n MapReduceHadoop MapReduce是针对谷歌MapReduce的开源实现,它是一种编程模型,用于大规模数据集(大于1TB)的并行运算。“映射”(map)、“化简”(reduce)等概念和它们的主要思想都是从函数式编程语言中借来的。它使
4、得编程人员在不了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。MapReduce在执行时先指定一个map(映射)函数,把输入键值对映射成一组新的键值对,经过一定的处理后交给reduce,reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。核心思想就是“分而治之”。n HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于Google的论文“Bigtable:一个结构化数据的分布式存储系统”。如同Bigtable利用了Google文件系统(Google File System)提供的分布式数据存储方式一样,HBase在Hadoop之上
5、提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,其一,HBase是一个适合于存储非结构化数据的数据库;其二,HBase是基于列而不是基于行的模式。HBase和Bigtable使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase表示疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访问、实时读写的大数据。n HiveHive最早是由Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中的数据集的工具。Hive提供的是一种结构化数据的
6、机制,它支持类似于传统RDBMS中的SQL语言来帮助那些熟悉SQL的用户查询Hadoop中的数据,该查询语言称为Hive QL。与此同时,那些传统的MapReduce编程人员也可以在Mapper或Reducer中通过Hive QL查询数据。Hive编译器会把Hive QL编译成一组MapReduce任务,从而方便MapReduce编程人员进行Hadoop应用的开发。n PigPig是一个对大型数据集进行分析和评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig的底层由一个编译器组成,它在运行的时候会产生一些MapReduce程序序列
7、,Pig的语言层由一种叫做Pig Latin的正文型语言组成。n ChukwaChukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它同时继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据,并依赖于MapReduce任务处理数据。Chukwa中也附带了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好地利用所收集的数据。大数据存储存储的讲解分为四部分:HDFS, HBase, NoSQL 和云数据库n HDFS分布式文件系统简介相对于传统的本地文件系统而言,分布式文件系统是一种
8、通过网络实现文件在多台计算机上进行分布式存储的文件系统。分布式文件系统的设计一般采用“客户机/服务器”(client/server)模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求,客户端和服务器可以通过设置访问权来限制请求方对底层数据存储快的访问。在我们所熟悉的Windows、Linux操作系统中,文件系统一般会把磁盘空间划分为每512字节一组,称为“磁盘块”,它是文件系统读写操作的最小单位,文件系统的块(block)通常是磁盘块的整数倍,即每次读写的数据量必须是磁盘块大小的整数倍。分布式文件系统也采用了块的概念,HDFS默认的一个块的大小为64MB。与普通文件不同的是
9、,在分布式文件系统中,如果一个文件小于一个数据块的大小,它并不占用整个数据块的存储空间。分布式文件系统在物理结构上由计算机群中的多个节点构成,这些节点分为两类,一类叫“主节点”(master node)或者也称为“名称节点”(name node),另一类叫“从节点”(slave node)或者也被称为“数据节点”(data node)。名称节点负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块的映射关系,因此客户端只有访问名称节点才能找到请求的文件块所在的位置。数据节点负责数据的存储和读取,在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应的数据节点;在读取时,客户
10、端从名称节点获得数据节点和文件块的映射关系,然后就可以到相应位置访问文件块。计算机集群中的节点可能发生故障,因此,为了保障数据的完整性,分布式文件系统通常采用多副本存储。文件块会被复制为多个副本,存储在不同的节点上,而且,存储同一文件块的不同副本节点,会分布在不同机架上。HDFS简介在HDFS中,名称节点(name node)负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,即FsImage和EditLog。名称节点FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据,操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作。名称节点记录了每个文件中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 基本原理 及其 应用 利用 运用
限制150内