2022年分布式存储Hbase分析 .pdf
《2022年分布式存储Hbase分析 .pdf》由会员分享,可在线阅读,更多相关《2022年分布式存储Hbase分析 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 http:/-1-中国 科技论文在线分布式存储系统HBase 原理解析郝树魁*作者简介:郝树魁(1986),男,无职称,计算机应用技术.E-mail:(北京邮电大学信息与通信工程学院,北京 100876)摘要:随着数据量的膨胀和计算机硬件价格的下降,快速处理海量数据的需求促使了分布式计算的兴起和发展。Hadoop 除了提供分布式文件系统和支持MapReduce 的计算框架,还在这一计算框架上提供了可扩展的结构化数据的分布式存储系统HBase 等。本文在简要介绍HDFS 体系结构和MapReduce 逻辑数据流的基础上,解析了分布式存储系统HBase 的原理并对分布式存储系统的未来发展做出展望
2、。关键词:分布式计算,分布式存储,HBase,Hadoop,HDFS,MapReduce 中图分类号:TP392 Analysis of HBase Distributed Storage System Hao Shu Kui(School of Information and Communications Engineering,Beijing University of Posts and Telecommunications,Beijing 100876)Abstract:With the expansion of the amount of data and computer hard
3、ware prices fall,the needs of rapid processing mass data is prompting the development the distributed computing.The Hadoop framework provides distributed file system and supports MapReduce calculation,besides the extensibility of distributed storage system for structured data HBase.On the basis of g
4、iving the architecture of HDFS and the logical data streams of MapReduce,this paper briefly introduces the principle of HBase distributed storage system and proposes the future development of distributed storage system.Key words:Distributed computing;Distributed storage;HBase;Hadoop;HDFS;MapReduce 0
5、引言我们生活在一个数据爆炸的时代,并且每天都会新增巨大的数据,例如来自互联网、传媒和科学实验数据等。来自互联网数据中心(IDC)的报告,“数字地球”的数据量已经达到Zattebytes 的数量级。(其中 1ZB=1012byte)。对于电子商务、科学计算等行业来说,合理的存储和管理海量数据,并且从中提取数据的价值显得尤为重要。1数据存储和分析随着数据的膨胀,使用传统的磁盘和RDBMS(关系数据库管理系统)面临着越来越多的挑战。得益计算机硬件的发展,磁盘造价迅速下降的同时磁盘容量变的越来越大。同时,磁盘容量的变大提升存储量的同时也带来了一个问题,即磁盘寻址的时间通常远大于磁盘读取数据的时间。并且
6、,磁盘寻址性能的提升速度要慢于读取数据性能提高的速度。RDBMS适用于点查询和更新,对于提供索引的数据集提供低延迟的检索和更新小数据量的数据。RDBMS 管理符合预定于的Scheme的特定格式的结构化数据。但对于非结构化半结构化数据,松散的数据,RDBMS 并不高效。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -http:/-2-中国 科技论文在线2技术创新Google 公司三篇云计算的经典论文改变了人们处理海量数据的思索方式:即 BigTable-一个分布式的结构化数据存储系统;The Google File System;Google MapReduce。它们对H
7、adoop 的发展起到了很大启发作用。谈到 Hadoop,就不得不提到Lucene 和 Notch。Lucene不是一个应用程序,而是提供一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中来实现全文索引/搜索功能。Nutch 是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene 为 Nutch 提供文本索引和搜索的API,Nutch 不仅有搜索功能,还有数据抓起的功能。在Nutch0.8.0 版本之前,Hadoop 还属于 Nutch 的一部分,而从 Nutch0.8.0 版本开始,将其中实现的NDFS 和 MapReduce 剥离出来成立了一个新
8、的Apache 开源项目,这就是Hadoop。Nutch0.8.0 版本较之前的Nutch 在架构上有了根本性的变化,那就是完全构建在Hadoop 基础之上。1在 Hadoop 中实现了 Google 的 GFS(Google File System)、MapReduce 和 BigTable 算法,并相应的取名为HDFS、MapReduce 和 HBase,使Hadoop 成为了一个分布式的计算平台。其实,Hadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。Apache 的 Hadoop 的项目中包含了下列产品,如图所示:表
9、 1 Hadoop基本组成Pig 是在 MapReduce 上构建的查询语言,适用于大量并行计算。Chukwa 是基于 Hadoop集群中监控系统,简单来说就是一个“看门狗”(WatchDog)。Hive 是 DataWareHouse 和MapReduce 交集,适用于ETL 方面的工作。2HBase 是一个面向列的分布式存储系统。MapReduce 是 Google 提出的一种算法,用于超大型数据集的并行运算。HDFS 可以支持千万级的大型分布式文件系统。Zookeeper 提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统。Avro 是一个数据序列化系
10、统,设计用于支持大批量数据交换的应用。3Hadoop 的主要两个部分:HDFS 和 MapReduce 3.1 HDFS HDFS 即 Hadoop Distributed File System(Hadoop 分布式文件系统)。HDFS 是 GFS 的开源实现。HDFS 很适合大数据集的应用,并且提供了对数据读写的高吞吐率。HDFS 是以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件的集群上运行。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -http:/-2-中国 科技论文在线2技术创新Google 公司三篇云计算的经典论文改变了人们处理海量数据的思索方式
11、:即 BigTable-一个分布式的结构化数据存储系统;The Google File System;Google MapReduce。它们对Hadoop 的发展起到了很大启发作用。谈到 Hadoop,就不得不提到Lucene 和 Notch。Lucene不是一个应用程序,而是提供一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中来实现全文索引/搜索功能。Nutch 是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene 为 Nutch 提供文本索引和搜索的API,Nutch 不仅有搜索功能,还有数据抓起的功能。在Nutch0.8.0 版本之前,Ha
12、doop 还属于 Nutch 的一部分,而从 Nutch0.8.0 版本开始,将其中实现的NDFS 和 MapReduce 剥离出来成立了一个新的Apache 开源项目,这就是Hadoop。Nutch0.8.0 版本较之前的Nutch 在架构上有了根本性的变化,那就是完全构建在Hadoop 基础之上。1在 Hadoop 中实现了 Google 的 GFS(Google File System)、MapReduce 和 BigTable 算法,并相应的取名为HDFS、MapReduce 和 HBase,使Hadoop 成为了一个分布式的计算平台。其实,Hadoop 并不仅仅是一个用于存储的分布式
13、文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。Apache 的 Hadoop 的项目中包含了下列产品,如图所示:表 1 Hadoop基本组成Pig 是在 MapReduce 上构建的查询语言,适用于大量并行计算。Chukwa 是基于 Hadoop集群中监控系统,简单来说就是一个“看门狗”(WatchDog)。Hive 是 DataWareHouse 和MapReduce 交集,适用于ETL 方面的工作。2HBase 是一个面向列的分布式存储系统。MapReduce 是 Google 提出的一种算法,用于超大型数据集的并行运算。HDFS 可以支持千万级的大型分布式文
14、件系统。Zookeeper 提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统。Avro 是一个数据序列化系统,设计用于支持大批量数据交换的应用。3Hadoop 的主要两个部分:HDFS 和 MapReduce 3.1 HDFS HDFS 即 Hadoop Distributed File System(Hadoop 分布式文件系统)。HDFS 是 GFS 的开源实现。HDFS 很适合大数据集的应用,并且提供了对数据读写的高吞吐率。HDFS 是以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件的集群上运行。名师资料总结-精品资料欢迎下载-名师精心整理
15、-第 3 页,共 8 页 -http:/-2-中国 科技论文在线2技术创新Google 公司三篇云计算的经典论文改变了人们处理海量数据的思索方式:即 BigTable-一个分布式的结构化数据存储系统;The Google File System;Google MapReduce。它们对Hadoop 的发展起到了很大启发作用。谈到 Hadoop,就不得不提到Lucene 和 Notch。Lucene不是一个应用程序,而是提供一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中来实现全文索引/搜索功能。Nutch 是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,
16、Lucene 为 Nutch 提供文本索引和搜索的API,Nutch 不仅有搜索功能,还有数据抓起的功能。在Nutch0.8.0 版本之前,Hadoop 还属于 Nutch 的一部分,而从 Nutch0.8.0 版本开始,将其中实现的NDFS 和 MapReduce 剥离出来成立了一个新的Apache 开源项目,这就是Hadoop。Nutch0.8.0 版本较之前的Nutch 在架构上有了根本性的变化,那就是完全构建在Hadoop 基础之上。1在 Hadoop 中实现了 Google 的 GFS(Google File System)、MapReduce 和 BigTable 算法,并相应的取
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年分布式存储Hbase分析 2022 年分 存储 Hbase 分析
限制150内