2022年分布式数据 .pdf
《2022年分布式数据 .pdf》由会员分享,可在线阅读,更多相关《2022年分布式数据 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3 分布式数据库31 基本概念A.定义:分布式数据库(英文名称:distributed database;简称 DDB)是指数据分存在计算机网络中的各台计算机上的数据库。目前,大多数为 NoSQL这类的非关系型的数据库。B 关系型数据库:常用的关系模型有实体关系模型,简称 E-RModel。CNoSQL数据库:非关系型、分布式、不提供ACID。不使用 SQL作为查询语言,且数据不再以表格模型存储。D特征:高可扩展性、高并发性、高可用性。E优点:更高的访问速度、更强的可扩展性、更高的并发访问量。FCAP定理:CAP原则是 NOSQL数据库的基石。Consistency(一致性)。Availabi
2、lity(可用性)。Partition tolerance(分区容错性)。Cap定理是说上述三个最多只能实现两个,而其中分区容忍性是必须要实现的。3.2 开源项目3.2.1HBase名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 5 页 -A定义:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase基于列的而不是基于行的模式。它使用 HadoopHDFS作为文件存储系统,使用 HadoopMapReduce处理海量数据,利用 Zookeeper作为自己的协调系统。B定位:用于普通商用硬件
3、上存储大规模的数据表,表的特点为:可以有十几亿行、上百万列;每行有一个可以排序的行健(row key)和任意多个列,列可以动态添加;面向列(簇)的存储和权限控制,列独立检索;空列存储不占空间,所以可以设计的比较稀疏;数据以原生的字节数组形式存储,所以任何类型数据都可以保存。C设计特征:模块化、可以线性扩展;读写一致性;自动分片;自动故障转移;多种API支持;操作管理简单;行事务(同一行的、列的写入都是原子操作);和 Hadoophdfs 无缝集成;支持MapReduce。D数据模型的操作:主要是四种:get、put、scan、delete。在 API层次上,都可以通过HTable实例来执行上述
4、操作。E集群架构:在底层,HBase所有信息都保存在hdfs 中,HBase是构建在 hdfs 之上的分布式数据库。FHBase集群由运行在集群上的一组守护进程组成,包括hmaster、hregionserver、zookeeper进程。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 5 页 -其中,Zookeeper是维护进程的;hmaster是 master 节点的主进程,主要负责 table 和 region 的管理;hregionserver负责相应用户的I/O 请求,读写数据;G与 hdfs 的关系:hdfs 不能进行单个记录的查找、更新等操作,且不通用。Hbase则提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年分布式数据 2022 年分 数据
限制150内