分布式数据库总结.pdf
《分布式数据库总结.pdf》由会员分享,可在线阅读,更多相关《分布式数据库总结.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 1 页 共 13 页 分布式数据库总结 分布式数据库系统及其应用复习大纲 第一章 分布式数据库系统概述 1、理解分布式数据库系统的特点 分布式数据库系统的定义:分布式数据库系统,通俗地说,是物理上分散而逻辑上集中的数据库系统。分布式数据库系统使用计算机网络将地理位置分散而管理和控制又需要不同程度集中的多个逻辑单位(通常是集中是数据库系统)连接起来,共同组成一个统一的数据库系统。分布式数据库系统的特点:物理分布性:数据不是存放在一个站点上逻辑整体性:是与分散式数据库系统的区别站点自治性:是与多处理机系统的区别数据分布透明性集中与自治相结合的控制机制存在适当的数据冗余度事务管理的分布性 2、能
2、够按照不同标准描述分布式数据库系统的分类 按局部数据库管理系统的数据模型分类:同构性(homogeneous)(分为同构同质型和 同构异质型)DDBS 和异构性(heterogeneous)DDBS 按分布式数据库系统的全局控制系统类型分类:全局控制集中型 DDBS,全局控制分散型 DDBS,全局控制可变型 DDBS。3、理解分布式数据库中数据的独立性和分布透明性 第 2 页 共 13 页 所谓数据独立性是指用户或用户程序使用分布式数据库如同使用集中式数据库那样,不必关心全局数据的分布情况,包括全局数据的逻辑分片情况、逻辑片段站点位置的分配情况,以及各站点上数据库的数据模型等。也就是说,全局数
3、据的逻辑分片、片段的物理位置分配,各站点数据库的数据模型等情况对用户和用户程序透明。所以,在分布式数据库中分布独立性也称为分布透明性。分布透明性包括三个层次:分片透明性(完全分布透明性):映像 2 位置透明性(中级分布透明性):映像 3 局部数据模型透明性(低级分布透明性):映像 4 无分布透明性:异构数据 第二章 分布式数据库系统设计 1、理解分布式数据库的设计目标 分布式数据库设计的目标 1 分布式数据库的本地性或近地性 2控制数据的适当冗余 3 工作负 荷分布 4 存储的能力和费用 2、理解水平分片的定义、分类和应用 水平分片是对全局关系执行“选择操作”,把具有相同性质的元组进行分组,构
4、成若干个不相交的子集。水平分片的方法可归为初级分片和导出分片两类。初级分片:以关系自身的属性性质为基础,执行“选择”操作,将关系分为若干个不相交的片段。例子 2.1 S(S#,SNAME,AGE,SEX)第 3 页 共 13 页 Define fragment S1 as select*from where sex=M Define fragment S2 as select*from where sex=F 导出分片:全局关系的导出分片不是以其自身的属性性质为基础,而是从另一个关系的属性性质或水平片段推导出来的。采用导出分片可片可使片段与片段之间的“连接”变得更容易。例 2.3 设全局关系
5、SC(,GRADE),S(S#,SNAME,AGE,SEX)若要将划分 为男生的各门课成绩和女生的各门课成绩,这就不可能从 SC本身的属性性质来执行选择,必须从关系 S 的属性性质或水平片段来导出。Define fragment SC1 as select SC.S#,C#,GRADE from SC,S where SC.S#=S.S#and SEX=M Define fragment SC2 as select SC.S#,C#,GRADE from SC,S where SC.S#=S.S#and SEX=F 如果 S 已经进行水平分片,分为 SF 和 SM,分别为男生全体和女生全体,则
6、上述的片段定义可以基于片段 SF 和导出:Define fragment SC1 as select*from SC where S#in(select SF.S#from SF)Define fragment SC2 as select*from SC where S#in(select SM.S#from SM)3、理解垂直分片的定义和应用 第 4 页 共 13 页 一个全局关系的垂直分片是通过“投影”操作把它的属性分为若干组。确定一个全局关系 R 的垂直分片需要根据应用以“同样方式”(例如具有相同的使用频率)访问的属性来进行分组。例 2.4 全局关系 EMP(E#,NAME,SAL,TE
7、L,MAGNUM,DEPT),主码为 E#。主要应用有:集中在站点 3 上的管理性应用要求查询雇员的:NAME,SAL,TEL;和从其他站点发出的应用要求查询雇员的:NAME,DEPT,MAGNUM。解:如果使用垂直分片:EMP(E#,NAME,SAL,TEL)和EMP(E#,MAGNUM,DEPT)则 NAME 属性只属于一个片段,对于上述的应用,必须进行连接操作和非本地访问。如果使用垂直群集:EMP(E#,NAME,SAL,TEL)和 EMP(E#,NAME,MAGNUM,DEPT)则对于上述应用,不需要执行连接操作,且可实现较好的本地性。4、能够描述分片的基本原则 完备性原则:要把所有的
8、数据映射到各个片断中 可重构原则:关系分片后的各个片断可重构整个关系 不相交原则:关系分片后的各个片断不能重叠 5、掌握数据片断分配的分类和常用方法 分配的简化模型有:读代价、写代价、存储代价和目标函数。第 5 页 共 13 页 常用方法:非冗余分配设计方法(包含最佳适应法和其他方法)和冗余分配的设计方法(包含所有得益站点法和附加复制法)6、掌握最佳适应法和所有得益站点法的基本特点 最佳适应法是对每一种分配方式进行估算,然后选择最佳的站点。这种方法不考虑把一个片段与一个相关片段放在同一站点的“相互”影响。特点:将片断 Ri 分配到访问 Ri 次数最多的那个站点上 Bij=kFkj*Nki 所有
9、得益站点法:首先确定非复制为题的解,然后在全部站点中确定一组站点,给这组站点中的每一个站点分配片断的一个副本,这样做所得到的好处要比为此而付出的费用合算。特点:将片断 Ri 的副本分配到所有得益站点 j 上 Bij=kFkj*Rki-c*k jj Fkj*Uki 如果 Bij0,则站点 j 是得益站点,放置 Ri 的一个副本 7、能够描述 DATAID-D 方法设计分布式数据库的各个阶段 需求分析,概念设计,分布要求分析,全局逻辑设计,分布设计,局部逻辑设计,局部物理设计。逻辑设计分为全局逻辑设计和局部逻辑设计 8、能够根据给出的条件对关系进行具体分片,给出正确的限定关系 上边的例子。第三章
10、分布式数据库系统中的查询处理和优化 第 6 页 共 13 页 1、掌握分布式数据库查询的分类 局部查询、远程查询和全局查询 2、理解关系代数运算的交换率?1(2(R)=2(1(R)条件:1 2 是 选择操作 时总成立,1 2 是 投影操作 时要求其属性集合相等 1 与2 是投影和选择操作时:A1,?An(F(R)=F(A1,?An(R)的条件是 F 中的属性是 A1,?.An 的子集。R S=S R R S=S R R S=S R R S=S R R S?S R R -S?S-R 3、掌握直接连接优化算法的分类 利用站点依赖信息的算法,分片与复制算法,站点依赖和数据复制结合算法,Hash 划分
11、算法 4、掌握半连接运算 见例子 5、掌握半连接和直接连接查询优化算法的区别 取决于数据传输和局部处理的相对费用;如果传输费用是主要的,采用半连接;如果本地费用是主要的,采用直接连接,6、理解 Hash 划分算法的特点 数据传送量是 R;索引方面,比片段复制算法更低,每个站点的连接数据量同站点依赖 7、能够描述基于半连接算法查询优化的基本原理和步骤 基本原理是在传到另一个站点做连接前,消除与连接无关的数据,减少做连接操作的数据量,从而减小传输代价 第 7 页 共 13 页 步骤:计算每种半连接方案的代价,并从中选择一种最佳方案 选择传输代价最小的站点,计算采用全连接的方案的代价 比较两种方案,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 数据库 总结
限制150内