第2章 关系模型和关系运算理论.ppt
第2章 关系模型和关系运算理论 本章重要概念(一)(1)基本概念关系模型,关键码(主键和外键),关系的定义和性质,三类完整性规则,ER模型到关系模型的转换规则,过程性语言与非过程性语言。(2)关系代数五个基本操作,四个组合操作,七个扩充操作。本章重要概念(二)(3)关系演算元组关系演算和域关系演算的原子公式、公式的定义。关系演算的安全性和等价性。(4)关系代数表达式的优化关系代数表达式的等价及等价转换规则,启化式优化算法。(5)关系逻辑谓词、原子、规则和查询,规则的安全性,用规则模拟关系代数表达式。本章概要 l本章先介绍关系模型的基本概念;然后介绍关系运算的三种理论:关系代数、关系演算和关系逻辑。关系模型和关系运算理 l2.1 关系模型的基本概念 l2.2 关系代数 l2.3 关系演算 l2.4 关系代数表达式的优化 l2.5 关系逻辑 2.1 关系模型的基本概念 l2.1.1 基本术语 l2.1.2 关系的定义和性质l2.1.3 关系模型的三类完整性规则 l2.1.4 ER模型向关系模型的转换规则 l2.1.5 关系模型的三级体系结构 l2.1.6 关系模型的形式定义和优点 l2.1.7 关系查询语言和关系运算 返回基本术语(1)l定义2.1 用二维表格表示实体集,用关键码进行数据导航的数据模型称为关系模型(relational Model)。这里数据导航(data navigation)是指从已知数据查找未知数据的过程和方法。图2.1 职工登记表 基本术语(2)l 在关系模型中,字段称为属性,字段值称为属性值,记录类型称为关系模式。在图2.2中,关系模式名是R。记 录 称 为 元 组(tuple),元 组 的 集 合 称 为 关 系(relation)或实例(instance)。一般用大写字母A、B、C、表示单个属性,用大写字母、X、Y、Z表示属性集,用小写字母表示属性值,有时也习惯称呼关系为表或表格,元组为行(row),属性为列(column)。l关系中属性个数称为“元数”(arity),元组个数为“基数”(cardinality)。基本术语(3)l关系元数为5,基数为4 一般术语 关系模型术语字段、数据项属性记录类型关系模式记录1元组1记录2元组2记录3元组3记录4元组4字段值属性值图2.2 关系模型的术语 基本术语(4)l 关键码(key,简称键)由一个或多个属性组成。在实际使用中,有下列几种键。(1)超建(super Key)(2)候选键(candidate Key)(3)主键(primary Key)在图2.1中,(工号,姓名)是模式的一个超键,但不是候选键,而(工号)是候选键。在实际使用中,如果选择(工号)作为删除或查找元组的标志,那么称(工号)是主键。(4)外键(foreign Key)返回关系的定义和性质 l定义2.2 关系是一个属性数目相同的元组的集合。l 在关系模型中,对关系作了下列规范性限制:(1)关系中每一个属性值都是不可分解的;(2)关系中不允许出现重复元组(即不允许出现相同的元组);(3)由于关系是一个集合,因此不考虑元组间的顺序,即没有行序;(4)元组中的属性在理论上也是无序的,但使用时按习惯考虑列的顺序。返回关系模型的三类完整性规则(1)l 实体完整性规则(entity integrity rule)要求关系中元组在组成主键的属性上不能有空值。如果出现空值,那么主键值就起不了惟一标织元组的作用。关系模型的三类完整性规则(2)l参照完整性规则(reference integrity rule)l定义2.3 参照完整性规则的形式定义如下:如果属性集K是关系模式R1的主键,K也是关系模式R2的外键,那么在R2的关系中,K的取值只允许两种可能,或者为空值,或者等于R1关系中某个主键值。这条规则的实质是“不允许引用不存在的实体”。在上述形式定义中,关系模式R1的关系称为“参照关系”,关系模式R2的关系称为“依赖关系”。“主表”和“副表”,“父表”和“子表”。关系模型的三类完整性规则(3)l例2.1 下面各种情况说明了参照完整性规则在关系中如何实现的。在关系数据库中有下列两个关系模式:S(S#,SNAME,AGE,SEX)SC(S#,C#,GRADE)这里带下划线者为主键,带波浪线者为外键。据规则要求关系SC中的S#值应该在关系S中出现。如果关系SC中有一个元组(S7,C4,80),而学号S7却在关系S中找不到,那么我们就认为在关系SC中引用了一个不存在的学生实体,这就违反了参照完整性规则。另外,在关系SC中S#不仅是外键,也是主键的一部分,因此这里S#值不允许空。关系模型的三类完整性规则(4)设工厂数据库中有两个关系模式:DEPT(D#,DNAME)EMP(E#,ENAME,SALARY,D#)车间模式DEPT的属性为车间编号、车间名,职工模式EMP的属性为工号、姓名、工资、所在车间的编号。每个模式的主键与外键已标出。在EMP中,由于D#不在主键中,因此D#值允许空。关系模型的三类完整性规则(5)设课程之间有先修、后继联系。模式如下:R(C#,CNAME,PC#)其属性表示课程号、课程名、先修课的课程号。如果规定,每门课程的直接先修课只有一门,那么模式R的主键是C#,外键是PC#.。这里参照完整性在一个模式中实现。即每门课程的直接先修课必须在关系中出现。关系模型的三类完整性规则(6)l用户定义的完整性规则 在建立关系模式时,对属性定义了数据类型,即使这样可能还满足不了用户的需求。此时,用户可以针对具体的数据约束,设置完整性规则,由系统来检验实施,以使用统一的方法处理它们,不再由应用程序承担这项工作。例如学生的年龄定义为两位整数,范围还太大,我们可以写如下规则把年龄限制在1530岁之间:CHECK(AGE BETWEEN 15 AND 30)返回ER模型向关系模型的转换规则(1)lER模型向关系模型的转换,实际上就是把ER图转换成关系模式的集合。l规则2.1(实体类型的转换):将每个实体类型转换成一个关系模式,实体的属性即为关系模式的属性,实体标识符即为关系模式的键。l规则2.2(二元联系类型的转换)若实体间联系是1:1。若实体间联系是1:N。若实体间联系是M:N。ER模型向关系模型的转换规则(2)校名地址校长任职学校电话任职年月姓名性别年龄11职称图2.3 一对一联系 ER模型向关系模型的转换规则(3)系号系名教师聘用系电话聘期工号姓名性别年龄1N图2.4 一对多联系 ER模型向关系模型的转换规则(4)学号姓名课程学生年龄成绩课程号课程名教师名选课性别MN图2.5 多对多联系 返回关系模型的三级体系结构-关系模式 l在关系模型中,记录类型称为关系模式,而关系模式的集合就是数据库的概念模式。在系统实现时,关系模式和属性的命名一般都用英文单词。譬如图2.5的ER图转换成的关系模式集可用图2.6表示。而图2.7是这个关系模型的三个具体关系。关系模型的三级体系结构-子模式 l子模式是用户所用到的那部分数据的描述。除此之外,还应指出数据与关系模式中相应数据的联系。例如,用户需要用到子模式G(图2.8)。关系模型的三级体系结构-存储模式 图2.10 关系S和SC的环结构 在有些DBMS中,关系存储是作为文件看待的,每个元组就是一个记录。由于关系模式有键,因此存储一个关系可用散列方法或索引方法实现。如果关系的元组数目较少(100个以内),那么也可以用“堆文件”方式实现(即没有特定的次序)。此外,还可对任意的属性集建立辅助索引。关系模型的形式定义l 关系模型有三个重要组成部分:数据结构,数据操纵,数据完整性规则。(1)数据结构:数据库中全部数据及其相互联系都被组织成“关系”(二维表格)的形式。关系模型基本的数据结构是关系。(2)数据操纵:关系模型提供一组完备的高级关系运算,以支持对数据库的各种操作。关系运算分成关系代数、关系演算和关系逻辑等三类。(3)数据完整性规则:数据库中数据必须满足实体完整性,参照完整性和用户定义的完整性等三类完整性规则。关系模型的优点l与其它数据模型相比,关系模型突出的优点如下:(1)关系模型提供单一的数据结构形式,具有高度的简明性和精确性。(2)关系模型的逻辑结构和相应的操作完全独立于数据存储方式,具有高度的数据独立性。(3)关系模型使数据库的研究建立在比较坚实的数学基础上。(4)关系数据库语言与一阶谓词逻辑的固有内在联系,为以关系数据库为基础的推理系统和知识库系统的研究提供了方便。返回关系查询语言和关系运算 l关系数据库的数据操纵语言(DML)的语句分成查询语句和更新语句两大类。查询语句用于描述用户的各种检索要求;更新语句用于描述用户进行插入、删除、修改等操作。关于查询的理论称为“关系运算理论”。l关系查询语言根据其理论基础的不同分成三类:(1)关系代数语言。(2)关系演算语言。(3)关系逻辑语言。返回2.2 关系代数 l2.2.1 关系代数的五个基本操作 l2.2.2 关系代数的四个组合操作 l2.2.3 关系代数运算的应用实例 l2.2.4 关系代数的七个扩充操作 返回关系代数的五个基本操作(1)l 并(Union)设关系R和S具有相同的关系模式,R和S的并是由属于R或属于S的元组构成的集合,记为RS。形式定义如下:RSt|tR tS,t是元组变量,R和S的元数相同。l 差(Difference)设关系R和S具有相同的关系模式,R和S的差是由属于R但不属于S的元组构成的集合,记为RS。形式定义如下:RS t|tR tS,R和S的元数相同。关系代数的五个基本操作(2)l 投影(Projection)这个操作是对一个关系进行垂直分割,消去某些列,并重新安排列的顺序。设关系R是k元关系,R在其分量Ai1,Aim(mk,i1,im为1到k间的整数)上的投影用i1,im(R)表示,它是一个m元元组集合,形式定义如下:i1,im(R)t|tti1,timt1,tkR 例如,3,1(R)表示关系R中取第1、3列,组成新的关系,新关系中第1列为R的第3列,新关系的第2列为R的第1列。如果R的每列标上属性名,那么操作符的下标处也可以用属性名表示。例如,关系R(A,B,C),那么C,A(R)与3,1(R)是等价的。关系代数的五个基本操作(3)l 选择(Selection)选择操作是根据某些条件对关系做水平分割,即选取符合条件的元组。条件可用命题公式(即计算机语言中的条件表达式)F表示。F中有两种成分:l关系R关于公式F的选择操作用F(R)表示,形式定义如下:F(R)t|tR F(t)=true 为选择运算符,F(R)表示从R中挑选满足公式F为真的元组所构成的关系。例如,23(R)表示从R中挑选第2个分量值大于3的元组所构成的关系。书写时,为了与属性序号区别起见,常量用引号括起来,而属性序号或属性名不要用引号括起来。关系代数的五个基本操作(例)l例2.3 图2.12有两个关系R和S,图2.13的(a)、(b)表示RS和RS。(c)表示RS,此处R和S的属性名相同,就应在属性名前注上相应的关系名,例如R.A、S.A等。图2.13的(d)表示C,A(R),即3,1(R)。(e)表示B=b(R)。(a)关系R (b)关系S 图2.12 两个关系 关系代数的五个基本操作(例)(a)RS (b)RS(c)RS (d)C,A(R)(e)B=b(R)图2.13 关系代数操作的结果 返回关系代数的四个组合操作(1)l 交(intersection)关系R和S的交是由属于R又属于S的元组构成的集合,记为RS,这里要求R和S定义在相同的关系模式上。形式定义如下:RSttR tS,R和S的元数相同。由于RS=R-(R-S),或RS=S-(S-R),因此交操作不是一个独立的操作。在图2.12中,RS的结果是只有一个元组(d,a,f)。关系代数的四个组合操作(2)l联接(join)联接有两种:联接和F联接(这里是算术比较符,F是公式)。联接 R St t=trR tsS tr its j F联接 F联接是从关系R和S的笛卡尔积中选取属性间满足某一公式F的元组,这里F是形为F1F2Fn的公式,每个FP是形为ij的式子,而i和j分别为关系R和S的第i、第j个分量的序号。关系代数的四个组合操作(3)l 自然联接(natural join)两个关系R和S的自然联接操作具体计算过程如下:计算RS;设R和S的公共属性是A1,AK,挑选RS中满足R.A1=S.A1,R.AK=S.AK 的那些元组;去掉S.A1,S.AK这些列。定义:i1,im(R.A1=S.A1.R.AK=S.AK(RS),其中i1,im为R和S的全部属性,但公共属性只出现一次。关系代数的四个组合操作(4)l除法(division)设关系R和S的元数分别为r和s(设rs0),那么RS是一个(r-s)元的元组的集合。(RS)是满足下列条件的最大关系:其中每个元组t与S中每个元组u组成的新元组必在关系R中。lRS1,2,r-s(R)-1,2,r-s(1,2,r-s(R)S)-R)返回关系代数运算的应用实例 l 在关系代数运算中,把由五个基本操作经过有限次复合的式子称为关系代数表达式。这种表达式的运算结果仍是一个关系。我们可以用关系代数表达式表示各种数据查询操作。例2.7 返回关系代数的七个扩充操作 l改名 l广义投影 l赋值 l外联接(outer join)l外部并(outer union)l半联接(semijoin)l聚集操作 返回2.3 关系演算 l把数理逻辑的谓词演算引入到关系运算中,就可得到以关系演算为基础的运算。关系演算又可分为元组关系演算和域关系演算,前者以元组为变量,后者以属性(域)为变量。l2.3.1 元组关系演算 l2.3.2 域关系演算 l2.3.3 关系运算的安全约束和等价性 返回元组关系演算(1)l 在元组关系演算(Tuple Relational Calculus)中,元组关系演算表达式简称为元组表达式,其一般形式为 t|P(t)其中,t是元组变量,表示一个元数固定的元组;P是公式,在数理逻辑中也称为谓词,也就是计算机语言中的条件表达式。t|P(t)表示满足公式P的所有元组t的集合。元组关系演算(2)l在元组表达式中,公式由原子公式组成。l定义2.4 原子公式(Atoms)有下列三种形式:R(s)siuj sia或auj。l在定义关系演算操作时,要用到“自由”(Free)和“约束”(Bound)变量概念。在一个公式中,如果元组变量未用存在量词或全称量词符号定义,那么称为自由元组变量,否则称为约束元组变量。元组关系演算(3)l定义2.5 公式(Formulas)的递归定义如下:每个原子是一个公式。其中的元组变量是自由变量。如果P1和P2是公式,那么P1、P1P2、P1P2和P1P2也都是公式。如果P1是公式,那么(s)(P1)和(s)(P1)也都是公式。公式中各种运算符的优先级从高到低依次为:,和,和,。在公式外还可以加括号,以改变上述优先顺序。公式只能由上述四种形式构成,除此之外构成的都不是公式。元组关系演算(4)l例2.16 图2.20的(a)、(b)是关系R和S,(c)(g)分别是下面五个元组表达式的值 图2.20 元组关系演算的例子 R1=t|S(t)t12 R2=t|R(t)S(t)R3=t|(u)(S(t)R(u)t3u1)R5=t|(u)(v)(R(u)S(v)u1v2t1=u2t2=v3t3=u1)元组关系演算(5)l 在元组关系演算的公式中,有下列三个等价的转换规则:P1P2等价于(P1P2);P1P2等价于(P1P2)。(s)(P1(s)等价于(s)(P1(s);(s)(P1(s)等价于(s)(P1(s)。P1P2等价于 P1P2。元组关系演算(6)l关系代数表达式到元组表达式的转换例2.17 RS可用 t|R(t)S(t)表示;R-S可用 t|R(t)S(t)表示;RS可 用 t|(u)(v)(R(u)S(V)t1=u1 t2=u2t3=u3t4=v1 t5=v2 t6=v3)表示。设投影操作是2,3(R),那么元组表达式可写成:t|(u)(R(u)tl=u2t2=u3)F(R)可用 t|R(t)F表示,F是F的等价表示形式。譬如2=d(R)可写成 t|(R(t)t2=d)。返回域关系演算(1)l原子公式有两种形式:R(x1xk);xy。公式中也可使用、和等逻辑运算符,(x)和(x),但变量x是域变量,不是元组变量。l自由域变量、约束域变量等概念和元组演算中一样。l域演算表达式是形为t1tkP(t1,tk)的表达式,其中P(t1,tk)是关于自由域变量t1,tk 的公式。域关系演算(2)l例2.20 图2.21的(a)、(b)、(c)是三个关系R、S、W,(d)、(e)、(f)分别表示下面三个域表达式的值。(a)关系R (b)关系S(c)关系W(d)R1(e)R2 (f)R3 图2.21 域关系演算的例子 R1=xyz|R(xyz)x3 R2=xyz|R(xyz)(S(xyz)y=4)R3=xyz|(u)(v)(R(zxu)w(yv)uv)域关系演算(3)l元组表达式到域表达式的转换l我们可以很容易地把元组表达式转换成域表达式,转换规则如下:对于k元的元组变量t,可引入k个域变量t1tk,在公式中t用t1tk替换,元组分量ti用ti替换。对于每个量词(u)或(u),若u是m元的元组变量,则引入m个新的域变量u1um。在量词的辖域内,u用u1um替换,ui用ui替换,(u)用(u1)(um)替换,(u)用(u1)(um)替换。返回关系运算的安全约束和等价性 l定义2.6 在数据库技术中,不产生无限关系和无穷验证的运算称为安全运算,相应的表达式称为安全表达式,所采取的措施称为安全约束。l并、差、笛尔卡积、投影和选择是关系代数最基本的操作,并构成了关系代数运算的最小完备集。已经证明,在这个基础上,关系代数、安全的元组关系演算、安全的域关系演算在关系的表达和操作能力上是完全等价的。返回2.4 关系代数表达式的优化 l2.4.1 关系代数表达式的优化问题 l2.4.2 关系代数表达式的等价变换规则 l2.4.3 关系代数表达式的优化算法 返回关系代数表达式的优化(1)l在关系代数表达式中需要指出若干关系的操作步骤。那么,系统应该以什么样的操作顺序,才能做到既省时间,又省空间,而且效率也比较高呢?这个问题称为查询优化问题。l在关系代数运算中,笛卡儿积和联接运算是最费时间的。关系代数表达式的优化(2)l例2.23 设关系R和S都是二元关系,属性名分别为A,B和C,D。设有一个查询可用关系代数表达式表示:E1=A(B=CD=99(RS)也可以把选择条件D=99移到笛卡儿积中的关系S前面:E2=A(B=C(RD=99(S)还可以把选择条件BC与笛卡儿积结合成等值联接形式:B=C E3=A(R D=99(S)这三个关系代数表达式是等价的,但执行的效率大不一样。显然,求El,E2,E3的大部分时间是花在联接操作上的。返回关系代数表达式的等价变换规则(1)l联接和笛卡尔积的交换律 l联接和笛卡尔积的结合律 l投影的级联 l选择的级联 l选择和投影操作的交换 l选择对笛卡尔积的分配律 l选择对并的分配律 关系代数表达式的等价变换规则(2)l选择对集合差的分配律 l选择对自然联接的分配律 l投影对笛卡尔积的分配律 l投影对并的分配律 l选择与联接操作的结合 l并和交的交换律 l并和交的结合律 返回关系代数表达式的优化算法(1)l 在关系代数表达式中,最花费时间和空间的运算是笛卡尔积和联接操作,为此,引出三条启发式规则,用于对表达式进行转换,以减少中间关系的大小。尽可能早地执行选择操作;尽可能早地执行投影操作;避免直接做笛卡尔积,把笛卡尔积操作之前和之后的一连串选择和投影合并起来一起 做。关系代数表达式的优化算法(2)l算法2.1 关系代数表达式的启发式优化算法。输入:一个关系代数表达式的语法树 输出:计算表达式的一个优化序列l例2.24 返回2.5 关系逻辑(自学)l2.5.1 关系运算的成分 l2.5.2 规则的安全性 l2.5.3 从关系代数到关系逻辑的转换 l2.5.4 递归过程 l2.5.5 关系逻辑与关系代数的差异 小 结l在2.3.3节中提到关系代数和关系演算在表达功能上是等价的。那么关系代数和关系逻辑在表达功能上是否等价?已有文献证明,这两者之间相差甚大。在规则中没有否定时,关系代数与关系逻辑在表达功能方面已不相适应,每个都能表达另一个不能表达的内容。在规则中带有否定时,关系逻辑比关系代数更富于表现力。只有在规则被约束为安全的、非递归的、在带有某些否定的情况下,关系代数才与关系逻辑等价。由于关系逻辑中引进了基于逻辑的规则概念,使得关系逻辑比关系代数在模拟现实世界能力方面更强。关系逻辑一般是用在知识库的知识表达中。本章的重点篇幅(1)教材中P56的例2.7(关系代数表达式的应用实例)。(2)教材中P63的例2.19(元组表达式的应用实例)。(3)教材中P81的例2.36(关系逻辑的规则表示)。重要内容分析(一)(1)一般规则对于只涉及到选择、投影、联接的查询可用下列表达式表示:(RS)或 者(RS)对于否定的操作,一般要用差操作表示,例如“检索不学C2课的学生姓名”。对于检索具有“全部”特征的操作,一般要用除法操作表示,例如“检索学习全部课程的学生姓名”。重要内容分析(二)(2)“检索不学C2课的学生姓名”,决不能用下式表示:SNAME,AGE(C#C2(SSC)一定要用“差”的形式:SNAME,AGE(S)SNAME,AGE(C#=C2(SSC)(3)“检索学习全部课程的学生学号”,要用S#,C#(SC)C#(C)表示,而不能写成S#(SCC#(C)形式。这是因为一个学生学的课程的成绩可能是不一样的。重要内容分析(三)2非过程性语言与过程性语言的区别编程时必须指出“干什么”及“怎么干”的语言,称为过程性语言;编程时只须指出“干什么”,不必指出“怎么干”的语言,称为非过程性语言。