《数据库原理》知识点总结(19页).doc
-数据库原理知识点总结-第 19 页目录未找到目录项。一 数据库基础知识(第1、2章) 一、有关概念1数据2数据库(DB)3数据库管理系统(DBMS) Access桌面DBMS VFP SQL Server Oracle客户机/服务器型DBMS MySQL DB24数据库系统(DBS) 数据库(DB) 数据库管理系统(DBMS) 开发工具 应用系统二、数据管理技术的发展1数据管理的三个阶段人工管理文件系统数据库系统数据能否保存不能保存可以保存可以保存数据面向的对象某一应用程序某一应用程序整个应用系统数据的共享程度无共享,一组数据只能对应一个应用程序。共享性差,一个数据文件只能对应一个应用程序。共享性高数据的独立性不独立,它是应用程序的一部分。独立性差数据库与应用系统完全分开 概念模型一、模型的三个世界1现实世界2信息世界:即根据需求分析画概念模型(即E-R图),E-R图与DBMS无关。3机器世界:将E-R图转换为某一种数据模型,数据模型与DBMS相关。注意:信息世界又称概念模型,机器世界又称数据模型二、实体及属性1实体:客观存在并可相互区别的事物。2属性:3关键词(码、key):能唯一标识每个实体又不含多余属性的属性组合。一个表的码可以有多个,但主码只能有一个。例:借书表(学号,姓名,书号,书名,作者,定价,借期,还期)规定:学生一次可以借多本书,同一种书只能借一本,但可以多次续借。4实体型:即二维表的结构例 student(no,name,sex,age,dept)5实体集:即整个二维表三、实体间的联系:1两实体集间实体之间的联系 1:1联系 1:n联系 m:n联系2同一实体集内实体之间的联系1:1联系 1:n联系 m:n联系四、概念模型(常用E-R图表示)实体型:属性:联系:说明: E-R图作为用户与开发人员的中间语言。 E-R图可以等价转换为层次、网状、关系模型。举例:学校有若干个系,每个系有若干班级和教研室,每个教研室有若干教员,其中有的教授和副教授每人各带若干研究生。每个班有若干学生,每个学生选修若干课程,每门课程有若干学生选修。用E-R图画出概念模型。 数据模型一、层次模型:用树型结构表示实体之间的联系。 每个结点代表一个实体型。 只能直接处理一对多(含一对一)的实体关系。 查找层次数据库中的记录,速度较慢。二、网状模型:用图结构表示实体之间的联系。 每个结点代表一个实体型。 可以处理多对多的实体关系。 查找网状数据库中的记录,速度最快。三、关系模型:用二维表表示实体之间的联系。1重要术语:关系:一个关系就是一个二维表;元组:二维表的一行,即实体;关系模式:在实体型的基础上,注明主码。关系模型:指一个数据库中全部二维表结构的集合。2特点: 关系模型是建立在严格的数学理论的基础上的; 关系模型的存取路径对用户透明; 查找关系数据库中的记录,速度最慢。小结:数据有三种类型,DBMS就有三种类型,DB亦有三种类型。 数据库系统结构一、数据库系统的体系结构 单机结构:DBMS、数据库、开发工具、应用系统安装在一台计算机上。 C/S结构:局域网结构客户机:装开发工具、应用系统服务器:装DBMS、数据库 B/S结构:Internet 结构服务器:装DBMS、数据库、开发工具、应用系统客户机:装IE即可三、 数据库系统的模式结构1三级模式 模式:是数据库中全体数据的逻辑结构和特征的描述。Ü 模式只涉及数据库的结构;Ü 模式既不涉及应用程序,又不涉及数据库结构的存储; 外模式:是模式的一个子集,是与某一个应用程序有关的逻辑表示。特点:一个应用程序只能使用一个外模式,但同一个外模式可为多个应用程序使用。 内模式:描述数据库结构的存储,但不涉及物理记录。2两级映象 外模式/模式映象:保证数据库的逻辑独立性; 模式/内模式映象:保证数据库的物理独立性;3两级映象的意义 使数据库与应用系统完全分开,数据库改变时,应用系统不必改变。 数据的存取完全由DBMS管理,用户不必考虑存取路径。 数据库管理系统1 DBMS的功能:负责对数据库进行统一的管理与控制。 数据定义:即定义数据库中各对象的结构 数据操纵:包括对数据库进行查询、插入、删除、修改等操作。 数据控制:包括安全性控制、完整性控制、并发控制、数据库恢复。2DBMS的组成:DDL语言 DML语言DCL语言实用程序注意: SQL集DDL,DML,DCL功能于一体; 所有应用程序通过SQL语句才能访问数据库一、 基本概念1码:能唯一标识元组的属性集。2候选码:一个属性集既能唯一标识元组,且又不含有多余属性,一个关系模式可以有多个候选码。3主码:任选候选码中的一个。4主属性:主码中包含的各个属性。5非主属性:不包含在主码中的各个属性。6外码:设F是关系R的一个属性,不是R的主码,但却是另一个关系S的主码,则称F是关系R的外码。例:student ( sno, sname, ssex, sage, sdept) Sc ( sno, cno, grade)Sc的主码为:(sno,cno);外码为:sno二 数据库设计 (第3章) 一、数据库设计的步骤 需求分析:了解分析用户的需要、要求。 概念结构设计:根据需求分析的结果画概念模型(即E-R图)。 逻辑结构设计:将E-R图转换为某一种数据模型,并优化。 物理结构设计 数据库实施 数据库运行与恢复 概念结构设计一、局部E-R图设计 1确定局部范围 通常把系统涉及的各个部门或各个主要功能作为局部。2确定实体与属性 属性是不能再分的数据项; 联系只发生在两实体之间; 原则上,能够作为属性,就不要作为实体。二、合并成总体E-R图1消除各局部E-R图的冲突问题。2按公共实体名合并,生成初步E-R图。3消除冗余的属性和冗余的联系,生成总体E-R图。 逻辑结构设计一、联系的属性和主码(1)联系的属性:必须包含相关联的各实体型的主码。(2)联系的主码1:1联系:可以是相关联的任一实体型的主码。1:n联系:必须是n方实体型的主码。m:n联系:必须是相关联的各实体型的主码之和。二、E-R图向关系模型的转换(1)把每个实体型转换为一个关系模式。(2)1:1联系:可以消化到相关联的任一实体型对应的关系模式中。NLXMXHBHXHBHRS班级管理班长 11班长( XH, XM, NL,BH)班级(BH,RS)(3)1:n联系:可以消化到n方实体名对应的关系模式中。例:一个班级有多名学生,每名学生只能属于一个班级。每一个班级有一名班长,他是学生中的一员。XHXMNL 学生 1n班长组成XH组成BH11班级BHRS学生(XH,XM,NL,BH)班级(BH,RS,XH) 班长的学号(4)m:n联系:必须转换为一个关系模式,并且不能消化。sagessexsname例:sdeptcnogradesno选修理工creditcnamecno课程sno学生 mn学生(sno,sname, ssex, sage, sdept)课程(cno, cname,credit)选修(sno, cno, grade)(5)多元联系:不能消化例:供应商m供应 nmk零件产品物理结构设计与数据库实施1物理结构设计在逻辑设计的基础上,为每个关系模式选择合适的存储结构与存储方式。选择存储结构:即决定每个表的记录顺序。选择存取方式:即决定为哪些属性建立非聚集索引,以便加快查找速度。一般把经常查询的属性名指定为非聚集索引。2数据库实施主要工作:定义数据库结构;组织数据入库;编写应用程序;数据库试运行;三 关系数据库 (第4章)一、域( domain)1定义:域是一组具有相同类型的值的集合。2域的基数:域中所含数据的个数。二、笛卡尔积1定义:给定一组域D1,D2,D3,则D1×D2×D3称为笛卡尔积。2笛卡尔积D1×D2×D3对应一个二维表,所含元组的个数等于各个域的基数之积。三、关系1定义:笛卡儿积的一部分元组称为关系。2关系的目(或度):一个关系所含属性的个数。3关系的性质任意两个元组不能完全相同,同一关系的属性名不允许重复。四、关系的完整性1实体完整性:指关系的所有主属性都不能取空值。注意:实体完整性不仅仅是主码整体不能取空值。2参照完整性:指一个关系外码的取值必须是相关关系中主码的有效值或空值。例:班级( 班名,人数)学生(学号,姓名,性别,密码,班名)在学生表中,班名的取值必须是班级表班名的值或空值。 关系代数一、传统的集合运算设关系R、S的结构完全相同,则:RS:由属于R或属于S的元组组成。RS:由既属于R又属于S的元组组成。RS:由属于R而不属于S的元组组成。思考:(RS)(RS)=?R×S:设R有m个属性,K1个元组;S有n个属性,K2个元组,则R×S含有(m+n)个属性,(K1×K2)个元组。二、专门的关系运算1选择:从关系R中选择满足条件的元组。记为: 2投影:从关系R中选择若干属性组成新的关系,并把新关系的重复元组去掉。记为: 3条件连接:将两关系按一定条件连接成一个新关系,记为: 说明:条件连接:两关系可以没有公共属性,若有公共属性,则新关系含有重复属性。4自然连接:将两关系按公共属性连接成一个新的关系,并把新关系的重复属性去掉。记为: 说明: 自然连接:两关系至少有一个公共属性。 对于R的每个元组,S都从第一个元组开始判断,若两元组的公共属性值相同,则产生一个新元组添加到新关系中,最后把新关系中的重复属性去掉。 等值连接?5除:给定关系R(x,y)和S(y,z),则R÷S=P(x),其中x,y,z为属性组。求解过程:求R中x可以取哪些值,并求各值的象集。求S在属性组y上的投影K。检查每个象集是否包含K注:除不是一个必须的运算,可以由其它运算符代替。例:设有关系R,S如下图,求R÷S。RABCSBCDa1b1c2b1c2d1a2b3c7b2c1d1a3b4c6b2c3d2a1b2c3a4b6c6a2b2c3a1b2c1解:在关系R中,A可以取四个值,a1,a2,a3,a4。a1的象集为(b1,c2),(b2,c3),(b2,c1)a2的象集为(b3,c7),(b2,c3)a3的象集为(b4,c6)a4的象集为(b6,c6)S在(B,C)上的投影K为(b1,c2),(b2,c3),(b2,c1)显然只有a1的象集包含K,故R÷S=a1结论:如何写关系代数表达式?答: 查询涉及多个关系时,一般使用 。 查询涉及“否定”时,一般用差运算。 查询涉及“全部”时,一般用除运算。 查询涉及“至少”时,一般用× 四 关系数据库标准语言SQL (第5章)T-SQL一、SQL语言的特点SQL语言集数据定义、数据查询、数据操纵、数据控制的功能于一体。动词数据定义Create、drop数据查询select数据操纵Insert、delete、update数据控制Grant、revoke所有的DBMS都支持SQL语言。SQL基础一、创建和使用数据库1创建数据库create database 数据库名2使用数据库Use数据库名3删除数据库 drop database数据库名二、 定义表1创建表 create table 表名(属性名 类型,属性名 类型)指定标识字段:identity(标识种子,标识增量)指定公式字段:属性名 as 表达式例:create table student (no int identity(1,1),name char(6),chi smallint,mat smallint,score as chi+mat)2删除表 drop table表名, 表名三、select语句select */表达式表into 新表from 表名,表名where 条件group by 属性名having 条件order by属性名Asc/Desc1Select 子句 *代表所有属性名 若一个属性名来自多个表,则属性名前须冠以表名,格式为:表名. 属性名 设置表达式的别名: 表达式 As 别名 限制查询结果的记录行数: all 返回全部记录 top n 返回前面n号记录 distinct 表示取消重复行 说明:top n只能放在关键字select的后面; all、distinct只能放在关键字select或聚合函数的后面。2Where 子句 in的格式:属性名 in (常量,常量) like的格式:属性名 like 通配字符串 通配符有: % 表示0个或多个字符 - 表示1个字符 在Where 子句中指定连接: Where 表名1. 属性名=表名2. 属性名3Order by子句 order by属性名1 Asc/Desc, 属性名2 Asc/Desc4聚合函数 sum(属性名):纵向求数值型属性之和。 avg(属性名) count(*) 返回表的记录行数(含重复行)。count(属性名) 返回指定列中取非NULL值的单元格数目。 count(distinct 属性名) 返回指定列中取非NULL值、非重复的单元格数目。 max(属性名) min(属性名)5Group by子句 使用Group by子句时,Select 子句只能使用分组项字段和聚合函数 例:以性别为分组项,求每一组的平均年龄。 Select ssex, avg(sage) as 平均年龄 From student Group by ssex6Having子句 Having子句只能跟在Group by子句之后,且只能使用聚合函数和分组项字段。 where子句放在Group by子句之前,甚至可以没有Group by子句;且不能包含聚合函数。 例:以系别为分组项,查询学生平均年龄大于19岁的系的系名,平均年龄。Select sdept,avg(sage) as平均年龄From studentGroup by sdeptHaving avg(sdept)>197into子句 功能:将查询结果保存到新的基表中。一、 查询的分类 单表查询连接查询嵌套查询1连接查询:在where子句中指定连接where 表名1.属性名=表名2.属性名2嵌套查询 嵌套查询的特点·每级查询的from子句一般只包含一个表名。·一个嵌套查询总可以分解为若干个单表查询,总可以改写成连接查询。·若查询结果显示的属性名来自一个表,才可以写成嵌套查询。·子查询不能使用order by子句,order by只能用于最顶层的查询。 在where子句中指定子查询 where 属性名 not in(子查询):子查询返回一列多行。 where 属性名=(子查询):子查询返回一列一行。 where not exists(子查询):子查询返回多列多行。五、数据操纵1insert语句(1)每次插入一条记录 insert into 表名(属性名表) values(表达式表)(2)插入子查询的结果 insert into 表名(属性名表) 子查询 例:insert into student select * from student12update语句update 表名 set 属性名=值,属性名=值 where 条件 缺省where子句,默认为更新全部记录。3delete语句delete from 表名 where 条件五 关系数据库规范化理论(第7章) 函数依赖一、有关概念:1函数依赖:任给R(U),U为属性集,x、y为U的子集,如果对于x的每个值,y有唯一确定的值与之对应,则称x决定y,或y函数依赖于x。记为:xy。2. 完全函数依赖:若xy,且对于x的所有真子集x,都有x y,则称x完全决定y,或y完全函数依赖于x。记为:。结论:若xy,且x只包含一个属性,则。3部分函数依赖:若xy,且存在x的一个真子集x,满足xy,则称x部分决定y,或y部分函数依赖于x。记为:。4传递函数依赖:若xy,yz,但 y x,则二、平凡函数依赖与非平凡函数依赖设xy,如果y是x的子集,则该依赖是平凡的。如:Sno,snamesno 如果y中至少有一个属性不在x中,则该依赖是非平凡的。如:Sno,snamesname,sdept如果y中没有一个属性在x中,则该依赖为完全非平凡的。三、函数依赖的推理规则设有关系R,x、y、z为R的一个属性集,则有:自反律:若,则xy。增广律:若xy,则xzyz。传递律:若xy,yz,则xz。注意传递律与传递函数依赖的区别。合并律:若xy,xz,则xyz。分解律:若xyz,则xy,xz。 关系模式的规范化一、问题提出R表XHKHKMXMDZCJ961C1OS高明D170962C2DBS高飞D272962C4AI高飞D280962C1OS高明D175963C1OS高明D190答:存在问题 数据冗余大; 修改麻烦; 插入异常:应该插入到DB中的数据插不进去。如:新开课程没有学生选修时,新开课程的课程号、课程名插不进去。 删除异常:不应该删除的数据被删掉。如选修某门课的学生毕业了,在删除学生信息的同时,把课程信息也删除掉。结论:一个好的关系模式应满足: 冗余应尽可能少; 应尽可能避免插入、删除异常; 消去关系中不合适的属性依赖关系。二、范式 什么叫范式?指一个关系的非主属性函数依赖于主码的程度。 什么叫关系规范化?指一个关系从低级范式向高级范式的转换过程。 应用:关系规范化理论应用在逻辑结构设计阶段。三、关系模式的规范化1第一范式(1NF) 定义:若关系R的所有属性不能再分,则R1NF2第二范式(2NF) 定义:若关系R1NF,且它的每个非主属性都完全依赖于主码,则称R2NF。 存在问题:l 冗余大: R1必要冗余,R2冗余可以修改。l 修改麻烦l 插入异常:如新来的教师没有上课,则该教师的信息就没办法插入R2表中。l 删除异常:若某位教师只授一门课,当该门课不开时,该教师的信息亦被删除。 原因:存在非主属性对主码的传递依赖。KHXM,XMDZ,但XM KH传递依赖必须有两个非主属性 解决办法:将R2 一分为二R21表 R22表KHKMXMXMDZC1OS高明高明D1C2DBS高飞高飞D2C4AI高飞R21主码:KHR22主码:XM3第三范式(3NF) 定义:若关系R2NF,且它的每个非主属性都不传递依赖于主码,则称R3NF。 规范化过程非规范关系使每个属性都不能再分1NF 消去非主属性对主码的部分依赖2NF 消去非主属性对主码的传递依赖3NFBCNF:关系模式R<U,F>中,如每一个决定因素都包含码,则R是范式。如果R属于BCNF 那么R一定属于3NF,反之未必。3NF 消去主属性对主码的部分依赖和传递依赖 BCNF4结论 若R1NF,且主码只含一个属性,则R一定为2NF。 若R2NF,且只有01个非主属性,则R一定为3NF。 3NF一般控制了数据冗余,一般避免了操作异常。 范式并非越高越好,适可而止。六 数据库保护技术(第8章)安全管理一、两种身份验证模式:仅windows模式:用户只能使用windows登录名登录SQL Server混合模式:用户可以使用windows登录名或SQL Server登录名登录SQL Server二、两种身份验证: 用户登录到SQL Server时,必须使用特定的登录名和密码标识自己。 Windows身份验证:用户登录到SQL Server时,使用操作系统当前的登录名和密码。SQL Server身份验证:用户登录到SQL Server时,必须显式提供登录名和密码。常用安全性控制方法:用户标识和控制、存取控制、视图、审计、数据加密 数据库完整性一、在创建表时指定约束1主键约束 constraint约束名 Primary key Clustered/Nonclustered (属性名,属性名)说明: 每个约束都有一个约束名,约束名通常由系统自动给出。 列级约束:只牵涉到一个属性的约束,它放在相关属性的后面,且省略属性名表。 表级约束:牵涉到多个属性的约束。 创建主键约束、唯一性约束时可以指定聚集(clustered)或非聚集(nonclustered)。 主键约束默认为聚集的,唯一性约束默认为非聚集的。 一个表最多只能创建一个约束是聚集的,聚集约束会影响数据表的记录号顺序。2外键约束 constraint约束名Foreign key(属性名,属性名)References 主键表名(属性名,属性名)注意:两表关联的方式:临时关联:where 表名1属性名=表名2属性名永久关联:创建外键约束3唯一性约束constraint约束名Unique Clustered/Nonclustered (属性名,属性名)主键约束与唯一约束的区别: 在一个表中只能定义一个主键约束,但可定义多个唯一性约束; 指定为主键约束的字段不能取null值,但指定为唯一性约束的字段允许取null值。4检查约束 constraint约束名 Check (条件表达式)5. 缺省约束 constraint约束名 Default 常量二、删除表中的约束alter table 表名drop constraint 约束名,.,约束名注意:alter语句后面只能跟着一个子句。三、向表添加约束alter table 表名 add constraint 约束名 约束定义,., constraint 约束名 约束定义约束定义指:Primary key Clustered/Nonclustered (属性组)Foreign key(属性组) references 主键表名(属性组)Unique Clustered/Nonclustered (属性组)Check(条件表达式)Default 常量 for 属性名 默认对象默认对象与默认约束的功能类似。默认对象以单独的对象创建,可以绑定到数据库的所有表中。默认约束只能绑定到一个表中。 规则规则与check约束的功能类似。 则以单独的对象创建,可以绑定到数据库的所有表中。 check约束只能绑定到一个表中。索引一、索引的概念:索引使用户能快速访问数据表的特定信息。 索引必须依附于某个基本表,不能单独存在。二、索引的类型:聚集索引:影响数据表的记录顺序非聚集索引:不会影响数据表的记录顺序注:一个表只能建立一个聚集索引,但可以建立若干个非聚集索引。三、创建索引1自动创建索引:。如果在数据表的某个属性设置主键约束或唯一约束,则系统将在这些属性上自动创建唯一索引。自动创建的索引随约束的存在而存在,随约束的消失而消失。2使用SQL语句创建索引Create unique clustered/nonclustered index 索引名 On 表名(属性名asc/desc, 属性名asc/desc)注:若未指定clustered,则创建非聚集索引;若未指定排序方式,则为ASC;text,ntext类型的字段不能指定为索引字段。四、删除索引:Drop index 索引名,索引名思考题:创建主键时,如果使主键字段值不影响数据表的记录顺序? 视图一、视图的特点:视图只有结构,没有记录,是虚表; 一个视图总对应着一个select语句;对视图的查询、更新,实际上是对基本表的查询、更新。二、定义视图:1创建视图: Create view 视图名 (属性名,属性名) As 子查询 with check option说明:视图的属性个数必须与子查询中select子句的表达式个数相同。2删除视图: Drop view 视图名,视图名三、查询视图:select */表达式表from 视图名,视图名 where 条件group by 属性名order by属性名Asc/Desc四、操纵视图:1向视图插入一条记录 insert into 视图名(属性名表) values(表达式表)2修改视图中的数据 update视图名set 属性名=值,属性名=值 where 条件3删除视图中的记录 delete from 视图名 where 条件 存储过程1什么叫存储过程? 将一组SQL语句,以一个名称存储在数据库中,就形成存储过程。2创建存储过程Create proc存储过程名形参名 类型=常量outputAs SQL语句序列说明: =常量:用于指定形参的默认值;output用来指定该形参值是可以返回的。触发器一、维护数据完整性的措施:创建约束 基于一个表创建创建触发器创建规则:以单独的对象创建,可以绑定到数据库的所有表中。事务处理与并发控制1什么叫事务? 事务是用户定义的一组操作序列。 事务是并发控制的基本单位。 一个事务包含的诸操作要么都执行,要么都不执行。1 事务的属性原子性:指事务中包含的诸操作要么都执行,要么都不执行。一致性:事务必须使数据库从一个一致性状态变到另一个一致性状态。隔离性:一个事务的执行不能被其他事务干扰。持久性数据的锁定一、并发操作与数据不一致性1数据不一致性包括三类丢失修改:指事务1与事务2从数据库中读入同一数据并修改,事务2的提交结果破坏事务1提交的结果,导致事务1的修改被丢失。不可重复读:指事务1读取数据后,事务2执行更新操作,使事务1无法再现前一次读取结果。读脏数据:指事务1修改某一数据后,事务2读取该数据,事务1由于某种原因被撤销,这时数据又恢复到原值,事务2读到的数据与数据库中的数据不一致,称为“脏”数据。2产生数据不一致性的原因 并发操作破坏了事务的隔离性。二、并发控制的目标、方法1目标:确保DB中的数据一致性。2并发事务正确性的原则 几个事务的并发执行是正确的,当且仅当其结果与任何一个串行执行的结果相同。2 并发控制的方法DBMS一般采用“封锁”技术,保证并发操作的可串行化。一、 封锁(Locking)1 什么叫封锁?SQL Server自动强制封锁,并且会将封锁粒度控制在合适的级别,用户不必考虑封锁问题。2 封锁类型排它锁(X锁):事务T对数据A加X锁,其它事务不能再对A加锁,即其它事务不能读取和修改A。共享锁(S锁):事务T对数据A加S锁,其它事务只能再对A加S锁,即其它事务只能读A,不能修改A。3 封锁粒度封锁对象可以是属性列、元组、关系、整个数据库。封锁对象的大小称为封锁粒度。封锁粒度越小,并发度越高,但并发控制的开销越大。4 封锁协议 事务T在修改数据A之前,必须对其加X锁,直到事务结束才释放。 事务T在读取数据A之前,必须对其加S锁,直到事务结束才释放。遵循封锁协议,可以解决三种数据不一致性问题: 丢失修改 不可重复读 读“脏”数据四、死锁和活锁 封锁技术可以解决并发操作的不一致性问题,但也带来新的问题,即死锁和活锁。1 死锁: 定义:两个事务已经各自锁定一个数据,但是又要访问被对方锁定的数据,造成了循环等待,称为死锁。 避免死锁的方法:顺序封锁法:若规定封锁顺序为A,B,则T1,T2只能先封锁A,再封锁B。2活锁: 定义:若多个事务请求封锁同一个数据时,其中的某个事务总处于等待状态,则称为活锁。 避免活锁的方法:先来先服务事务可串行化调度:两段锁协议