第7章 数据库与大数据技术ppt课件.pptx
《第7章 数据库与大数据技术ppt课件.pptx》由会员分享,可在线阅读,更多相关《第7章 数据库与大数据技术ppt课件.pptx(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在此输入您的封面副标题第7章 数据库与大数据技术第7章 数据库与大数据技术通过本章的学习,应该掌握以下内容:(1)掌握数据库系统的基本概念。(2)掌握常见的数据模型。(3)掌握关系数据库的设计方法。(4)了解大数据的基本概念和数据处理一般流程。(5)了解主流大数据处理平台。学习目标7.1 数据库系统的基本概念 数据库技术是数据管理技术,是计算机科学的一个重要分支。在计算机应用的三大领域(科学计算、数据处理和过程控制)中,数据处理约占其中的70%,而数据库技术就是作为一门数据处理技术发展起来的,是目前应用最广的技术之一,它已成为计算机信息系统的核心技术和重要基础。7.1.1 数据库系统相关概念
2、描述事物的符号记录,是数据库中存储的基本对象。1数据数据Data7.1.1 数据库系统相关概念具有统一的结构形式并存放于统一的存储介质内的多种应用数据的集成,并可被各个应用程序所共享。2数据库数据库DatabaseDB7.1.1 数据库系统相关概念用户与操作系统之间的数据管理软件,负责数据库的建立、运行、维护、管理和控制,是数据库系统的核心。3数据库管数据库管理系统理系统Database Management SystemDBMS7.1.1 数据库系统相关概念负责数据库的规划、设计、维护、监视等,其主要工作如下:1.数据库设计2.数据库维护3.改善系统性能,提高系统效率4数据库管理员数据库管理
3、员DatabaseAdministratorDBA7.1.1 数据库系统相关概念安装和使用了数据库技术的计算机系统,一般由数据库(数据)、数据库管理系统(软件)、数据库管理员(人员)、硬件平台和软件平台构成。5数据库系统数据库系统DatabaseSystemDBS7.1.1 数据库系统相关概念 由数据库系统加上应用软件及应用界面这三者所组成。数据库应用系统中各部分以一定的逻辑层次结构方式组成一个有机的整体。6数据库数据库应用系统应用系统DatabaseApplicationSystemDBAS7.1.2 数据库系统的发展20世纪50年代中期之前人工管理文件系统数据库系统20世纪50年代中期到6
4、0年代中期20世纪60年代后7.1.3 数据库系统的基本特点数据的集成性 统一的数据结构 全局数据模式 全局与局部的结构模式高共享与低冗余 应用共享 网络共享 减少冗余 减少存储空间 避免数据不一致数据的独立性 物理独立性 逻辑独立性完整性检查 安全性保护 并发控制 统一管理和控制7.2 数据模型数据库需要根据应用系统中数据的性质、内在联系,按照管理的要求来设计和组织。数据模型就是从现实世界到机器世界的一个中间层。现实世界的事物反映到人的大脑,人们把这些事物抽象为一种既不依赖于具体的计算机系统又不为某一数据库管理系统支持的概念模型,然后再把概念模型转换为计算机上某一数据库管理系统支持的数据模型
5、。 7.2.1 数据模型的组成要素数据结构 存储在数据库中的对象类型的集合 描述数据的类型、内容、性质以及数据间的联系 数据模型的基础 数据库系统是按数据结构的类型来组织数据,如层次结构、网状结构和关系结构数据操作 对数据库中各种对象的实例允许执行的操作集合,包括操作和有关的操作的规则 例如插入、删除、修改、检索、更新等数据的完整性约束 数据的约束条件是完整性规则的集合,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效和相容 数据模型中的数据及其联系都要遵循完整性规则的制约7.2.2 概念模型分析、抽象分析、抽象现实世界现实世界信息世界信息世界机器世界机器世界人、物等人、
6、物等概念模型,概念模型,与计算机系与计算机系统无关统无关数据模型数据模型转换转换7.2.2 概念模型 实体实体 描述描述实体集:同类型实体的集合。实体集:同类型实体的集合。一个实体:属性值的集合。一个实体:属性值的集合。属性:实体的特性。属性:实体的特性。(属性名和属性值)(属性名和属性值)实体:客观存在并可相互区别的事物。实体:客观存在并可相互区别的事物。(具体事物或抽象概念)(具体事物或抽象概念)7.2.2 概念模型 实体实体 联系联系多对多多对多 m:n 课程与学生课程与学生一对多一对多 1:n 球队与球员球队与球员一对一一对一 1:1 校园卡与学生校园卡与学生实体联系模型(E-R模型)
7、E-R图提供了表示实体集、属性和联系的方法: 1.实体集:用矩形表示,矩形框内写明实体名; 2.属性:用椭圆形表示,并用连线将其与相应的实体连接起来;3.联系:用菱形表示,菱形框内写明联系名,并用连线分别与有关实体连接起来,同时在连线旁标上联系的类型(1:1、1:n或m:n)。实体实体-联系联系模型模型Entity-RelationshipModel实体联系模型(E-R模型) (b)实体与实体之间的联系 (a)实体与属性 7.2.3 三种数据模型从现实世界到机器世界的一个中间层次。 它决定了1.数据库系统的结构2.数据定义语言和数据操纵语言3.数据库设计方法4.数据库管理系统软件的设计与实现数
8、据数据模型模型DataModel7.2.3 三种数据模型层次模型网状模型关系模型表表1-1 “学生学生”表表学号学号姓名姓名性别性别民族民族政治面貌政治面貌出生日期出生日期202001001塔娜塔娜女女蒙古族蒙古族团员团员202001001202001002荣仕月荣仕月男男壮族壮族群众群众202001002202001003林若涵林若涵女女汉族汉族团员团员202001003202001004张是琦张是琦女女白族白族团员团员2020010047.3 关系数据库关系是数学集合论中的一个重要概念。1970年,发表了题为“大型共享数据库数据的关系模型”的论文,把关系的概念引入了数据库,自此人们开始了数
9、据库关系方法和关系数据理论的研究,形成了以关系数据模型为基础的关系数据库系统。7.3.1 关系模型术语术语解释解释关系二维表,有关系名元组表中的一行属性表中的一列,有属性名分量元组中的一个属性值,不可再分域属性的取值范围候选关键字 可唯一标识一个元组的属性组主关键被指定唯一标识元组的候选关键字外部关键字另一个关系的关键字或候选关键字主属性包含在任一候选关键字中的属性1关系中常用的术语7.3.1 关系模型7.3.1 关系模型1.每一列中的分量是同一类型的数据,来自同一个域2.不同的列要给予不同的属性名3.列的顺序无所谓,即列的次序可以任意交换4.任意两个元组不能完全相同5.行的顺序无所谓,即行的
10、次序可以任意交换6.每一个分量都必须是不可再分的数据项2关系的关系的性质性质7.3.1 关系模型 3 关系间关系间的联系的联系一对一一对一 :可合并:可合并一对多:最普遍一对多:最普遍多对一多对一多对多:难实现,需分解多对多:难实现,需分解7.3.1 关系模型4关系数据库在关系模型中,实体以及实体之间的联系都是用关系来表示的。例如教师实体、学生实体、课程实体等。在一个给定的应用领域中,所有表示实体以及实体间联系的关系的集合就构成一个关系数据库。关系数据库系统是支持关系模型的数据库系统。它是由若干张二维表组成的,包括二维表的结构以及二维表中的数据两部分。7.3.2 关系代数运算关系关系代数代数抽
11、象查询语言,用对关系的运算来实现查询运算集合运算符关系运算符关系关系代数运算结果运算符运算对象关系7.3.2 关系代数运算集合运算符集合运算符交 专门的专门的关系运算符关系运算符算数算数比较运算符比较运算符逻辑运算符逻辑运算符并 差 -笛卡尔积 选择 投影 连接 除 大于 大于等于小于 小于等于等于 =不等于 非 或 与 7.3.2 关系代数运算集合运算交、并交、并和差和差运算运算前提前提条件条件两个关系R和S1.均为n元关系(元数相同即属性个数相同),2.两个关系属性的性质相同。7.3.2 关系代数运算集合运算 两个关系的并运算可以记作RS,运算结果是将两个关系的所有元组组成一个新的关系,若
12、有相同的元组,只留下一个。并运算并运算R S7.3.2 关系代数运算集合运算学 号姓 名性别政治面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员学 号姓 名性 别政治面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员202001004张是琦女团员202001005王祎玮男团员学 号姓 名性别政治面貌202001003林若涵女团员202001004张是琦女团员202001005王祎玮男团员学生学生学生学生学生学生学生学生7.3.2 关系代数运算集合运算 两个关系的差运算可以记作R-S,运算结果是由属于R但不属于
13、S的元组组成一个新的关系。差运算差运算R S7.3.2 关系代数运算集合运算学 号姓 名性别政治面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员学 号姓 名性 别政治面貌202001001塔娜女团员202001002荣仕月男群众学生学生学生学生学 号姓 名性别政治面貌202001003林若涵女团员202001004张是琦女团员202001005王祎玮男团员学生学生学生学生7.3.2 关系代数运算集合运算 两个关系的交运算可以记作RS,运算结果是将两个关系中公共元组组成一个新的关系。交运算交运算R S7.3.2 关系代数运算集合运算学 号姓 名性别政治
14、面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员教师编号教师编号姓名姓名性别性别工作时间工作时间202001003林若涵女团员学生学生学生学生学 号姓 名性别政治面貌202001003林若涵女团员202001004张是琦女团员202001005王祎玮男团员学生学生学生学生7.3.2 关系代数运算集合运算 设R和S是两个关系,如果R是m元关系,有i个元组,S是n元关系,有j个元组,则笛卡儿积RS是一个m+n元关系,有ij个元组。记作:RS。广义笛广义笛卡尔积卡尔积运算运算7.3.2 关系代数运算集合运算7.3.2 关系代数运算专门的关系运算1.选择是根
15、据给定的条件选择关系 R 中的若干元组组成新的关系;2.对关系的元组进行筛选;3. (R),其中,是选择运算符,R是关系名。 4.一元关系运算;5. 选择运算结果是原关系的一个子集,但关系模式不变。 选择选择运算运算7.3.2 关系代数运算专门的关系运算例:选出性别为例:选出性别为“女女”的学生名单,可以记成:的学生名单,可以记成:学 号姓 名性别政治面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员学 号姓 名性 别政治面貌202001001塔娜女团员202001003林若涵女团员性别性别=女女(学生(学生A)学生学生A7.3.2 关系代数运算专门的
16、关系运算1.关系R上的投影是从关系R中选择若干属性列组成新的关系2.对关系的列进行筛选3. A(R),A是R中的属性列4. i1、i2、i3、im(R)=t|t=(ti1、ti2、ti3、tim)(ti1、ti2、ti3、timR) ; 5.一元关系运算6.投影后可能出现重复的元组,应消去这些完全相同的元组投影投影运算运算7.3.2 关系代数运算专门的关系运算例:列出所有学生的姓名、性别学生学生A学 号姓 名性别政治面貌202001001塔娜女团员202001002荣仕月男群众202001003林若涵女团员姓名,性别姓名,性别(学生(学生A)姓 名性 别塔娜女荣仕月男林若涵女7.3.2 关系代
17、数运算专门的关系运算1.从两个关系R和S的笛卡尔积中选取属性间满足一定条件的元组,连接也称为连接;2. R S =R.AS.B(RS), A和B分别为R和S上可比的属性组。是比较运算符,可以是,=,等符号。3.从R和S的笛卡尔积RS中选取(R关系)在A属性组上的值与(S关系)在B属性组上值满足比较关系的元组,这些元组构成的关系是RS的一个子集。4.等值连接:为“=”的连接运算。它选取关系R与S的笛卡尔积中A、B属性值相等的那些元组。连接连接运算运算7.3.2 关系代数运算专门的关系运算1.从两个关系的笛卡尔积中选择出公共属性值相等的元组所构成的新的关系;2.自然联接是按照公共属性值相等的条件进
18、行联接,并且消除重复属性。3.设关系R和关系S具有相同的属性集U=Al,A2,Ak,从关系R和关系S的笛卡尔积中,取满足R.U=S.U的所有元组,且去掉S.Al、S.A2、S.Ak,所得的新关系R S=il,i2,i3,ik(R.Al=S.A1R.A2=S.A2R.Ak=S.Ak(RS)自然自然连接连接运算运算7.3.2 关系代数运算专门的关系运算R.B=S.B R SR S7.3.2 关系代数运算专门的关系运算1.条件是:关系S的属性全部包含在关系 R 中,关系R的一些属性不包含在关系S中;2. RS ;3. 结果关系中的属性由R中除去S中的属性之外的全部属性组成,元组由R与S中在所有相同属
19、性上有相等值的那些元组组成。除运算除运算7.3.2 关系代数运算专门的关系运算ABCa12b21c31ABc3C1=7.3.3 关系的完整性关系模型允许定义3种完整性约束,即实体完整性、参照完整性和用户定义的完整性约束。其中实体完整性约束和参照完整性约束统称为关系完整性约束,是关系模型必须满足的完整性约束条件,它由关系数据库系统自动支持。用户定义完整性约束是应用领域需要遵循的约束条件。7.3.3 关系的完整性关系的关系的完整性完整性用户定义完整性约束:用户定义完整性约束:反映了具体应用中数据的语义要求参照完整性约束:参照完整性约束:关系之间相关联的基本约束,不允许关系引用不存在的元组,即在关系
20、中的外键取值只能是关联关系中的某个主键值或者为空值实体完整性约束:实体完整性约束:若属性A是基本关系R的主属性,则属性A不能取空值学生选修关系“选修(学号,课程号,成绩)”中,“学号,课程号”为联合主键,那么学号,课程号都不能取空值,而不是整体不为空。7.3.4 关系规范化关系模型是建立在严格的数学关系理论基础之上的,通过确立关系中的规范化准则,既可以方便数据库中数据的处理,又可以给程序设计带来方便。在关系数据库设计过程中,使关系满足规范化准则的过程称为关系规范化(Relation Normalization)。关系规范化就是将数据库中不太合理的关系模型转化为一个最佳的数据模型,因此它要求对于
21、关系数据库中的每一个关系都要满足一定的规范,根据满足规范的条件不同,可以划分为6个范式(Normal Form,NF),分别为:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、BCNF、第四范式(4NF)和第五范式(5NF)。7.3.4 关系规范化(1)第一范式:若一个关系模式R的所有属性都是不可再分的基本数据项,则该关系模式属于第一范式(1NF)。编号编号姓名姓名电话电话家庭电话家庭电话办公电话办公电话01004张辉春张辉春667788998733421102001陈玉茜陈玉茜672123458656633302002张一燕张一燕6789123482334212编号编号姓名姓名家
22、庭电话家庭电话办公电话办公电话01004张辉春张辉春667788998733421102001陈玉茜陈玉茜672123458656633302002张一燕张一燕6789123482334212只要将所有的属性表只要将所有的属性表示为不可分的数据项,示为不可分的数据项,转化后的关系即符合转化后的关系即符合第一范式第一范式,即下图所示。即下图所示。 第一范式示意图:7.3.4 关系规范化(2)第二范式(2NF):若关系模式R属于1NF,且每个非主属性都完全函数依赖于主键,则该关系模式属于2NF,2NF不允许关系模式中的非主属性部分函数依赖于主键。用符号来表示依赖关系。例如:学号院系,就表示院系依赖
23、于学号; 课程号学分,就表示学分依赖于课程号;7.3.4 关系规范化学号学号课程号课程号成绩成绩学分学分01002C176401002C288502002C190402002C286502002C393405007C3964 带来问题的原因是:非主属性带来问题的原因是:非主属性“学分学分”仅仅依赖于仅仅依赖于“课程号课程号”,也就是说只是部分依赖于主关键也就是说只是部分依赖于主关键字字 (学号,课程号学号,课程号), 而不是完全而不是完全依赖,出现冗余等诸多问题依赖,出现冗余等诸多问题, 改改造成下图后,为第二范式。造成下图后,为第二范式。学号学号课程号课程号成绩成绩课程号课程号课程名课程名学
24、分学分01002C176C1高等数学高等数学401002C288C2计算机文化基础计算机文化基础502002C190C3英语英语402002C286C4大学物理大学物理402002C393C5大学美育大学美育305007C396C6计算机绘图计算机绘图3第二范式:表的关系不仅满足第一范式(即最基本不可再分字段),且第二范式:表的关系不仅满足第一范式(即最基本不可再分字段),且所有非主关键字完全依赖于其主关键字。所有非主关键字完全依赖于其主关键字。学号学号课程代课程代码码平时成平时成绩绩期中成期中成绩绩期末成期末成绩绩学分综合成绩课程代课程代码码课程课程名称名称学分学分主关主关键字键字复合复合主
25、关主关键字键字上图中, 除去学分( (和学号无关,却完全依赖于课程代码) )及综合成绩( (其他项派生的) )字段后,全部非学号字段,均和复合主关键字段有关系,或者说, 全都完全依赖复合主关键字。右图中,课程名称和学分是完全依赖于课程代码这个主关键字的。所以这两个图所表示的关系都是属于第二范式的情况。看我们在下面给出的数看我们在下面给出的数据库表中,将课程专门据库表中,将课程专门做为一个表来进行一个做为一个表来进行一个设计,就是为保证满足设计,就是为保证满足第二范式的要求。第二范式的要求。删除此删除此两项内两项内容容7.3.4 关系规范化(3)第三范式(3NF):若关系模式R属于1NF,且每个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第7章 数据库与大数据技术ppt课件 数据库 数据 技术 ppt 课件
限制150内