软考数据库系统工程师复习资料1(70页).doc
-软考数据库系统工程师复习资料1-第 68 页目录第一章计算机系统知识2第二章数据结构与算法5第三章操作系统知识6第四章程序设计基础7第五章网络基础知识7第六章多媒体基础知识7第七章数据库技术基础8第八章关系数据库12第九章SQL语言16第十章系统开发与运行22第十一章数据库设计23第十二章数据库运行与管理27第十三章网络与数据库27第十四章数据库发展趋势与新技术28第一章 计算机系统知识1. 计算机软件=程序+数据+相关文档。2. 操作数包含在指令中是立即寻址,操作数的地址包含在指令中是直接寻址。3. 计算机硬件的典型结构:单总线结构、双总线结构、采用通道的大型系统结构。4. CPU由运算器和控制器组成;控制器由程序计数器(PC)、指令寄存器(IR)、指令译码器(ID)、状态条件寄存器、时序产生器和微操作信号发生器组成。a) PC: pc自动增加一个值,指向下一条要执行的指令,当程序转移时将转移地址送入PC。b) IR:用于存放当前要执行的指令。c) ID:对现行的指令进行分析,确定指令类型、指令要完成的操作和寻址方式。5. 指令执行的过程:a) 取指令:控制器首先按程序计数器所指出的指令地址从内存中取出一条指令。b) 指令译码:将指令的操作码部分送入指令译码器中进行分析,然后根据指令的功能发出控制命令。c) 按指令操作码执行。d) 形成下一条指令地址。6. CPU的基本功能:a) 程序控制b) 操作控制c) 时间控制d) 数据处理CPU的根本任务7. 计算机体系结构和计算机组成的区别:体系结构要解决的问题是计算机系统在总体上、功能上需要解决的问题,而计算机组成要解决的是逻辑上如何具体实现的问题。8. 计算机体系结构分类(指令流、数据流、多倍性):a) Flynn分类:传统的顺序执行的计算机在同一时刻只能执行一条指令(即只有一个控制流)、处理一个数据(即只有一个数据流),因此被称为单指令流单数据流计算机Single Instruction Single Data即SISD计算机)。而对于大多数并行计算机而言,多个处理单元都是根据不同的控制流程执行不同的操作,处理不同的数据,因此,它们被称作是多指令流多数据流计算机,即MIMD(Multiple Instruction Multiple Data)计算机。曾经在很长一段时间内成为超级并行计算机主流的向量计算机除了标量处理单元之外,最重要的是具有能进行向量计算的硬件单元。在执行向量操作时,一条指令可以同时对多个数据(组成一个向量)进行运算,这就是单指令流多数据流(Single Instruction Multiple Data,SIMD)的概念。因此,我们将向量计算机称为SIMD计算机。第四种类型即所谓的多指令流单数据(MultipleInstructionSingleData)计算机。在这种计算机中,各个处理单元组成一个线性阵列,分别执行不同的指令流,而同一个数据流则顺次通过这个阵列中的各个处理单元。这种系统结构只适用于某些特定的算法。相对而言,SIMD和MISD模型更适合于专用计算。在商用并行计算机中,MIMD模型最为通用,SIMD次之,而MISD最少用。9. 存储器的分类:a) 按存储器的位置:内存(主存)和外存(辅存)。b) 按存储器的材料:磁存储器、半导体存储器(静态和动态)和光存储器。c) 按工作方式:读写存储器和只读存储器。只读存储器(ROM/PROM/EPROM/EEPROM/闪存)d) 按访问方式:按地址访问的存储器和按内容访问的存储器(相连存储器)。e) 按寻址方式:随机存储器(RAM)、顺序存储器(ASM)磁带、直接存储器(DAM)磁盘就是直接存储器。10. 输入/输出:直接程序控制、中断方式、直接存储器存取(DMA)。11. 流水线技术a) 吞吐率和建立时间是流水线技术的两个重要技术指标。吞吐率是指单位时间内流水线处理机流出的结果数;流水线开始工作经过一段时间(建立时间)才能到达最大的吞吐率。若m个子过程所用的时间都是t0则建立时间是 m*t0,否则t0取子过程中的最长时间。那么n条指令执行完成需要的时间为第一条完全执行的时间加上后n-1条所用的时间(n-1)*m*t0。12. 虚拟存储器:a) 页式:页表硬件少,查表速度快,主存零头少;分页无逻辑性,不利于存储保护。b) 段式:c) 段页式:地址变换速度比较慢。13. 只有20%的指令经常应用频率达80%RISC(精简指令集计算机)简化了CPU的控制器,提高了处理速度,特点有:14. 信息安全的基本要素:15. 计算机安全等级(技术安全性、管理安全性、政策法律安全性):分为四组七个等级。组安全级别1A12B3B2B13C2C14D(最低级)16. 计算机病毒的特点:a) 寄生性b) 隐蔽性c) 非法性d) 传染性e) 破坏性17. 计算机病毒的类型:a) 系统引导型病毒BOOT型病毒b) 文件外壳型病毒攻击文件c) 混合型病毒Flip病毒、One Half病毒(幽灵)d) 目录型病毒改变目录项不敢变相关文件e) 宏病毒用宏的word或是excel文件18. 计算机可靠性:a) 平均无故障时间(MATBF=1/);b) 计算机正常工作的概率(可用/靠性)A=(MTRF平均修复时间)。c) 失效率:单位时间内失效的元件数与元件总数的比例,用表示。可靠性和是效率的关系是:R(t)=e-t。19. 计算机可靠模型:a) 串联系统:可靠性等于R=R1R2RN;失效率=1+2+Nb) 并联系统:可靠性等于R=1-(1-R1)(1-R2)(1-RN);失效率c) m模冗余系统:可靠性 20. 对称加密技术:加密密钥和解密密钥相同。a) DES(数据加密标准算法):采用替换和移位方法加密,用56位进行对64位数据加密(也就是说只有56是有效的),每次加密对64位数据进行16次的编码,密钥长度为64位。它加密速度快,密钥容易产生。由于DES的密钥较短,不能抵抗对密钥的穷举搜索攻击。b) RC-5算法。c) IDEA算法:明文和密文的长度都为64位,密钥为128位。21. 非对称加密技术:运用公钥加密和私钥解密。a) RSA算法:RAS技术是指可靠性(R)、可用性(A)、可维性(S)b) 信息摘要是一个单向散列函数,经过散列函数得到一个固定的散列值,常用的信息摘要算法有MD5、SHA算法,散列值分别为128和160位。c) 数字签名:用私钥进行加密用公钥解密。d) 数字时间戳技术:电子商务安全服务项目之一,能提供电子文件的日期和时间信息的安全保护。它是在数据加密上加上了时间,有摘要、文件的日期和时间及数据签名组成。22. 信息传输加密:a) 链路加密:对传输途径进行加密;b) 节点加密:c) 端到端加密:23. SSL安全协议:主要应用于提高应用程序之间数据的安全系数。提供的服务有:a) 用户和服务器的合法性认证。b) 加密数据以隐藏被传送的数据。c) 保护数据的完整性。24. DES与RAS的比较:25. 计算机故障诊断技术a) 计算机的故障:i. 永久性故障ii. 间隙性故障iii. 瞬时性故障26. 内存容量=末地址-首地址+1。27. 存储相关计算问题:a) 计算磁道数:磁道数 (外半径内半径)×道密度×记录面数。注:硬盘的第一面和最后一面是保护用的要减掉,即有n个双面的盘片记录面数为n×22。b) 非格式化磁盘容量:容量位密度××最内圈直径×总磁道数。注:每道位密度是不通的,但是容量是相同的,其中0道是最外面的磁道位密度最小。c) 格式化磁盘容量:容量每道扇区数×扇区容量×总磁道数。d) (格式化)平均数据传输率:传输率每道扇区数×扇区容量×盘片转速。e) 存取时间寻道时间等待时间。其中:寻道时间是指磁头移动所需的时间;等待时间为等待读写的扇区转到磁头下方所需的时间。f) (非格式化)平均数据传输率:传输率最内直径×(3.14)×位密度×盘片转速。注:一般采用非格式化。28. 数制运算29. 码制a) 反码:正数的反码与原码相同,负数反码为原码按位取反(符号位不变)。b) 补码:正数的补码与原码相同,负数的补码为反码末位加1(即除去符号位按位取反末位加1)。c) 移码(增码):将补码的符号位求反。d) X Y 补 X补 Y 补e) X Y 补 X补 Y 补f) Y 补 Y 补30. 校验码:a) 循环校验码(CRC):i. 模二除法:指在除法运算的过程中不计其进位的除法。b) 海明校验码:i. 根据信息位数,确定校验位数,2rk+r+1。k为信息位数,r为校验位数,求出满足不等式的最小r即为校验位数。第二章 数据结构与算法1. 数据结构指数据元素的组织形式。2. 线性表的顺序存储结构: a) 特点是物理位置上的邻接关系来表示结点的逻辑关系,具有可以随机存取表中的任一结点的,但插入删除不方便。b) 查找表中第i个元素LOC(ai) = LOC(a1)+(i-1)*L3. 线性表的链式存储结构:a) 用一组任意的存储单元来存放线性表的数据元素,链表中的结点的逻辑次序和物理次序不一定相同。数据域指针域4. 线性表的插入和删除a) 顺序存储:Einsert = n/2 Edelete =(n-1)/2b) 链式存储:5. 栈的顺序存储:采用两个顺序栈共享一个数据空间:(先进后出)栈底1栈顶1栈顶2栈底26. 队列:只允许在表的一端插入元素(队尾),另一端删除元素(队头)。(先进先出)7. 子串包含在它的主串中的位置是子串的第一个字符首次出现的位置。8. 广义表9. 二叉树的性质:a) 二叉树第i层上的结点数目最多为2i-1(i1)。b) 深度为K的二叉树至多有2k-1个结点(k1)。c) 在任意一颗二叉树中,若终端结点的个数为n0,度为2的节点数为n2,则n0=n2+1。d) 具有n个结点的完全二叉树的深度为(向下取整)。10. 树与二叉树的转换:左孩子不变,其兄弟结点变为左孩子的右孩子;或是将树置保留左孩子结点,其它全删去,然后将各层的兄弟结点连起来。如:11. 树的前序遍历与二叉树的先序遍历一样;树的后序与二叉树的中序遍历一样。12. 散列就是把任意长度的输入通过散列算法,变换成固定长度的输出,该输出就是散列值,如此建立的表为散列表,散列表是可以动态创建的。13. 二分查找(折半查找):要求关键字必须采用顺序存储结构,并且必须按关键字的大小有序排序。14. 查找二叉树(二叉排序树)动态查找表:或者为空树或者满足:a) 查找树的左右子树各是一颗查找树。b) 若查找树的左子树非空,则其左子树上各节点的值均小于根结点的值。c) 若查找树的右子树非空,则其右子树上各节点的值均大于根结点的值。d) 平衡二叉树:或者是空树,或者是满足:树中任一节点左右子树的深度相差不超过1。结点的平衡度:其右子树的深度减去左子树的深度(因此平衡度只能为1,0,-1)。15. 有向图中所有顶点的出度数之和等于入度数之和。16. 在图中,边数等于所有顶点的度数之和的一半.17. 在有向图中顶点为n的边数等于,无向图中边数等于。18. C语言中,struct中各成员都占有自己的内存空间,总长度为所有成员的长度之和,而union中的长度等于最长的成员的长度。第三章 操作系统知识1. 操作系统的类型:a) 批处理操作系统(单道和多道)b) 分时系统(多路性(同时性)、独立性、交互性、及时性)注:UNIX是多用户多任务的分时系统。c) 实时系统高可靠性d) 网络操作系统e) 分布式操作系统f) 微机操作系统g) 嵌入式操作系统2. 利用PV操作实现进程的互斥和同步。3. 网络操作系统a) 集中模式b) 客户机/服务器模式c) 对等模式4. 中断响应时间:从发出中断请求到进入中断处理所用的时间。5. 中断响应时间关中断的最长时间 保护CPU内部寄存器的时间 进入中断服务函数的执行时间 开始执行中断服务例程(ISR)的第一条指令时间。6. 在磁盘驱动器向盘片的磁性涂层写入数据时,均是以串行方式一位接着一位的顺序记录在盘片的磁道上。7. 高速缓存的组成:Cache由两个部分组成:控制部分和Cache存储器部分。 8. Cache与主存之间的地址映像,就是把CPU送来的主存地址转换成Cache地址。有三种方式:a) 直接映像:它把主存空间按Cache大小等分成区,每区内的各块只能按位置一一对应到Cache的相应块位置上。主存地址:主存区号+块号B+块内地址W Cache地址:块号b + 块内地址w 对应关系:块号B=块号b , 块内地址W = 块内地址 wb) 全相联映像:主存中的每一页可以映像到Cache中的任意一页。主存地址:块号B+块内地址WCache地址:块号b +块内地址w 对应关系:块号B通过地址变换表对应于块号b , 块内地址W = 块内地址 wc) 组相联映像:是直接映像和全相联映像的折中方案。即组间直接映像,组内全相联映像。主存地址:区号E+组号G+组内块号B+块内地址WCache地址:组号g + 组内块号b + 块内地址w组间是直接映射关系,组内是全相连映射关系对应关系:组号G=组号g,组内块号B通过地址变换表对应于组内块号b , 块内地址W = 块内地址 w9. Cache存储器:a) 命中率:t3×t11×t2。其中:为Cache的访问命中率(1)为未命中率,t1表示Cache的周期时间,t2表示主存储器的周期时间,t3为“Cache+主存储器”的平均周期。b) 使用Cache后提高的倍数: r = t2/t3。10. 替换算法:目标就是使Cache获得最高的命中率。常用算法如下:a) 随机替换算法。就是用随机数发生器产生一个要替换的块号,将该块替换出去;b) 先进先出算法。就是将最先进入Cache的信息块替换出去。此法简单但并不能说最先进入的就不经常使用;c) 近期最少使用算法。这种方法是将近期最少使用的Cache中的信息块替换出去。该算法较先进先出算法要好一些。但此法也不能保证过去不常用将来也不常用。d) 优化替换算法。使用这种方法时必须先执行一次程序,统计Cache的替换情况。注:11. 局部性理论和Denning的工作集理论:a) 虚拟存储管理系统的基础是程序的局部性理论:程序的局部性表现在时间局部性和空间局部性上。时间局部性是指最近被访问的存储单元可能马上又要被访问。空间局部性是指马上被访问的存储单元,其相邻或附近单元也可能马上被访问。b) 根据程序的局部性理论,Denning提出了工作集理论:在进程运行时,如果能保证它的工作集页面都在主存储器内,就会大大减少进程的缺页次数,使进程高效地运行;否则将会因某些工作页面不在内存而出现频繁的页面调入/调出现象,造成系统性能急剧下降,严重时会出现“抖动”现象。12. 进程状态13. 进程不发生死锁的条件:系统资源数 = 进程数*(每个进程所需资源数-1)+1。14. 前趋图是一个有向无循环图。15. PV操作:生产者和消费者问题。a) 临界资源:诸进程间需要互斥方式对其进行共享的资源,如打印机。b) 临界区:每个进程中访问临界资源的那段程序代码。c) s:信号量;P操作:使S = S-1,若S<0,进程暂停执行,放入信号量的等待队列;V操作:使s = s+1,若s0,唤醒等待队列中的一个进程。d) 进入临界区时进行P操作,退出临界区是进行V操作。16. 进程通信(间接通信)a) 发送信件:如果指定信箱未满,则将信件送入信箱中由指针所指示的位置,并释放等待该信箱中信件的等待者;否则发送信件者被置成等待信箱状态。b) 接收信件:如果指定信箱中有信,则取出一封信件,并释放等待信箱的等待者,否则接收信件者被置成等待信箱中信件的状态进程通信。17. 存储管理:a) 页式存储管理:逻辑地址分为页号+页内地址,页表分为 页号+块号,块号对应内存块号。物理地址 = 块号+页内地址。页内地址由每页的大小决定,如逻辑地址有16K=214,页面大小为2K=211则页内地址为11位,也号为3位。即:P=INTA/L;d=AMOD L.其中逻辑地址为A。页面大小为L页号P,页内地址d。b) 段式存储管理方式:逻辑地址分为 段号+段内地址,段表分为 段号+段长+基址。基址对应内存地址。物理地址 = 基址+段内地址。c) 段页式存储管理方式:逻辑地址分为 段号(s)+段内页号(P)+页内地址(w)。由一个段表和多个(一组页表)组成。物理地址 = 块号+页内地址。在多道环境下,每道程序还需要一个基号作为用户标识。那么物理地址 = (基号+段号+页号)*2n+页内地址。其中2n是将n位的页内地址拼接到后面。18. 文件系统的主要功能是:实现对文件的按名存取,使用打开文件(open)将文件的控制信息从辅存读到内存。19. FAT16文件系统中磁盘分区容量=簇的大小×216。20. Spooling技术是用一类物理设备模拟另一类物理设备的技术,实现这种技术的功能模块称做斯普林系统。Spooling系统的特点:a) 提高了I/O速度。b) 将独占设备改造成共享设备。c) 实现了虚拟设备的功能。第四章 程序设计基础1. 程序设计语言的种类:a) 命令式程序设计语言:基于动作的语言,如fortran、pascal和c。b) 面向对象程序设计语言:java、C+。c) 函数式程序设计语言:主要用于符号数据处理,如积分演算、数理逻辑、游戏推演和人工智能等领域。d) 逻辑程序设计语言:不需要描述具体的接替过程,只需给出一些必要的事实和规则,作为专家系统的开发工具。2. 程序语言的基本成分:a) 数据成分:常量和变量、全局量和局部量、数据类型。b) 运算成分:c) 控制成分:顺序结构、选择结构和循环结构。d) 函数:函数定义、函数声明、函数调用。3. 面向对象程序设计语言的基本特征:a) 抽象数据对象;b) 支持模版操作,具体有函数模版和类模版,即泛型编程。c) 支持动态性;d) 支持继承与其它语言的主要区别。e) 类库是衡量成熟与否的标识。4. C语言的特点是过程式程序设计属于静态语言所有成分可在编译时确定。5. 脚本语言是动态语言,可在运行时可改变不能产生独立的目标程序。6. 编写程序时的错误有:a) 动态错误:指源程序中的逻辑错误,发生在程序运行时错误,如除数为0数组下标出界。b) 静态错误:分为语法错误和语义错误。第五章 网络基础知识1. TCP是第四层(传输层)的传输控制协议;IPSec是第三层(网络层)的VPN协议;PPOE工作于第二层(数据链路层);SSL是工作于TCP协议之上的安全协议。2. FTP传输需建立:a) 控制连接:文件传输命令,由客户端向服务器端请求。b) 数据连接:文件的传输,主动模式由服务器端主动连接,被动模式服务器等待客户端来连接。3. 端口号:端口号服务进程说明20FTP文件传输协议(数据连接)21FTP文件传输协议(控制连接)23TELNET虚拟终端网络25SMTP简单邮件传输协议53DNS域名服务器80HTTP超文本传输协议110POP3邮局协议(简单邮件读取)111RPC远程过程调用143IMAP交互式存取协议(报文存取)4. 电子商务交易:通过身份认证可以确定一个实体的身份,防止一个实体假装成另一个实体;认证与授权相结合,可以防止他人对数据进行非授权的修改、破坏;保护信息的机密性可以防止信息从被监视的通信过程中泄漏出去。抗抵赖性防止参与此交易的一方否认曾经发生过此次交易5. 网络安全技术:信息存取的保障有用户的标识和验证、用户存取权限控制、系统安全监控、计算机病毒的防治、数据加密。a) VPN技术:通过隧道将两个内部网络通过公共网络进行连接使其成为一个总体网络。b) 防火墙技术:类型有i. 包过滤防火墙(屏蔽路由器):将路由器放置于内部网络中,网络层安全。ii. 应用代理防火墙:也就是双宿主机防火墙,应用层安全。iii. 状态检测技术防火墙:以上两种技术的综合,屏蔽路由器置于外部网络,双宿主机置于内部网络。iv. 屏蔽子网防火墙:设置DMZ(非军事区)由屏蔽路由器和双宿主机构成。6. 多模光纤的特点是:成本低、宽芯线、聚光好、耗散大、低效,用于低速短距离的通信。单模光纤的特点是:成本高、窄芯线、需要激光源、耗散小、高效,用于高速长距离的通信。7. DHCP(动态主机配置协议):用于网络中的主机动态分配IP地址,默认情况下客户机采用最先达到的DHCP服务器分配的IP地址。8. Internet协议:a) TCP/IP协议:是Internet协议的核心协议,基本特性(逻辑编址、路由选择、域名解析协议、错误检测和流量控制)b) ARP(地址解析协议)和RARP(反地址解析协议)。ARP将IP地址转换为物理地址(MAC地址)。9. 网络设计原则:a) 先进性:采用先进的技术;b) 实用性:采用成熟可靠的技术和设备达到使用有效的目的;c) 开放性:网路系统采用开放的标准和技术;d) 经济性:在满足需求的基础上尽量节省费用;e) 高可用/靠性:系统具有很高的平均无故障时间,如:金融、铁路证券等。第六章 多媒体基础知识 1. 衡量声音特性的属性(三要素):a) 音量:也叫音强,衡量声音的强弱程度。b) 音调:声音频率。c) 音色: 由混入基音的泛音决定。2. 声音的带宽:声音信号的频率范围。a) 人耳能听到(其它声音)的音频范围:20HZ20KHZb) 人的说话声音音频范围:3003400HZc) 乐器的音频范围:20HZ20KHZ3. 声音信号的数字化:取样-量化法a) 采样:信号测量记录。注:语音信号的采样频率一般为8KHz,音乐信号的采样频率则应该在40KHz以上。b) 数字信号是离散的,模拟信号是连续的。c) 量化(数模转换):A/D转换4. 图形图像的区别:图形放大不会失真,图像放大会失真。5. 色彩的三要素:a) 亮度:明亮程度的感觉。b) 色调:反映的是颜色的种类。c) 饱和度:颜色的纯度,即掺入白光的程度,颜色的鲜明程度。6. 彩色空间:a) RGB彩色空间:计算机。红黄绿b) CMY彩色空间:打印。青、品红、黄c) YUV彩色空间:电视。7. 图像文件的大小计算:a) 已知像素和位数:容量=像素*位数/8Bb) 已知像素和色数:容量=像素*位数/8B(2位数=色数即n位数能表示2位数种颜色)8. 音频文件的大小计算:a) 未经过压缩的 :数据传输率(b/s)=采样频率(Hz)*量化位数(采样位数)(b)*声道数(如果求的是字节则应再除以8)b) 经过数字化后所需的存储空间(容量):声音信号数据量=数据传输率(b/s)*持续时间/8(B)9. 视频文件的大小计算:a) 存储容量的(字节数)=每帧图像的容量(B)*每秒帧数*时间注:每帧图像的容量(B)与图像文件容量计算方式一样。b) 播放时的传输速率=每张图像的容量*每秒传输的图像数10. 常见视频标准:音视频编码技术a) MPEG-1:MPEG-1层1是对复合编码如: 数字盒式录音带;MPEG-1层2是对视频编码如: DAB,VCD;MPEG-1层3 是对音频进行编码,如Internet,MP3音乐;层4是用来检查。数字电视标准。b) MPEG-2:对交互式多媒体的应用。DVD,数字电视标准。c) MPEG-4: 多种不同的视频格式,虚拟现实、远程教育和交互式视频等的应用。多媒体应用的标准。d) MPEG-7: MPEG7并不是一种压缩编码方法,其正规的名字叫做多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,或者被设备或电脑程序查取。e) MPEG-21: “多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。f) CIF视频格式的图像分辨率为:352*288(常用标准化的图像格式);QCIF:176*141;DCIF:528*384g) MPEG-1编码器输出视频的数据率为15Mbps;PAL制式下其图像的分辨率为352×288,帧速率为25帧/秒。11. 图像文件格式g) 静态格式:GIF/BMP/TIF/PCX/JPG/PSDh) 动态格式:AVI/MPG/AVSi) 目前图像使用的编码和压缩标准:JPEG/MPEG/H.261。12. 音频格式a) WAVE/MOD/MP3(MPEG-1的第三层)/REAL AUDIO/MIDI/CD AUDIOb) 音频文件通常分为声音文件和MIDI文件。声音文件是通过声音录入设备录制的原始声音;MIDI是一种音乐演奏指令序列,相当于乐谱,由电子乐器进行演奏,不包含声音数据,文件较小。13. 压缩技术a) 多媒体数据中存在的冗余:时间冗余、空间冗余、视觉冗余、信息熵冗余、结构冗余、知识冗余。b) 视频图像压缩技术基本思想和方法:在空间上,图像数据压缩采用JPEG压缩方法来去除冗余信息,主要方法包括帧内预测编码和变换编码;在时间上,图像数据压缩采用帧间预测编码和运动补偿算法来去除冗余信息。c) 无损压缩也叫冗余压缩法或是熵编码法;有损压缩也叫熵压缩法。区别是无损压缩可以还原。霍夫曼编码和行程编码方法属于无损压缩,而预测编码、变换编码和运动补偿属于有损压缩。d) 熵编码:熵编码即编码过程中按熵原理不丢失任何信息的编码,常见的熵编码有:LZW编码、香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。第七章 数据库技术基础1. 数据库(DB)是指长期存储在计算机内的,有组织的,可共享的数据的集合。2. 数据库系统(DBS)由数据库、硬件、软件和人员组成。3. 数据库技术的发展:a) 人工管理阶段b) 文件管理阶段c) 数据库系统阶段(有较高的数据独立性)4. 数据模型的三要素:a) 数据结构b) 数据操作c) 数据的约束条件5. 对数据操作的有:DDL语言(CREATE/ALTER/DROP/完整性约束)、DML语言(SELECT/INSERT/DELETE/UPDATE);对权限的操作有DCL语言。6. 数据模型分为:概念数据模型(E-R模型)和基本数据模型(层次、网状、关系模型)和目前提出的对象模型。7. 实体属性a) 简单属性(不可再分)和复合属性(可分如地址(省份、市)b) 单值属性(只有一个值)和多值属性(如电话号码可有多个)c) NULL属性(没有或是未知)d) 派生属性(从其他属性可推出来)8. E-R法的构件:9. 扩充的E-R模型a) 弱实体(要依赖另一个实体而存在)b) 特殊化P37510. 数据库系统的体系结构a) 三级模式结构(三层两映像)i. 数据物理独立性ii. 数据逻辑独立性b) 集中式数据库系统:两段提交协议:封锁阶段(扩展阶段)和解锁阶段(收缩阶段)c) 客户/服务器数据库体系结构d) 并行数据库系统(多个CPU)P387i. 共享内存式多处理器ii. 无共享式并行体系结构e) 分布式数据库系统:两段提交协议:表决阶段和执行阶段f) Web数据库11. 全码:指关系模型中所有的属性组是这个关系模式的候选键。12. 数据库的控制功能a) 事物管理(不可分割的逻辑工作单位)i. 原子性:要么都做要么都不做ii. 一致性:只包含成功提交的是事物iii. 隔离性:多个事物并发执行时是相互隔离的iv. 持久性:一旦事物成功提交则永久的反应到数据库中b) 故障恢复i. 事物内部故障ii. 系统故障iii. 介质故障iv. 计算机病毒v. 恢复方法:静态转存和动态转存、海量转存和增量转存、日志文件vi. 事物恢复步骤:反向扫描文件日志、对事物的更新操作执行逆操作、继续反向扫描日志文件,直到事物的开始标志vii. 数据库镜像c) 并发控制i. 并发操作带来的问题:带来数据的不一致性(丢失更新、不可重复读和读脏数据);破坏了事物的隔离性。ii. 并发控制的技术:封锁,排他锁(X锁)和共享锁(S锁)iii. 三级封锁协议:一级:解决丢失更新;二级:解决读脏数据;三级:解决不可重复读iv. 并发调度的可串行性:可串行化是并发事物正确性准则,当且仅当可串行化时才是正确的并发调度v. 封锁的粒度:封锁的范围vi. 事物是不能嵌套的,因为违背了事物的原子性;当且仅当当前没有事物执行时才能开始执行事物。d) 安全性和授权i. 安全性违例(未经授权读取、修改、破坏数据)ii. 授权1) read:允许读取,不许修改2) insert:允许插入,不许修改3) update:允许修改,不许删除4) delete:允许删除5) index:允许创建或删除索引6) resource:允许创建新关系7) alteration:允许添加或删除关系中的属性8) drop:允许删除关系13. 事物的执行状态:a) 活动状态:事物的初始状态。b) 部分提交状态:全部执行完。c) 失败状态:由于硬件或是逻辑上的错误,使事物不能在继续进行,处于失败状态的事物必须回滚。然后事物就进入了中止态。d) 中止状态:事物回滚并数据库恢复到开始执行前的状态。e) 提交状态:当事物成功完成后,事物处于提交状态,只有事物处于提交状态,才能说明事物已经提交。14. 事物的隔离级别(高到低):a) 可串行化(读幻影):SERIALIZABLEb) 可重复读:REPEATABLE READc) 读提交数据:READ COMMITTED d) 可以读未提交数据:READ UNCOMMITTED e) SQL语句定义:SET RANSACTION SOLATONLEVEL a)/b)/c)/d)f) 幻影现象:同一事物对数据对象的两次访问得到的数据记录不同,不可重复读问题15. 数据仓库a) DW的基本特性:面向主题的、数据是集成的、数据是先对稳定的、数据是反映历史变化的(时限一般510年)。b) 数据模式事实表,多维数据模式包括(星型模式、雪花模式、事实星状模式)c) 数据仓库体系结构i. 通常采用:数据仓库服务器、OLAP(联机分析处理)、前端服务器ii. 从结构的角度:企业仓库、数据集市、虚拟仓库16. 数据仓库的设计:a) 数据仓库的数据模型与操作行数据库的区别:不包含纯操作型的数据;扩充了码结构,增加了时间属性作为码的一部分;增加了一些导出数据。b) 数据仓库的物理设计:主要提高I/O性能,通过粒度划分和数据分割来提高系统的性能。17. 数据挖掘技术:海量数据搜集、强大的多处理计算机和数据挖掘算法。18. 数据挖掘中常用的技术:人工神经网络、决策树、遗传算法、近邻算法和规则推倒。19. 数据挖掘的应用过程a) 确定挖掘对象b) 准备数据(数据挖掘工作量的60%),包括数据选择;数据预处理(清洗);数据转换。c) 建立模型d) 数据挖掘e) 结果分析f) 知识应用20. 数据转储:DBA定期地将整个数据库复制到磁带或另一个磁盘上保存起来的过程。a) 动态转储: 指转储期间允许对数据库进行存取或修改。即转储和用户事务可以并发执行。b) 静态转储:在系统中无运行事务时进行的转储操作。c) 增量转储:指每次只转储上一次转储后更新过的数据。d) 海量转储:指每次转储全部数据库。e) 从恢复角度看,使用海量转储得到的后备副本进行恢复一般说来会更方便些。但如果数据库很大,事务处理又十分频繁,则增量转储方式更实用更有效。21. OLAP(联机分析处理):通常用于对数据仓库进行数据挖掘;OLTP(联机事物处理)是面向事物程序的执行,通常对应密集型更新事物的程序,应用于对数据库的操作。OLAP没有严格的时间要求,OLTP是面向业务的,对时效要求比较高。OLAP用于数据挖掘以提供决策支持,OLTP用于具体的业务。第八章 关系数据库1. 关系模型是关系数据库的基础,由关系数据结构、关系操作集合和关系完整性规则组成。2. 关系的度是指关系中属性的个数,关系的势指关系中元组的个数。3. 在关系模型中所有的域都应该是原子数据(1NF)。4. 关系的三种类型:基本表、查询表、视图表5. 完整性约束:实体完整性、参照完整性、用户定义完整性。6. 在关系代数中对传统的的集合运算要求参与运算的关系具有相同的度且对应属性取自同一个域。7. 关系运算:a) 关系代数语言b) 关系演算语言c) 具有以上两种双重特点的语言(SQL)8. 关系代数中的查询优化准则:a) 尽可能早的执行选择运算b) 尽可能早的执行投影运算c) 避免直接做笛卡尔乘积,把笛卡尔乘积之前的操作和之后的一连串选择和投影合并起来一起做。9. 关系模式的设计问题:a) 数据冗余:同一数据重复出现多次。b) 操作异常(更新异常):修改异常、插入异常和删除异常。c) 规范化的一个原则:“关系模式有冗余问题,就分解它”。10. 关系模式的非形式化设计准则:a) 关系模式的设计尽可能只包含直接联系的属性,不要包含有间接联系的属性。b) 尽可能的不出现插入、删除和操作异常。c) 尽可能的避免放置经常为空值的属性。d) 尽可能的使等值连接在主键和外键上进行,并保证不会产生额外的元组。