《数据库》第八章数据库技术新发展.ppt
数据库原理与应用第九章第九章数据库技术的新发展数据库技术的新发展西北大学经济管理学院西北大学经济管理学院张昌蓉张昌蓉数据库原理与应用数据库新技术数据库新技术1.数据库技术与分布式处理技术相结合,形成数据库技术与分布式处理技术相结合,形成分布式数据库系统。分布式数据库系统。2.数据库技术与面向对象技术相结合,形成数据库技术与面向对象技术相结合,形成面向对象数据库系统。面向对象数据库系统。3.数据库技术与并行技术相结合,形成数据库技术与并行技术相结合,形成并行数据库系统。并行数据库系统。4.数据库技术与多媒体技术相结合,形成了数据库技术与多媒体技术相结合,形成了多媒体数据库系统。多媒体数据库系统。5.数据库技术与人工智能相结合,形成了数据库技术与人工智能相结合,形成了知识库系统。知识库系统。6.数据库技术与模糊技术相结合,形成了数据库技术与模糊技术相结合,形成了模糊数据库系统。模糊数据库系统。7.7.7.7.数据库技术与演绎规则相结合,数据库技术与演绎规则相结合,数据库技术与演绎规则相结合,数据库技术与演绎规则相结合,形成了形成了演绎演绎数据库系统。数据库系统。数据库系统。数据库系统。8.8.8.8.数据库技术与工程设计应用相结合,数据库技术与工程设计应用相结合,数据库技术与工程设计应用相结合,数据库技术与工程设计应用相结合,形成了形成了工程工程数据库系统。数据库系统。数据库系统。数据库系统。9.9.9.9.数据库技术与地理空间系统相结合,数据库技术与地理空间系统相结合,数据库技术与地理空间系统相结合,数据库技术与地理空间系统相结合,形成了空间形成了空间数据库系统。数据库系统。数据库系统。数据库系统。10.10.10.10.数据仓库数据仓库数据仓库数据仓库是数据库应用规模、范围、和深度不断扩大,为了更有是数据库应用规模、范围、和深度不断扩大,为了更有是数据库应用规模、范围、和深度不断扩大,为了更有是数据库应用规模、范围、和深度不断扩大,为了更有效地获得由价值信息而发展起来的一种数据库信息综合技术。效地获得由价值信息而发展起来的一种数据库信息综合技术。效地获得由价值信息而发展起来的一种数据库信息综合技术。效地获得由价值信息而发展起来的一种数据库信息综合技术。数据库原理与应用一、分布式数据库系统一、分布式数据库系统分分分分布布布布式式式式数数数数据据据据库库库库系系系系统统统统是是是是分分分分布布布布式式式式技技技技术术术术与与与与数数数数据据据据库库库库技技技技术术术术的结合。的结合。的结合。的结合。由由由由于于于于计计计计算算算算机机机机网网网网络络络络技技技技术术术术的的的的发发发发展展展展,需需需需要要要要把把把把分分分分散散散散在在在在各各各各处处处处的的的的数数数数据据据据库库库库系系系系统统统统通通通通过过过过网网网网络络络络技技技技术术术术连连连连接接接接起起起起来来来来,这这这这样样样样形成的数据库系统称为分布式数据库系统。形成的数据库系统称为分布式数据库系统。形成的数据库系统称为分布式数据库系统。形成的数据库系统称为分布式数据库系统。分分分分布布布布式式式式数数数数据据据据库库库库是是是是一一一一个个个个数数数数据据据据集集集集合合合合,这这这这些些些些数数数数据据据据逻逻逻逻辑辑辑辑上上上上属属属属于于于于同同同同一一一一个个个个系系系系统统统统,但但但但实实实实际际际际上上上上又又又又分分分分布布布布在在在在一一一一个个个个计计计计算算算算机机机机网网网网络络络络中中中中的的的的不不不不同同同同计计计计算算算算机机机机中中中中。此此此此网网网网络络络络的的的的各各各各个个个个节节节节点点点点具具具具有有有有自自自自治治治治的的的的处处处处理理理理能能能能力力力力,并并并并且且且且能能能能够够够够执执执执行行行行本本本本地地地地的的的的应应应应用用用用,每每每每个个个个节节节节点点点点的的的的计计计计算算算算机机机机至至至至少少少少还还还还参参参参与与与与一一一一个个个个全全全全局局局局应应应应用用用用的的的的执执执执行行行行,这这这这种种种种应应应应用用用用要要要要求求求求在在在在几几几几个个个个节节节节点点点点上上上上存存存存取取取取数据。数据。数据。数据。数据库原理与应用 分分分分布布布布式式式式数数数数据据据据库库库库系系系系统统统统特特特特点点点点:分分分分布布布布性性性性,逻逻逻逻辑辑辑辑相相相相关关关关性性性性,区区区区域域域域自自自自治治治治性性性性,相相相相互互互互之之之之间间间间的的的的协协协协调调调调性性性性是是是是分分分分布布布布式式式式数数数数据据据据库库库库系系系系统统统统的的的的特特特特点点点点。使使使使应应应应用程序编写时可完全不考虑数据的分布情况。用程序编写时可完全不考虑数据的分布情况。用程序编写时可完全不考虑数据的分布情况。用程序编写时可完全不考虑数据的分布情况。位置透明性,复制透明性是对分布式数据库系统的要求。位置透明性,复制透明性是对分布式数据库系统的要求。位置透明性,复制透明性是对分布式数据库系统的要求。位置透明性,复制透明性是对分布式数据库系统的要求。局部数据库局部数据库分散在各个场地的数据库是局部数据库。分散在各个场地的数据库是局部数据库。本身是一个完整的数据库系统,具有本地真实的数据库、本身是一个完整的数据库系统,具有本地真实的数据库、本地用户、本地本地用户、本地DBMS全局数据库全局数据库是一组局部数据库的集合是一组局部数据库的集合一组数据库系统的集合一组数据库系统的集合是一个逻辑数据库(虚拟的)是一个逻辑数据库(虚拟的)数据库原理与应用数据的分布性分布式数据存储分布式数据存储复制:复制:多个副本储存在多个节点多个副本储存在多个节点数据可用性,并行度的增加数据可用性,并行度的增加冗余冗余分片分片水平分片:水平分片:r1r2;垂直分片;垂直分片:r1r2分片的要求分片的要求完备性完备性可重构性:垂直分片含主码属性可重构性:垂直分片含主码属性复制复制+分片分片数据的冗余数据的冗余提高数据的可用性、并发性、减少网络传输提高数据的可用性、并发性、减少网络传输增加了数据更新的开销,副本一致性问题增加了数据更新的开销,副本一致性问题数据库原理与应用事务的分布性局部事务局部事务仅访问当地数据库的事务仅访问当地数据库的事务全局事务全局事务需访问其他场地数据库的事务需访问其他场地数据库的事务数据库原理与应用分布式数据库环境下的访问代价磁盘读写磁盘读写网络传输网络传输分布式数据库的目标部门组织分布,降低成本部门组织分布,降低成本数据资源共享,提高数据库的利用率数据资源共享,提高数据库的利用率数据库原理与应用全局外模式:全局外模式:全局应用的用户视图,全局概念模式的子集全局概念模式全局概念模式是全局概念视图是全局概念视图全局概念模式名、属性名、域全局概念模式名、属性名、域分片模式分片模式定义分片片段以及全局关系到片段的映象定义分片片段以及全局关系到片段的映象是一对多的,一个全局关系可对应多个片段,一个片段是一对多的,一个全局关系可对应多个片段,一个片段只来自全局关系只来自全局关系分布模式:分布模式:分片的物理分配视图局部概念模式局部概念模式局部数据库中的概念模型,关于本地数据库的描述局部数据库中的概念模型,关于本地数据库的描述如果局部数据库中还有独立应用,则应有局部外模式,如果局部数据库中还有独立应用,则应有局部外模式,提供给本地应用使用提供给本地应用使用局部内模式局部内模式:局部数据库的物理描述局部数据库:局部数据库:本地的局部数据库数据库原理与应用分布式数据库的基本原则对用户(最终用户、程序员)来说,一个分对用户(最终用户、程序员)来说,一个分布式系统应该看起来完全象一个非分布式系布式系统应该看起来完全象一个非分布式系统统数据库原理与应用客客客客户户户户/服服服服务务务务器器器器(Client/ServerClient/ServerClient/ServerClient/Server,C/SC/SC/SC/S)体体体体系系系系结结结结构也是一种分布式结构。构也是一种分布式结构。构也是一种分布式结构。构也是一种分布式结构。按按照照C CS S结结构构,一一个个数数据据处处理理任任务务至至少少是是分分布布在在2 2个个不不同同的的部部件件上上完完成成。一一部部分分是是由由前前端端(Frontend,(Frontend,即即Client)Client)运运行行应应用用程程序序,提提供供用用户户接接口口,而而另另一一部部分分是是由由后后端端(Backend,(Backend,即即Server)Server)提提供供特特定定服服务务,包包括括数数据据库库或或文文件件服服务务、通通信信服服务务等等。客客户户机机通通过过远远程程调调用用或或直直接接请请求求应应用用程程序序提提供供服服务务,服服务务器器执执行行所所要要求求的的功功能能后后,将将结结果果返返回回客客户户机机,客客户户机机和和服务器通过网络来实现协同工作。服务器通过网络来实现协同工作。C CS S结结构构具具有有性性能能优优越越、保保护护投投资资、易易于于扩扩展展和和保保证数据完整性等优点。证数据完整性等优点。数据库原理与应用二、二、面向对象系统数据库概述面向对象系统数据库概述面向面向对象数据象数据库(OODBS)是)是为了管理复了管理复杂对象的复象的复杂行行为(如:多媒体信息的(如:多媒体信息的处理),理),将面向将面向对象技象技术和数据和数据库技技术相相结合的一种数合的一种数据据库系系统。它利用面向。它利用面向对象技象技术中中类的概念来的概念来描述复描述复杂对象;利用象;利用类中封装方法来模中封装方法来模拟对象象的复的复杂行行为;利用;利用继承性来承性来实现对象的象的结构和构和方法重用。方法重用。与关系数据与关系数据库比,面向比,面向对象数据象数据库理理论和技和技术都都还不成熟。不成熟。数据库原理与应用面向面向对象的数据模型象的数据模型对象:象:对象是面向数据模型的基本象是面向数据模型的基本结构。一个构。一个对象是象是由一些数据以及能由一些数据以及能够作用与作用与这些数据上的操作些数据上的操作组成。成。例如:一个学生例如:一个学生对象,将包括与学生相关的数据(学号、姓名、象,将包括与学生相关的数据(学号、姓名、)以)以及相及相应的操作(增加、的操作(增加、删除、修改学生除、修改学生记录)面向面向对象数据象数据库系系统:主要:主要强调的仍是数据,操作被的仍是数据,操作被定定义为数据的一部分。数据与操作被封装起来,数据的一部分。数据与操作被封装起来,对客客户是是隐蔽的。蔽的。对象主要包含的部分:象主要包含的部分:属性集合:对象的状态与特征。注意:这里的属性可能是其他对象。即对象嵌套。多层嵌套即可组成复杂的对象。方法集合:对象的行为特征。即方法是对对象进行的各种操作,可改变对象的状态或特性。方法的定义包括:方法的调用说明和实现部分。消息集合:对象是封装的,是属性和方法的封装。所以外界与对象的通信一般是通过消息。一条消息就是一个执行方法的请求。数据库原理与应用类和和实例例基本概念:基本概念:类:将具有相同或相似特征(相同属性、相:将具有相同或相似特征(相同属性、相应相同的相同的消息、使用相同的方法等)的消息、使用相同的方法等)的对象象归为一一类。实例:例:类中每一个中每一个对象象则为类的一个的一个实例。例。类的的继承性承性子子类和超和超类:A类属于属于B类,A类具有一些附加特性(不与具有一些附加特性(不与B类的所有成的所有成员相关)。相关)。A类称称为是是B类的子的子类。B类称称为A类的超的超类或父或父类。也称存在。也称存在Is-a层次关次关系。系。子子类可可继承超承超类的所有特征,同的所有特征,同时又可具有超又可具有超类所没有的特征。所没有的特征。单继承和多承和多继承承单继承:一个子承:一个子类只只继承一个超承一个超类的特征。的特征。多多继承:一个子承:一个子类可可继承多个超承多个超类的特征的特征。数据库原理与应用数据库原理与应用面向对象的数据模型描述工具面向对象的数据模型描述工具ODL数据库建模和实现的过程数据库建模和实现的过程:ODL的类说明的类说明Interface 类的特征表。包括:属性、联系、方法等例:Interface employee attribute string name;attribute integer age;attribute enum sextypemale,female sex;现实世界E-R抽象ODL抽象关系数据模式对象数据模式RDBMSOODBMS数据库原理与应用E-R模型向面向模型向面向对象模型的象模型的转换转换步步骤将E-R模型中的实体集生成类将E-R模型中具有隶属关系的类生成类/子类在转换得到的类中加入联系的说明。数据库原理与应用对象象-关系数据关系数据库面向面向对象数据象数据库必必须满足的条件:足的条件:支持面向对象数据模型支持传统数据库对象象-关系数据关系数据库(ORDBMS)对象-关系数据库将传统的关系数据库加以扩展,增加面向对象特征。即支持被广泛应用的SQL,具有良好的通用性;又具有面向对象特征,支持复杂对象的复杂行为。对象象-关系数据关系数据库在在SQL环境下的特征:境下的特征:对基本数据类型及扩充的支持。例:P165对复杂对象的支持。例:P166对继承性的支持。例:P167对产生式规则系统的支持。例:P167数据库原理与应用创建基本数据类型举例:Create Type photo-t(country-num varchar(4),area-num varchar(4),photo-date date);用户自定义函数举例Create Function diff-salary(float)Returns float as Select$1-AVG(salary)From employee;对复杂对象的支持举例:使用组合对象 Create table employee(no char(6),name varchar(8),age interger,photo photo-t);数据库原理与应用对继承性的支持举例。例:Create Type person(identify interger,name varchar(8),sex char(2);Create Type student(degree varchar(10),department varchar(20)under person;Create Type teacher(salary interger,department varchar(20)under person;数据库原理与应用三、并行数据库三、并行数据库并行数据库系统是并行技术与数据库技术的结并行数据库系统是并行技术与数据库技术的结合。合。并行数据库系统是随着数据库应用领域、规模、并行数据库系统是随着数据库应用领域、规模、响应速度等要求愈来愈高。为了提高事务处理响应速度等要求愈来愈高。为了提高事务处理的高吞吐量和响应速度而提出来的。的高吞吐量和响应速度而提出来的。并行数据库系统是以并行计算机或并行多处理并行数据库系统是以并行计算机或并行多处理机为基础,利用多处理机结构的优势,将数据机为基础,利用多处理机结构的优势,将数据库在多个磁盘上分布存储,利用多个处理机对库在多个磁盘上分布存储,利用多个处理机对磁盘数据进行并行处理,从而解决了磁盘磁盘数据进行并行处理,从而解决了磁盘“I/OI/O”瓶颈问题,提供比相应大型机高得多瓶颈问题,提供比相应大型机高得多的性能价格比和可用性。的性能价格比和可用性。数据库原理与应用并行数据库研究的主要内容并行数据库研究的主要内容并行数据库操作的并行算法的设计与实并行数据库操作的并行算法的设计与实现。现。并行数据库物理存储结构的研究,研究并行数据库物理存储结构的研究,研究如何划分多处理器、划分或共享磁盘和如何划分多处理器、划分或共享磁盘和内存。内存。并行查询优化的研究并行查询优化的研究数据库原理与应用并行数据库系统的体系结构并行数据库系统的体系结构并行计算机的体系结构并行计算机的体系结构紧耦合全对称多处理器(SMP)系统,所有的CPU共享内存和磁盘。松耦合集群机系统,所有的CPU共享磁盘。大规模并行处理(MPP)系统,所有的CPU均有自己的内存和磁盘。混合结构,如:紧耦合全对称多处理器(SMP)的集群机系统,即MPP系统中的每一个节点都是一个SMP系统。并行数据库系统的体系结构并行数据库系统的体系结构共享内存:是处理器之间的通信效率极高,但注意当处理器的个数不能超过64个。共享磁盘:所有存储器共享公共磁盘,但每个处理器都有自己的主存储器,不会产生总线瓶颈,同时有容错功能。无共享:系统通过高速网络交换消息和数据。层次并行结构:结合了共享内存、共享磁盘和无共享的特点。数据库原理与应用并行处理技术并行处理技术并行查询技术并行查询技术查询间并行:指不同的查询事务可相互并行执行。查询内并行:指多个查询事务在多个处理器上并行执行操作内并行:指操作在关系的不同子集上并行地执行。操作间并行流水线并行:多个操作间的输入输出是并行的。独立并行:将一个查询分解为多个独立的子任务,由多个处理器并行执行。并行数据库系统是通过采用先进的并行查询技术,开并行数据库系统是通过采用先进的并行查询技术,开发查询间并行、查询内并行以及操作内并行,大大提发查询间并行、查询内并行以及操作内并行,大大提高查询效率。其目标是提供一个高性能、高可用性、高查询效率。其目标是提供一个高性能、高可用性、高扩展性的数据库管理系统,而在性能价格比方面,高扩展性的数据库管理系统,而在性能价格比方面,较相应大型机上的较相应大型机上的DBMSDBMS高得多。高得多。数据库原理与应用四、多媒体数据库系统四、多媒体数据库系统多媒体数据库系统是多媒体技术与数据库技术的结合。多媒体数据库系统是多媒体技术与数据库技术的结合。多媒体数据库系统必须能表示和处理多种媒体数据。多媒体数据库系统必须能表示和处理多种媒体数据。其主要特征为:其主要特征为:(1 1)多媒体数据在计算机内的表示方法决定于各种)多媒体数据在计算机内的表示方法决定于各种媒体数据所固有的特性和关联。对常规的格式化数据使媒体数据所固有的特性和关联。对常规的格式化数据使用常规的数据项表示。对非格式化数据,像图形、图像、用常规的数据项表示。对非格式化数据,像图形、图像、声音等,就要根据该媒体的特点来决定表示方法,往往声音等,就要根据该媒体的特点来决定表示方法,往往要用不同的形式来表示。所以多媒体数据库系统要提供要用不同的形式来表示。所以多媒体数据库系统要提供管理这些异构表示形式的技术和处理方法。管理这些异构表示形式的技术和处理方法。(2 2)多媒体数据库系统能反映和管理各种媒体数据)多媒体数据库系统能反映和管理各种媒体数据的特性,或各种媒体数据之间的空间或时间的关联。例的特性,或各种媒体数据之间的空间或时间的关联。例如,关于乐器的多媒体数据包括乐器特性的描述、乐器如,关于乐器的多媒体数据包括乐器特性的描述、乐器的照片、利用该乐器演奏某段音乐的声音等。这些不同的照片、利用该乐器演奏某段音乐的声音等。这些不同媒体数据之间存在自然的关联,包括时序关系和空间结媒体数据之间存在自然的关联,包括时序关系和空间结构。构。数据库原理与应用(3 3)多媒体数据库系统提供比传统数据库管)多媒体数据库系统提供比传统数据库管理系统更强的适合非格式化数据查询的搜索功理系统更强的适合非格式化数据查询的搜索功能,允许对能,允许对 ImageImage等非格式化数据做整体和部等非格式化数据做整体和部分搜索,允许通过范围、知识和其他描述符的分搜索,允许通过范围、知识和其他描述符的确定值和模糊值搜索各种媒体数据,允许同时确定值和模糊值搜索各种媒体数据,允许同时搜索多个数据库中的数据,允许通过对非格式搜索多个数据库中的数据,允许通过对非格式化数据的分析建立图示等索引来搜索数据,允化数据的分析建立图示等索引来搜索数据,允许通过举例查询许通过举例查询(QuerybyExample)(QuerybyExample)和通过主题和通过主题描述查询使复杂查询简单化。描述查询使复杂查询简单化。(4 4)多媒体数据库系统还提供事务处理与)多媒体数据库系统还提供事务处理与版本管理功能。版本管理功能。数据库原理与应用五、知识数据库五、知识数据库知识数据库可定义为:知识、经验、规则和事实的集合。知识数据库可定义为:知识、经验、规则和事实的集合。是人工智能技术与数据库技术的结合。是人工智能技术与数据库技术的结合。知识数据库系统的功能是如何把由大量的事实、规则、概知识数据库系统的功能是如何把由大量的事实、规则、概念组成的知识存储起来,进行管理,并向用户提供方便快念组成的知识存储起来,进行管理,并向用户提供方便快速的检索、查询手段。速的检索、查询手段。知识数据库系统应具备知识数据库系统应具备对知识的表示方法;对知识系统化的组织管理;知识库的操作;库的查询与检索;知识的获取与学习;知识的编辑;库的管理等功能。数据库原理与应用六、模糊数据库六、模糊数据库 模模模模糊糊糊糊数数数数据据据据库库库库就就是是能能够够表表示示、存存储储及及处处理理模模糊糊数数据据、模糊数据结构和模糊数据联系的数据库。模糊数据结构和模糊数据联系的数据库。模模模模糊糊糊糊数数数数据据据据库库库库中中中中数数据据的的运运算算和和操操作作、对对数数据据的的约约束束(包包括括完完整整性性和和安安全全性性)、用用户户使使用用的的数数据据库库窗窗口口用用户户视视图图、数数据据的的一一致致性性和和无无冗冗余余性性的的定定义义等等都都是是模糊的。模糊的。模模模模糊糊糊糊数数数数据据据据库库库库包包括括:模模糊糊关关系系数数据据库库,模模糊糊演演绎绎数数据据库(库(模糊推理规则的表示,具有模糊推理的功能)模糊推理规则的表示,具有模糊推理的功能)数据库原理与应用七、演绎数据库七、演绎数据库 演绎数据库演绎数据库演绎数据库演绎数据库是一种基于逻辑推理的数据库,是一种基于逻辑推理的数据库,将数据将数据库看成是一个演绎系统,由一些公理组成,通过公库看成是一个演绎系统,由一些公理组成,通过公理中的演绎规则可以推导出定理。理中的演绎规则可以推导出定理。数据库原理与应用八、工程数据库八、工程数据库工程数据库的定义:工程数据库的定义:狭狭义义:工工程程数数据据库库是是一一种种能能存存贮贮和和管管理理各各种种工工程程图图形形,并并能能为为工工程程设设计计提提供供各各种服务的数据库系统。种服务的数据库系统。广广义义:工工程程数数据据库库应应能能为为CADCAD和和CIMSCIMS实实现现一一条条龙龙服服务务,不不仅仅支支持持CADCAD,还还能能支支持持CADCAD和和CAMCAM过过程程中中的的计计算算机机控控制制、管管理理和和决决策策事事务务,把把设设计计、制制造造、管管理理、经经营营业业务务在在一一个个统统一一的的数数据据库库基基础础上上实实现现集集成成(IEDB)(IEDB)。数据库原理与应用工程数据库的特点工程数据库的特点存储复杂的数据类型存储复杂的数据类型常规信息管理数据工程数据产品模型数据支持数据模式的动态定义和修改。支持数据模式的动态定义和修改。保证数据一致性管理保证数据一致性管理能满足特殊数据的处理要求:包括分析、功能、能满足特殊数据的处理要求:包括分析、功能、判断、生产等等判断、生产等等能满足更广泛的使用需求:操作实时性、交互能满足更广泛的使用需求:操作实时性、交互性等性等数据库原理与应用工程数据库的系统结构工程数据库的系统结构使用多级数据库组织结构,把不同用途使用多级数据库组织结构,把不同用途的数据库在物理上分开存储。的数据库在物理上分开存储。全局数据库全局公共数据库:是永久性的标准库,不可随意修改。工程项目数据库:对应一个工程设计项目。局部数据库数据库原理与应用工程数据库的数据模型工程数据库的数据模型扩展的关系数据模型扩展的关系数据模型对象数据模型对象数据模型语义数据模型:利用实体、联系、和约语义数据模型:利用实体、联系、和约束得来描述现实世界的静态、动态和视束得来描述现实世界的静态、动态和视台特征。具有较高的抽象层次和较强的台特征。具有较高的抽象层次和较强的语义表达。语义表达。数据库原理与应用设计方案的版本设计方案的版本p178在设计过程中产生多个不同的方案,每个设计方案就是一个版本。每个方案都具有很高的参考价值。因此需要管理。版本因包含的信息:设计信息对象与版本的关联信息。版本标识信息附加的版本管理信息。版本管理版本管理线性版本管理模型树型版本管理模型有向无环版本管理模型数据库原理与应用九、数据仓库九、数据仓库1.基本概念基本概念 数据仓库的定义数据仓库的定义数据仓库的定义数据仓库的定义数数数数据据据据仓仓仓仓库库库库DataWarehouse-DW:是是是是面面面面向向向向主主主主题题题题的的的的、集集集集成成成成的的的的、稳稳稳稳定定定定的的的的,并并并并且且且且时时时时变变变变地地地地收收收收集集集集不不不不同同同同数数数数据据据据的的的的一一一一种种种种数数数数据据据据集集集集合合合合的的的的结构形式,用以支持经营管理中的决策制定过程。结构形式,用以支持经营管理中的决策制定过程。结构形式,用以支持经营管理中的决策制定过程。结构形式,用以支持经营管理中的决策制定过程。面向主题:面向主题:数据仓库中的数据是面向主题的,而传统数数据仓库中的数据是面向主题的,而传统数数据仓库中的数据是面向主题的,而传统数数据仓库中的数据是面向主题的,而传统数据库是面向应用的。主题是据库是面向应用的。主题是据库是面向应用的。主题是据库是面向应用的。主题是在较高层次将数据归类的在较高层次将数据归类的在较高层次将数据归类的在较高层次将数据归类的标准,每个主题对应一个宏观分析领域。标准,每个主题对应一个宏观分析领域。标准,每个主题对应一个宏观分析领域。标准,每个主题对应一个宏观分析领域。集成特性:集成特性:数据仓库的集成特性是指在数据进入数据仓数据仓库的集成特性是指在数据进入数据仓数据仓库的集成特性是指在数据进入数据仓数据仓库的集成特性是指在数据进入数据仓库之前,必须经过转换、加工和集成,或称库之前,必须经过转换、加工和集成,或称库之前,必须经过转换、加工和集成,或称库之前,必须经过转换、加工和集成,或称“整合整合整合整合”处理。这是建立数据仓库的关键步骤。首先要解决原处理。这是建立数据仓库的关键步骤。首先要解决原处理。这是建立数据仓库的关键步骤。首先要解决原处理。这是建立数据仓库的关键步骤。首先要解决原始数据的一致性,消除矛盾,使数据完整、统一;其始数据的一致性,消除矛盾,使数据完整、统一;其始数据的一致性,消除矛盾,使数据完整、统一;其始数据的一致性,消除矛盾,使数据完整、统一;其次还要把面向应用的原始数据结构转变为面向主题的。次还要把面向应用的原始数据结构转变为面向主题的。次还要把面向应用的原始数据结构转变为面向主题的。次还要把面向应用的原始数据结构转变为面向主题的。数据库原理与应用稳稳定定性性:数数数数据据据据仓仓仓仓库库库库反反反反映映映映的的的的是是是是历历历历史史史史性性性性的的的的数数数数据据据据内内内内容容容容,而而而而不不不不是是是是日日日日常常常常事事事事务务务务处处处处理理理理产产产产生生生生的的的的数数数数据据据据,经经经经加加加加工工工工和和和和集集集集成成成成进进进进入入入入数数数数据据据据仓仓仓仓库库库库后后后后,基基基基本本本本上上上上不不不不再再再再修修修修改改改改。在在在在一一一一次次次次数数数数据据据据分分分分析析析析的的的的执执执执行行行行过过过过程程程程中中中中使使使使用用用用的的的的数数数数据据据据不不不不得得得得变变变变更更更更,这这这这样样样样才才才才能能能能保保保保证证证证两两两两次次次次使使使使用用用用同同同同一一一一组组组组信信信信息息息息进进进进行行行行分分分分析析析析时时时时不会得出不同的答案。不会得出不同的答案。不会得出不同的答案。不会得出不同的答案。不同时间的集合:不同时间的集合:要求要求要求要求数据仓库是不同时间的数数据仓库是不同时间的数数据仓库是不同时间的数数据仓库是不同时间的数据集合,这种数据保存的时限能满足进行决策据集合,这种数据保存的时限能满足进行决策据集合,这种数据保存的时限能满足进行决策据集合,这种数据保存的时限能满足进行决策分析的要求,而且在数据仓库中要标明这些数分析的要求,而且在数据仓库中要标明这些数分析的要求,而且在数据仓库中要标明这些数分析的要求,而且在数据仓库中要标明这些数据的历史时期。据的历史时期。据的历史时期。据的历史时期。数据库原理与应用数据仓库系统的组成数据仓库系统的组成数据仓库数据仓库DW组成组成事实表:存储历史商务数据的表。通常不更新。事实表:存储历史商务数据的表。通常不更新。维表:用于提炼事实表中所包含的数据。减少了对事实表扫描的维表:用于提炼事实表中所包含的数据。减少了对事实表扫描的数据量,提高了查询性能。维表中的数据常需更新数据量,提高了查询性能。维表中的数据常需更新模式模式星型模式星型模式雪花模式雪花模式数据仓库管理系统数据仓库管理系统对数据仓库进行数据建模。对数据仓库进行数据建模。确定从源数据到数据仓库的数据抽取、转换和装载等。确定从源数据到数据仓库的数据抽取、转换和装载等。确定数据仓库的存储方式。确定数据仓库的存储方式。管理数据的安全、归档、维护、备份、恢复等工作。管理数据的安全、归档、维护、备份、恢复等工作。分析工具分析工具用户查询工具用户查询工具C/S检索工具检索工具OLAP分析工具分析工具数据挖掘数据挖掘(DM)工具(工具(DataMining)数据库原理与应用DW查询系统查询系统特点特点特点特点报表杳询:从报表杳询:从DW中产生各种业务报表,一般中产生各种业务报表,一般为多表联接、累计、分类、排序等。为多表联接、累计、分类、排序等。随机、动态查询:根据上次查询结果,进行进随机、动态查询:根据上次查询结果,进行进一步的查询,又称为一步的查询,又称为DM。共同特点:数据量大、查询速度受到限制。共同特点:数据量大、查询速度受到限制。应考虑的问题:应考虑的问题:数据仓库中数据库的可扩展能力。数据仓库中数据库的可扩展能力。系统的并发查询处理能力。系统的并发查询处理能力。数据库原理与应用OLAPOLTP和和OLAP的区别的区别联机事务处理OLTP系统,它是事件驱动、面向应用的。联机分析处理OLAP系统,是基于DW的信息分析与处理过程,OLAP是跨部门的、面向主题的。OLTP和OLAP的区别OLTP分析型分析型细节的综合的操作需求事先可知道操作需求事先不知道对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动一次操作数据量小一次操作数据量大支持日常操作支持管理决策需求数据库原理与应用OLAP的基本概念的基本概念变量:变量:是决策者所关心的具有实际意义的数量。是决策者所关心的具有实际意义的数量。维:人们观察数据的特定角度。如:时间、地区等维:人们观察数据的特定角度。如:时间、地区等维维的的层层次次:观观察察数数据据的的某某个个特特定定角角度度的的不不同同细细节节程程度度的的方方面。例:时间维中的日期、月份、季度、年度等面。例:时间维中的日期、月份、季度、年度等维成员:维的一个取值。例如:某年某月维成员:维的一个取值。例如:某年某月多多维维数数组组:可可表表示示为为(维维1,维维2,维维n,变变量量),例例如如:日日用用品品的的销销售售数数据据按按地地区区、时时间间和和销销售售渠渠道道组组织织起起来来的的三三维立方体,加上变量维立方体,加上变量“销售量销售量”多多维维分分析析:指指对对以以多多维维方方式式组组织织起起来来的的数数据据采采取取切切片片,切切块块、旋旋转转、钻钻入入、归归并并等等各各种种分分析析动动作作,是是分分析析者者、决决策策者能从多个角度、多个侧面观察数据。者能从多个角度、多个侧面观察数据。切片:选定多维数组的一个二维子集的动作。切块:选定多维数组的一个三维子集的动作。旋转:改变一个报告或页面显示的维方向。钻入:对结果数据的下一层数据进行剖析。归并:是钻入的反向处理。数据库原理与应用数据挖掘数据挖掘DM1 1、数据挖掘的定义、数据挖掘的定义数据挖掘,Data Mining,就是从大型数据库中的数据中提取人们感兴趣的知识。MD与KDD(Knowledge discovery in database)有很大的重合度,一般在AI领域称KDD。2、数据挖掘的目的数据挖掘的目的发现大量数据中尚未发现的知识,是系统内部自动获取知识的过程学会方法:OLAP、OLTP等3 3、DMDM的相关领域的相关领域归纳学习(inductive learning)机器学习(machine learning),关系最为密切统计(statistics)分析数据库原理与应用4 4、决策支持空间、决策支持空间数据空间(data space):处理基于关键字的查询,如OLTP聚合空间(aggregation space):数据空间 聚合运算(sum、average、max等)聚合空间,如OLAP影响空间(influence space):处理逻辑性质的支持,如是何 因素影响某地区的销售,其信息由DM来获得变化空间(variation space):回答某种变化的过程和速度问 题,如前三个月的销售额增长情况如何注:数据挖掘处于影响空间中,对企业决策具有重要意义注:数据挖掘处于影响空间中,对企业决策具有重要意义数据空间数据空间决策支持决策支持数据空间数据空间数据空间数据空间数据空间数据空间决策支持空间决策支持空间数据库原理与应用数据挖掘的过程 数据挖掘的过程数据挖掘的过程数据准备数据准备数据集成 数据选择 数据预处理数据开采数据开采如何产生假设:系统自动产生假设,或用户提出假设 选择合适的工具 发掘知识的操作 证实发现的知识结果表达和解释结果表达和解释数据库原理与应用数据源数据源数据数据目标数据目标数据预处理后数据预处理后数据模式模式知识知识数据集成数据集成数据选择数据选择预处理预处理数据开采数据开采结果表达和解释结果表达和解释数据准备数据准备数据开采数据开采结果表达和解释结果表达和解释数据挖掘的过程数据挖掘的过程数据库原理与应用数据开采的分类数据开采的分类根据发现的知识的种类分根据发现的知识的种类分 总结(summarization)规则开采 关联(association)规则开采 分类(classification)规则开采 聚类(clustering)规则开采 趋势(trend)分析 偏差(deviation)分析 模式(pattern analysis)分析根据开采知识的抽象层次分根据开采知识的抽象层次分 原始层次(primitive level)数据开采 高层次(high level)数据开采 多层次(multiple level)数据开采数据库原理与应用根据采用的技术分类根据采用的技术分类 人工神经元网络 决策树 遗传算法 最邻近技术 规则归纳 可视化数据开采的内容和本质数据开采的内容和本质数据开采的技术支柱:数据库、人工智能、数理统计数据开采的内容与本质:为老板服务,为决策者提供 决策支持数据库原理与应用数据开采所能发现的知识数据开采所能发现的知识 广义型知识:反映同类事物共同性质的知识 特征型知识:反映事物各方面特征的知识 差异型知识:反映不同事物间属性差别的知识 关联型知识:反映事物间关联或依赖的知识 预测型知识:根据当前和历史数据推测未来数据 偏离型知识:提示事物偏离常规的异常现象数据库原理与应用数据开采的一般方法数据开采的一般方法基于数据仓库的数据开采与基于数据库的数据开采的区别基于数据仓库的数据开采与基于数据库的数据开采的区别规模:一般数据仓库的规模都在50GB以上,因此有效、快速的算法是数据开采的重点历史数据:传统数据库的时间轴尽量短,而数据仓库 可