第11章数据库新技术.ppt
《第11章数据库新技术.ppt》由会员分享,可在线阅读,更多相关《第11章数据库新技术.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第11章章 数据库新技术数据库新技术数据库新技术:并行数据库、分布式数据库、模糊数据库、动态数据数据库新技术:并行数据库、分布式数据库、模糊数据库、动态数据库、主动数据库、面向对象数据库、工程数据库、空间数据库、多媒库、主动数据库、面向对象数据库、工程数据库、空间数据库、多媒体数据库、体数据库、XML数据库、数据仓库、数据挖掘和智能数据库等。数据库、数据仓库、数据挖掘和智能数据库等。主要介绍主要介绍XML数据库、数据仓库和数据挖掘等数据库新技术。数据库、数据仓库和数据挖掘等数据库新技术。11.1 XML数据库数据库随着随着Web技术的快速发展,技术的快速发展,XML数据已经成为网络数据交换的
2、基本形数据已经成为网络数据交换的基本形式,从而使式,从而使XML发展成为网络数据标准。发展成为网络数据标准。11.1.1 XML与数据描述与数据描述XML(eXtended Markup Language,扩展标记语言)是,扩展标记语言)是W3C(World Wide Web Consortium,万维网联盟)制定的用于网,万维网联盟)制定的用于网络数据交换,并且自行定义标记的语言(网络数据交换标准)。络数据交换,并且自行定义标记的语言(网络数据交换标准)。XML和和HTML(Hyper Text Markup Language,超文本标记语言),超文本标记语言)作为作为SGML(Standa
3、rd Generalized Markup Language,标准通用,标准通用标记语言)的子集,标记语言)的子集,XML吸取了吸取了SGML和和HTML的优点。即:扩展性、的优点。即:扩展性、描述性、简洁性、分离性和结构性等。描述性、简洁性、分离性和结构性等。XML的简单、开放、扩展、灵活、描述等特性,使得的简单、开放、扩展、灵活、描述等特性,使得XML在数据库领在数据库领域以及商业应用领域占据了重要位置。域以及商业应用领域占据了重要位置。11.1.1 XML与数据描述与数据描述XML文档是数据和标记及其数据描述的集合,而对文档是数据和标记及其数据描述的集合,而对XML数据的压缩、数据的压缩
4、、存储、索引、传输、交换和查询等管理技术则形成了存储、索引、传输、交换和查询等管理技术则形成了XML数据库技术。数据库技术。即:即:XML文档(如图文档(如图11-1所示)是数据集合,所示)是数据集合,XML及其相关技术是数及其相关技术是数据库管理系统,据库管理系统,DTD(Document Type Descriptors,文档类型定义),文档类型定义)或者或者Schema是数据库模式设计,是数据库模式设计,XQL(XML Query Language,XML查询语言)是数据库查询语言,查询语言)是数据库查询语言,SAX(Simple API for XML,简,简单单XML API)或者)
5、或者DOM(Document Object Model,文档对象模型),文档对象模型)是数据库处理工具。是数据库处理工具。XML数据库产品主要包括:中间件、支持数据库产品主要包括:中间件、支持XML的数据库、的数据库、XML本源数本源数据库、据库、XML服务器、服务器、Wrappers和内容管理系统等。和内容管理系统等。XML数据库主要用途概括:数据库主要用途概括:(1)有效管理)有效管理XML数据,并提供数据,并提供XML数据的查询和修改功能。数据的查询和修改功能。(2)高效集成基于)高效集成基于Web的各种数据源。的各种数据源。11.1.1 XML与数据描述与数据描述XML 数据库主要包括
6、两种类型:数据库主要包括两种类型:NXD(Native Xml Database,XML本源数据库):本源数据库):专门对专门对XML数据格式的文档进行存取管理和数据查询的数据库技术。数据格式的文档进行存取管理和数据查询的数据库技术。XED(Xml Enable Database,支持,支持XML的数据库):的数据库):在传统数据库的基础上,通过增加对在传统数据库的基础上,通过增加对XML数据的映射功能,从而实现数据的映射功能,从而实现对对XML数据进行存取管理的数据库技术。数据进行存取管理的数据库技术。11.1.2 XML数据模型数据模型XML文档是文档是XML数据库的数据区,是基本存储单元
7、,是数据库的数据区,是基本存储单元,是XML数据的存数据的存储格式。储格式。XML文档相当于关系数据库的表。文档相当于关系数据库的表。XML文档由说明、元素、属性、处理指令和注释等组成。文档由说明、元素、属性、处理指令和注释等组成。XML数据库的数据模型包括数据库的数据模型包括DTD和和Schema等,用来描述等,用来描述XML数据的数据的结构(相当于关系数据库的模式)。根据结构(相当于关系数据库的模式)。根据DTD和和Schema可以存取可以存取XML数据。数据。XML数据模型可以支持任意层次的数据嵌套,对半结构化数据模型可以支持任意层次的数据嵌套,对半结构化数据提供了良好的支持。数据提供了
8、良好的支持。DTD规定元素、属性、规定元素、属性、PCDATA(非嵌套字符型数据)及文档内(非嵌套字符型数据)及文档内容的顺序和嵌套关系等信息。容的顺序和嵌套关系等信息。DTD通常存入通常存入*.dtd文件,可被文件,可被XML文档共享,因此文档共享,因此DTD是对是对XML数据建立索引的主要方法。数据建立索引的主要方法。Schema 是是W3C 推荐的推荐的XML 数据模型标准,数据模型标准,Schema比比DTD提供提供了更加严格的规范。了更加严格的规范。例如:在例如:在DTD中,不支持参照约束;而在中,不支持参照约束;而在Schema中,则可以方便的中,则可以方便的进行参照约束控制。进行
9、参照约束控制。11.1.3 XML查询与处理查询与处理常用的常用的XML数据库查询语言是:数据库查询语言是:XQL、XPath和和XSLT。XQL是是W3C提出的对提出的对XML文档进行信息检索的查询语言标准。文档进行信息检索的查询语言标准。XPath是是W3C提出的描述数据元素在提出的描述数据元素在XML文档内部位置的标准。文档内部位置的标准。XSLT(eXtensible Stylesheet Language Transformation)是对)是对XML 数据进行转换的语言。数据进行转换的语言。XSLT与与XML的关系,相当于的关系,相当于SQL语语言与关系数据库的关系。言与关系数据库
10、的关系。常用的常用的XML数据库处理工具是数据库处理工具是DOM、JDOM和和SAX等。等。DOM是对是对XML数据进行组织管理的标准和编程接口规范。数据进行组织管理的标准和编程接口规范。JDOM是采用是采用JAVA 语言实现的语言实现的DOM。SAX是目前多数是目前多数XML数据库使用的开发标准。数据库使用的开发标准。SAX几乎支持所有几乎支持所有的的XML解析器。解析器。SAX与与DOM相比,相比,SAX 是轻量级的处理工具。是轻量级的处理工具。11.1.4 NXDNXD作为直接对作为直接对XML文档进行存取管理和数据查询的专用数据库技术,文档进行存取管理和数据查询的专用数据库技术,是通过
11、基于是通过基于XML文档的逻辑模型,来实现文档的逻辑模型,来实现XML数据的存取。数据的存取。NXD分为:文本类型和模型类型。分为:文本类型和模型类型。基于文本的基于文本的NXD是文本格式文件,是是文本格式文件,是RDBMS的二进制大型对象的二进制大型对象(Binary Large Object,BLOB)或者特定文件格式。)或者特定文件格式。基于模型的基于模型的NXD非文本格式文件,是根据文件构造内部模型,并非文本格式文件,是根据文件构造内部模型,并将模型存储于数据库。其数据存取依赖于数据库。将模型存储于数据库。其数据存取依赖于数据库。NXD数据库设数据库设计的可塑性好,变化空间较大计的可塑
12、性好,变化空间较大 NXD的关键技术:的关键技术:数据存储、查询处理、事务处理、代数系统和模式规范化。数据存储、查询处理、事务处理、代数系统和模式规范化。11.1.4 NXDNXD相对于传统数据库,具有如下特点:相对于传统数据库,具有如下特点:(1)有效管理半结构化)有效管理半结构化Web数据。数据。(2)提供对标签和路径的操作。传统)提供对标签和路径的操作。传统DBMS不能对元素名称操作。不能对元素名称操作。(3)有序性。)有序性。XML文档的内容是有顺序的,不许随便调整元素、属性、文档的内容是有顺序的,不许随便调整元素、属性、PCDATA的顺序。缺点是有序性使得的顺序。缺点是有序性使得XM
13、L文档的查询操作比较复杂。文档的查询操作比较复杂。(4)便利的层次化数据操作。)便利的层次化数据操作。(5)Web数据的交换能力。由于数据的交换能力。由于XML是标准的数据交换格式,因此是标准的数据交换格式,因此NXD 能够存储和查询各种不同结构类型的文档,对异构环境的信息存能够存储和查询各种不同结构类型的文档,对异构环境的信息存取提供了良好的支持,为异构环境的数据集成提供了一种新的方法。取提供了良好的支持,为异构环境的数据集成提供了一种新的方法。总之,总之,NXD适合管理复杂数据结构的数据集,对于适合管理复杂数据结构的数据集,对于XML格式的格式的Web信信息管理,采用息管理,采用NXD利于
14、文档的存取和检索,能够提供高质量的全文搜利于文档的存取和检索,能够提供高质量的全文搜索引擎,特别适合半结构化数据的管理;对于结构化数据管理,则索引擎,特别适合半结构化数据的管理;对于结构化数据管理,则RDBMS会更适宜。会更适宜。11.1.5 XEDXED作为支持作为支持XML数据管理的数据库技术,是通过数据管理的数据库技术,是通过XML数据与数据与DBMS数据的映射功能实现对数据的映射功能实现对XML数据的存取管理。数据的存取管理。支持:支持:SQL Server系列(例如:系列(例如:SQL Server 2008)、)、Access系列系列(例如:(例如:Access 2007)、)、I
15、BM 的的DB2 XML系列、系列、Informix系列和系列和Oracle系列(例如:系列(例如:Oracle 9i)等。)等。XED产品基本均是使用产品基本均是使用DTD实现与关系数据的转换,而且对实现与关系数据的转换,而且对XML文档文档的查询符合的查询符合XPath标准,执行查询的标准,执行查询的XED 核心是采用核心是采用XQL标准。标准。由于传统关系数据库的表与以数据为中心的由于传统关系数据库的表与以数据为中心的XML文档,在数据结构上文档,在数据结构上很类似,因此由很类似,因此由XED管理的管理的XML文档可以方便的存入关系数据库,同文档可以方便的存入关系数据库,同理关系数据库的
16、表可以转换成理关系数据库的表可以转换成XML文档。文档。事实上,事实上,XED是在传统数据库的基础上增加了对是在传统数据库的基础上增加了对XML数据的映射机制,数据的映射机制,通常只能对结构化程度较高的通常只能对结构化程度较高的XML文档进行管理,实现文档进行管理,实现XML文档与传文档与传统数据库之间的映射。统数据库之间的映射。11.1.5 XED关键技术是关键技术是XML文档与关系模式的映射与存储。文档与关系模式的映射与存储。(1)模型映射。需要把)模型映射。需要把XML文档模型(即:文档树结构)映射为关文档模型(即:文档树结构)映射为关系模式,使用关系模式表示系模式,使用关系模式表示XM
17、L文档的构造。文档的构造。(2)结构映射。需要把)结构映射。需要把XML模式(或者模式(或者DTD)映射为关系模式,使)映射为关系模式,使用关系模式表示用关系模式表示XML文档的逻辑结构。文档的逻辑结构。利用利用RDBMS存储和查询存储和查询XML数据的常用策略:数据的常用策略:(1)边模型映射法。)边模型映射法。(2)点模型映射法。)点模型映射法。(3)结构映射方法。)结构映射方法。(4)模式设计法。)模式设计法。要求用户或者要求用户或者DBA自行设计用于存储自行设计用于存储XML文档的表结构;而表中的数文档的表结构;而表中的数据,则直接以据,则直接以XML文档方式发布,也可以由用户或者文档
18、方式发布,也可以由用户或者DBA使用使用XML查查询语言或者中间件定义关系对应的询语言或者中间件定义关系对应的XML视图。视图。NXD和和XED的优点和缺点对比的优点和缺点对比类型类型优点优点缺点缺点XED(1)用)用户户不需要将不需要将传统传统数据数据库库的数的数据,重新移植到新系据,重新移植到新系统统中,只需稍中,只需稍加改加改变变,就可以支持,就可以支持XML应应用。用。(2)传统传统数据数据库库技技术术(例如:范式(例如:范式理理论论、并、并发发控制、完整性控制和关控制、完整性控制和关系代数等),已系代数等),已经经非常成熟。非常成熟。(3)传统传统数据数据库库的知的知识识和和经验经验
19、依然依然有效,用有效,用户户不需要不需要为为了了XML应应用而用而再去学再去学习习一套新的数据一套新的数据库库技技术术。(1)XML文档存入数据文档存入数据库时库时需需要将其分解,取出要将其分解,取出时时需要需要组组合,合,不但不但费时费时,而且文档格式可能不,而且文档格式可能不同。同。(2)XML文档和数据文档和数据库库之之间间的的模式模式转换转换复复杂杂,前期开,前期开发阶发阶段投段投入很大。入很大。(3)以文档)以文档为为中心、格式复中心、格式复杂杂的的XML文档文档处处理性能理性能较较差。采差。采纳纳的的XML技技术标术标准准较较落后。落后。NXD(1)XML文档存取无需模式文档存取无
20、需模式转换转换,存取速度快。存取速度快。(2)对对格式复格式复杂杂的的XML文档支持比文档支持比XED好。好。(3)支持最新的)支持最新的XML技技术标术标准。准。(1)传统传统数据数据库库技技术术比比较较薄弱,薄弱,没有没有经过时间经过时间考考验验。(2)知)知识较识较新,相新,相应应的支持人的支持人员员和文档和文档资资源源较较少。少。(3)应应用范用范围围局限在局限在XML应应用用领领域中。域中。选择选择XML数据库的考虑方面数据库的考虑方面(1)针对格式复杂的,而且数据本身包含复杂层次关系,或者只有)针对格式复杂的,而且数据本身包含复杂层次关系,或者只有XML数据的情况,由于数据的情况,
21、由于NXD对对XML标准有更完备的支持,而且能够提标准有更完备的支持,而且能够提供更好的访问性能,则可以选择供更好的访问性能,则可以选择NXD。(2)针对格式简单、内容比格式更重要的)针对格式简单、内容比格式更重要的XML文档,特别是在传统文档,特别是在传统数据库上需要提供数据库上需要提供XML访问接口的应用,则可以考虑选择访问接口的应用,则可以考虑选择XED。(3)针对数据安全要求较高的应用(例如:银行系统、财政系统、)针对数据安全要求较高的应用(例如:银行系统、财政系统、股票系统和金融系统的数据库),由于股票系统和金融系统的数据库),由于NXD在完整性控制、并发控制、在完整性控制、并发控制
22、、数据恢复等传统数据库技术方面还需要进一步的检验,而建立在传统数据恢复等传统数据库技术方面还需要进一步的检验,而建立在传统数据库上的数据库上的XED相对更有优势,因此建议选择相对更有优势,因此建议选择XED。11.2 数据仓库数据仓库数据库系统是以数据库为中心,进行联机事务处理(数据库系统是以数据库为中心,进行联机事务处理(On Line Transaction Processing,OLTP)的技术,并得到了非常成功的广)的技术,并得到了非常成功的广泛应用,但是却无法满足管理人员的决策分析需求。为此,在数据库泛应用,但是却无法满足管理人员的决策分析需求。为此,在数据库技术的基础上,产生了以历
23、史数据为中心的联机分析处理(技术的基础上,产生了以历史数据为中心的联机分析处理(On Line Analytical Processing,OLAP;关系数据库之父;关系数据库之父E.F.Codd 于于1992年提出)技术,以及能够满足决策分析需要的数据仓库(年提出)技术,以及能够满足决策分析需要的数据仓库(Data Warehouse,DW)。)。11.2.1 数据仓库的概念数据仓库的概念从不同角度给出的数据仓库不同定义:从不同角度给出的数据仓库不同定义:(1)W.H.Inmon定义(创始人):数据仓库是面向主题的、集成的、稳定义(创始人):数据仓库是面向主题的、集成的、稳定的、随时间变化的
24、数据集合,用以支持经营管理中的决策制定过程。定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。(2)Informix定义(公司):数据仓库将分布在企业网络中不同信息岛定义(公司):数据仓库将分布在企业网络中不同信息岛上的业务数据集成到一起,存储在一个单一的关系型数据库中,利用上的业务数据集成到一起,存储在一个单一的关系型数据库中,利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事务的发展走势。间内的历史数据进行分析,研究事务的发展走势。(3)SAS定义(软件研究所):数据仓库是一
25、种管理技术,旨在通过流定义(软件研究所):数据仓库是一种管理技术,旨在通过流畅、合理、全面的信息管理,达到有效的决策支持。畅、合理、全面的信息管理,达到有效的决策支持。数据仓库的基本特征:数据仓库的基本特征:(1)主题性。从高层对系统数据,进行面向应用主题的综合、分类、分)主题性。从高层对系统数据,进行面向应用主题的综合、分类、分析和抽象。析和抽象。(2)集成性。对历史数据进行抽取,并进行清理、转化和装载等加工处)集成性。对历史数据进行抽取,并进行清理、转化和装载等加工处理和集成。理和集成。(3)稳定性。数据仓库中的数据,通常是不可更新的。)稳定性。数据仓库中的数据,通常是不可更新的。(4)时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第11章 数据库新技术 11 数据库 新技术
限制150内