《数据库的新技术.ppt》由会员分享,可在线阅读,更多相关《数据库的新技术.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第9章 数据库的新技术9.1 分布式数据库系统9.2 对象关系数据库系统9.3 并行数据库系统9.4 多媒体数据库9.5 数据仓库和数据挖掘9.1 分布式数据库系统分布式数据库系统使用计算机网络将地理上分散,而管理和控制又需要不同程度集中的多个逻辑单位连接起来,共同组成一个数据库系统。它由分布式数据库(DDB)和分布式数据库管理系统(DDBMS)组成。数据由数据库管理系统统一管理,是物理上分散逻辑上独立的数据库系统。物理分散性体现在数据在网络中是跨节点物理存储的,逻辑独立性体现在从用户角度看是一个数据库。如图9.1所示是一个涉及3个节点的分布式数据库系统。图9.1 3个节点的分布式数据库系统9
2、.1 分布式数据库系统在这个系统中,每个本地数据库(DB1,DB2,DB3)及相关计算机组成分布式数据库的一个节点。然后通过网络又把它们连接起来。通过本地服务器1的终端可以对本节点联机的数据库(DB1)执行某些操作,或者通过网络对另一个数据库(DB2)执行某些操作,或者对两个及两个以上的节点数据库执行某些操作。前两种是局部应用,最后一种是全局应用。例如,一个涉及3个校区的图书管理的分布式数据库系统,每个校区有一个图书数据库DBi(i=1,2,3),每个校区图书数据库存放的是存放在该校区的图书信息,学生在校区借还图书操作的是该校区图书数据库,这是局部应用。但是学生在全校范围内查询需要的图书,通过
3、查询全校的逻辑图书数据库就可实现,这是全局应用,如图9.2所示。图9.2 图书管理的分布式数据库9.1 分布式数据库系统全校的逻辑图书数据库(DB)中图书表ts是虚表,图书信息实际存放在各校区数据库图书表ts1、ts2和ts3中。在校区1查询数据库方面的书。SELECT书号,书名,作者,价格FROM ts1WHERE书名=数据库 在全校查询数据库方面的书。SELECT书号,书名,作者,价格FROM tsWHERE书名=数据库分布式数据库系统从结构上可分为同构分布式数据库和异构分布式数据库。前者所有数据库的数据模型都是一致的,从用户角度看,就好像是一个单一的数据库系统一样。节点之间互相了解并协作
4、处理用户的需求,每个节点都按照权限的不同交出部分自治权限以改变模式或软件。后者是至少有一个数据库是非同种类别,不同的节点可以是不同的模式和软件系统。组成异构分布式数据库系统的不同节点间可能并不互相了解,在系统处理事务方面可能只能提供非常有限的帮助。9.2 对象关系数据库系统9.2.1 面向对象数据模型面向对象数据库系统(OODB)支持OO模型。一个OO模型是用面向对象观点来描述现实世界实体(对象)的逻辑组织、对象间限制、联系等的模型。1对象(Object)对象是由一组数据结构和对此进行操作的程序代码封装后的基本单位,对象通常与实体对应,一个对象包括以下几个部分。属性集合:属性描述对象的状态、组
5、成和特性。对象的某一属性可以是单值或值的集合,也可以是一个对象,即对象可以嵌套。这种嵌套可以继承,从而组成各种复杂对象。方法集合:方法描述了对象的行为特性。方法的定义包括两部分,一是方法的接口,二是方法的实现。方法的接口用以说明方法的名称、参数和结果返回值的类型。方法的实现是一段程序编码,用以实现方法的功能,即对象操作的算法。面向对象数据库中的每个对象都有一个唯一的不变的标识称为对象标识(OID)。对象标识具有永久持久性,即一个对象一经产生,系统就会赋予一个在全系统中唯一的对象标识符,直到它被删除。OID是由系统统一分配的,系统全局唯一的,用户不能对OID进行修改。9.2.1 面向对象数据模型
6、2封装(Encapsulation)每个对象是其状态与行为的封装,其中状态是该对象一系列属性值的集合,而行为是在对象状态上操作的集合,操作也称为方法。对象封装之后查询属性值必须通过调用方法,不能像关系数据库系统那样(用SQL)进行即席的(随机的)、按内容的查询,这就不够方便灵活,失去了关系数据库的重要优点,因此在OODB中必须在对象封装方面做必要的修改或妥协。3类(Class)共享同样属性和方法集的所有对象构成了一个对象类(简称类),一个对象是某一类的一个实例(Instance)。例如,“汽车”就是一个类,它包含了汽车的共同特征(如型号、发动机排量、外观尺寸、颜色等),而对于“桑塔纳3000”
7、则是汽车这个类的一个具体实例。日常生活中会涉及各种类,如房子、蔬菜、学校等。类属性的定义域可以是任何类,即可以是基本类,如整数、字符串、布尔型,也可以是包含属性和方法的一般类。特别地,一个类的某一属性的定义也可是这个类自身。超类是子类的抽象(Generalization)或概括,子类是超类的特殊化(Specialization)或具体化。例如,卡车属于汽车,但卡车又有其特有的特征(如载重量),可以定义一个卡车子类,它继承汽车类,同时它增加如载重量属性。这时,汽车是卡车的超类。在超类修改后,子类将继承任何超类所做的修改。在一个面向对象数据库模式中,对象的某一属性可以是单值的或值的集合。进一步地,
8、一个对象的属性也可以是一个对象,这样对象之间产生一个嵌套层次结构。对象嵌套概念的是面向对象数据库系统中又一个重要概念。9.2.1 面向对象数据模型4继承(Inheritance)在OO模型中常用的有两种继承,单继承与多重继承。若一个子类只能继承一个超类的属性和方法,这种继承称为单继承;若一个子类能继承多个超类的特性,这种继承称为多重继承。例如,在学校的“在职研究生”,他们既是教员又是学生,在职研究生继承了教职员工和学生两个超类的所有属性和方法。9.2.2 对象关系数据库对象关系数据库(ORDBS)保持了关系数据库系统的非过程化数据存取方式和数据独立性,继承了关系数据库系统已有的技术,支持原有的
9、数据管理,又能支持OO模型和对象管理。SQL3是1999年发布的SQL标准,也称为SQL99。其显著的特点之一是提供了面向对象的扩展,增加了SQL/Object Language Binding。SQL3的扩展使人们可以同时处理关系模型中的表和对象模型中的类与对象。SQL3最重要的扩展是面向对象的数据类型,包括行类型ROW TYPE和抽象数据类型(Abstract Data Type)。1对象关系数据库系统中扩展的对象类型及其定义为了支持OO数据模型,SQL3扩展了面向对象的类型系统。在ORDBMS中,类型(TYPE)具有类(CLASS)的特征,可以看成类。(1)行对象与行类型一行类型(ROW
10、 TYPE)可以使用如下语句定义:CREATE ROW TYPE();创建行类型表,把类型实例化:CREATE TABLE OF 9.2.2 对象关系数据库例如:CREATE ROW TYPE student_Type(snoNUMBER,snameVARCHAR2(60),addrVARCHAR2(100);CREATE TABLE st1 OF student_Tpye(XHPRIMARY KEY);(2)列对象与对象类型ORDBMS中列对象的概念,可以创建一个对象类型,表的属性可以是该对象类型。语句如下:CREATE ROW TYPE AS OBJECT();9.2.2 对象关系数据库例
11、如:CREATE TYPE addr_Type AS OBJECT(cityVARCHAR2(50)streetVARCHAR2(50);CREATE TYPE name_Type AS OBJECT(first_name VARCHAR2(30)last_name VARCHAR2(30);CREATE TABLE st2(snoNUMBER,snamename_Type,addraddr_Type);9.2.2 对象关系数据库语法上这和传统的建表语句类似。SQL3扩展的是:允许表中的属性列是对象类型。(3)抽象数据类型(Abastract Data Type,ADT)SQL3允许用户创建指
12、定的带有自身行为说明和内部结构的用户定义类型称为抽象数据类型。定义ADT的一般形式为:CREATE TYPE(所有属性名及其类型说明,定义该类型定义该类型的其他函数(方法);2参照类型(Reference Type)SQL3提供了一种特殊的类型:参照类型,也称为引用类型,简称REF类型。因为类型之间可能具有相互参照的联系,因此引入了一个REF类型的概念:REF类型名REF类型总是和某个特定的类型相联系。它的值是OID。OID是系统生成的,不能修改。9.2.2 对象关系数据库例如:CREATE ROW TYPE student_Type(snoNUMBER,snameVARCHAR2(60),a
13、ddrVARCHAR2(100);CREATE ROW TYPE class_Type(nameVARCHAR2(60),teacherVARCHAR2(60);CREATE TABLE student OF student_Type;CREATE TABLE class OF class_Type;9.2.2 对象关系数据库Student的元组与class的元组存在相互参照关系:某学生在某班。可以使用REF类型描述这种参照关系:CREATE ROW TYPE sc_Type(studentREF(student_Type),classREF(class_Type););CREATE TABL
14、E sc OF sc_Type;这样,某一元组的student属性值是某个学生的OID,class属性值是这个学生在班上的OID,从而描述了学生和班级相互的参照关系。3继承性ORDBMS应该支持继承性,一般是单继承性。例如:CREATE TYPE student4_TypeUNDER student_Type AS(englishINTEGER,computerINTEGER)FINAL;9.2.2 对象关系数据库定义行类型student_Type的子类student4_Type,它继承了它父类的属性,同时又定义子类自己的属性english和computer。FINAL表示该类型是类型层次的叶
15、节点,NOT FINAL表示该类型不是类型层次的叶节点。4子表和超表SQL3支持子表和超表的概念。超表、子表、子表的子表也构成一个表层次结构。表层次和类型层次的概念十分相似。如果一个基表是用类型来定义的,那么它可以有子表或/和超表。这些表就构成了一个表层次。子表可以继承父表的属性、约束条件、触发器等,子表可以定义自己的新属性。可以使用SQL的SELECT,INSERT,DELETE,UPDATE语句对这些表进行操作。对某个表的查询其实是对该表和它所有子表中对象集合的查询。INSERT:向子表插入一行时一般情况下会在该子表的超表上也插入一行。DELETE:从表删除一行时一般情况下会在该表的超表和
16、子表上也删除相应的一行。可以使用ONLY“关闭”对子表的检索。办法是在FROM子句中使用ONLY将检索的对象限制为指定表中的对象,而不是该表和它的子表中的对象。9.3 并行数据库系统 并行数据库系统是并行计算机技术和数据库技术相结合的产物,能支持并行处理体系结构,获得比串行系统下高得多的性能。解决了传统数据库中诸如磁盘“I/O”瓶颈问题,大大提高了数据库的并行执行力度、数据库的执行速度等。并行数据库系统的体系结构包括下列几种。1全共享结构全共享结构并行数据库系统如图9.3所示,图中P表示处理机,M表示存储器,圆柱体表示磁盘。在这种并行处理结构中,每个处理机共享系统中的主存储器和磁盘资源。所有的
17、处理机和磁盘访问一个公共的主存储器,通常通过总线或互联网进行访问。多处理机之间的通信和数据交换通过共享的主存储器直接进行。这种结构又称为对称多处理机SMP结构,其优点是通信效率极高,缺点是这种结构的规模不能超过32个或64个处理机,随着处理机数目的增加,其网络拥塞程度也相应的增加,必然使总线或通信网络成为瓶颈。9.3 并行数据库系统图9.3 全共享结构并行数据库系统9.3 并行数据库系统2共享磁盘结构(Shared-Disk,SD)SD结构并行数据库系统如图9.4所示,各个处理机拥有自己局部的主存储器,但共享系统中的磁盘存储器,即所有处理机都可以通过网络访问所有的磁盘。采用这一结构的数据库系统
18、有IBM的IMS/VS Data Sharing、Dec的VAX DBMS等产品。其优点在于消除了存储器总线瓶颈问题,同时还具有一定的容错性。缺点在于与磁盘间的连接又成为了瓶颈。3无共享结构(Shared-Nothing,SN)在SN结构中,多处理机之间没有任何共享资源。每个处理机都有自己独立的局部存储器和独立的磁盘存储器。处理机之间的通信一般通过高速网络实现,其结构如图9.5所示。这种结构实际上就是被称做大规模并行处理结构的MPP系统。典型的并行计算机系统包括nCUBE系统、Tandem系统、Teradata系统等。其优点在于网络只是承担节点间的数据交换,通信负载大大减轻,可以支持大量处理机
19、。缺点在于通信代价和对非本地磁盘访问的代价远远高于全共享结构和共享磁盘结构。9.3 并行数据库系统图9.4 SD结构并行数据库系统9.3 并行数据库系统图9.5 无共享结构并行数据库系统9.3 并行数据库系统4分层并行结构这是一种融合了上述三种结构特点的并行结构,如图9.6所示。在分层结构中有许多由高速互联网连接的超级节点。它们之间不共享磁盘或存储器,因此最上层是一个无共享的体系结构。每个超级节点包含少量的处理机、共享内存,实际上是一个全共享结构。或者,每个超级节点也可以共享磁盘,共享一组磁盘系统的每个超级节点又可以是一个共享主存储器的系统。这种结构中存在两种层次的并行性,因而称为分层并行结构
20、。它是一种更加通用的结构。其优点是这种结构的灵活性大,可以按照用户的需要进行配置。随着多处理机服务器的普遍使用和网络技术的进一步发展,分层并行结构具有明显的优势。图9.6 分层并行结构数据库系统9.4 多媒体数据库1字符数值字符数值型数据记录的是事物非常简单的属性(如人的性别)、数值属性(如人数)或高度抽象的属性(如事物的所属类别)。这种数据具有简单、规范的特点,因而易于管理。传统数据库主要是针对这种数据的,在多媒体数据库中仍然需要管理这一类数据。2文本数据文本是最常见的媒体格式,各种书籍、文献、档案等无不是由文本媒体数据为主构成的。9.4 多媒体数据库3声音数据根据对音频媒体的划分可以知道,
21、语音、音乐和其他声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,第三种又把音乐单独划分出来。换句话说,第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。在音频数据库领域,许多研究是有关语音方面的,因为语音是音频中一种重要的信息载体。非语音的音频数据检索和混合系统方面的研究工作也开始引起重视。这项研究涉及多学科,包括语音识别、信息检索、音频分析、信号处理、心理声学、机器学习等。4图形数据图形数据的管理已经有一些成功的应用范例,如地理信息系统、工业图纸管理系统、建筑C
22、AD数据库等。图形数据可以分解为点、线、弧等基本图形元素。描述图形数据的关键是要有可以描述层次结构的数据模型。对图形数据来说最大的问题是如何对数据进行表示,对图形数据的检索也是如此。一般来说,由于图形是用符号或特定的数据结构表示的,更接近于计算机的形式,还是易于管理的。但管理方法和检索使用需要有明确的应用背景。9.4 多媒体数据库5图像数据图像数据在应用中出现的频率很高,也很有实用价值。图像数据库较早就有研究,已提出许多方法,包括属性描述法、特征提取、分割、纹理识别、颜色检索等。特定于某一类应用的图像检索系统已经取得成功的经验,如指纹数据库、头像数据库等,但在多媒体数据库中将更强调对通用图像数
23、据的管理和查询。6视频数据动态视频数据要比上述信息类型复杂得多,在管理上也存在新的问题。特别是由于引入了时间属性,对视频的管理还要在时间空间上进行。检索和查询的内容可以包括镜头、场景、内容等许多方面,这在传统数据库中是从来没有过的。对于基于时间的媒体来说,为了真实地再现就必须做到实时,而且需要考虑视频和动画与其他媒体的合成和同步。例如,给一段视频加上一段字幕,字幕必须在适当的时候叠加到视频的适当位置上。再如给一段视频配音,声音与图像必须配合得恰到好处,合成和同步不仅是多媒体数据库管理的问题,还涉及通信、媒体表现、数据压缩等诸多方面。9.4.1 多媒体数据库体系结构 1联邦型结构针对各种媒体单独
24、建立数据库,每种媒体的数据库都有自己独立的数据库管理系统。虽然它们是相互独立的,但可以通过相互通信来进行协调和执行相应的操作。用户既可以对单一的媒体数据进行访问,也可以对多个媒体数据进行访问以达到对多媒体数据进行存取的目的。这种结构如图9.7所示。在这种数据库体系结构中,对多媒体的管理是分开进行的,可以利用现有的研究成果直接进行封装,每种媒体数据库的设计也不必考虑与其他数据库的匹配和协调。但是由于这种多媒体数据库对多媒体的联合操作实际上是交给用户去完成的,给用户带来灵活性的同时,也为用户增加了负担。该体系结构对多种媒体的联合操作、合成处理和概念查询等都比较难于实现。如果各种媒体数据库设计时都没
25、有按照标准化的原则进行,它们之间的通信和使用都会产生影响。9.4.1 多媒体数据库体系结构图9.7 联邦型多媒体数据库结构9.4.1 多媒体数据库体系结构2集中统一型结构只存在一个单一的多媒体数据库和单一的多媒体数据库管理系统。各种媒体被统一的建模,对各种媒体的管理与操纵被集中到一个数据库管理系统中,各种用户的需求被统一到一个多媒体用户接口上,多媒体的查询检索结果可以统一地表现。由于这种多媒体管理系统是统一设计和研制的,所以在理论上能够充分地做到对多媒体数据进行有效的管理和使用。但实际上这种多媒体数据库系统是很难实现的,目前还没有一个比较恰当而且高效的方法来管理所有的多媒体数据。虽然面向对象的
26、方法为建立这样的系统带来了一线曙光,但要真正做到还有相当长的距离。如果把问题再放大到计算机网络上,这个问题就会更加复杂。结构如图9.8所示。3客户/服务器结构减少集中统一型多媒体数据库系统复杂性的一个很有效的办法是采用客户/服务器结构。各种多媒体数据仍相对独立,系统将每一种媒体的管理与操纵各用一个服务器来实现,所有服务器的综合和操纵也是用一个服务器完成,与用户的接口采用客户进程实现。客户与服务器之间通过特定的中间件系统连接。使用这种类型的体系结构,设计者可以针对不同的需求采用不同的服务器、客户进程组合,所以很容易符合应用的需要,对每种媒体也可以采用与这种媒体相适应的处理方法。同时这种体系结构也
27、很容易扩展到网络环境下工作。但采用这种体系结构必须要对服务器和客户进行仔细的规划和统一的考虑,采用标准化的和开放的接口界面,否则也会遇到与联邦型相近的问题。该体系结构如图9.9所示。9.4.1 多媒体数据库体系结构图9.8 集中统一型多媒体数据库9.4.1 多媒体数据库体系结构图9.9 客户/服务器体系结构的多媒体数据库9.4.1 多媒体数据库体系结构4超媒体型结构这种多媒体数据库体系结构强调对数据时空索引的组织,在它看来世界上所有的计算机中的信息和其他系统中的信息都应连接成一体,而且信息也要能够随意扩展和访问。因此,也就没有必要建立一个统一的多媒体数据库系统,而是把数据库分散到网络上,把它看
28、做一个信息空间,只要设计好访问工具就能够访问和使用这些信息。另外,在多媒体数据模型上,要通过超链接建立起各种数据的时空关系,使得访问的不仅仅是抽象的数据形式,而且还可以去访问形象化的、真实的或虚拟的空间和时间。目前的WWW已经使人们看到了这种数据库的雏形。9.4.2 多媒体数据库的层次结构1传统数据库的层次传统的数据库系统分为三个层次,按ANSI的定义分别为物理模式、概念模式和外部模式,如图9.10所示。传统的数据库采用这种层次结构是由其所管理的数据而决定的。在这种数据库中,数据主要是抽象化的字符和数值,管理和操纵的技术也是简单的比较、排序、查找和增删改等操作,处理起来比较容易,也比较好管理。
29、由于数据种类单一,数据模型比较简单,对数据的处理也可以采取相对统一的方法。因此,如果要引入多媒体的数据,这种系统分层肯定不满足要求,就必须寻找恰当的结构分层形式。图9.10 传统数据库的三层模式9.4.2 多媒体数据库的层次结构2多媒体数据库的层次划分已经有许多人提出过多媒体数据库的层次划分,包括对传统数据库的扩展、对面向对象数据库的扩展、超媒体层次扩展等。虽然各有所不同,但总的思路是很相近的,大多是从最低层增加对多媒体数据的控制与支持,在最高层支持多媒体的综合表现和用户的查询描述,在中间增加对多媒体数据的关联和超链的处理,其概念层次如图9.11所示。图9.11 多媒体数据库层次示意图9.4.
30、3 多媒体数据库基于内容检索1基于颜色直方图的检索颜色直方图是一幅图像中各种颜色(或灰度)像素点数量的比例图。它是一种基于统计的特征提取方式。通过统计一幅图像中的不同的颜色(灰度)种类和每种颜色的像素数,并以直方图形式表示出来就构成了图像的颜色直方图。图9.12是一幅图像及其直方图,分为R、G、B和灰度4个通道,曲线表示具有该色阶值的像素个数。图9.12 图像及其直方图9.4.3 多媒体数据库基于内容检索利用基于颜色直方图检索,其示例可以由如下方法给出。使用颜色的构成:如检索“约45%红色,25%绿色的图像”,这些条件限定了红色和绿色在直方图的比例,检索系统会将查询条件转换为对颜色直方图的匹配
31、模式。检索结果中所有图像的颜色分布都符合指定的检索条件,尽管查到的大多数不是所要的图像,但缩小了查询空间。使用一幅图像:将一幅图像的颜色直方图作为检索条件时,系统用该图像的颜色直方图与数据库中的图像颜色直方图进行匹配,得到检索结果的图像集合。使用图像的一块子图:使用从图像中分割出来的一块子区域的颜色直方图,从数据库中确定具有相似图像颜色特征的结果图像集合。2基于轮廓的检索基于轮廓的检索是用户通过勾勒图像的大致轮廓,从数据库中检索出轮廓相似的图像。9.4.3 多媒体数据库基于内容检索3基于纹理的检索纹理是通过色彩或明暗度的变化体现出来的图像表面细节。其特征包括粗糙性、方向性和对比度等。对纹理的分
32、析方法主要有统计法和结构法两种。统计法用于分析如木纹、沙地、草坪等细密而规则的对象,并根据像素间灰度的统计特性对纹理规定出特征,以及特征与参数之间的关系。结构法适于如布纹图案、砖墙表面等排列规则对象的纹理,结构法根据纹理基元及其排列规则描述纹理的结构和特征,以及特征与参数的关系。基于纹理的检索往往采用示例法。检索时首先将已有的图像纹理以缩略图形式全部呈现给用户,当用户选中其中一个和查询要求最接近的纹理形式时,系统以查询表的形式让用户进一步调整纹理特征,并逐步返回越来越精确的结果。随着信息量和信息媒体种类的不断增加,对信息的管理和检索也变得越来越困难。多媒体数据库从不同的技术角度探索了对多媒体信
33、息进行集成管理的方法,但技术上还有许多没有解决的问题,距离完善的实用阶段还有相当的差距。9.5 数据仓库和数据挖掘9.5.1 数据仓库1数据仓库的概念简言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需的信息。相同容量的数据仓库采用不同组织形式,完成数据分析的效果和处理的时间会有所不同,通常有以下几种组织形式:简单堆积文件组织方式,将每天由数据库提取并处理后的数据逐天存储起来。定期综合文件组织方式,将数据存储单位分成日、周、月、季度、年等多个级别,数据被逐一地添加到每天的数据集合中。当一个星期结束,每天的数据被综合成周数据,而后周数据又被综合成月
34、数据,以此类推。后者的数据量比前者大大减少,但由于数据被高度的综合,造成数据的细节在综合中丢失。9.5.1 数据仓库 连续文件组织方式,综合了前两者的优点,既保留细节信息,又大大减少了数据量。例如,在进行数据存储过程中,可以将相关的两个数据表中相同的表项合并,对于两表中不同的表项分别记录。但是,连续文件增加的合并列也会给查询带来一定的不便。商业决策在一个适当的时间进行趋势、相关分析等工作都必须借助于组织数据的新技术。所以对于大型的数据仓库来说,合理有效的数据组织显得尤为重要。数据仓库的物理结构可以是关系数据库或数据立方体。数据立方体的物理实体一般为关系数据库中的表,从观察数据的特定角度,把某一
35、类属性的集合称为一个维,每个维都有一个表与之相关联。在数据立方体上可以进行上卷或下钻等联机分析处理操作,即对不同的数据层次进行概化或细化。9.5.1 数据仓库2数据仓库的构建数据仓库的构架由3部分组成:数据源、数据源转换/装载形成新数据库和联机分析处理。数据仓库的实施过程大体可分为3个阶段:数据仓库的项目规划、设计与实施、维护调整。从数据仓库的构架和实施过程出发,数据仓库的构建可以分为以下几个步骤:收集和分析业务需求;建立数据模型和数据仓库的物理设计;定义数据源;选择数据仓库技术和平台;从操作型数据库中抽取、净化和转换数据到数据仓库;选择访问和报表工具;选择数据库连接软件;选择数据分析和数据展
36、示软件;更新数据仓库。9.5.1 数据仓库数据仓库的建立可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。数据仓库相对于联机事务处理来说,是业务驱动而不是技术驱动的,需要不断地和最终用户交流。在实施数据仓库过程中应注意以下问题:数据仓库中应该包含清理过的细节数据;用户能看到的任何数据都应该在元数据中有对应的描述;当数据量迅速增长,数据仓库中的数据在各个服务器中的分配策略是按主题、地理位置、还是时间;合理选用数据仓库设计工具;在设计数据仓库模型时为了提高性能应将用户对数据仓库的使用方式考虑在内;硬件平台,数据仓库的硬盘容量通常应是操作数据库硬盘容量的23倍。通常大型机具有更
37、高的可靠性和稳定性,而PC服务器或UNIX服务器更加灵活;网络结构,数据仓库的实施在部分网络段上会产生大量的数据通信,可能需要改进网络结构。9.5.2 数据挖掘1数据挖掘的概念在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘是将高级智能计算技术应用于大量数据中,让计算机从海量数据中发现潜在的、有价值的知识。从技术上说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有价值的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的知识是用户感兴趣的,对用户有
38、价值的;这些知识的数据要可接受、可理解、可运用。数据挖掘技术的应用带来了巨大的商业机会。(1)自动趋势预测数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销做出反应的客户。9.5.2 数据挖掘(2)探测以前未发现的模式数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式,例如,通过分析零售数据来辨别出表面上看起来没联系的产品,实际上有很多情况下是一起被售出的情况。数据挖掘是一门交叉学科,会聚了数据
39、库、人工智能、统计学、可视化、并行计算等不同学科和领域。数据挖掘又是一项技术,由许许多多的算法构成,如决策树、聚类、关联算法、分类算法、神经网络等,这些算法可以有多种实现方式。因为与数据库密切相关,又称它为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。数据挖掘应用特定的发现算法,从数据仓库中自动分析数据,进行归纳性推理、从中发掘出潜在的模式或产生联想,建立新的业务模型,帮助决策者调整市场策略做出正确的决策
40、。数据挖掘过程分为3个步骤:数据准备、挖掘和表述。在解决实际问题时,经常要同时使用多种模式。一个数据系统或仅仅一个数据挖掘查询就可能生成成千上万的模式,但是并非所有的模式都令人感兴趣。因此,兴趣度通常被用来衡量模式的总体价值,它包括正确性、新奇性、可用性和简捷性。9.5.2 数据挖掘数据挖掘也拓展了数据应用的广度和深度。在深度上,允许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参选的变量都被
41、考虑进去,再不需要选择变量的子集来进行运算了。在广度上,允许有更多的行存在,更大的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。数据挖掘的物理结构描述了客户应用程序与数据挖掘模型的相互作用,结构的选择是根据数据源的大小和对该数据挖掘模型发布的预测查询频率来选择的。根据应用特点,可使用两层体系结构或三层体系结构方案。两层体系结构的物理结构不太复杂,能够在合理高效的服务器上挖掘数百万的记录。服务器中一并存放着数据挖掘引擎和数据仓库,在本地运行所有处理过程。通过一个OLEDB连接,客户机可以简单调用引擎执行所有必要的数据挖掘处理,并在需要时接受预测结果集。当数
42、据挖掘任务进一步增加,客户机选用挖掘结果需求量增大时,可选用三层体系结构。这个结构总体上需要一个专用的高性能服务器在中间层来用做数据挖掘引擎,数据仓库被置于后端,中间层负责挖掘其数据。中间层从后端载入数据并进行挖掘,挖掘结果被传到客户机。9.5.2 数据挖掘数据挖掘渗透到某些行业,产生了一些特定的应用,如现在经常会听到的客户关系管理(Customer Relationship Management,CRM)。通过挖掘客户信息,发现潜在的消费趋势或动向。数据挖掘技术的目标是从大量数据中发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有以下4类主要任务:(1)概念描述概念描述就是对
43、某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(2)分类和预测分类和预测是两种数据分析形式,可以用来提取描述重要数据类的模型和预测未来的数据趋势。即分析数据的各种属性,找出数据的属性模型,确定数据属于哪些组,可以利用该模型来分析已有数据并预测新数据。分类和预测都具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物。如可以建立一个分类模型,对银行贷款的安全性和风险进行分类;同时可以建立预测
44、模型,例如,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费。9.5.2 数据挖掘(3)关联分析数据库中的数据一般都存在着关联关系,它反映一个事件和其他事件之间依赖或关联的知识。这种关联关系有简单关联和时序关联两种。简单关联,例如,购买面包的顾客中有90%的人同时购买牛奶。时序关联,例如,若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%,它在简单关联中增加了时间属性。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联是否存在精确的关联函数,既使知道也是不确定的,因此关联分析生成的规则带有可信度。(4)聚类当要分析的数据缺乏描述信息
45、,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。9.5.2 数据挖掘2数据挖掘的方法及其应用作为一门处理数据的新技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。再次,数据挖掘是许多学科的交叉,运用了统计学、计算机、数学等学科的技术。以下是常见数据挖掘算法和模型。(1)传统统计方法 抽样技术:人们面对
46、的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。多元统计分析:因子分析,聚类分析等。统计预测方法:如回归分析,时间序列分析等。(2)可视化技术用图表等方式把数据特征直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。数据可视化以前多用于科学和工程领域,现在也出现了针对商业用户需求的产品。这类工具大大扩展了传统商业图形的能力,支持多维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。有些工具甚至提供动画能力,使用户可以“飞越”数据,观看不同层次的细节。其优点是,提供了发现并翻译数据模式及数据间关系的图形方式。9.5.2 数据挖掘(3
47、)决策树利用一系列规则划分,建立树状图,可用于分类和预测。大部分数据挖掘工具采用规则发现技术或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法,如ID3及其发展C4.5。这类工具通常先对数据库的数据进行采集,生成规则和决策树,然后对新数据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读的。(4)神经网络模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。基于神经网络的挖掘过程基本上是将数据聚类,然后分类计算权值。神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。(5)遗传算法基于自然进化理论,模拟
48、基因联合、突变、选择等过程的一种优化技术。(6)近邻算法近邻算法是将数据集合中每个记录进行分类的方法。9.5.2 数据挖掘(7)关联规则挖掘算法关联规则是描述数据之间存在关系的规则,形式为“A1A2AnB1B2Bn”。一般分为两个步骤:求出大数据项集;用大数据项集产生关联规则。除了上述的常用方法外,还有粗糙集方法、模糊集合方法等。采用上述技术的某些专门的分析工具已经发展了大约10年的历史,不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。目前,数据挖掘技术应用最集中的领域包括以下6个方面,但每个领域又有其特定的应用问题和应用背景
49、。(1)金融金融事务需要收集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括:数据清理、金融市场分析和预测;账户分类、银行担保和信用评估。(2)医疗保健医疗保健行业有大量数据需要处理,但这个行业的数据由不同的信息系统管理,数据以不同的格式保存。在这个行业中,数据挖掘最关键的任务是进行数据清理,预测医疗保健费用等。9.5.2 数据挖掘(3)市场业及零售业市场业应用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。零售业是最早应用数据挖掘技术的行业,目前主要应用于销售预测、库存需求、零售点选择和价格分析。(4)制造业制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。通过对生产数据进行分析,还能发现一系列产品制造、装配过程中哪一阶段最容易产生错误。(5)司法数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析,可以给司法工作带来巨大收益。例如,美国财政部使用NetMap开发了一个叫FAIS的系统对各类金融事务进行监测,识别洗钱、诈骗等。(6)工程与科学数据挖掘技术可应用于各种工程与科学数据分析。例如,Jet Propulsion实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。这个系统还帮助发现了10个新的类星体。
限制150内