研究生第六章数据仓库与数据挖掘的决策支持42429.pptx
《研究生第六章数据仓库与数据挖掘的决策支持42429.pptx》由会员分享,可在线阅读,更多相关《研究生第六章数据仓库与数据挖掘的决策支持42429.pptx(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6 6章章 数据仓库与数据挖掘数据仓库与数据挖掘 的决策支持的决策支持6.1 数据仓库的基本原理数据仓库的基本原理n6.1.1 数据仓库概念数据仓库概念n6.1.2 数据仓库结构数据仓库结构n6.1.3 数据集市数据集市n6.1.4 元数据元数据6.1.1 6.1.1 数据仓库的概念数据仓库的概念 (1 1)W.H.InmonW.H.Inmon在在建立数据仓库建立数据仓库一书中,对数据仓库的定义为:一书中,对数据仓库的定义为:数据仓库是面向数据仓库是面向主题的主题的、集成的集成的、稳定的稳定的,不同时间不同时间的数据集合,用于支的数据集合,用于支持经营管理中持经营管理中决策制定决策制定过程
2、。过程。1、数据仓库的概念、数据仓库的概念(2 2)SASSAS软件研究所定义:软件研究所定义:数数据据仓仓库库是是一一种种管管理理技技术术,旨旨在在通通过过通通畅畅、合合理理、全全面面的的信信息息管管理理,达达到到有有效的决策支持。效的决策支持。1、数据仓库的概念、数据仓库的概念 传传统统数数据据库库用用于于事事务务处处理理,也也叫叫操操作作型型处处理理,是是指指对对数数据据库库联联机机进进行行日日常常操操作作,即即对对一一个个或或一一组组记记录录的的查查询询和和修修改改,主主要要为为企企业业特特定定的的应应用用服服务务的的。用用户户关心的是响应时间,数据的安全性和完整性。关心的是响应时间,
3、数据的安全性和完整性。数数据据仓仓库库用用于于决决策策支支持持,也也称称分分析析型型处处理理,用用于于决策分析,它是建立决策支持系统(决策分析,它是建立决策支持系统(DSSDSS)的基础。)的基础。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:2、数据仓库特点、数据仓库特点(1 1 1 1)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的 主题是数据主题是数据归类归类的标准,每一个主题基本对应一的标准,每一个主题基本对应一个宏观的分析领域。个宏观的分析领域。例如,银行的数据仓库的主题
4、:客户例如,银行的数据仓库的主题:客户 DW DW的客户数据来源:的客户数据来源:从从银行储蓄银行储蓄DBDB、信用卡、信用卡DBDB、贷款、贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。在在D DW W中分析客户数据,可决定是否继续给予贷款中分析客户数据,可决定是否继续给予贷款2、数据仓库特点、数据仓库特点(2 2 2 2)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成数据进入数据仓库之前,必须经过加工与集成n对对对对不同的不同的不同的不同的数据来源进行统一数据结构和编码数据来源进
5、行统一数据结构和编码数据来源进行统一数据结构和编码数据来源进行统一数据结构和编码n统统统统一一一一原原原原始始始始数数数数据据据据中中中中的的的的所所所所有有有有矛矛矛矛盾盾盾盾之之之之处处处处,如如如如字字字字段段段段的的的的同同同同名名名名异异异异义义义义,异异异异名名名名同同同同义义义义,单单单单位位位位不不不不统统统统一一一一,字字字字长长长长不不不不一致等。一致等。一致等。一致等。总总之之,将将原原始始数数据据结结构构做做一一个个从从面面向向应应用用到到面面向向主主题题的大转变。的大转变。2、数据仓库特点、数据仓库特点(3 3 3 3)数据仓库是稳定的)数据仓库是稳定的)数据仓库是稳
6、定的)数据仓库是稳定的 数数据据仓仓库库中中包包括括了了大大量量的的历历史史数数据据。数数据据经经集集成进入数据仓库后是成进入数据仓库后是极少极少或或根本根本不更新的。不更新的。(4 4 4 4)数据仓库是随时间变化的)数据仓库是随时间变化的)数据仓库是随时间变化的)数据仓库是随时间变化的 数数据据仓仓库库内内的的数数据据时时限限在在5 5 1010年年,故故数数据据的的键键码码包包含含时时间间项项,标标明明数数据据的的历历史史时时期期,这这适适合合DSSDSS进行进行时间趋势分析时间趋势分析。数数据据库库只只包包含含当当前前数数据据,即即存存取取某某一一时时间间的的正正确的有效的数据。确的有
7、效的数据。2、数据仓库特点、数据仓库特点 (5)(5)(5)(5)数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大.大大型型DWDW是是一一个个TBTB(1000GB1000GB)级级数数据据库库问问题题(一一般般为为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍)(6)(6)(6)(6)数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高 需需要要一一个个巨巨大大的的硬硬件件平平台台需需要要一一个个并并行行的的数数据据库库系统系统.最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂
8、贵的。近近期期基基本本数数据据:是是最最近近时时期期的的业业务务数数据据,是是数数据据仓仓库库用用户户最感兴趣最感兴趣的部分,数据量大。的部分,数据量大。历历史史基基本本数数据据:近近期期基基本本数数据据随随时时间间的的推推移移,由由数数据据仓仓库的库的时间控制机制时间控制机制转为历史基本数据。转为历史基本数据。轻轻度度综综合合数数据据:是是从从近近期期基基本本数数据据中中提提取取出出的的,这这层层数数据据是是按按时时间间段段选选取取,或或者者按按数数据据属属性性(attributesattributes)和和内内容容(contentscontents)进行综合。)进行综合。高度综合数据层:高
9、度综合数据层:这一层的数据是在这一层的数据是在轻度综合数据轻度综合数据基础基础上的再一次综合,是一种准决策数据。上的再一次综合,是一种准决策数据。6.1.2 数据仓库结构数据仓库结构 元元数数据据:整整个个数数据据仓仓库库的的组组织织结结构构由由元元数数据据组组织织,它它不不包包含含数据仓库中的数据仓库中的实际数据信息实际数据信息。作用:作用:(1 1)定位数据仓库的目录内容)定位数据仓库的目录内容 (2 2)数数据据从从业业务务环环境境向向数数据据仓仓库库环环境境传传递递时时数数据据仓仓库库的的目目录内容录内容 (3 3)指指导导从从当当前前基基本本数数据据到到轻轻度度综综合合数数据据到到高
10、高度度综综合合数数据据的综合算法的选择。的综合算法的选择。组成:组成:(1 1)数据结构)数据结构 (2 2)用于综合的算法)用于综合的算法 (3 3)从业务环境到)从业务环境到DWDW规划规划6.1.2 数据仓库结构数据仓库结构数据仓库结构图数据仓库结构图 元元数数据据是是数数据据仓仓库库的的重重要要组组成成部部分分。元元数数据据描描述述了了数数据据仓仓库库的的数数据据和和环环境境,即即关关于于数数据据的的数数据据(meta(meta data)data)。元元数数据据就就相相当当于于数数据据库库系系统统中中的的数数据字典据字典 元数据包括四种元数据元数据包括四种元数据n n关于关于关于关于
11、数据源数据源数据源数据源的元数据的元数据的元数据的元数据n n关于关于关于关于数据模型数据模型数据模型数据模型的元数据的元数据的元数据的元数据n n关于关于关于关于数据仓库映射数据仓库映射数据仓库映射数据仓库映射的元数据的元数据的元数据的元数据n n关于关于关于关于数据仓库使用数据仓库使用数据仓库使用数据仓库使用的元数据的元数据的元数据的元数据6.1.4 元数据元数据 它它是是现现有有的的业业务务系系统统的的数数据据源源的的描描述述信信息息。这这类类元元数数据据是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和和含含义义的的描述描述。具体为:。具体为:(1 1)数数据据源源中中
12、所所有有物物理理数数据据结结构构,包包括括所所有有的的数数据据项项及及数据类型。数据类型。(2 2)所有数据项的业务定义。)所有数据项的业务定义。(3 3)每每个个数数据据项项更更新新的的频频率率,以以及及由由谁谁或或哪哪个个过过程程更更新新的说明。的说明。(4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于、关于数据源数据源的元数据的元数据这这类类元元数数据据描描述述了了数数据据仓仓库库中中有有什什么么数数据据以以及及数数据据之之间间的的关关系系,它它们们是是用用户户使使用用管管理理数数据据仓仓库库的的基基础础。这这类类元元数数据据可可以以支支持持用用户户从从数数据据仓仓库库中中
13、获获取取数据。数据。数据仓库的数据模型是星型模型。数据仓库的数据模型是星型模型。通通常常企企业业数数据据模模型型被被用用作作建建立立仓仓库库数数据据模模型型的的起始点起始点,再对模型加以修改和变换。,再对模型加以修改和变换。2 2、关于、关于数据模型数据模型的元数据的元数据这这类类元元数数据据是是数数据据源源与与数数据据仓仓库库数数据据间间的的映射。映射。当当数数据据源源中中的的一一个个数数据据项项与与数数据据仓仓库库建建立立了了映映射射关关系系,就就应应该该记记下下这这些些数数据据项项发发生生的的任任何何变变换换或或变变动动。即即用用元元数数据据反反映映数数据据仓仓库库中中的的数数据据项项是
14、是从从哪哪个个特特定定的的数据源填充的,经过那些转换、变换和加载过程数据源填充的,经过那些转换、变换和加载过程3 3、关于、关于数据仓库映射数据仓库映射的元数据的元数据3、关于、关于数据仓库映射数据仓库映射的元数据的元数据n一个抽取要经过以下几个步聚一个抽取要经过以下几个步聚n获取获取n过滤过滤n验证验证n融合融合n综合综合n装载装载n存档存档 从源系统的数据到数据仓库中的从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作,目标数据的转移是一项复杂的工作,其工作量占整个数据仓库开发的其工作量占整个数据仓库开发的70%这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的
15、使用情况描述。数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据:(1 1)元元数数据据告告诉诉数数据据仓仓库库中中有有什什么么数数据据,它它们们从从哪哪里里来来。即即如何按主题查看数据仓库的内容如何按主题查看数据仓库的内容。(2 2)元元数数据据提提供供已已有有的的可可重重复复利利用用的的查查询询语语言言信信息息。如如果果某某个个查查询询能能够够满满足足他他们们的的需需求求,或或者者与与他他们们的的愿愿望望相相似似,他们就可以再次使用那些查询而不必从头开始编程。他们就可以再次使用那些查询而不必从头开始编程。关关于于数数据据仓仓库库使使用用的的元元数数据据能能帮帮助助用用户
16、户到到数数据据仓仓库库查查询询所需要的信息,用于解决企业问题。所需要的信息,用于解决企业问题。4、关于、关于数据仓库使用数据仓库使用的元数据的元数据1.1.数据集市的产生数据集市的产生n数数据据仓仓库库工工作作范范围围和和成成本本常常常常是是巨巨大大的的。开开发发数数据据库库是是代代价价很很高高、时时间间较较长长的的大大项项目目。提提供供更紧密集成的数据集市就应运产生。更紧密集成的数据集市就应运产生。n目目前前,全全世世界界对对数数据据仓仓库库总总投投资资的的一一半半以以上上均均集中在数据集市上。集中在数据集市上。6.1.3 数据集市(数据集市(Data Mart)n数据集市(数据集市(Dat
17、a MartsData Marts)是一种)是一种更小更小、更集中更集中的的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。n数据集市是指具有数据集市是指具有特定应用特定应用的数据仓库,主要针的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案得竞争优势或者找到进入新市场的具体解决方案2.数据集市概念数据集市概念3.数据集市与数据仓库的数据集市与数据仓库的关系关系n数据集市不等于数据仓库,多个数据集市简单合数据集市不等于数据仓库,多个数据集市简单合并起来不
18、能成为数据仓库。并起来不能成为数据仓库。n各数据集市之间对详细数据和历史数据的存储各数据集市之间对详细数据和历史数据的存储存在大存在大量冗余量冗余。n同一个问题在不同的数据集市的查询结果同一个问题在不同的数据集市的查询结果可能不一致,可能不一致,甚至互相矛盾。甚至互相矛盾。n各数据集市之间以及与源数据库系统之间各数据集市之间以及与源数据库系统之间难以管理难以管理。1 1、规模小、规模小2 2、特定的应用、特定的应用3 3、面向部门、面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现、快速实现7 7、购买较便宜
19、、购买较便宜8 8、投资快速回收、投资快速回收9 9、工具集的紧密集成、工具集的紧密集成1010、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1111、可升级到完整的数据仓库、可升级到完整的数据仓库4.数据集市的特性数据集市的特性5.两种数据集市结构两种数据集市结构从属数据集市从属数据集市从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)从属:从属:数据直接来自数据直接来自数据直接来自数据直接来自中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持数据的一致性。数据的一致性。
20、数据的一致性。数据的一致性。关键业务部门建立关键业务部门建立关键业务部门建立关键业务部门建立从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。5.两种数据集市结构两种数据集市结构独立数据集市独立数据集市(Independent Data Mart)独立:独立:数据直接来自各数据直接来自各数据直接来自各数据直接来自各生产系统。生产系统。生产系统。生产系统。从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解决各个部门比较迫切的决各个部门比较迫切的决各个部门比较迫切的决
21、各个部门比较迫切的决策问题。决策问题。决策问题。决策问题。6.数据集市与数据仓库的数据集市与数据仓库的差别差别n数据仓库是基于数据仓库是基于整个企业整个企业的数据模型建立的,它面向企业的数据模型建立的,它面向企业范围的主题;范围的主题;n数据集市是按照数据集市是按照某一特定部门某一特定部门的数据模型建立的,由于每的数据模型建立的,由于每个部门有自己特定的需求,因此,对他们对数据集市的期个部门有自己特定的需求,因此,对他们对数据集市的期望也不一样,也称作部门级数据仓库望也不一样,也称作部门级数据仓库n部门的主题与企业的主题之间可能存在关联,也可能不存部门的主题与企业的主题之间可能存在关联,也可能
22、不存在关联。在关联。n数据集市的数据组织一般采用星形模型,大型数据仓库的数据集市的数据组织一般采用星形模型,大型数据仓库的数据组织采用第三范式。数据组织采用第三范式。6.2数据仓库系统 6.2.1数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、仓库管理和分析工具三部分组成)、仓库管理和分析工具三部分组成1、数据仓库管理系统、数据仓库管理系统(1 1)定义部分)定义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括:n n设计和定义数据仓库的数据库设计和定义数据仓库的数据库设计和定义数据仓库的数据库设计和定义数据仓库的数据库
23、n n定义数据来源定义数据来源定义数据来源定义数据来源n n确确确确定定定定从从从从源源源源数数数数据据据据向向向向数数数数据据据据仓仓仓仓库库库库复复复复制制制制数数数数据据据据时时时时的的的的清清清清理理理理和和和和增增增增强规则强规则强规则强规则(2 2)数据获取部分)数据获取部分 该该部部件件把把数数据据从从源源数数据据中中提提取取出出来来,依依定定义义部部件件的的规则,抽取、转化和装载数据进入数据仓库。规则,抽取、转化和装载数据进入数据仓库。(3 3)管理部分)管理部分 它用于管理数据仓库的工作,包括:它用于管理数据仓库的工作,包括:n对数据仓库中数据的维护对数据仓库中数据的维护n把
24、仓库数据送出给分散的仓库服务器或把仓库数据送出给分散的仓库服务器或DSSDSS用户用户n对对仓仓库库数数据据的的安安全全、归归档档、备备份份、恢恢复复等等处处理理工作工作1、数据仓库管理系统、数据仓库管理系统(4 4)信息目录部件(元数据)信息目录部件(元数据)数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成:技技术术目目录录:由由定定义义部部件件生生成成,关关于于数数据据源源、目目标标、清清理理规规则、变换规则以及数据源和仓库之间的映象信息。则、变换规则以及数据源和仓库之间的映象信息。业业务务目目录录:由由仓仓库库管管理理员员生生成成,关关于于仓仓库库数数据
25、据的的来来源源及及当当前值;预定义的查询和报表细节;合法性要求等。前值;预定义的查询和报表细节;合法性要求等。信息引导器:信息引导器:使用户容易访问仓库数据。利用固定查询或使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。建立新的查询,生成暂时的或永久的仓库数据集合的能力等。(5 5)DBMSDBMS部分部分 DWDW的存储形式仍为关系型数据库。的存储形式仍为关系型数据库。1、数据仓库管理系统、数据仓库管理系统 分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具)查询工具 数数据据仓仓库库的的查查询询不不是是指指对对记记录录级级数数据据的的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 第六 数据仓库 数据 挖掘 决策 支持 42429
限制150内