数据库原理及应用_第17章数据仓库技术.ppt
第第1717章章 数据仓库技术数据仓库技术数据仓库是数据库技术的另一重要发展方向。数据仓库是数据库技术的另一重要发展方向。人们希望能更多地通过数据库系统获得决策支持信人们希望能更多地通过数据库系统获得决策支持信息的推动下发展起来的一项新数据库技术。息的推动下发展起来的一项新数据库技术。本章主要介绍本章主要介绍操作性处理与分析型处理的区别,联操作性处理与分析型处理的区别,联机事务处理(机事务处理(OLTP)和联机分析处理(和联机分析处理(OLAP)的不同,数据仓库技术的基本概念、组成结构、技的不同,数据仓库技术的基本概念、组成结构、技术特征、设计,数据挖掘和决策支持系统(术特征、设计,数据挖掘和决策支持系统(DSS),),以及以及SQL Server的的DBMS对数据仓库的支持。对数据仓库的支持。第第1717章章 数据仓库与数据挖掘数据仓库与数据挖掘 17.1 从数据库到数据仓库从数据库到数据仓库17.2 数据仓库的结构数据仓库的结构17.3 数据仓库的设计数据仓库的设计17.4 OLAP与数据仓库与数据仓库17.5 数据挖掘(数据挖掘(data mining,DM)17.6 决策支持系统与数据仓库决策支持系统与数据仓库17.7 SQL Server 2000的数据仓库的数据仓库 17.8 小结小结 17.9 习题习题17.1 17.1 从数据库到数据仓库从数据库到数据仓库17.1.1 操作型处理和分析型处理操作型处理和分析型处理17.1.2 从数据库到数据仓库从数据库到数据仓库17.1.3 操作型数据和分析型数据操作型数据和分析型数据 17.1.1 17.1.1 操作型处理和分析型处理操作型处理和分析型处理操作型处理操作型处理分析型处理分析型处理性能特性不同性能特性不同存存取取操操作作频频率率高高,每每次次操操作作时时间间短短,要要求求较较短短响响应应时时间间,可按分时方式。可按分时方式。有有时时需需要要连连续续运运行行几几个个小小时时,从而消耗大量的系统资源。从而消耗大量的系统资源。集成性问题集成性问题一一般般只只需需与与本本部部门门有有关关的的当当前数据,集成性要求较少。前数据,集成性要求较少。迫迫切切需需要要集集成成数数据据、企企业业内内部部、外部和竞争对手等信息。外部和竞争对手等信息。数数据据动动态态集集成成性问题性问题不要动态集成。不要动态集成。需一定周期进行动态集成。需一定周期进行动态集成。历史数据问题历史数据问题一一般般只只需需当当前前数数据据,数数据据库库中只保存短期数据。中只保存短期数据。需要分析大量历史数据。需要分析大量历史数据。综合数据问题综合数据问题积积累累了了大大量量的的细细节节性性数数据据,但很少对数据进行综合。但很少对数据进行综合。不不分分析析细细节节性性数数据据,而而要要进进行行不同程度综合,分析综合信息。不同程度综合,分析综合信息。用户数量用户数量多多相对较少相对较少17.1.2 17.1.2 从数据库到数据仓库从数据库到数据仓库产生的根本原因是对决策信息的迫切需求。产生的根本原因是对决策信息的迫切需求。20世纪世纪90年代以来,在操作型数据环境中建立年代以来,在操作型数据环境中建立DSS(决策支持系统)效果不理想。(决策支持系统)效果不理想。对传统数据库反思。?对传统数据库反思。?在规划设计的基础上,对数据库中的数据按照不在规划设计的基础上,对数据库中的数据按照不同的主题归纳、统计、汇总、集成,使其长期保同的主题归纳、统计、汇总、集成,使其长期保存在计算机中,并随着时间推移不断追加,这样存在计算机中,并随着时间推移不断追加,这样形成的数据集合便是我们所说的数据仓库。形成的数据集合便是我们所说的数据仓库。17.1.3 17.1.3 操作型数据和分析型数据操作型数据和分析型数据原始数据/操作型数据导出数据/分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的历史数据可更新很少更新操作需求事先可知道操作需要事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松事务驱动分析驱动面向业务应用面向分析一次操作小量数据一次操作大量数据支持日常操作支持管理决策需求17.2数据仓库系统数据仓库系统 作为决策支持系统(作为决策支持系统(DSS)的辅助支持,数据仓库系统)的辅助支持,数据仓库系统包括三大部分内容:包括三大部分内容:数据仓库技术数据仓库技术(DW ,data warehousing)联机分析处理技术联机分析处理技术(OLAP,on_line analytical processing)数据挖掘技术数据挖掘技术(DM,data mining)17.3 17.3 数据仓库技术数据仓库技术数据仓库是一个不同于传统数据库的数据集数据仓库是一个不同于传统数据库的数据集合,它是对传统数据库进行抽取、归纳、统合,它是对传统数据库进行抽取、归纳、统计、汇总集成而成。计、汇总集成而成。17.3.1 数据仓库的概念及特点数据仓库的概念及特点17.3.2 数据仓库的体系结构数据仓库的体系结构17.3.3数据仓库的分类数据仓库的分类17.3.4数据仓库的开发数据仓库的开发17.3.5数据仓库的数据模式数据仓库的数据模式 17.3.1 17.3.1 数据仓库的概念及特点数据仓库的概念及特点数据仓库是一种高级、复杂的数据库技术。数据仓库是一种高级、复杂的数据库技术。完整的数据仓库理论包括三个方面:数据仓完整的数据仓库理论包括三个方面:数据仓库技术、联机分析处理(库技术、联机分析处理(OLAP)、)、数据挖数据挖掘(掘(DM)。)。数据仓库是一个数据仓库是一个面向主题的、集成的、稳定面向主题的、集成的、稳定的、随时间而变的数据集合,用以支持经营的、随时间而变的数据集合,用以支持经营管理过程中的决策制订过程。管理过程中的决策制订过程。数据仓库四特征:面向主题、集成、稳定和数据仓库四特征:面向主题、集成、稳定和随时间变化。随时间变化。17.3.2 17.3.2 数据仓库的体系结构数据仓库的体系结构报表、查询报表、查询OLAP工具工具数据挖掘工具数据挖掘工具数据抽取数据净化数据载入操作型数据操作型数据和外界数据和外界数据数据文件其他数据仓库DBMS元数据元数据管理平台 R M数据集市信息发布系统信息发布系统操纵平台17.3.3 17.3.3 数据仓库的分类数据仓库的分类标准数据仓库标准数据仓库数据集市数据集市多层数据仓库多层数据仓库联合式数据仓库联合式数据仓库17.3.4 数据仓库的开发数据仓库的开发自顶向下自顶向下(费用高、开发时间长)(费用高、开发时间长)自底向上(费用低,灵活性高,并能快速回报)自底向上(费用低,灵活性高,并能快速回报)17.3.5 数据仓库的数据模式数据仓库的数据模式维属性维属性 是分析数据的角度(如时间、地区、类别等)是分析数据的角度(如时间、地区、类别等)度量属性度量属性 是分析的数据(如具体的销售量)是分析的数据(如具体的销售量)数据仓库的架构:数据仓库的架构:星型架构星型架构 雪花型架构雪花型架构 无论哪种架构,相关都需要无论哪种架构,相关都需要维度表和事实数据表。维度表和事实数据表。具体架构见课本具体架构见课本p240,图,图17-4和图和图17-517.4 17.4 联机分析处理联机分析处理 OLAPOLAPOLAP与与OLTP的区别:的区别:p24117.4.1 OLAP的基本概念的基本概念1.度量属性度量属性 是决策者所关心的具有实际意义的数量。如是决策者所关心的具有实际意义的数量。如销售量、库存量等销售量、库存量等2.维度维度 是人们观察数据的角度是人们观察数据的角度3.维的层次维的层次 人们观察数据的角度还可以存在细节程度不人们观察数据的角度还可以存在细节程度不同的多个描述方面,我们称这个描述方面为维同的多个描述方面,我们称这个描述方面为维的层次。如时间维可以从日期、季度、年、月的层次。如时间维可以从日期、季度、年、月份等不同层次来描述。份等不同层次来描述。4.维度成员维度成员 维度的一个取值称为该维的一个成员。如某年维度的一个取值称为该维的一个成员。如某年某月某日。某月某日。5.多维数组多维数组6.数据单元(单元格)数据单元(单元格)17.4.2 OLAP基本的分析功能基本的分析功能1.上卷(上卷(roll-up)2.下钻(下钻(drill-down)3.切片(切片(slice)4.切块(切块(dlice)5.转轴转轴17.5.1 数据挖掘数据挖掘 DM 如何从大量的数据中及时有效地提取有用的信如何从大量的数据中及时有效地提取有用的信息?息?一系列方法:数据库知识发现和数据库挖掘技一系列方法:数据库知识发现和数据库挖掘技术术DM方法:方法:关联规则挖掘:如尿布与啤酒关联规则挖掘:如尿布与啤酒特征描述挖掘:如根据消费超过特征描述挖掘:如根据消费超过1000美元顾美元顾客信息,特征描述轮廓,如客信息,特征描述轮廓,如40-50岁之间,已岁之间,已婚,有工作。婚,有工作。分类分析:决策树分类分析:决策树聚类分析聚类分析