数据仓库的基本原理37436.pptx
《数据仓库的基本原理37436.pptx》由会员分享,可在线阅读,更多相关《数据仓库的基本原理37436.pptx(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库和决策支持系统数据仓库和决策支持系统数据仓库和决策支持系统数据仓库和决策支持系统主讲:鲁明羽主讲:鲁明羽大连海事大学计算机科学与技术学院大连海事大学计算机科学与技术学院研究方向:智能数据分析与数据挖掘研究方向:智能数据分析与数据挖掘电电 话:话:13889576531Email:第第4 4章章 数据仓库的基本原理数据仓库的基本原理本章目标本章目标随着信息技术的不断推广和应用,许多企业都随着信息技术的不断推广和应用,许多企业都已在使用已在使用MISMIS系统处理管理事务和日常业务,积系统处理管理事务和日常业务,积累了大量信息累了大量信息企业管理者开始考虑如何利用这些海量信息为企业管理者开
2、始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。量数据中获取特殊知识的深层需求。这种需求加上计算机软硬件能力的飞速发展,这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现。导致了数据仓库和数据挖掘技术的出现。本章目标本章目标本章目标是:本章目标是:1)了解数据仓库的定义和特点了解数据仓库的定义和特点了解数据仓库的定义和特点了解数据仓库的定义和特点2)了解了解了解了解数据仓库的数据组织方式数据仓库的数据
3、组织方式数据仓库的数据组织方式数据仓库的数据组织方式3)3)理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构4)4)了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集目目 录录1 1 1 1 数据仓库的起源数据仓库的起源数据仓库的起源数据仓库的起源2 2 2 2 数据仓库的定义和特点数据仓库的定义和特点数据仓库的定义和特点数据仓库的定义和特点3 3 3 3 与数据仓库相关的几个概念与数据仓库相关的几个概念与数据仓库相关的几
4、个概念与数据仓库相关的几个概念4 4 4 4 数据仓库的数据组织数据仓库的数据组织数据仓库的数据组织数据仓库的数据组织5 5 5 5 数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构6 6 6 6 数据仓库的层次结构数据仓库的层次结构数据仓库的层次结构数据仓库的层次结构7 7 7 7 数据仓库管理员数据仓库管理员数据仓库管理员数据仓库管理员8 8 8 8 数据仓库常用工具集数据仓库常用工具集数据仓库常用工具集数据仓库常用工具集练练练练 习习习习1.1.数据仓库的起源数据仓库的起源 1.1 1.1 数据库技术的发展数据库技术的发展60606060年代早期:利用文件系统,生
5、成各种报告年代早期:利用文件系统,生成各种报告年代早期:利用文件系统,生成各种报告年代早期:利用文件系统,生成各种报告60606060年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题70707070年代早期:年代早期:年代早期:年代早期:E.F.CoddE.F.CoddE.F.CoddE.F.Codd提出关系数据模型和提出关系数据模型和提出关系数据模型和提出关系数据模型和E-RE-
6、RE-RE-R数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟70707070年代中期:高性能的年代中期:高性能的年代中期:高性能的年代中期:高性能的OLTPOLTPOLTPOLTP应用越来越广泛应用越来越广泛应用越来越广泛应用越来越广泛1.1.数据仓库的起源数据仓库的起源 1.1 1.1 数据库技术的发展数据库技术的发展80808080年代早期:年代早期:年代早期:年代早期:OLTPOLTPOLTPOLTP,MIS/DSSMIS/DSSMIS/DSSMIS/DSS,以,以,以,以IBMIBMIBMIBM的的的的“
7、Information Warehouse”“Information Warehouse”“Information Warehouse”“Information Warehouse”为代表,提出了数为代表,提出了数为代表,提出了数为代表,提出了数据仓库的思想据仓库的思想据仓库的思想据仓库的思想80808080年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意据仓库思想没有引起太多注意据仓库思想没有引起太多注意据仓库思想没有引起太多注意90909090年代:以年代:以年
8、代:以年代:以W.H.InmonW.H.InmonW.H.InmonW.H.Inmon为代表,数据仓库为代表,数据仓库为代表,数据仓库为代表,数据仓库(Data (Data (Data (Data Warehouse)Warehouse)Warehouse)Warehouse)迅速兴起迅速兴起迅速兴起迅速兴起=OLAP=OLAP=OLAP=OLAP,DMDMDMDM,OLAMOLAMOLAMOLAM1.1.数据仓库的起源数据仓库的起源 1.2 1.2 从传统数据库到数据仓库从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机
9、处理每天所发生的事务数满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而各种数据转变为具有商业价值信息的技术,而传统的数据库系统无法承担这一责任,主要表传统的数据库系统无法承担这一责任,主要表现在决策处理中的现在决策处理中的系统响应问题、决策数据需系统响应问题、决策数据需系统响应问题、决策数据需系统响应问题、决策数据需求问题求问题求问题求问题和和和和决策数据操作问题决策数据操作问题决策数据操作问题决策数据操
10、作问题,等等。,等等。对对比内容比内容数据数据库库数据数据仓库仓库数据内容数据内容当前当前值值历历史的、存档的、史的、存档的、归纳归纳的、的、计计算的数据算的数据数据目数据目标标面向面向业务业务操作程序操作程序,重重复复处处理理面向主面向主题题域、管理决策分析域、管理决策分析应应用用数据特性数据特性动态变动态变化化,按字段更新按字段更新静静态态,不能直接不能直接修改修改、只定、只定时时添加添加数据数据结结构构高度高度结结构化构化,复复杂杂,适适合操作合操作计计算算简单简单,适合分析适合分析使用使用频频率率高高中到低中到低数据数据访问访问量量每个事每个事务务只只访问访问少量少量记记录录有的事有的
11、事务务可能要可能要访问访问大量大量记录记录对对响响应时间应时间的的要求要求以秒以秒为单为单位位计计量量以秒、分以秒、分钟钟、甚至小、甚至小时为计时为计量量单单位位数据仓库与传统数据库的对比数据仓库与传统数据库的对比Prism SolutionsPrism SolutionsPrism SolutionsPrism Solutions公司创始人之一的公司创始人之一的公司创始人之一的公司创始人之一的W.H.InmonW.H.InmonW.H.InmonW.H.Inmon在在在在Building the Data WarehouseBuilding the Data WarehouseBuildin
12、g the Data WarehouseBuilding the Data Warehouse一书中对一书中对一书中对一书中对“数据仓库数据仓库数据仓库数据仓库(DW)”(DW)”(DW)”(DW)”定义如下:定义如下:定义如下:定义如下:数据仓库是一个面向主题的、集成的、数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用随时间变化的、非易失性的数据集合,用于支持管理决策过程。于支持管理决策过程。2.数据仓库的定义和特点数据仓库的定义和特点 这个定义本身就说明了数据仓库中数据的组这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么。织方式以及建立数据仓库
13、的目的是什么。数据仓库特点:数据仓库特点:面向主题性面向主题性 数据集成性数据集成性 数据的时变性数据的时变性 数据的非易失性数据的非易失性 数据的集合性数据的集合性 支持决策作用支持决策作用 2.数据仓库的定义和特点数据仓库的定义和特点 其中前4项是其主要特点。数据仓库中的数据是面向主题的数据仓库中的数据是面向主题的.主题是数据归类的标准,每个主题是数据归类的标准,每个主题主题对应对应一个客一个客观分析观分析领域领域,如客户和商店等,因此,数据仓库中,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。的数据是按主题要求而组织的。业务应用业务应用 主题领域主题领域2.数据仓库的定义和
14、特点数据仓库的定义和特点 例如,对一个保险公司来说,它的业务应用例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险系统可能有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。是客户、保单、保费及索赔等。一个数据仓库可以包含若干个主题,而每个一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主进一步分解为更细的子主题,形成逐层分解的主题层次结构。题层次结构。2.数
15、据仓库的定义和特点数据仓库的定义和特点 2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是集成的数据仓库中的数据是集成的.为了实现辅助决策的目标和要求,数据仓库需要集成为了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的文件系统等,而且同一种数据模型集合体中又有不同的DBMSDBMS。因此,数据集成是一个复杂问题。因此,数据集成是一个复杂问题。不同数
16、据源中的数据并不是全部转移到数据仓库中,不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方法而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据转换为数据仓库中的集成数据-需要需要ETLETL模块模块支持。支持。此外,数据源中可能存在数据重复、不一致和各种此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行错误,因此,需要进行数据清洗数据清洗。2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是集成的数据仓库中的数据是集成的.不同的应用在编码、命名、属性的度量等方面都有不同的应用在编码、命名、属性的度量等方
17、面都有很大的差别,数据集成就是要解决这些问题。很大的差别,数据集成就是要解决这些问题。举例举例1 1:编码编码APP AAPP A:M M,F FM M,F FAPP BAPP B:1 1,0 0APP CAPP C:X X,Y YAPP DAPP D:MALEMALE,FEMALEFEMALE2.数据仓库的定义和特点数据仓库的定义和特点 举例举例2 2:命名命名APP AAPP A:IDIDUser_IDUser_IDAPP BAPP B:IdentityIdentityAPP CAPP C:User_IDUser_IDAPP DAPP D:Custom_IDCustom_ID 举例举例3
18、3:属性属性度量度量APP AAPP A:CMCMCMCMAPP BAPP B:INCHESINCHESAPP CAPP C:M MAPP DAPP D:DMDM2.数据仓库的定义和特点数据仓库的定义和特点 举例举例4 4:关键字冲突关键字冲突APP AAPP AKEY CHARKEY CHAR(1010)APP BAPP BKEY DEC FIXEDKEY DEC FIXED(9 9,2 2)APP CAPP CKEY PIC 999999KEY PIC 999999APP DAPP DKEY CHARKEY CHAR(1212)KEY CHAR KEY CHAR(1212)举例举例5 5:
19、多源多源APP AAPP A:DESCRIPTION1DESCRIPTION1APP BAPP B:DESCRIPTION2DESCRIPTION2?DESCRIPTION DESCRIPTIONAPP CAPP C:DESCRIPTION3 DESCRIPTION3 2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是稳定的数据仓库中的数据是稳定的.数据仓库包含大量的历史数据,经集成进入数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策分析(查询类操作),数据仓库后主要用于决策分析(查询类操作),而极少更新。可以将其理解为只读的。而极少更新。可以将其理解为只读的。业务应
20、用业务应用 数据仓库数据仓库插入插入更新更新删除删除插入插入访问访问查询查询加载加载 以记录为单位的数据操作以记录为单位的数据操作大量的数据加载和数据访问大量的数据加载和数据访问2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是随时间变化的数据仓库中的数据是随时间变化的.主要体现在主要体现在数据的时限、数据的内容、数据数据的时限、数据的内容、数据的码健的码健。业务应用业务应用 数据仓库数据仓库数据时限:数据时限:1 1个月至个月至1 1年年 数据时限:数据时限:5 5到到1010年年数据内容:记录更新数据内容:记录更新 数据内容:复杂的数据快照数据内容:复杂的数据快照关键字结构:
21、可能包含时间元素关键字结构:可能包含时间元素 关键字结构:包含时间标记关键字结构:包含时间标记2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库是为管理决策提供服务的数据仓库是为管理决策提供服务的.数据仓库主要应用在两个方面:数据仓库主要应用在两个方面:使用浏览分析工具在数据仓库中寻找有用的信息;使用浏览分析工具在数据仓库中寻找有用的信息;基于数据仓库,在基于数据仓库,在数据仓库系统数据仓库系统上建立应用,形成上建立应用,形成决策支持系统决策支持系统。事务处理事务处理 分析处理分析处理从数据从数据数据数据从数据从数据 信息(知识)信息(知识)OLTP OLTP OLAP OLAP(DMDM
22、、OLAMOLAM)DBDBDWDW3.与数据仓库相关的几个概念与数据仓库相关的几个概念OLTPOLTP:联机事务处理,完成对数据的增、:联机事务处理,完成对数据的增、删、改等操作删、改等操作OLAPOLAP:联机分析处理,完成对数据的向上:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又综合、向下细化、旋转、切片和分割(又称局部分析)等操作。称局部分析)等操作。OLAPOLAP以多维分析为以多维分析为基础,刻画了管理和决策过程中对数据进基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为行多层面、多角度的分析处理。又分为MOLAPMOLAP、ROLAPRO
23、LAP3.与数据仓库相关的几个概念与数据仓库相关的几个概念DMDM:数据挖掘,从大量数据中发现数据模式:数据挖掘,从大量数据中发现数据模式,预测趋势和行为,致力于知识的自动发现预测趋势和行为,致力于知识的自动发现OLAMOLAM:联机分析挖掘,将:联机分析挖掘,将OLAPOLAP与与DMDM技术结合起技术结合起来的一种技术来的一种技术DSSDSS:决策支持系统,利用:决策支持系统,利用OLAPOLAP、DMDM、OLAMOLAM等等技术为企业或政府的管理决策提供服务的系统技术为企业或政府的管理决策提供服务的系统4.数据仓库的数据组织数据仓库的数据组织 数据仓库中的数据依据下面数据仓库中的数据依
24、据下面4 4个原则进行组织:个原则进行组织:1)1)面向主题面向主题2)2)采用关系表结构形式的数据模式采用关系表结构形式的数据模式3)3)在数据源和数据仓库之间建立转换规则在数据源和数据仓库之间建立转换规则4)4)数据按粒度分为若干个层次数据按粒度分为若干个层次4.数据仓库的数据组织数据仓库的数据组织1 1)面向主题组织数据)面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题,然后构建数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。才能以主题为单位,组织满足主题目标与需求的数据。一个数据仓库一般有若干个主题,而每个主题又有一个一个数据仓库一
25、般有若干个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(数据集合体作为支撑,称为主题域(subject fieldsubject field),因此,),因此,一个数据仓库可以按主题划分为若干个主题域。一个数据仓库可以按主题划分为若干个主题域。主题域应具有:主题域应具有:独立性:主题域有明确的边界和独立内涵,可以有交叉,独立性:主题域有明确的边界和独立内涵,可以有交叉,但不影响其独立性。但不影响其独立性。完备性:每个主题的分析要求所需要的数据均能在其主完备性:每个主题的分析要求所需要的数据均能在其主题域中获得。题域中获得。4.数据仓库的数据组织数据仓库的数据组织2 2)按关系模式组织
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 基本原理 37436
限制150内