欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    研究生第六章数据仓库与数据挖掘的决策支持42429.pptx

    • 资源ID:91055439       资源大小:636.39KB        全文页数:100页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    研究生第六章数据仓库与数据挖掘的决策支持42429.pptx

    第第6 6章章 数据仓库与数据挖掘数据仓库与数据挖掘 的决策支持的决策支持6.1 数据仓库的基本原理数据仓库的基本原理n6.1.1 数据仓库概念数据仓库概念n6.1.2 数据仓库结构数据仓库结构n6.1.3 数据集市数据集市n6.1.4 元数据元数据6.1.1 6.1.1 数据仓库的概念数据仓库的概念 (1 1)W.H.InmonW.H.Inmon在在建立数据仓库建立数据仓库一书中,对数据仓库的定义为:一书中,对数据仓库的定义为:数据仓库是面向数据仓库是面向主题的主题的、集成的集成的、稳定的稳定的,不同时间不同时间的数据集合,用于支的数据集合,用于支持经营管理中持经营管理中决策制定决策制定过程。过程。1、数据仓库的概念、数据仓库的概念(2 2)SASSAS软件研究所定义:软件研究所定义:数数据据仓仓库库是是一一种种管管理理技技术术,旨旨在在通通过过通通畅畅、合合理理、全全面面的的信信息息管管理理,达达到到有有效的决策支持。效的决策支持。1、数据仓库的概念、数据仓库的概念 传传统统数数据据库库用用于于事事务务处处理理,也也叫叫操操作作型型处处理理,是是指指对对数数据据库库联联机机进进行行日日常常操操作作,即即对对一一个个或或一一组组记记录录的的查查询询和和修修改改,主主要要为为企企业业特特定定的的应应用用服服务务的的。用用户户关心的是响应时间,数据的安全性和完整性。关心的是响应时间,数据的安全性和完整性。数数据据仓仓库库用用于于决决策策支支持持,也也称称分分析析型型处处理理,用用于于决策分析,它是建立决策支持系统(决策分析,它是建立决策支持系统(DSSDSS)的基础。)的基础。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:2、数据仓库特点、数据仓库特点(1 1 1 1)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的 主题是数据主题是数据归类归类的标准,每一个主题基本对应一的标准,每一个主题基本对应一个宏观的分析领域。个宏观的分析领域。例如,银行的数据仓库的主题:客户例如,银行的数据仓库的主题:客户 DW DW的客户数据来源:的客户数据来源:从从银行储蓄银行储蓄DBDB、信用卡、信用卡DBDB、贷款、贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。在在D DW W中分析客户数据,可决定是否继续给予贷款中分析客户数据,可决定是否继续给予贷款2、数据仓库特点、数据仓库特点(2 2 2 2)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成数据进入数据仓库之前,必须经过加工与集成n对对对对不同的不同的不同的不同的数据来源进行统一数据结构和编码数据来源进行统一数据结构和编码数据来源进行统一数据结构和编码数据来源进行统一数据结构和编码n统统统统一一一一原原原原始始始始数数数数据据据据中中中中的的的的所所所所有有有有矛矛矛矛盾盾盾盾之之之之处处处处,如如如如字字字字段段段段的的的的同同同同名名名名异异异异义义义义,异异异异名名名名同同同同义义义义,单单单单位位位位不不不不统统统统一一一一,字字字字长长长长不不不不一致等。一致等。一致等。一致等。总总之之,将将原原始始数数据据结结构构做做一一个个从从面面向向应应用用到到面面向向主主题题的大转变。的大转变。2、数据仓库特点、数据仓库特点(3 3 3 3)数据仓库是稳定的)数据仓库是稳定的)数据仓库是稳定的)数据仓库是稳定的 数数据据仓仓库库中中包包括括了了大大量量的的历历史史数数据据。数数据据经经集集成进入数据仓库后是成进入数据仓库后是极少极少或或根本根本不更新的。不更新的。(4 4 4 4)数据仓库是随时间变化的)数据仓库是随时间变化的)数据仓库是随时间变化的)数据仓库是随时间变化的 数数据据仓仓库库内内的的数数据据时时限限在在5 5 1010年年,故故数数据据的的键键码码包包含含时时间间项项,标标明明数数据据的的历历史史时时期期,这这适适合合DSSDSS进行进行时间趋势分析时间趋势分析。数数据据库库只只包包含含当当前前数数据据,即即存存取取某某一一时时间间的的正正确的有效的数据。确的有效的数据。2、数据仓库特点、数据仓库特点 (5)(5)(5)(5)数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大.大大型型DWDW是是一一个个TBTB(1000GB1000GB)级级数数据据库库问问题题(一一般般为为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍)(6)(6)(6)(6)数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高 需需要要一一个个巨巨大大的的硬硬件件平平台台需需要要一一个个并并行行的的数数据据库库系统系统.最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。近近期期基基本本数数据据:是是最最近近时时期期的的业业务务数数据据,是是数数据据仓仓库库用用户户最感兴趣最感兴趣的部分,数据量大。的部分,数据量大。历历史史基基本本数数据据:近近期期基基本本数数据据随随时时间间的的推推移移,由由数数据据仓仓库的库的时间控制机制时间控制机制转为历史基本数据。转为历史基本数据。轻轻度度综综合合数数据据:是是从从近近期期基基本本数数据据中中提提取取出出的的,这这层层数数据据是是按按时时间间段段选选取取,或或者者按按数数据据属属性性(attributesattributes)和和内内容容(contentscontents)进行综合。)进行综合。高度综合数据层:高度综合数据层:这一层的数据是在这一层的数据是在轻度综合数据轻度综合数据基础基础上的再一次综合,是一种准决策数据。上的再一次综合,是一种准决策数据。6.1.2 数据仓库结构数据仓库结构 元元数数据据:整整个个数数据据仓仓库库的的组组织织结结构构由由元元数数据据组组织织,它它不不包包含含数据仓库中的数据仓库中的实际数据信息实际数据信息。作用:作用:(1 1)定位数据仓库的目录内容)定位数据仓库的目录内容 (2 2)数数据据从从业业务务环环境境向向数数据据仓仓库库环环境境传传递递时时数数据据仓仓库库的的目目录内容录内容 (3 3)指指导导从从当当前前基基本本数数据据到到轻轻度度综综合合数数据据到到高高度度综综合合数数据据的综合算法的选择。的综合算法的选择。组成:组成:(1 1)数据结构)数据结构 (2 2)用于综合的算法)用于综合的算法 (3 3)从业务环境到)从业务环境到DWDW规划规划6.1.2 数据仓库结构数据仓库结构数据仓库结构图数据仓库结构图 元元数数据据是是数数据据仓仓库库的的重重要要组组成成部部分分。元元数数据据描描述述了了数数据据仓仓库库的的数数据据和和环环境境,即即关关于于数数据据的的数数据据(meta(meta data)data)。元元数数据据就就相相当当于于数数据据库库系系统统中中的的数数据字典据字典 元数据包括四种元数据元数据包括四种元数据n n关于关于关于关于数据源数据源数据源数据源的元数据的元数据的元数据的元数据n n关于关于关于关于数据模型数据模型数据模型数据模型的元数据的元数据的元数据的元数据n n关于关于关于关于数据仓库映射数据仓库映射数据仓库映射数据仓库映射的元数据的元数据的元数据的元数据n n关于关于关于关于数据仓库使用数据仓库使用数据仓库使用数据仓库使用的元数据的元数据的元数据的元数据6.1.4 元数据元数据 它它是是现现有有的的业业务务系系统统的的数数据据源源的的描描述述信信息息。这这类类元元数数据据是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和和含含义义的的描述描述。具体为:。具体为:(1 1)数数据据源源中中所所有有物物理理数数据据结结构构,包包括括所所有有的的数数据据项项及及数据类型。数据类型。(2 2)所有数据项的业务定义。)所有数据项的业务定义。(3 3)每每个个数数据据项项更更新新的的频频率率,以以及及由由谁谁或或哪哪个个过过程程更更新新的说明。的说明。(4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于、关于数据源数据源的元数据的元数据这这类类元元数数据据描描述述了了数数据据仓仓库库中中有有什什么么数数据据以以及及数数据据之之间间的的关关系系,它它们们是是用用户户使使用用管管理理数数据据仓仓库库的的基基础础。这这类类元元数数据据可可以以支支持持用用户户从从数数据据仓仓库库中中获获取取数据。数据。数据仓库的数据模型是星型模型。数据仓库的数据模型是星型模型。通通常常企企业业数数据据模模型型被被用用作作建建立立仓仓库库数数据据模模型型的的起始点起始点,再对模型加以修改和变换。,再对模型加以修改和变换。2 2、关于、关于数据模型数据模型的元数据的元数据这这类类元元数数据据是是数数据据源源与与数数据据仓仓库库数数据据间间的的映射。映射。当当数数据据源源中中的的一一个个数数据据项项与与数数据据仓仓库库建建立立了了映映射射关关系系,就就应应该该记记下下这这些些数数据据项项发发生生的的任任何何变变换换或或变变动动。即即用用元元数数据据反反映映数数据据仓仓库库中中的的数数据据项项是是从从哪哪个个特特定定的的数据源填充的,经过那些转换、变换和加载过程数据源填充的,经过那些转换、变换和加载过程3 3、关于、关于数据仓库映射数据仓库映射的元数据的元数据3、关于、关于数据仓库映射数据仓库映射的元数据的元数据n一个抽取要经过以下几个步聚一个抽取要经过以下几个步聚n获取获取n过滤过滤n验证验证n融合融合n综合综合n装载装载n存档存档 从源系统的数据到数据仓库中的从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作,目标数据的转移是一项复杂的工作,其工作量占整个数据仓库开发的其工作量占整个数据仓库开发的70%这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据:(1 1)元元数数据据告告诉诉数数据据仓仓库库中中有有什什么么数数据据,它它们们从从哪哪里里来来。即即如何按主题查看数据仓库的内容如何按主题查看数据仓库的内容。(2 2)元元数数据据提提供供已已有有的的可可重重复复利利用用的的查查询询语语言言信信息息。如如果果某某个个查查询询能能够够满满足足他他们们的的需需求求,或或者者与与他他们们的的愿愿望望相相似似,他们就可以再次使用那些查询而不必从头开始编程。他们就可以再次使用那些查询而不必从头开始编程。关关于于数数据据仓仓库库使使用用的的元元数数据据能能帮帮助助用用户户到到数数据据仓仓库库查查询询所需要的信息,用于解决企业问题。所需要的信息,用于解决企业问题。4、关于、关于数据仓库使用数据仓库使用的元数据的元数据1.1.数据集市的产生数据集市的产生n数数据据仓仓库库工工作作范范围围和和成成本本常常常常是是巨巨大大的的。开开发发数数据据库库是是代代价价很很高高、时时间间较较长长的的大大项项目目。提提供供更紧密集成的数据集市就应运产生。更紧密集成的数据集市就应运产生。n目目前前,全全世世界界对对数数据据仓仓库库总总投投资资的的一一半半以以上上均均集中在数据集市上。集中在数据集市上。6.1.3 数据集市(数据集市(Data Mart)n数据集市(数据集市(Data MartsData Marts)是一种)是一种更小更小、更集中更集中的的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。n数据集市是指具有数据集市是指具有特定应用特定应用的数据仓库,主要针的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案得竞争优势或者找到进入新市场的具体解决方案2.数据集市概念数据集市概念3.数据集市与数据仓库的数据集市与数据仓库的关系关系n数据集市不等于数据仓库,多个数据集市简单合数据集市不等于数据仓库,多个数据集市简单合并起来不能成为数据仓库。并起来不能成为数据仓库。n各数据集市之间对详细数据和历史数据的存储各数据集市之间对详细数据和历史数据的存储存在大存在大量冗余量冗余。n同一个问题在不同的数据集市的查询结果同一个问题在不同的数据集市的查询结果可能不一致,可能不一致,甚至互相矛盾。甚至互相矛盾。n各数据集市之间以及与源数据库系统之间各数据集市之间以及与源数据库系统之间难以管理难以管理。1 1、规模小、规模小2 2、特定的应用、特定的应用3 3、面向部门、面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现、快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收、投资快速回收9 9、工具集的紧密集成、工具集的紧密集成1010、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1111、可升级到完整的数据仓库、可升级到完整的数据仓库4.数据集市的特性数据集市的特性5.两种数据集市结构两种数据集市结构从属数据集市从属数据集市从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)从属:从属:数据直接来自数据直接来自数据直接来自数据直接来自中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持数据的一致性。数据的一致性。数据的一致性。数据的一致性。关键业务部门建立关键业务部门建立关键业务部门建立关键业务部门建立从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。5.两种数据集市结构两种数据集市结构独立数据集市独立数据集市(Independent Data Mart)独立:独立:数据直接来自各数据直接来自各数据直接来自各数据直接来自各生产系统。生产系统。生产系统。生产系统。从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解决各个部门比较迫切的决各个部门比较迫切的决各个部门比较迫切的决各个部门比较迫切的决策问题。决策问题。决策问题。决策问题。6.数据集市与数据仓库的数据集市与数据仓库的差别差别n数据仓库是基于数据仓库是基于整个企业整个企业的数据模型建立的,它面向企业的数据模型建立的,它面向企业范围的主题;范围的主题;n数据集市是按照数据集市是按照某一特定部门某一特定部门的数据模型建立的,由于每的数据模型建立的,由于每个部门有自己特定的需求,因此,对他们对数据集市的期个部门有自己特定的需求,因此,对他们对数据集市的期望也不一样,也称作部门级数据仓库望也不一样,也称作部门级数据仓库n部门的主题与企业的主题之间可能存在关联,也可能不存部门的主题与企业的主题之间可能存在关联,也可能不存在关联。在关联。n数据集市的数据组织一般采用星形模型,大型数据仓库的数据集市的数据组织一般采用星形模型,大型数据仓库的数据组织采用第三范式。数据组织采用第三范式。6.2数据仓库系统 6.2.1数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、仓库管理和分析工具三部分组成)、仓库管理和分析工具三部分组成1、数据仓库管理系统、数据仓库管理系统(1 1)定义部分)定义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括:n n设计和定义数据仓库的数据库设计和定义数据仓库的数据库设计和定义数据仓库的数据库设计和定义数据仓库的数据库n n定义数据来源定义数据来源定义数据来源定义数据来源n n确确确确定定定定从从从从源源源源数数数数据据据据向向向向数数数数据据据据仓仓仓仓库库库库复复复复制制制制数数数数据据据据时时时时的的的的清清清清理理理理和和和和增增增增强规则强规则强规则强规则(2 2)数据获取部分)数据获取部分 该该部部件件把把数数据据从从源源数数据据中中提提取取出出来来,依依定定义义部部件件的的规则,抽取、转化和装载数据进入数据仓库。规则,抽取、转化和装载数据进入数据仓库。(3 3)管理部分)管理部分 它用于管理数据仓库的工作,包括:它用于管理数据仓库的工作,包括:n对数据仓库中数据的维护对数据仓库中数据的维护n把仓库数据送出给分散的仓库服务器或把仓库数据送出给分散的仓库服务器或DSSDSS用户用户n对对仓仓库库数数据据的的安安全全、归归档档、备备份份、恢恢复复等等处处理理工作工作1、数据仓库管理系统、数据仓库管理系统(4 4)信息目录部件(元数据)信息目录部件(元数据)数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成:技技术术目目录录:由由定定义义部部件件生生成成,关关于于数数据据源源、目目标标、清清理理规规则、变换规则以及数据源和仓库之间的映象信息。则、变换规则以及数据源和仓库之间的映象信息。业业务务目目录录:由由仓仓库库管管理理员员生生成成,关关于于仓仓库库数数据据的的来来源源及及当当前值;预定义的查询和报表细节;合法性要求等。前值;预定义的查询和报表细节;合法性要求等。信息引导器:信息引导器:使用户容易访问仓库数据。利用固定查询或使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。建立新的查询,生成暂时的或永久的仓库数据集合的能力等。(5 5)DBMSDBMS部分部分 DWDW的存储形式仍为关系型数据库。的存储形式仍为关系型数据库。1、数据仓库管理系统、数据仓库管理系统 分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具)查询工具 数数据据仓仓库库的的查查询询不不是是指指对对记记录录级级数数据据的的查查询,而是指对分析要求的查询。询,而是指对分析要求的查询。一般包含:一般包含:可可视视化化工工具具:以以图图形形化化方方式式展展示示数数据据,可可以帮助了解数据的结构、关系以及动态性。以帮助了解数据的结构、关系以及动态性。2、数据仓库、数据仓库工具集工具集 多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。2、数据仓库工具集、数据仓库工具集(2 2)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。2、数据仓库工具集、数据仓库工具集3、数据仓库的、数据仓库的运行结构运行结构 数据仓库应用是一个典型的客户数据仓库应用是一个典型的客户/服务器(服务器(C/SC/S)结构形式)结构形式 数数据据仓仓库库采采用用服服务务器器结结构构,客客户户端端所所做做的的工工作作有有:客客户户交交互、格式化查询、结果显示、报表生成等。互、格式化查询、结果显示、报表生成等。服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等。类综合功能等。现现在在,越越来来越越普普通通的的一一种种形形式式是是三三层层C/SC/S结结构构形形式式,即即在在客客户户与与数数据据仓仓库库服服务务器器之之间间增增加加一一个个多多维维数数据据分分析析(OLAPOLAP)服务器。服务器。OLAPOLAP服务器将服务器将加强加强和和规范化规范化决策支持的服务工决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,分工作,降低了系统数据传输量降低了系统数据传输量。这种结构形式工作效率更高。这种结构形式工作效率更高。三层三层C/S结构结构6.2.2 数据仓库的存储数据仓库的存储n数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。n维就是相同类数据的集合,商店、时间和产品都是维维就是相同类数据的集合,商店、时间和产品都是维n n各个商店的集合是一各个商店的集合是一各个商店的集合是一各个商店的集合是一维维,时间时间的集合是一的集合是一的集合是一的集合是一维维,商品,商品,商品,商品的集合是一的集合是一的集合是一的集合是一维维。每一个商店、每一段。每一个商店、每一段。每一个商店、每一段。每一个商店、每一段时间时间、每一种、每一种、每一种、每一种商品就是某一商品就是某一商品就是某一商品就是某一维维的一个成的一个成的一个成的一个成员员。n n每一个每一个每一个每一个销销售事售事售事售事实实由一个特定的商品、一个特定的由一个特定的商品、一个特定的由一个特定的商品、一个特定的由一个特定的商品、一个特定的时时间间、一个特定的商品、一个特定的商品、一个特定的商品、一个特定的商品组组成。成。成。成。n两维表,如通常的电子表格。三维构成立方体,若再两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出增加一维,则图形很难想象,也不容易在屏幕上画出来。来。n数数据据仓仓库库是是以以多多维维表表型型的的“维维表表事事实实表表”结结构构形式组织的,共有三种形式:形式组织的,共有三种形式:n1 1、星型模型、星型模型n大大多多数数的的数数据据仓仓库库都都采采用用“星星型型模模型型”。星星型型模模型型是是由由“事事实实表表”(大大表表)以及多个以及多个“维表维表”(小表)所组成。(小表)所组成。n n“事事事事实实表表表表”中存放大量关于企中存放大量关于企中存放大量关于企中存放大量关于企业业的事的事的事的事实实数据(数量数据)。数据(数量数据)。数据(数量数据)。数据(数量数据)。例如:多个例如:多个例如:多个例如:多个时时期的数据可能会出期的数据可能会出期的数据可能会出期的数据可能会出现现在同一个在同一个在同一个在同一个“事事事事实实表表表表”中。中。中。中。n n“维维表表表表”中中中中存存存存放放放放描描描描述述述述性性性性数数数数据据据据,维维表表表表是是是是围围绕绕事事事事实实表表表表建建建建立立立立的的的的较较小小小小的的的的表表表表6.2.2 数据仓库的存储数据仓库的存储n2、雪花模型、雪花模型n雪花模型是对星型模型的扩展,雪花模型对星型模型的维雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,表进一步层次化,原来的各维表可能被扩展为小的事实表原来的各维表可能被扩展为小的事实表,形成一些局部的形成一些局部的“层次层次”区域。区域。n它的优点是最大限度地它的优点是最大限度地减少减少数据存储量,以及把数据存储量,以及把较小较小的维的维表联合在一起来改善查询性能。表联合在一起来改善查询性能。n在上面星型模型的数据中在上面星型模型的数据中,对,对“产品表产品表”“日期表日期表”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。6.2.2 数据仓库的存储数据仓库的存储n3、星网模型、星网模型n星网模型是将多个星型模型连接起来形成网状结构。星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个多个星型模型通过相同的维,如时间维,连接多个事实表。事实表。6.2.2 数据仓库的存储数据仓库的存储第(第(2 2)部分)部分 6.3 6.3 联机分析处理(联机分析处理(OLAPOLAP)6.4 6.4 数据仓库的决策支持数据仓库的决策支持6.3 联机分析处理联机分析处理n联机分析处理(联机分析处理(On Line Analytical Processing,OLAP)的概念最早是由关系数据库之父的概念最早是由关系数据库之父E.F.Codd(科科德德)于于1993年提出的。年提出的。n在数据仓库系统中,联机分析处理是重要的数据分析在数据仓库系统中,联机分析处理是重要的数据分析工具工具。nOLAP的基本思想是从的基本思想是从多方面多方面和和多角度多角度以多维的形式来以多维的形式来观察企业的状态和了解企业的变化。观察企业的状态和了解企业的变化。6.3.1 基本概念nOLAP是在是在OLTP(联机事务处理系统联机事务处理系统)的基础上发展起来的。的基础上发展起来的。nOLTP是以数据库为基础的,面对的是操作人员和低层管理人是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。员,对基本数据的查询和增、删、改等进行处理。nOLAP是以数据仓库为基础的数据分析处理。它有两个特点:是以数据仓库为基础的数据分析处理。它有两个特点:n一是在线性(一是在线性(On Line),由客户机),由客户机/服务器这种体系结构来完成的;服务器这种体系结构来完成的;n二是多维分析,这也是二是多维分析,这也是OLAP的核心所在。的核心所在。总结:联机分析处理是一种用于组织大型商务数据库和支持商务智能的总结:联机分析处理是一种用于组织大型商务数据库和支持商务智能的技术。技术。OLAP 数据库分为一个或多个多维数据集,每个多维数据集都数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。从而更易于创建和使用所需的数据透视表和数据透视图。1、OLAP的定义n联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。n它体现了四个特征:它体现了四个特征:n(1)快速性)快速性:用户对:用户对OLAP的快速反应能力有很高的快速反应能力有很高的要求。的要求。n(2)可分析性)可分析性:OLAP系统应能处理任何逻辑分析系统应能处理任何逻辑分析和统计分析。和统计分析。n(3)多维性)多维性:系统必须提供对数据分析的多维视图:系统必须提供对数据分析的多维视图和分析。和分析。n(4)信息性)信息性:OLAP系统应能及时获得信息,并且系统应能及时获得信息,并且管理大容量的信息。管理大容量的信息。2、OLAP准则准则 n1993年,年,E.F.Codd提出提出OLAP的的12条准则,条准则,其主要的准则有:其主要的准则有:1)多维数据分析;)多维数据分析;2)客户)客户/服务器结构;服务器结构;3)多用户支持;)多用户支持;4)一致的报表性能等。)一致的报表性能等。2、OLAP准则准则 n多维概念视图多维概念视图n企企业业的的数数据据空空间间本本身身就就是是多多维维的的。因因此此OLAP的概念模型也应是多维的。的概念模型也应是多维的。n用用户户可可以以对对多多维维数数据据模模型型进进行行切切片片、切切块块、旋旋转转坐坐标标或或进进行行多多维维的的联联合合(概概括括和和聚聚集集)分析。分析。n 稳定的报表性能稳定的报表性能n报表操作报表操作不应不应随维数增加而削弱,即当数据随维数增加而削弱,即当数据维数和数据的综合层次增加时,维数和数据的综合层次增加时,提供的报表提供的报表能力和响应速度不应该有明显的降低能力和响应速度不应该有明显的降低。2、OLAP准则准则 n 客户客户/服务器体系结构服务器体系结构 nOLAP是建立在客户是建立在客户/服务器体系结构上的。服务器体系结构上的。n要求多维数据库服务器能够被不同的应用和要求多维数据库服务器能够被不同的应用和工具所访问。工具所访问。2、OLAP准则准则 n 多用户支持多用户支持 n当多个用户要在同一分析模式上并行工作,需当多个用户要在同一分析模式上并行工作,需要这些功能的支持。要这些功能的支持。n灵活的报表生成灵活的报表生成 n报表必须报表必须充分反映充分反映数据分析模型的数据分析模型的多维特征多维特征,并可按用户需要的方式来显示它。并可按用户需要的方式来显示它。2、OLAP准则准则 3、OLAP的基本概念的基本概念nOLAP是针对特定问题的联机数据访问和分析。是针对特定问题的联机数据访问和分析。n (1)变量)变量:变量是数据的实际意义,即描述数据:变量是数据的实际意义,即描述数据“是什么是什么”。n (2)维)维:维是人们观察数据的特定角度。如产品维、:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。顾客维、时间维等。n (3)维的层次)维的层次:数据的细节不同程度为维的层次。如:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。日、月、季、年是时间维的层次。n (4)维成员)维成员:维的一个取值称为该维的一个维成员。:维的一个取值称为该维的一个维成员。如如“某年某月某日某年某月某日”是时间维的一个成员。是时间维的一个成员。3、OLAP的基本概念的基本概念n5)多维数组)多维数组:一个多维数组可以表示为:一个多维数组可以表示为:n n(维维1 1,维维2 2,维维n n,变变量)量)量)量)一个一个一个一个5 5维维的的的的结结构,即(构,即(构,即(构,即(产产品,地区,品,地区,品,地区,品,地区,时间时间,销销售渠道,售渠道,售渠道,售渠道,销销售售售售额额)。)。)。)。n(6)数据单元(单元格)数据单元(单元格):n n多多多多维维数数数数组组的取的取的取的取值值称称称称为为数据数据数据数据单单元。元。元。元。如:如:如:如:5 5维维数据数据数据数据单单元(牙膏,上海,元(牙膏,上海,元(牙膏,上海,元(牙膏,上海,19981998年年年年1212月,批月,批月,批月,批发发,销销售售售售额为额为100000100000)。)。)。)。4、OLAP与与OLTP的关系与比较的关系与比较n(1)OLTP(联机事务处理系统联机事务处理系统)nOLTP是低层人员利用计算机网络对数据库中是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成的数据进行查询、增、删、改等操作,以完成事务处理工作。事务处理工作。nOLTP利用数据库快速地处理具体业务。利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。应用要求多个查询并行。4、OLAP与与OLTP的关系与比较的关系与比较n(2)OLAPnOLAP是高层人员对数据仓库进行信息分析处理。是高层人员对数据仓库进行信息分析处理。n n 存取大量的数据存取大量的数据存取大量的数据存取大量的数据 n n 包含聚集的数据包含聚集的数据包含聚集的数据包含聚集的数据 n n 按按按按层层次次次次对对比不同比不同比不同比不同时间时间周期的聚集数据周期的聚集数据周期的聚集数据周期的聚集数据 n n 以不同的方式来表以不同的方式来表以不同的方式来表以不同的方式来表现现数据数据数据数据 n n 要包含数据元素之要包含数据元素之要包含数据元素之要包含数据元素之间间的复的复的复的复杂杂的的的的计计算算算算 n n 能能能能够够快速的响快速的响快速的响快速的响应应用用用用户户的的的的查询查询 4、OLAP与与OLTP的关系与比较的关系与比较(3)OLAP与与OLTP对比(对比表)对比(对比表)OLTPOLAP数据库数据数据库数据数据仓库数据数据仓库数据细节性数据细节性数据综合性数据综合性数据当前数据当前数据历史数据历史数据一次性处理的数据量小一次性处理的数据量小一次处理的数据量大一次处理的数据量大对响应时间要求高对响应时间要求高响应时间合理响应时间合理用户数量大用户数量大用户相对较少用户相对较少面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动 6.3.2 OLAP6.3.2 OLAP的数据组织的数据组织 nMOLAP(MOLAP(多维多维OLAP)OLAP)和和ROLAP(ROLAP(关系关系OLAP)OLAP)是是OLAPOLAP的两的两种具体形式:种具体形式:nROLAPROLAP是基于是基于关系数据库关系数据库存储方式建立的存储方式建立的OLAPOLAP。多维数。多维数据映射成平面型的关系表。采用星型模型。据映射成平面型的关系表。采用星型模型。nMOLAPMOLAP是基于是基于多维数据库多维数据库存储方式建立的存储方式建立的OLAPOLAP;表现为;表现为“超立方超立方”结构,类似于多维数组的结构。结构,类似于多维数组的结构。n n在分析中,需要在分析中,需要在分析中,需要在分析中,需要“旋旋旋旋转转”数据立方体以及数据立方体以及数据立方体以及数据立方体以及“切片切片切片切片”、“切切切切块块”等操作。等操作。等操作。等操作。MOLAPMOLAP和和ROLAPROLAP的对比表的对比表MOLAPMOLAPROLAPROLAP固定维固定维可变维可变维维交叉计算维交叉计算多维视图多维视图行级计算行级计算超大型数据库超大型数据库读读-写应用写应用维数据变化速度快维数据变化速度快数据集市数据集市数据仓库数据仓库例例如如,以以“产产品品、城城市市、时时间间”三三维维数数据据,如如图图 6.3.3 OLAP6.3.3 OLAP的决策支持:的决策支持:OLAP OLAP多维数据分析多维数据分析1 1、基本功能:切片和切块、基本功能:切片和切块 对对三三维维数数据据,通通过过“切切片片”,分分别别从从城城市市和和产产品等不同的角度观察销售情况:品等不同的角度观察销售情况:2 2)钻)钻 取取钻取:例如,钻取:例如,19951995年各部门销售收入表如下:年各部门销售收入表如下:对时间维进行下钻操作,获得新表如下:对时间维进行下钻操作,获得新表如下:钻钻 取(续)取(续)旋转前的数据旋转前的数据旋旋 转转旋转后的数据旋转后的数据旋旋 转(续)转(续)旋转后再切片旋转后再切片 假假设设有有一一个个5 5维维数数据据模模型型,5 5个个维维分分别别为为:商商店店,方案,部门,时间,销售。方案,部门,时间,销售。1 1三维表查询三维表查询 在指定在指定“商店商店=ALL=ALL,方案,方案=现有现有”情况的三维情况的三维表(行为部门,列为时间和销售量)表(行为部门,列为时间和销售量)6.3.46.3.4、OLAPOLAP实例实例 20042005%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三维表指定商店、方案后的三维表 20042005%增增长长率率销销售售利利润润增增长长%销销售售利利润润增增长长%销销售售利利润润增增长长汽汽车车375,09822.4325,40227.2(13.2)21.4维维修修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,54547.55.38.2音音乐乐63,7678.222,07114.2(63.4)7.3 2 2、向下钻取、向下钻取 对汽车部门向下钻取出具体项目的销售情况和对汽车部门向下钻取出具体项目的销售情况和利润增长情况。利润增长情况。1995Sales服装服装381,102家具家具66,005汽汽车车325,402所有其它所有其它306,6773 3、切片表、切片表 切片(切片(SliceSlice)操作是除去一些列或行不显示)操作是除去一些列或行不显示 1995销销售量售量现现有有计计划划差量差量差量差量%服装服装381,102350,00031,1028.9家具家具66,00569,000(2,995)(4.3)汽汽车车325,402300,00025,4028.5所有其它所有其它306,677350,000(44,322)12.74 4、旋转表、旋转表 这这次次旋旋转转操操作作得得到到19951995年年的的交交叉叉表表方方案案为为:现现有有、计划、计划、差量、差量差量、差量%。6.4.2 数据仓库的

    注意事项

    本文(研究生第六章数据仓库与数据挖掘的决策支持42429.pptx)为本站会员(jix****n11)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开