《第二章数据仓库的分析优秀课件.ppt》由会员分享,可在线阅读,更多相关《第二章数据仓库的分析优秀课件.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章数据仓库的分析第1页,本讲稿共46页数据仓库与数据挖掘数据仓库与数据挖掘第一章 数据仓库与数据挖掘概述第二章第二章 数据仓库的分析数据仓库的分析第三章 数据仓库的设计与实施第四章 信息分析的基本技术第五章 数据挖掘过程第六章 数据挖掘基本算法第七章 非结构化数据挖掘第八章 离群数据挖掘第九章 数据挖掘语言与工具的选择第十章 知识管理与知识管理系统第2页,本讲稿共46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构第3页,本讲稿共4
2、6页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.1 数据仓库的需求分析模型第4页,本讲稿共46页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.2 平衡计分卡第5页,本讲稿共46页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.3 数据仓库的平衡计分卡(data warehouse balanced scorecard,DWBSC)第6页,本讲稿共46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构第7
3、页,本讲稿共46页2.2 影响数据仓库成功的因素影响数据仓库成功的因素特征操作(事务处理)需要数据仓库(DSS)需要易变性动态静态通用性当前的历史的时间维暗指“现在”明确的,可见的粒度原始的,详细的详细的和可导出的汇总更新连续的,随机的定期的,计划的任务可重复的不可预期的灵活性低高性能要求高性能通常可接受低性能表2.1 决策支持系统与事务之间在数据库要求上的差异第8页,本讲稿共46页2.2 影响数据仓库成功的因素影响数据仓库成功的因素图2.4 影响数据仓库成功的因素第9页,本讲稿共46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3
4、 数据仓库的生命周期数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构第10页,本讲稿共46页2.3 数据仓库的生命周期数据仓库的生命周期图2.5 数据仓库的生命周期第11页,本讲稿共46页2.3 数据仓库的生命周期数据仓库的生命周期不同与数据库开发的生命周期。1、数据仓库开发是从数据出发的、数据仓库开发是从数据出发的从已有数据出发的数据仓库设计方法称为“数据驱动数据驱动”的的设计方法设计方法。数据仓库的设计是从已有的数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库的主题。“数据驱动”设计方法的中心思想是利用数据模型有效地识别原有的数据库中的数据
5、和数据仓库中主题的数据“共同性”。2、数据仓库使用的需求不能在开发初期明确确定、数据仓库使用的需求不能在开发初期明确确定3、数据仓库的开发是一个不断循环的过程,是启发式的开、数据仓库的开发是一个不断循环的过程,是启发式的开发发第12页,本讲稿共46页2.3 数据仓库的生命周期数据仓库的生命周期因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。第13页,本讲稿共46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构数据
6、仓库的基本体系结构2.5 数据仓库的逻辑结构第14页,本讲稿共46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.6 斯坦福大学WHPS课题组:数据仓库的基本体系结构第15页,本讲稿共46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.7 数据仓库体系结构第16页,本讲稿共46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.8 数据仓库体系结构第17页,本讲稿共46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构数据仓库的
7、逻辑结构第18页,本讲稿共46页2.5 数据仓库的逻辑结构数据仓库的逻辑结构2.5.1 数据仓库中的粒度2.5.2 数据仓库中的数据分割2.5.3 数据仓库中的数据组织2.5.4 数据仓库中的快照2.5.5 数据仓库中的元数据第19页,本讲稿共46页2.5.1 数据仓库中的粒度数据仓库中的粒度所谓粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度就越小,级别也就越低;细化程度越低,粒度就越大,级别也就越高。根据粒度的划分标准可将数据划分为当前细节级、轻度综合级、高度综合级三级或更多粒度。不同粒度级别的数据用于不同类型的分析处理。图2.9 数据粒度结构第20页,本讲稿
8、共46页2.5.1 数据仓库中的粒度数据仓库中的粒度双重粒度级:指轻度综合数据级和真实细节数据级(最低粒度级)。粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。(1)数据粒度的划分(2)确定粒度的级别第21页,本讲稿共46页适当划分粒度的起点,是估算数据仓库中将来使用的数据行数和所需的直接存取存储设备(DASD)。计算数据仓库所占的空间的算法:计算数据仓库所占的空间的算法:第一步,估计数据仓库中需要建立的表数目,估算每个表的大第一步,估计数据仓库中需要建立的表数目,估算每个表的大致行数,通常需要估计行数的上、下限。致行数,通常需要估计行数的上、下限。索引的大小只与表的总行数有关,而不与
9、表数据量有关。所以,粒度的划分是由总的行数而不是总的数据量决定的。接下来,可对每个表估算其一年所需的存储空间。这是设计者接下来,可对每个表估算其一年所需的存储空间。这是设计者所要解决的最大问题。所要解决的最大问题。(1)数据粒度的划分数据粒度的划分第22页,本讲稿共46页(1)数据粒度的划分数据粒度的划分计算每个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。精确计算表的每年实际存储空间往往是很难的,只能给出表的最大估算空间和最小估算空间。为此,需要估算每个表每年需要最多的行数和最少的行数,然后,估算出每行占用空间的最大字节数和最小字节数。接着,计算索引数据所占的空间。每个表的索
10、引存储空间,只要估算出键码的占用字节数与索引的行数,便可计算出来。这样,每个表每年的存储空间就可以用表的存储空间与相应的索引空间之和表示。然后估算其最长的保留年数所需要的存储空间。然后估算其最长的保留年数所需要的存储空间。第23页,本讲稿共46页(1)数据粒度的划分数据粒度的划分在计算出数据仓库所需要占用的存储空间之后,需要根据所需要的存储空间大小确定是否划分粒度?如果需要划分,又应该怎样划分?数据仓库表中数据的总行数和相应的数据粒度划分方法可以参考下表。第24页,本讲稿共46页(1)数据粒度的划分数据粒度的划分一年数据一年数据五年数据五年数据数据量(行数)数据量(行数)粒度划分策略粒度划分策
11、略数据量(行数)数据量(行数)粒度划分策略粒度划分策略10,000,000双重粒度并且仔细设计20,000,000双重粒度并且仔细设计1,000,000双重粒度10,000,000双重粒度100,000仔细设计1,000,000仔细设计10,000不考虑100,000不考虑第25页,本讲稿共46页(2)确定粒度的级别确定粒度的级别在在数数据据仓仓库库中中,需需要要考考虑虑这这样样一一些些因因素素:要要接接受受的的分分析析类类型型、可接受的数据最低粒度、能够存储的数据量。可接受的数据最低粒度、能够存储的数据量。计划在数据仓库中进行的分析类型将直接影响数据仓库的划分。计划在数据仓库中进行的分析类型
12、将直接影响数据仓库的划分。将粒度的层次定义越高,就越不能在该仓库中进行更细致的操作。数据仓库通常在同一模式中使用多重粒度。数据仓库中,可以有今年创建的数据粒度和以前创建的数据粒度。这是以数据仓库中所需的最低粒度级别为基础设置的。定义数据仓库粒度的另外一个要素,是数据仓库可以使用多种定义数据仓库粒度的另外一个要素,是数据仓库可以使用多种存储介质的空间量存储介质的空间量。如果存储资源有一定的限制,就只能采用较高粒度的数据粒度划分策略。这种粒度划分策略必须依据用户对数据需求的了解和信息占用数据仓库空间大小来确定。第26页,本讲稿共46页(2)确定粒度的级别确定粒度的级别粒度的确定实质上是业务决策分析
13、、硬件、软件和数据仓库粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。使用方法的一个折衷。在确定数据仓库粒度时,可以采用多种方法达到既满足用户决策分析的需要,又能减少数据仓库的数据量。如果主题分析的时间范围较小,可以保持最小的数据粒度,但是只保持较少时间的细节数据。还有一种可以大幅降低数据仓库容量的方法,就是只采用概括数据。数据粒度划分策略一定要保证数据的粒度确实能够满足用户数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准的决策分析需要,这是数据粒度划分策略中最重要的一个准则则。第27页,本讲稿共46页2.5.2
14、数据仓库中的数据分割数据仓库中的数据分割数据分割是把数据分散到各自的小物理单元中去,任何给定的数据单元属于且仅属于一个分割,它们能够独立的处理,分割后的小的数据单元具有比大物理单元更大的灵活性,能够实现重构、索引、顺序扫描、重组、恢复和监控等功能。数据分割的常用标准:时间、商业行业、地理位置、组织单位等。第28页,本讲稿共46页2.5.3 数据仓库中的数据组织数据仓库中的数据组织(1)简单堆积结构:从操作型环境中取出每天的事务处理,根据主题来综合成数据仓库记录。特点:存储空间较多、无细节丢失。(2)轮转综合数据存储:只有在轮转综合文件中的数据才能被输入到不同的结构形式中,而从操作型数据到数据仓
15、库环境中的数据处理方法同简单堆积结构相同。特点:非常集中、一些有细节丢失或提取越久的数据越不详细。(3)简单直接文件:把数据从操作型环境拖入到数据仓库环境中,无任何累积,以较长时间为单位。特点:间隔一定时间的操作型数据的一个快照。(4)连续组织:依据两个或更多的简单直接文件快照进行合并创建或追加的。第29页,本讲稿共46页2.5.3 数据仓库中的快照数据仓库中的快照(1)随机发生的离散活动(2)在规定的时间点,快照会触发。组成:键码、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。第30页,本讲稿共46页2.5.3 数据仓库中的元数据数据仓库中的元数据(1)元数据
16、的类型与组成(2)元数据在数据仓库中的作用(3)元数据的收集(4)元数据的存储、管理与维护(5)元数据的用户与使用方法第31页,本讲稿共46页(1)元数据的类型与组成元数据的类型与组成元数据作为数据的数据,可对数据仓库中的各种数据进行详细的描述与说明。说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户可以了解这些数据之间的关系。根据元数据在数据仓库中所承担的任务,可将元数据分成静静态元数据态元数据和动态元数据动态元数据两大类。静态元数据主要与数据结构有关,其中包含名称、描述、格式、数据类型、关系、域和业务规则等类。动态元数据主要与数据的状态与使用方法有关,其中包括数据质量、
17、统计信息、状态和处理等类。第32页,本讲稿共46页(1)元数据的类型与组成元数据的类型与组成静态元数据中的名称名称用于为系统提供识别、区分数据的符号。元数据的描述描述主要对数据仓库中的各种数据元素进行说明。元数据的格式格式用于提供数据仓库中数据的表达规则。元数据中的数数据据类类型型用于说明数据仓库中的数据所持有的类型。元数据的关系关系用于说明数据仓库中各种对象之间的关系。元数据的域域用于说明数据仓库中数据的有效值范围。元数据的业业务务规规则则用于说明数据仓库在业务处理中所要遵守的规则。第33页,本讲稿共46页(1)元数据的类型与组成元数据的类型与组成元数据的数数据据质质量量用于描述数据仓库中数
18、据的精确度、完整性、一致性和有效性。元数据的统统计计信信息息统计数据访问的用户、访问用户的访问时间与访问次数,这些统计信息对于数据仓库性能的提高有较高的参考价值。元数据状状态态用于跟踪数据仓库的运行状况,这些系统运行中的状况有助于数据仓库管理人员对数据仓库性能的了解。元数据的处理处理描述数据仓库系统的使用方法和管理的特性。第34页,本讲稿共46页(2)元数据在数据仓库中的作用元数据在数据仓库中的作用从元数据的类型与作用来看,元数据实际上是要解决何人元数据实际上是要解决何人在何时、何地为了什么原因、怎样使用数据仓库的问题。在何时、何地为了什么原因、怎样使用数据仓库的问题。元数据涉及数据从操作型环
19、境到数据仓库环境中的映射。随着时间的流逝来跟踪数据结构的变化,是元数据另一个常见的使用功能。第35页,本讲稿共46页(3)元数据的收集元数据的收集面对众多的元数据来源,在元数据的收集过程中应该尽量采用自动收集方式进行。数据源的元数据数据源的元数据 数据仓库数据的来源地包含业务处理系统的数据库、可以获得的外部数据和手工处理的数据。由于存储在系统中数据的物理结构是一种比较容易收集的元数据,这些数据的物理结构、含义以及类型可以编制成文档,在在可能的情况下,尽可能使用扫描程序对这些数据的物理结构进可能的情况下,尽可能使用扫描程序对这些数据的物理结构进行扫描分析。行扫描分析。如果数据源有库结构表,那元数
20、据的收集工作就更简单了。如果无法进行自动扫描处理获取元数据,就只能采用手工方式进行处理,好在使用手工获取元数据的数据量一般都比较小,容易分析编写元数据文档。第36页,本讲稿共46页(3)元数据的收集元数据的收集数据模型的元数据数据模型的元数据 从数据模型中可以了解关于组织业务的实体、关系和规则。在设计数据模型以后,必须将其存入元数据库中。在收集企业数据模型和元数据以后,必须要使两者之间一一对应起来,为未来的数据仓库变动影响分析与用户使用数据仓库时的分析奠定必要的基础。在实现这种一一对应的指定联系后,还需要将元数据定义、业务规则、有效值和使用指南都从企业数据模型中移入元数据库。这些元数据有利于用
21、户对数据仓库的访问,且能够对所获取的信息做出合理的解释。第37页,本讲稿共46页(3)元数据的收集元数据的收集数据源与数据仓库映射的元数据数据源与数据仓库映射的元数据 数据源与数据仓库之间的映射关系决定数据仓库的数据在从数据源中抽取、转换、加载到数据仓库过程中发生了哪些变化。将数据源加载到数据仓库之时的操作如果是数据仓库开发人员手工完成的,就必须利用电子表格或数据库方式将这些映射关系进行明确的定义,然后合并到元数据库中。如果数据源到数据仓库的数据抽取、转换、加载是由专门的数据仓库开发工具完成的,也需要将这种映射关系并入元数据库中,且要提供访问这些映射规则的方式与工具。第38页,本讲稿共46页(
22、3)元数据的收集元数据的收集数据仓库应用的元数据数据仓库应用的元数据 收集数据仓库应用的元数据,必须依靠某种系统监控工具截取并且解释每个查询,然后将数据传送到元数据库中进行分析跟踪。还要能够确认新查询操作,将新查询操作及其用于解决决策问题的描述编入查询操作目录,这样可为数据仓库的所有用户提供一种数据仓库应用的蓝本,使一些不熟悉数据仓库应用的用户,可以通过对数据仓库查询操作目录的阅读,了解其他用户在解决决策问题时,是如何使用数据仓库的,对自己的数据仓库应用产生某种启迪。数据仓库的应用元数据收集往往依赖手工数据仓库的应用元数据收集往往依赖手工,尤其是在新查询的应用描述,必须在数据仓库管理人员进行多
23、次确认后,才能编写进元数据库。数据仓库应用的元数据收集虽然花费精力大,但是收益更大。第39页,本讲稿共46页(4)元数据的存储、管理与维护元数据的存储、管理与维护元数据的存储元数据的存储 数据仓库开发阶段产生的元数据要能够得到有效的应用,必须进行适当的组织和存储。元数据组织与存储的方法一般有以下两种:(1)使用商业或数据仓库信息目录)使用商业或数据仓库信息目录信息目录可存储和管理元数据,用于数据仓库应用程序。数据仓库的所有内部程序都可访问该目录。最终用户还可用该目录进行元数据的浏览、导航、数据抽取和查询。(2)使用元数据库)使用元数据库/数据字典数据字典元数据库或数据字典是一种一般意义上的分类
24、方法,通常用于存储、分类和管理元数据。元数据库可用一种“信息模型”的分类方法进行管理,“信息模型”中含有各种类型的元数据及其相互关系。第40页,本讲稿共46页(4)元数据的存储、管理与维护元数据的存储、管理与维护元数据的管理元数据的管理(1)将元数据组织为易于理解的分类方案)将元数据组织为易于理解的分类方案将元数据组织为易于理解的分类方案主要依靠元数据库或数据字典的信息。这种分类方案允许元数据管理人员定义分类。元数据库或数据字典的信息模型应具有可扩充性。(2)效果分析和查找能力)效果分析和查找能力效果分析和查找能力既能检索元数据的信息,也能搞清楚元数据之间的关系。(3)将设计和开发元数据与运作
25、元数据分割成各自独立的功能)将设计和开发元数据与运作元数据分割成各自独立的功能这些功能一般用于分割逻辑分析模型和物理数据库模型,该功能通常称为软件开发生存期分割。(4)反映修改历史的元数据版本信息)反映修改历史的元数据版本信息版本信息能够反映元数据版本变化日期以及修改操作人。第41页,本讲稿共46页(4)元数据的存储、管理与维护元数据的存储、管理与维护元数据的维护元数据的维护 元元数数据据的的维维护护方方式式取取决决于于元元数数据据产产生生之之时时的的收收集集方方式式、变变化频率以及元数据量化频率以及元数据量。反映数据源和数据仓库结构的物理元数据维护可以采用自动维护方式。业务规则和数据模型的元
26、数据维护,则需要依靠手工完成。数据源与数据仓库的映射维护则可自动进行。对数据仓库使用元数据的维护则需要定期进行追加,而不是进行刷新。第42页,本讲稿共46页(5)元数据的用户与使用方法元数据的用户与使用方法元数据的数据仓库开发用户元数据的数据仓库开发用户 数据仓库开发人员使用的元数据主要包括数据源的物理结构、数据仓库开发人员使用的元数据主要包括数据源的物理结构、企业数据模型和数据仓库数据模型。企业数据模型和数据仓库数据模型。在数据仓库开发工作中需要对数据源元数据进行分析,根据分析结果在数据源和数据仓库之间建立映射。首先通过查询名称中包含业务术语的各种数据,利用这些元数据去识别数据仓库的数据源;
27、在确认候选数据源后,利用企业数据模型的元数据去确定是否需要将其映射到数据仓库中。若有需要,可以通过对数据源的物理结构与数据仓库的物理模型进行对比,生成从数据源到数据仓库的映射。数据仓库开发人员所关心的是在数据仓库的开发中是否采用数据仓库开发人员所关心的是在数据仓库的开发中是否采用了准确的、完整的元数据。了准确的、完整的元数据。在对元数据访问过程中,往往希望对元数据库进行直接访问。第43页,本讲稿共46页(5)元数据的用户与使用方法元数据的用户与使用方法元数据的数据仓库维护用户元数据的数据仓库维护用户 维维护护人人员员用用元元数数据据能能够够了了解解数数据据源源的的变变化化,数数据据仓仓库库的的
28、变变化对数据仓库的性能,应用等方面的影响。化对数据仓库的性能,应用等方面的影响。数据仓库维护人员还可利用元数据保持数据仓库的完整性和正确性。数据仓库的维护人员对元数据的使用涉及所有的元数据,并且要求能够直接对元数据进行访问。第44页,本讲稿共46页(5)元数据的用户与使用方法元数据的用户与使用方法元数据的数据仓库用户元数据的数据仓库用户 数据仓库用户在使用元数据时,主主要要希希望望通通过过元元数数据据了了解解数数据据仓仓库库中中有有什什么么数数据据,这这些些数数据据是是从从什什么么地地方方来来的的。具体地说,他们希望了解的是按照某个主题查看数据仓库内容,且希望对所看到的数据就其完整性、业务涵义
29、、有效值范围和使用规则进行说明。数据仓库用户使用元数据的第二个主要方面,是希希望望利利用用已经存在的查询信息。已经存在的查询信息。数据仓库用户在使用元数据时,应该能够以一种易于理解与访问的方式进行。为此,可以为数据仓库的用户提供一本完整的元数据使用手册,以方便用户的使用。第45页,本讲稿共46页(5)元数据的用户与使用方法元数据的用户与使用方法元数据的使用方法元数据的使用方法 元元数数据据与与分分析析数数据据同同时时各各自自显显示示:是指一台计算机上分别用两种工具显示元数据和分析数据。这样,用户可以通过在一个工具中浏览元数据,在另一个工具中编写查询分析数据的程序,或利用元数据帮助理解查询工具中所显示的分析数据。元元数数据据作作为为分分析析数数据据帮帮助助:用户在元数据作为分析数据帮助这种元数据使用方式下,可以利用系统的帮助理解所查询的分析数据。元元数数据据的的直直接接查查询询:元数据的直接查询工具可以直接地、动态地访问元数据,能为用户提供最新的帮助系统。元数据与分析数据的联动:元数据与分析数据的联动:元数据与分析数据实现互动以后,用户在元数据浏览器中浏览元数据时,可以将所选定的表或查询工具自动地调入查询工具。反之,用户在查询工具中进行查询分析时,可在元数据工具中查看相应的元数据解释。第46页,本讲稿共46页
限制150内