第二章数据仓库的分析优秀PPT.ppt
《第二章数据仓库的分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二章数据仓库的分析优秀PPT.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章数据仓库的分析第一页,本课件共有46页数据仓库与数据挖掘数据仓库与数据挖掘第一章 数据仓库与数据挖掘概述第二章第二章 数据仓库的分析数据仓库的分析第三章 数据仓库的设计与实施第四章 信息分析的基本技术第五章 数据挖掘过程第六章 数据挖掘基本算法第七章 非结构化数据挖掘第八章 离群数据挖掘第九章 数据挖掘语言与工具的选择第十章 知识管理与知识管理系统第二页,本课件共有46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构第三页,本课件
2、共有46页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.1 数据仓库的需求分析模型第四页,本课件共有46页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.2 平衡计分卡第五页,本课件共有46页2.1 数据仓库的需求分析模型数据仓库的需求分析模型图2.3 数据仓库的平衡计分卡(data warehouse balanced scorecard,DWBSC)第六页,本课件共有46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的
3、逻辑结构第七页,本课件共有46页2.2 影响数据仓库成功的因素影响数据仓库成功的因素特征操作(事务处理)需要数据仓库(DSS)需要易变性动态静态通用性当前的历史的时间维暗指“现在”明确的,可见的粒度原始的,详细的详细的和可导出的汇总更新连续的,随机的定期的,计划的任务可重复的不可预期的灵活性低高性能要求高性能通常可接受低性能表2.1 决策支持系统与事务之间在数据库要求上的差异第八页,本课件共有46页2.2 影响数据仓库成功的因素影响数据仓库成功的因素图2.4 影响数据仓库成功的因素第九页,本课件共有46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓
4、库成功的因素2.3 数据仓库的生命周期数据仓库的生命周期2.4 数据仓库的基本体系结构2.5 数据仓库的逻辑结构第十页,本课件共有46页2.3 数据仓库的生命周期数据仓库的生命周期图2.5 数据仓库的生命周期第十一页,本课件共有46页2.3 数据仓库的生命周期数据仓库的生命周期不同与数据库开发的生命周期。1、数据仓库开发是从数据出发的、数据仓库开发是从数据出发的从已有数据出发的数据仓库设计方法称为“数据驱动数据驱动”的的设计方法设计方法。数据仓库的设计是从已有的数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库的主题。“数据驱动”设计方法的中心思想是利用数据模型有效地识别
5、原有的数据库中的数据和数据仓库中主题的数据“共同性”。2、数据仓库使用的需求不能在开发初期明确确定、数据仓库使用的需求不能在开发初期明确确定3、数据仓库的开发是一个不断循环的过程,是启发式的开、数据仓库的开发是一个不断循环的过程,是启发式的开发发第十二页,本课件共有46页2.3 数据仓库的生命周期数据仓库的生命周期因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。第十三页,本课件共有46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数
6、据仓库的基本体系结构数据仓库的基本体系结构2.5 数据仓库的逻辑结构第十四页,本课件共有46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.6 斯坦福大学WHPS课题组:数据仓库的基本体系结构第十五页,本课件共有46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.7 数据仓库体系结构第十六页,本课件共有46页2.4 数据仓库的基本体系结构数据仓库的基本体系结构图2.8 数据仓库体系结构第十七页,本课件共有46页第二章第二章 数据仓库的分析数据仓库的分析2.1 数据仓库的需求分析模型2.2 影响数据仓库成功的因素2.3 数据仓库的生命周期2.4 数据仓库的基本体系结构2.
7、5 数据仓库的逻辑结构数据仓库的逻辑结构第十八页,本课件共有46页2.5 数据仓库的逻辑结构数据仓库的逻辑结构2.5.1 数据仓库中的粒度2.5.2 数据仓库中的数据分割2.5.3 数据仓库中的数据组织2.5.4 数据仓库中的快照2.5.5 数据仓库中的元数据第十九页,本课件共有46页2.5.1 数据仓库中的粒度数据仓库中的粒度所谓粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度就越小,级别也就越低;细化程度越低,粒度就越大,级别也就越高。根据粒度的划分标准可将数据划分为当前细节级、轻度综合级、高度综合级三级或更多粒度。不同粒度级别的数据用于不同类型的分析处理。图
8、2.9 数据粒度结构第二十页,本课件共有46页2.5.1 数据仓库中的粒度数据仓库中的粒度双重粒度级:指轻度综合数据级和真实细节数据级(最低粒度级)。粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。(1)数据粒度的划分(2)确定粒度的级别第二十一页,本课件共有46页适当划分粒度的起点,是估算数据仓库中将来使用的数据行数和所需的直接存取存储设备(DASD)。计算数据仓库所占的空间的算法:计算数据仓库所占的空间的算法:第一步,估计数据仓库中需要建立的表数目,估算每个表的大第一步,估计数据仓库中需要建立的表数目,估算每个表的大致行数,通常需要估计行数的上、下限。致行数,通常需要估计行数的上、
9、下限。索引的大小只与表的总行数有关,而不与表数据量有关。所以,粒度的划分是由总的行数而不是总的数据量决定的。接下来,可对每个表估算其一年所需的存储空间。这是设计者接下来,可对每个表估算其一年所需的存储空间。这是设计者所要解决的最大问题。所要解决的最大问题。(1)数据粒度的划分数据粒度的划分第二十二页,本课件共有46页(1)数据粒度的划分数据粒度的划分计算每个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。精确计算表的每年实际存储空间往往是很难的,只能给出表的最大估算空间和最小估算空间。为此,需要估算每个表每年需要最多的行数和最少的行数,然后,估算出每行占用空间的最大字节数和最小字
10、节数。接着,计算索引数据所占的空间。每个表的索引存储空间,只要估算出键码的占用字节数与索引的行数,便可计算出来。这样,每个表每年的存储空间就可以用表的存储空间与相应的索引空间之和表示。然后估算其最长的保留年数所需要的存储空间。然后估算其最长的保留年数所需要的存储空间。第二十三页,本课件共有46页(1)数据粒度的划分数据粒度的划分在计算出数据仓库所需要占用的存储空间之后,需要根据所需要的存储空间大小确定是否划分粒度?如果需要划分,又应该怎样划分?数据仓库表中数据的总行数和相应的数据粒度划分方法可以参考下表。第二十四页,本课件共有46页(1)数据粒度的划分数据粒度的划分一年数据一年数据五年数据五年
11、数据数据量(行数)数据量(行数)粒度划分策略粒度划分策略数据量(行数)数据量(行数)粒度划分策略粒度划分策略10,000,000双重粒度并且仔细设计20,000,000双重粒度并且仔细设计1,000,000双重粒度10,000,000双重粒度100,000仔细设计1,000,000仔细设计10,000不考虑100,000不考虑第二十五页,本课件共有46页(2)确定粒度的级别确定粒度的级别在在数数据据仓仓库库中中,需需要要考考虑虑这这样样一一些些因因素素:要要接接受受的的分分析析类类型型、可接受的数据最低粒度、能够存储的数据量。可接受的数据最低粒度、能够存储的数据量。计划在数据仓库中进行的分析类
12、型将直接影响数据仓库的划分。计划在数据仓库中进行的分析类型将直接影响数据仓库的划分。将粒度的层次定义越高,就越不能在该仓库中进行更细致的操作。数据仓库通常在同一模式中使用多重粒度。数据仓库中,可以有今年创建的数据粒度和以前创建的数据粒度。这是以数据仓库中所需的最低粒度级别为基础设置的。定义数据仓库粒度的另外一个要素,是数据仓库可以使用多种定义数据仓库粒度的另外一个要素,是数据仓库可以使用多种存储介质的空间量存储介质的空间量。如果存储资源有一定的限制,就只能采用较高粒度的数据粒度划分策略。这种粒度划分策略必须依据用户对数据需求的了解和信息占用数据仓库空间大小来确定。第二十六页,本课件共有46页(
13、2)确定粒度的级别确定粒度的级别粒度的确定实质上是业务决策分析、硬件、软件和数据仓库粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。使用方法的一个折衷。在确定数据仓库粒度时,可以采用多种方法达到既满足用户决策分析的需要,又能减少数据仓库的数据量。如果主题分析的时间范围较小,可以保持最小的数据粒度,但是只保持较少时间的细节数据。还有一种可以大幅降低数据仓库容量的方法,就是只采用概括数据。数据粒度划分策略一定要保证数据的粒度确实能够满足用户数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准的决策分析需要,这是数据粒度划分
14、策略中最重要的一个准则则。第二十七页,本课件共有46页2.5.2 数据仓库中的数据分割数据仓库中的数据分割数据分割是把数据分散到各自的小物理单元中去,任何给定的数据单元属于且仅属于一个分割,它们能够独立的处理,分割后的小的数据单元具有比大物理单元更大的灵活性,能够实现重构、索引、顺序扫描、重组、恢复和监控等功能。数据分割的常用标准:时间、商业行业、地理位置、组织单位等。第二十八页,本课件共有46页2.5.3 数据仓库中的数据组织数据仓库中的数据组织(1)简单堆积结构:从操作型环境中取出每天的事务处理,根据主题来综合成数据仓库记录。特点:存储空间较多、无细节丢失。(2)轮转综合数据存储:只有在轮
15、转综合文件中的数据才能被输入到不同的结构形式中,而从操作型数据到数据仓库环境中的数据处理方法同简单堆积结构相同。特点:非常集中、一些有细节丢失或提取越久的数据越不详细。(3)简单直接文件:把数据从操作型环境拖入到数据仓库环境中,无任何累积,以较长时间为单位。特点:间隔一定时间的操作型数据的一个快照。(4)连续组织:依据两个或更多的简单直接文件快照进行合并创建或追加的。第二十九页,本课件共有46页2.5.3 数据仓库中的快照数据仓库中的快照(1)随机发生的离散活动(2)在规定的时间点,快照会触发。组成:键码、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。第三十页,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 数据仓库 分析 优秀 PPT
限制150内