数据仓库扫盲学习教案.pptx
《数据仓库扫盲学习教案.pptx》由会员分享,可在线阅读,更多相关《数据仓库扫盲学习教案.pptx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据仓库扫盲数据仓库扫盲(so mng)第一页,共30页。提纲提纲(tgng)1.为什么要建立数据仓库2.数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程(guchng)6.数据仓库的典型应用第1页/共30页第二页,共30页。事务处理环境事务处理环境(hunjng)(hunjng)不适宜不适宜DSSDSS应应用的原因用的原因 n n事务处理和分析处理的性能特性不同事务处理和分析处理的性能特性不同 n n操作型处理对数据的存取操作频率高而每次操作处理的时间短;操作型处理对数据的存取操作频率高而每次操作处理的时间短;n n在分析处理环境中,某个在分析处理环境中
2、,某个DSSDSS应用程序可能应用程序可能(knng)(knng)需要连续几个小时,需要连续几个小时,从而消耗大量的系统资源。从而消耗大量的系统资源。n n数据集成问题数据集成问题n n数据动态集成问题数据动态集成问题n n历史数据问题历史数据问题 n n数据的综合问题数据的综合问题 n n 第2页/共30页第三页,共30页。抽取抽取(chu q)程序程序n n用抽取程序能将数据从高性能联机事务处理方式中转移出来,在用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要需要(xyo)(xyo)总体分析数据时就与联机事务处理性能不发生冲突。总体分析数据时就与联机事务处理性能不发生冲突。n
3、n用抽取程序能将数据从联机事务处理范围内移出时,数据的控制用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。方式就发生了转变。第3页/共30页第四页,共30页。蜘蛛网问题蜘蛛网问题(wnt)vv数据缺乏可信性数据缺乏可信性vv数据无时基数据无时基vv数据算法上的差异数据算法上的差异vv抽取的多层次抽取的多层次vv外部数据问题外部数据问题vv无起始的公共数据源无起始的公共数据源vv生产率低生产率低vv根据全部数据生成企业报表根据全部数据生成企业报表vv定位数据需要浏览大量文件定位数据需要浏览大量文件vv抽取程序很多,并且抽取程序很多,并且(bngqi)(bngqi)每个都
4、是定制的,不每个都是定制的,不得不克服很多技术上的障碍。得不克服很多技术上的障碍。vv数据转化为信息的不可行性数据转化为信息的不可行性vv数据没有集成化数据没有集成化vv缺乏将数据转化为信息所需的历史数据缺乏将数据转化为信息所需的历史数据第4页/共30页第五页,共30页。体系结构设计环境体系结构设计环境体系结构设计环境体系结构设计环境(hunjng)(hunjng)的层次的层次的层次的层次n n数据操作数据操作(cozu)(cozu)层只保存原始数据并且服务于高性能事务处理层只保存原始数据并且服务于高性能事务处理领域;领域;n n数据仓库层存储不更新的原始数据,此外一些导出数据也在此存数据仓库
5、层存储不更新的原始数据,此外一些导出数据也在此存在;在;n n数据的部门层几乎只存放导出数据;数据的部门层几乎只存放导出数据;n n在数据个体层中完成大多数启发式分析在数据个体层中完成大多数启发式分析操作操作(cozu)(cozu)层层原子原子/数据仓库层数据仓库层部门层部门层个体层个体层第5页/共30页第六页,共30页。数据仓库的概念数据仓库的概念数据仓库的概念数据仓库的概念(ginin)(ginin)(ginin)(ginin)数据仓库是在企业管理和决策(juc)中面向主题的、集成的、与时间相关的、不可修改的数据集合。William H.Inmon 与其他数据库应用不同的是,数据仓库更像一
6、种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。第6页/共30页第七页,共30页。数据仓库的特性数据仓库的特性(txng)(txng)vv面向主题面向主题vv典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目vv集成的集成的vv数据提取、净化、转换、装载数据提取、净化、转换、装载vv非易失的非易失的vv数据仓库的数据通常是一起载入和访问数据仓库的数据通常是一起载入和访问(fngwn)(fngwn)的,但并不进行一般意义上的数据更的,但并不进行一般意义上的数据更新新vv随时间的变化性随时间的变化性vv数据仓库中的时间期限要远远长于操作型系统数据仓库中的时
7、间期限要远远长于操作型系统中的时间期限(中的时间期限(510510年);年);vv数据仓库中的数据是一系列某一时刻生成的复数据仓库中的数据是一系列某一时刻生成的复杂的快照;杂的快照;vv数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。第7页/共30页第八页,共30页。数据仓库的结构数据仓库的结构(jigu)早期早期(zoq)(zoq)细节级细节级当前当前(dngqin)(dngqin)细节级细节级轻度综合级轻度综合级数据集市数据集市高度综合级高度综合级元元数数据据操作型转换操作型转换第8页/共30页第九页,共30页。数据仓库设计中的几个重要数据仓库设计中的几个重要数
8、据仓库设计中的几个重要数据仓库设计中的几个重要(zhngyo)(zhngyo)概念概念概念概念 vvETLETLvvETLETL(Extract/Transformation/LoadExtract/Transformation/Load)用户从用户从数据源抽取出所需的数据,经过数据清洗、转换数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。到数据仓库中去。vv元数据元数据vv关于数据的数据,指在数据仓库建设过程中所产关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则
9、等相关生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商的关键数据。同时元数据还包含关于数据含义的商业信息。业信息。vv粒度粒度vv数据仓库的数据单位中保存数据的细化或综合程数据仓库的数据单位中保存数据的细化或综合程度度(chngd)(chngd)的级别。细化程度的级别。细化程度(chngd)(chngd)越高,粒越高,粒度级就越小;相反,细化程度度级就越小;相反,细化程度(chngd)(chngd)越低,粒越低,粒度级就越大。度级就越大。vv分割分割vv结构相同的数据被分成多个数据物理单元。任何结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于
10、且仅属于一个分割。给定的数据单元属于且仅属于一个分割。第9页/共30页第十页,共30页。典型的元数据典型的元数据(shj)(shj)包括:包括:vv数据仓库表的结构数据仓库表的结构vv数据仓库表的属性数据仓库表的属性vv数据仓库的源数据(记录数据仓库的源数据(记录(jl)(jl)系统)系统)vv从记录从记录(jl)(jl)系统到数据仓库的映射系统到数据仓库的映射vv数据模型的规格说明数据模型的规格说明vv抽取日志抽取日志vv访问数据的公用例行程序访问数据的公用例行程序第10页/共30页第十一页,共30页。数据仓库设计(shj)中的几个重要概念(续)vvDataMartDataMartvv数据集
11、市数据集市-小型的,面向部门小型的,面向部门(bmn)(bmn)或工或工作组级数据仓库。作组级数据仓库。vvOperationDataStoreOperationDataStorevv操作数据存储操作数据存储ODSODS是能支持企业日常的是能支持企业日常的全局应用的数据集合全局应用的数据集合,是不同于是不同于DBDB的一种新的的一种新的数据环境数据环境,是是DWDW扩展后得到的一个混合形式。扩展后得到的一个混合形式。四个基本特点:面向主题的四个基本特点:面向主题的(Subject-Oriented)(Subject-Oriented)、集成的、可变的、集成的、可变的、当前或接近当前的。当前或接
12、近当前的。vvdatamodeldatamodelvv数据模型数据模型-(1 1)逻辑数据结构,包括由)逻辑数据结构,包括由DBMSDBMS为有效进行数据库处理提供的操作和约为有效进行数据库处理提供的操作和约束;(束;(2 2)用于表示数据的系统(例如,)用于表示数据的系统(例如,ERDERD或关系型模型)。或关系型模型)。vvartifactartifactvv人工关系人工关系-在在DSSDSS环境中用于表示参照完整环境中用于表示参照完整性的一种设计技术。性的一种设计技术。第11页/共30页第十二页,共30页。企业企业(qy)数据模型到数据仓库数据模型的数据模型到数据仓库数据模型的转换转换v
13、v除去纯粹用于操作型环境的数据除去纯粹用于操作型环境的数据vv在企业键码结构中增加在企业键码结构中增加(zngji)(zngji)时间元素时间元素vv增加增加(zngji)(zngji)导出数据导出数据vv创建人工关系创建人工关系第12页/共30页第十三页,共30页。数据模型的规范化数据模型的规范化/反规范化反规范化vv为了减少为了减少(jinsho)(jinsho)程序在表中的跳转、节省程序在表中的跳转、节省I/OI/O,需将多个相关的表合并;,需将多个相关的表合并;vv引入冗余数据;引入冗余数据;vv当访问概率有很大悬殊时,要对数据做进一步分当访问概率有很大悬殊时,要对数据做进一步分离;离
14、;vv在物理数据库的设计中引入导出数据可以减少在物理数据库的设计中引入导出数据可以减少(jinsho)I/O(jinsho)I/O;vv建立所谓的建立所谓的“创造的创造的”索引或创造的简要记录索引或创造的简要记录(如卷中的前十名顾客是(如卷中的前十名顾客是)第13页/共30页第十四页,共30页。数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户第14页/共30页第十五页,共30页。从操作型的现存系统到数据从
15、操作型的现存系统到数据(shj)仓库中仓库中数据数据(shj)转换工作的难点转换工作的难点vv现有系统缺乏现有系统缺乏(quf)(quf)数据集成,跨越不同应用数据集成,跨越不同应用的数据集成性很差的数据集成性很差vv存取现存系统的效率,扫描已有文件成了数据存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题仓库体系结构设计者主要面对的问题vv时基的变化时基的变化vv数据要浓缩数据要浓缩第15页/共30页第十六页,共30页。概念概念概念概念(ginin)(ginin):数据周期、简要记录:数据周期、简要记录:数据周期、简要记录:数据周期、简要记录vv数据周期:是指从操作型数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 扫盲 学习 教案
限制150内