《数据仓库设计》PPT课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《《数据仓库设计》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据仓库设计》PPT课件.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库结构设计与数据仓库结构设计与开发开发 提纲提纲n1.数据仓库的发展n2.数据仓库的概念及特性n3.数据仓库的结构n4.数据仓库的开发过程n5.数据仓库的典型应用数据仓库的发展数据仓库的发展Development of DataWarehouse数据仓库的发展(1)nNCR公司为公司为Wal-mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美企业,家实现了数据仓库的欧美企业,结果表明数据仓库为企业提供了巨大的收益。结果表明数据仓库为企业提供了巨大的收益。nIBM的实验室在数据仓库方面已经进行了的实验室
2、在数据仓库方面已经进行了10多年的研究,并将研究多年的研究,并将研究成果发展成为商用产品。成果发展成为商用产品。n其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。数据仓库的发展(2)nIBM:在其在其DB2UDB发布一年后的发布一年后的1998年年9月发布版,并于月发布版,并于1998年年12月推向中国市场,除了用于联机分析处理(月推向中国市场,除了用于联机分析处理(OLAP)的后台服务器)的后台服务器DB2OLAPServer外,外,IBM还提供还提供了一系列相关的产品,包括前端工具,形成一整套解决方了一系列相关的产品,包括前端
3、工具,形成一整套解决方案。案。nInformix公司公司:在其动态服务器在其动态服务器IDS(InformixDynamicServer)中提供一系列相关选件,如高级决策支持选件)中提供一系列相关选件,如高级决策支持选件(AdvancedDecisionSupportOption)、)、OLAP选件选件(MetaCubeROLAPOption)、扩展并行选件()、扩展并行选件(ExtendedParallelOption)等,这种体系结构严谨、管理方便、索引)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库机制完善,并行处理的效率更高,其中数据仓库和数据库
4、查询的查询的SQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。数据仓库的发展(3)n微软公司微软公司:在其以及在其以及SQLServer2000中集成了代号为中集成了代号为Plato的的OLAP服务器。服务器。nSybase:提供了专门的提供了专门的OLAP服务器服务器SybaseIQ,并将其与数,并将其与数据仓库相关工具打包成据仓库相关工具打包成WarehouseStudio。nOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市管到数据集市管理等一系列产品包(如理等一系列产品包(如OracleWarehouseBuilder、Orac
5、leExpress、DataMartSuit等)。等)。为什么要建立数据仓库为什么要建立数据仓库n数据大量积累数据大量积累n数据丰富、知识贫乏数据丰富、知识贫乏n数据数据信息信息知识知识效益的转换需求效益的转换需求(DSS)nOLTP的局限性的局限性OLTP的局限性的局限性 n事务处理(操作型处理)和分析处理的性能特性不同事务处理(操作型处理)和分析处理的性能特性不同 nOLTP对数据的存取操作频率高而每次操作处理的时间短;n在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。n数据保留最新,量少数据保留最新,量少n数据松散,集成度不高数据松散,集成度不高n数据面
6、向应用而非主题数据面向应用而非主题n数据质量问题数据质量问题数据库应用的规模和深度的发数据库应用的规模和深度的发展展高级数据库高级数据库n从在线事务处理从在线事务处理(OLTP)到在线分析处理到在线分析处理(OLAP)、数据挖掘、数据挖掘(DataMining)和决策支持和决策支持(DS)突出的问题突出的问题n数据库适于存储高度结构化的日常事务细节数据,决数据库适于存储高度结构化的日常事务细节数据,决策者可能并不关心具体的细节信息;存取操作频率高,策者可能并不关心具体的细节信息;存取操作频率高,操作处理的时间短;操作处理的时间短;n决策型数据多为历史性、汇总性或计算性数据,多表决策型数据多为历
7、史性、汇总性或计算性数据,多表现为静态数据,周期性刷新;多维性,分析内容复杂;现为静态数据,周期性刷新;多维性,分析内容复杂;细节数据量太大严重影响分析效率,分散决策者的注细节数据量太大严重影响分析效率,分散决策者的注意力;连续运行,消耗大量的系统资源;数据来自企意力;连续运行,消耗大量的系统资源;数据来自企业内部或企业外部,在分析时直接对这些数据操作会业内部或企业外部,在分析时直接对这些数据操作会造成分析混乱。外部一些非结构化数据,数据库系统造成分析混乱。外部一些非结构化数据,数据库系统常无能为力。常无能为力。多库系统的限制多库系统的限制n可用性:源站点或通信网络故障将导致系统瘫痪可用性:源
8、站点或通信网络故障将导致系统瘫痪,源站源站点不能通过网络在线联入多库系统。点不能通过网络在线联入多库系统。n响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延迟和低层延迟和低层效率影响响应速度。效率影响响应速度。n系统性能:总体性能取决于源站点中性能最低的系统系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥影响系统性能的发挥;n系统开销:系统开销:每次查询要启动多个局部系统每次查询要启动多个局部系统,通信和运通信和运行开销大。行开销大。实施数据仓库的条件实施数据仓库的条件n数据积累已达到一定规模n面临激烈的市场竞争n在IT方面的资金能得到保障 数据仓
9、库的概念数据仓库的概念Data Warehouse数据仓库的概念数据仓库的概念 n n数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的定义。按照定义。按照定义。按照定义。按照W.H.InmonW.H.Inmon这位数据仓库系统构造方面的这位数据仓库系统构造方面的这位数据仓库系统构造方面的这位数据仓库系统构造方面的领头设计师的说法:数据仓库是一个面向主题的、集成领头设计师的说法:数据仓库是一个面向主题的、集成领头设计师的说法:数据仓库是一个面向主题的、集
10、成领头设计师的说法:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策过程。过程。过程。过程。n n与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析对分布在企业内部各处的业务数据的整合、加工和分析对分布在企业内部各处的业务数据的整合、加
11、工和分析对分布在企业内部各处的业务数据的整合、加工和分析的过程的过程的过程的过程建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过程。程。程。程。数据仓库特性数据仓库特性 n n面向主题面向主题面向主题面向主题n n典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目n n集成的集成的集成的集成的n n数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、
12、转换、装载n n非易失的非易失的非易失的非易失的n n数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新义上的数据更新义上的数据更新义上的数据更新n n随时间的变化性随时间的变化性随时间的变化性随时间的变化性n n数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期
13、限(510510年);年);年);年);n n数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;n n数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库数据仓库OLTPOLTP数据库数据库管理层使用管理层使用一线工人使用一线工人使用战略性价值战略性价值策略性价值策略性价值支持战略定向支持战略定向支持日常操作支持日常操作 用于联机分析用于联
14、机分析用于事务处理用于事务处理面向主题面向主题面向应用程序面向应用程序存储历史数据存储历史数据仅存储当前数据仅存储当前数据不可预测查询模型不可预测查询模型可预测查询模型可预测查询模型数据仓库与数据仓库与OLTP数据库数据库数据集市数据集市n n数据集市(数据集市(数据集市(数据集市(datamartdatamart)是数据仓库的一个部门子集,)是数据仓库的一个部门子集,)是数据仓库的一个部门子集,)是数据仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。n
15、n数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的 数据集市数据集市数据集市数据集市中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数据集市中的数据直接来
16、自企业数据仓库。据集市中的数据直接来自企业数据仓库。据集市中的数据直接来自企业数据仓库。据集市中的数据直接来自企业数据仓库。操作型数据存储操作型数据存储n n很多情况下,很多情况下,很多情况下,很多情况下,DB-DWDB-DW的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所有的数据处理要求。有的数据处理要求。有的数据处理要求。有的数据处理要求。n n日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并
17、不是联机事务处理,又算不上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因此需要此需要此需要此需要DB-DWDB-DW之间存在着一个中间层次,即之间存在着一个中间层次,即之间存在着一个中间层次,即之间存在着一个中间层次,即操作型数据操作型数据操作型数
18、据操作型数据存储存储存储存储ODSODS(Operational Data Store Operational Data Store)。)。)。)。操作型数据库、ODS和DW的比较比较项目比较项目操作数据存储操作数据存储数据仓库数据仓库数据内容数据内容当前和最近的值存档、归纳数据和经计算得出的数据数据组织数据组织根据主体域-数据集成面向主题数据性质数据性质动态(经常变化)静态(刷新时除外)数据结构和格式数据结构和格式复杂到简单简单:适于商业分析访问概率访问概率高到中中到低数据更新数据更新无更新访问和生成:没有直接地更新数据访问数据访问每个事务访问几条记录每个事务访问多条记录用途用途高度结构化、
19、重复处理和事务处理和交互式分析处理对响应时间的要求对响应时间的要求低于1秒到23秒几秒到几分,有时几小时对性能的要求对性能的要求中到高中ODSODS和和DWDW的比较的比较 数据仓库的结构数据仓库的结构Structure ofData Warehouse数据仓库结构数据仓库结构数据仓库MRDBMDDB信息发布系统操作型数据和外界数据数据集市报表,查询,EIS工具OLAP工具数据挖掘工具管理平台元数据管 理 平台数据仓库数据仓库可视化用户接口可视化用户接口OLAP工具工具查询查询/报表工具报表工具数据挖掘工具数据挖掘工具前端开发工具前端开发工具集成器集成器集成器集成器转换器转换器转换器转换器源数
20、据源数据源数据源数据元元数数据据及其管理工具及其管理工具 数据仓库体系结构数据仓库体系结构数据仓库组成数据仓库组成n数据源数据源n数据抽取(数据抽取(Extraction)、转换()、转换(Transformation)、集成、装载)、集成、装载(Load)和刷新()和刷新(Refresh)工具:格式、净化和汇总)工具:格式、净化和汇总n数据建模工具(数据建模工具(ModelingTools)n元数据仓储(元数据仓储(MetadataRepository)n数据仓库监控(数据仓库监控(Monitoring)和管理()和管理(Administration)工具:)工具:维护数维护数据仓库中的数据
21、,备份、恢复数据以及管理数据的安全权限问题。据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。n数据仓库及数据集市的目标数据库(数据仓库及数据集市的目标数据库(TargetDataBase)nOLAP服务器服务器n前端数据访问和分析工具前端数据访问和分析工具转换器转换器n转换器的功能:转换器的功能:n数据结构转换和数数据结构转换和数据类型转换据类型转换n非结构化数据的转非结构化数据的转换换创建数据准备区创建数据准备区N开始开始读源数据读源数据检查数据准备区检查数据准备区?执行执行DTS包包更改元数据(时间,数据状态)更改元数据(时间,数据状态)结束结束成功成功连接源数据库连接源数据库创
22、建创建DTS包包Y数据准备区数据准备区n从源数据中提取数据,转换成数据仓库所要求的格式后从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。据进行清理、集成后再装载到数据仓库中。源数据数据准备区数据仓库集成器集成器n数据净化(有效值和范围检验)数据净化(有效值和范围检验)n维表与事实表的引用完整性检验:当维表和事实数据表之间的引用完维表与事实表的引用完整性检验:当维表和事
23、实数据表之间的引用完整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数据的不一致性错误。据的不一致性错误。n统一数据编码统一数据编码n日期格式转换日期格式转换n测量单位的转换测量单位的转换监控器捕捉数据变化的途径监控器捕捉数据变化的途径n时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。断哪些数据是变化的,并把变化的数据追加到数据仓库中去。nDELTA文件:该文件是由应用产生的,并记录了应用所改
24、变的所有内容。文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用利用DELTA文件记录数据的变化,不需要扫描整个数据库,所以效率较高,文件记录数据的变化,不需要扫描整个数据库,所以效率较高,但生成的但生成的DELTA文件的应用并不普遍。文件的应用并不普遍。映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较追加的数据。
25、这种方法需要占用大量的系统资源,对系统的性能影响比较大。大。日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响比较小,另外它还有比较小,另外它还有DELTA文件的优点,提取数据只局限于日志文件而不文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。日志文件是最可行的一种方法。用扫描整个数据库。日志文件是最可行的一种方法。uu仓库数据库乎仓库数据库乎总是一个关系数总是一个关系数据库系统;据库系统;uuOLAPOLAP服务器服务器用于多维分析;用于多维分析;uu客户层,包括客户层,包括查询和报告工具、查询和报告工具
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库设计 数据仓库 设计 PPT 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内