数据仓库和数据集市.docx
《数据仓库和数据集市.docx》由会员分享,可在线阅读,更多相关《数据仓库和数据集市.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库与数据集市看了不少数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据 集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:看了不少数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据 集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1)基本概念(2)为什么提出数据集市(3)数据仓库设计方法论(4)数据集市和数据仓库的区别(5)仓库建模与集市建模(6)案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立 数据集
2、市”,足以说明搞清晰这两者之间的关系是十分重要而迫切的!通常在考虑建立数据 仓库之前,会涉及到如下一些问题:(1)采取自上而下还是自下而上的设计方法(2 )企业范围还是部门范围(3)先建立数据仓库还是数据集市(4)建立领航系统还是直接实施(5)数据集市是否相互独立(2)数据集市的数据建模因为仓库终端用户直接与数据集市进行交互,所以数据集市的建模是捕获终端用户业务需求 的最有效工具之一。数据集市的建模过程取决于许多因素。下面描述了三个最重要的:数据集市的建模是终端用户驱动的。终端用户必须参预数据集市的建模过程,因为他们显然 是要使用该数据集市的人。因为您应期望终端用户彻底不熟悉复杂的数据模型,所
3、以应该将 建模技术和建模过程作为整体进行组织,以便使复杂性对终端用户透明。数据集市的建模是由业务需求驱动的。数据集市模型对于捕获业务需求十分实用,因为它们 通常由终端用户直接使用,且易于理解。数据集市的建模极大地受到了数据分析技术的影响。数据分析技术可以影响所选择的数据模 型的类型及其内容。目前,有几种常用的数据分析技术:查询和报表制作、多维分析以及数 据挖掘。如果仅仅意图提供查询和报表制作功能,那末带有正规(normalized )或者非正规(denormalized )数据结构的ER模型就是最合适的。维度数据模型也可能是较好的选择, 因为它是用户友好的,并具有更好的性能。如果其目标是执行多
4、维数据分析,那末维度数据 模型就是这里的惟一选择。然而,数据挖掘通常在可用的最低细节级(level of detail)工 作得最好。因此,如果数据仓库是用于数据挖掘的,就应该在模型中包含较低细节级(levelof detail)的数据。一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w. H. Inmon在其著作 Buildingthe Data Warehouse一书中赋予如下描述:数据仓库(Data Warehouse)是一个面向主题的(SubjectOri2ented)、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(TimeVa
5、riant)的数据集合用于支持管理决策。对于数据仓库 的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它 不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按 照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据普通再也不修改。为最大限度地实现灵便性,集成的数据仓库的数据应该存储在标准RDBMS中,并经过规 范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据 仓库设计被称为原子数据仓库。原子数据仓库的子集,又莆菁小T硬挚猱嬖诘闹饕康就 亲魅菁械墓,片骰。币沧超握招允莅挚凌T硬挚灌拇隼12.写娣
6、藕褪松馍杓瓶赡甚耋闾厥铁嘈陀没y母髦中相蟆F渥蛹?即各个数据集市被拷贝到其它计算机上,可作为它们 自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位 于原子数据仓库的附近,或者分布到更挨近用户的位置,放置在何处取决于使用和通讯成本。 数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GBO使其 成为数据集市的关键是它的使用目标、范围,而非规模大小。数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市(如下图):独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或者业务 线进行控制的,彻底是为满足
7、其需求而构建的。实际上,它们甚至与其他工作组、部门或 者业务线中的数据集市没有任何连通性从属型(从企业级数据仓库中获取数据):这样的数据集市往往以分布式的方式实现。虽然 不同的数据集市是在特定的工作组、部门或者生产线中实现的,但它们可以是集成、互连的, 以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务 范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的 数据二、为什么提出数据集市虽然OLTP和遗留系统拥有珍贵的信息,但是可能难以从这些系统中提取故意义的信息并 且速度也较慢。而且这些系统虽然普通可支持预先定义操作的报表,但却时常无法支
8、持一个 组织对于历史的、联合的、智能的或者易于访问的信息的需求。因为数据分布在许多跨系统 和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。 数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将 可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下 特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的):(1)特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源 系统的大量需求和操作性危机(想对于数据仓库)。支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 集市
限制150内