数据仓库开发模型.ppt





《数据仓库开发模型.ppt》由会员分享,可在线阅读,更多相关《数据仓库开发模型.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第2章数据仓库开发模型在在创创建建数数据据仓仓库库之之时时,需需要要使使用用各各种种数数据据模模型型对对数数据据仓仓库库进进行行描描述述。数数据据仓仓库库的的开开发发人人员员依依据据这这些些数数据据模模型型,才才能能开开发发出出一一个个满满足足用用户户需需求求的的数数据据仓仓库库。使使开开发发人人员员能能够够将将注注意意力力集集中中在在数数据据仓仓库库开开发发的的主主要要部部分分。模模型型有有更更好好的的适适应应性性,更更易易于于修修改改。当当用用户户的的需需求求改改变时,仅对模型做出相应的变化就能反映这个改变。变时,仅对模型做出相应的变化就能反映这个改变。数据仓库开发模型2.1数据仓库开发
2、模型数据仓库开发模型2.2数据仓库概念模型数据仓库概念模型2.3数据仓库逻辑模型数据仓库逻辑模型2.4数据仓库的物理模型数据仓库的物理模型2.5数据仓库的元数据模型数据仓库的元数据模型2.6数据仓库的粒度和聚集模型数据仓库的粒度和聚集模型练练习习2.1 数据仓库开发模型模模型型是是对对现现实实世世界界进进行行抽抽象象的的工工具具。在在信信息息管管理理中中需需要要将将现现实实世世界界的的事事物物及及其其有有关关特特征征转转换换为为信信息息世世界界的的数数据据才才能能对对信信息息进进行行处处理理与与管管理理,这这就就需需要要依依靠靠数数据据模模型型作作为为这这种种转转换换的的桥梁。这种转换一般需要
3、经历桥梁。这种转换一般需要经历:l从现实到概念模型,从现实到概念模型,l从概念模型到逻辑模型,从概念模型到逻辑模型,l从逻辑模型到物理模型从逻辑模型到物理模型现实世界现实世界概念世界概念世界逻辑世界逻辑世界计算机世界计算机世界信用信用特性特性属性属性列(字段、数据列(字段、数据项)项)张三张三个体个体实体实体记录记录客户客户整体整体同质总体同质总体表文件表文件客户与产品客户与产品整体间联系整体间联系异质总体异质总体数据库数据库数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模
4、型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。现实世界概念模型逻辑模型物理模型数据仓库元数据模型数据粒度和聚集模型2.2 数据仓库概念模型 2.2.1 概念数据模型财务部门销售收入账应收账应付账成本账销售部门销售计划销售合同销售统计人事部门员工业绩记录员工技能情况员工薪酬表企业数据模型销售部门人事部门财务部门图2.3 企业数据模型数据仓库可以采用数据仓库可以采用ER图作为概念设计框架,但是图作为概念设计框架,但是与具体的业务处理系统设计还是有所区别。与具体的业务处理系统设计还是有所区别。l数据仓库的数据模型中不包含操作型的数据,数据仓数据仓库的数据模型中不包含操作型的数据,
5、数据仓库的数据模型只包含用户所感兴趣的库的数据模型只包含用户所感兴趣的分析数据、描述分析数据、描述数据和细节数据数据和细节数据。l数据仓库的数据模型扩充了关键字结构,增加了时间数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分属性作为关键字的一部分l数据仓库的数据模型中还增加了一些由基本数据所导数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析的管理决策进行分析指指标标实实体体(事事实实实体)实体)指标实体指标实体名名维度实维度实体名体名详细详细类别类别实体实体名名维度实
6、体维度实体详详细细类类别别实实体体(引用实体)(引用实体)为表述数据仓库所需的分析数据、描述数据和细节数据,为表述数据仓库所需的分析数据、描述数据和细节数据,反映时间属性,表现数据导出关系。将原反映时间属性,表现数据导出关系。将原ERD的实体分解为的实体分解为“事实实体、维实体和详细类别实体事实实体、维实体和详细类别实体。5个基本特征2.2.2 规范的数据模型第第一一范范式式、第第二二范范式式、第第三三范范式式数数据据仓仓库库的的反反规范化处理规范化处理数据仓库的数据数据仓库的数据普通数据库系统的数据普通数据库系统的数据长期的框架长期的框架静态静态数据通常是汇总的数据通常是汇总的特殊查询访问特
7、殊查询访问定期更新定期更新数据驱动数据驱动短期的框架短期的框架快速变化快速变化记录级的访问记录级的访问标准查询访问标准查询访问实时更新实时更新事件驱动事件驱动2.2.3 星型模型 星星型型模模型型是是最最常常用用的的数数据据仓仓库库设设计计结结构构的的实实现现模模式式。使使数数据据仓仓库库形形成成了了一一个个集集成成系系统统,为为用用户户提提供供分分析析服服务务对象。对象。事实表维 度表维 度表维 度表维 度表维 度表核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。例例1某公司销售数据的星型模型某公司销售数据的星型模型time_keyda
8、yday_of_the_weekmonthquarteryeartime 维表location_keystreetcitystate_or_provincecountrylocation 维表Sales 事实表 time_key item_key branch_key location_key units_sold dollars_sold avg_sales度量item_keyitem_namebrandtypesupplier_typeitem 维表branch_keybranch_namebranch_typebranch 维表概念分层例例2超市营销数据仓库日期商品促销客户门市商品营销超
9、市营销主题日期关键字门市关键字商品关键字促销关键字商品销售编号商品销售量商品销售额商品成本商品销售利润日期维日 期 关键字商品维商 品 关键字门市维门 市 关键字促销维促 销 关键字客户维客 户 关 键字日期日期维维度度销销售事售事实实日期关日期关键键字字日期关日期关键键字字星期星期商品关商品关键键字字日日历历日期日期编编号号门门市关市关键键字字日日历历周周编编号号促促销销关关键键字字日日历历月月编编号号客客户户关关键键字字纪纪元日元日编编号号公司纪元公司纪元POS事事务编务编号号纪纪元周元周编编号号销销售量售量纪纪元月元月编编号号销销售售额额财财政月日政月日编编号号成本成本额额年度日年度日历
10、历周数周数利利润润金金额额年度日年度日历历月数月数日日历历年月年月(YYYY-MM)日日历历季度季度日日历历年季度年季度日日历历半年度半年度2012年2月222.2.4 雪花模型雪雪花花模模型型是是对对星星型型模模型型的的扩扩展展,每每一一个个维维度度都都可可以以向向外外连连接接到到多多个详细类别表。个详细类别表。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。事实表维度表维度表维度表维度表维度表详细类别表详细类别表例:销售数据雪花模型例:销售数据雪花模型time_keydayday_of_the_weekmonthquarteryeartimelocation_
11、keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity补充:事实星座模型补充:事实星座模型事实星座
12、(事实星座(Factconstellations):复杂应用可能复杂应用可能需要多个事实表共享维表需要多个事实表共享维表,这种模式可以看作星这种模式可以看作星型模式的汇集,因此称为星系模式(型模式的汇集,因此称为星系模式(galaxyschema),或者事实星座(),或者事实星座(factconstellation)time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch_
13、key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper2.3 数据
14、仓库逻辑模型 信息反馈贵宾卡账号 姓名 客户类型 初 次 交 易时间账号 省 市 县 街道 邮政编码账号 现金交易额 信用交易额账号 商品编号 时间 交易量账号 最大信用额 最近信用发 生时间账号 记录人 反馈类型 反馈时间账号 服务种类 时间 服务费用颜色信用交易客户编号交易记录信用状况商品交易服务交易签字现金交易 账号 交易额 信用额 信用时间 2.3.1 事实表模型设计1.事实表(1)客户事实表)客户事实表客户基本情况表(账号Integer9,姓名Character12,出生地Character20,初次交易时间Date,)。2事实表中的事实特性事实表中的事实特性 事实表中一般包含两部分
15、,一是由主键和外键所组成的键部分键部分,另一是用户希望在数据仓库中所了解的数值指标数值指标。派生事实主要有两种,一是可以用同一事实表中其他事实计算得到,还有一类派生事实是非加法性事实。2.3.1 事实表模型设计3.设计原则设计原则通过调查确定所有可能的事实,派生事实通过调查确定所有可能的事实,派生事实按功能排序,删除重复事实按功能排序,删除重复事实基于不同准则但是有相同性质的派生事实基于不同准则但是有相同性质的派生事实确认计算派生事实的基本事实包含在模型中确认计算派生事实的基本事实包含在模型中事实表尽可能小!事实表尽可能小!2.3.2 维模型设计客户主题维度表模型时间维度表(年Date,月Da
16、te,日Date)。地点维度表(省Character20,市Character20,县Character20,街道Character20)。2.4 数据仓库的物理模型2.4.1数据仓库物理模型的存储结构数据仓库物理模型的存储结构确定数据的存储结构确定数据的存储结构 并行存储结构RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。RAIDRAID1级。RAID2级。RAID3级。RAID4级。RAID5级。2.4.2 数据仓库物理模型的索引构建位图索引位图索引 女性索引女性索引客客户户性性别别客客户户所在地所在地上海市索引上海市索引北京市索引北京
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 开发 模型

限制150内