数据仓库与数据挖掘 .pptx
《数据仓库与数据挖掘 .pptx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘 .pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、14.1 数据仓库分析与设计4.2 数据仓库开发4.3 数据仓库技术与开发的困难第1页/共50页24.1数据仓库分析与设计需求分析概念模型设计逻辑模型设计物理模型设计数据仓库的索引技术第2页/共50页3需求分析1.确定主题域2.支持决策的数据来源3.数据仓库的成功标准和关键性能指标4.数据量与更新频率第3页/共50页41.确定主题域(1)明确对于决策分析最有价值的主题领域有哪些?(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?第4页/共50页52.支持决策的数据来源(1)哪些
2、源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?第5页/共50页63.数据仓库的成功标准和关键性能指标(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?第6页/共50页74.数据量与更新频率(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?第7页/共50页8通过需求分析,需要的
3、数据包括:1.数据源(1)可用的数据源(2)数据源的数据结构(3)数据源的位置(4)数据源的计算机环境(5)数据抽取过程(6)可用的历史数据第8页/共50页92.数据转换数据仓库中的数据是为决策分析服务,而源系统的数据为业务处理服务。需要决定如何正确地将这些源数据转换成适合数据仓库存储的数据。第9页/共50页103.数据存储数据仓库所需要的数据的详细程度,包括足够的关于存储需求的信息,估计数据仓库需要多少历史和存档数据。第10页/共50页114.决策分析(1)向下层钻取分析(2)向上层钻取分析(3)横向钻取分析(4)切片分析(5)特别查询报表第11页/共50页12概念模型设计概念模型的特点是:
4、(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。(4)易于向数据仓库的数据模型(星型模型)转换。第12页/共50页13 概念模型最常用的表示方法是实体关系法(E-R法)。E-R图描述的是实体以及实体之间的联系:用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接。若主题之间的联系也具有属性,则
5、把属性和菱形也用无向边连接上。第13页/共50页14例子有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。第14页/共50页15商品商品固有信息商品号商品库存信息销 售 信息购物信息 客户客户固有信息客户号=第15页/共50页16逻辑模型设计主要工作为:(1)主题域进行概念模型
6、(ER图)到逻辑模型(星型模型)的转换(2)粒度层次划分(3)关系模式定义(4)定义记录系统第16页/共50页171、主题域进行概念模型到逻辑模型的转换星型模型的设计步骤如下:(1)确定决策分析需求决策需求是建立多维数据模型的依据。(2)从需求中识别出事实选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。(3)确定维确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等,如图4.2所示。第17页/共50页18销售数据和维销售数据商品促销时间部门城市地区商店图4.2 销售业务的多维数据第18页/共50页(4 4)确定数据汇总水平确定数据汇总水平
7、 数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对于时间维,可以以“年”、“月”或者“日”等不同水平进行汇总。(5 5)设计事实表和维表 设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度。第19页/共50页(6 6)按使用的DBMSDBMS和分析用户工具,证实设计方案的有效性 根据系统使用的DBMSDBMS,确定事实表和维表的具体实现。由于不同的DBMSDBMS对数据存储有不同的要求,因此设计方案是否有效还要放在D
8、BMSDBMS中进行检验 (7 7)随着需求变化修改设计方案随着需求变化修改设计方案 随着应用需求的变化,整个数据仓库的数据模式也可能会发生变化。因此在设计之初,充分考虑数据模型的可修改性可以节省系统维护的代价。第20页/共50页21从的ER图转换成星型模型实例说明(1)业务数据的E-R图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号1mm11商品类商品类号商品类名部门号m1m地区地区号地区名第21页/共50页22(2)E-R图向多维表的转换该问题的多维表模型中,商品维包括部门、商品和商品大类,地点维包括地区
9、和商店,忽略存货,而只注意销售事实。在E-R图中不出现的时间,在多维模型中增加时间维。在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,此处销售实体作为事实,其他实体作为维。然后用维关键字将它转换为星型模型,如图4.5所示。第22页/共50页23商品维地区维时间维部门地区年商品大类商店月商品周日销售事实 图4.4 E-R图向多维模型的转换第23页/共50页图4.5 利用维关键字制定的星型模型第24页/共50页25在各维中,只有部门,商品类,地区,商店的编号没有具体的说明。为了打印报表将增加这些编号的名称说明,即部门名、商店名等,在维表中增加这些说明,即修改该星型模型 如图4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘
限制150内