数据仓库基础.pptx
《数据仓库基础.pptx》由会员分享,可在线阅读,更多相关《数据仓库基础.pptx(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主题商业智能技术数据仓库与多维模型设计数据仓库设计多维模型第1页/共40页商业智能的体系商业智能技术体系(BIBusiness Intelligence)在线分析处理技术(OLAP:Online Online Analytical Analytical ProcessingProcessing)数据挖掘技术(Data Mining)数据仓库技术(Data Warehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策更加全面、深入的分析形成知识库指导决策、再分析第2页/
2、共40页数据仓库定义数据仓库的概念数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集合,用以支持经营管理中的决策制定过程。什么是数据仓库?第3页/共40页数据仓库的特点面向主题集成性企业数据框架历史性、稳定性第4页/共40页数据仓库与业务数据库的比较第5页/共40页什么是联机分析处理(OLAP)?OLAP的定义OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。第6页/共40页OLAP的特征OLAP的核心指标、维OLAP的目标多维分析OLAP的特点灵
3、活、动态多角度、多层次的视角快速第7页/共40页OLAP的基本功能商业语义层的定义上钻和下钻(Roll up or Drill down)切片和切块(Slice and Dice)旋转(Pivoting)强大的复杂计算能力时间智能丰富的数据展现方式第8页/共40页OLAP功能示意按机构钻按机构钻取取济济南南地地区区维维时时间间维维行业维行业维青青岛岛第9页/共40页数据挖掘技术(Data Mining)DM的定义数据挖掘(Data Mining)是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。也就是说,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在
4、其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。DM的特点涉及数据库、统计分析、人工智能多种技术预测和验证功能 特征和规律描述第10页/共40页主题商业智能技术数据仓库与多维模型数据仓库设计多维模型设计第11页/共40页数据仓库与多维模型概述多维模型与数据仓库多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维的表现方式。数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的设计和建立的难易程度。第12页/共40页主题商业智能技术数据仓库与多维模型数据仓库设计多维模型设计第13页/共40页数据仓库设计原则(一)模型构架尽量使用星型架构,使用雪花架构的目的是使事实表
5、第一级的维表数量达到最小。设计方法将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。维表设计设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。事实表设计不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。第14页/共40页数据仓库设计原则(二)数据存储方式在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。索引在关键字段上创建索引,以提高处理多维数据集的性能。特殊要求根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。增量更新
6、必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。第15页/共40页数据仓库基本元素(一)关系型数据库关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支持数据仓库的功能。数据源数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据。第16页/共40页数据仓库基本元素(二)事实表事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。维表维度表是存储描述事实表中
7、事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。索引与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据集性能的起着重大作用,是数据仓库中不可或缺的部分。第17页/共40页数据仓库组织形式(一)星型模型星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。事事实实表表税务税务机关机关维表维表行业行业维表维表经济经济性质性质维表维表时间时间维表维表税种税种维表维表第18页/共40页数据仓库组织形式(二)雪花型模型雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。事事实实
8、表表机构机构维表维表行业行业维表维表地市地市维表维表时间时间维表维表省份省份维表维表地区维第19页/共40页数据仓库设计(一)事实表事实表设计每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。索引部分索引部分包含着与描述事实数据特征的维表相关联的外键信息。数据部分数据部分是事实表中真正要存放的事实数据。第20页/共40页数据仓库设计(一)事实表事实表示例:前五列为索引部分,后三列是事实数据部分列描述time _id时间维表 Dim_time 的外键swbm _id税务机关维表 Dim_swbm 的外键jjxz _id经济性质维表 Dim_jjxz 的外键
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 基础
限制150内