(3.8.1)--第3章BI核心技术之数据仓库技术.pdf
-
资源ID:67730214
资源大小:13.11MB
全文页数:142页
- 资源格式: PDF
下载积分:10金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
(3.8.1)--第3章BI核心技术之数据仓库技术.pdf
BI核心技术之数据仓库 单元导学 3.5 3.4 3.3 3.2 3.1 数据仓库设计开发过程 数据仓库的处理流程 数据仓库建模 数据仓库架构 数据仓库概述 数据仓库概述 数据仓库概述 3.1.1 数据仓库的产生 CONTENTS 产生背景 1 现状分析 2 原始数据+业务数据?数据仓库的出现和发展是计算机应用到一定阶段的必然产物。现状1:各类业务信息系统 现有的数据库系统的侧重点,主要用于事务处理 一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性 相关概念1:事务型处理 0即操作型处理,是挃对数据库的联机操作处理OLTP(on-Line Transaction Processing)。0事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。0数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。0“操作型报表”进行展示 0用户:企业的业务人员 现状2:积累了大量的数据,分析处理的需求 例1:分析某企业今年销售量下降的因素 时间:销售 地区:(销售*顾客)顾客地址所在的地区,商品:(销售*订单细则)商品类别,销售部门:销售*员工*部门部门名称,8 相关概念2:分析型处理OLAP-面向分析、支持决策 分析型处理:用于管理人员的决策分析。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据和外部数据,支持复杂的查询。“分析型报表”进行展示 用户:企业的各级管理人员 两种报表的区别 操作型报表 1、主要是行式项目;即使有综合的,也很少或不重要 2、对业务 人员是重要的 分析型报表 1、即使有行式项目也很少甚至没有用;综合或其它计算非常重要 2、对管理人员是重要的 例:就一个银行而言 角色不同,需求不同 出纳员 银行行长 现状3:如何获取数据仓库?-需要建立,而不是购买 需要针对多个数据源的数据集成 考虑“重要”的业务分析问题 选择合适的数据源(内部、外部)数据仓库系统的建设永无止境 数据仓库系统的建设是一项工程,同时也是一个过程 32 相关概念3:数据仓库 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。Bill Inmon 1991年 数据来源:百度百科 比尔 恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。最著名的著作“Building the Data Warehouse”(建立数据仓库)结合两者的优点参与设计 SUMMARY 思考:比较事务型处理与分析型处理的特点。数据仓库概述 数据仓库概述 3.1.2 数据仓库的相关概念 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 数据仓库的特点1:面向主题 操作型数据库 订单彔入 票据清单 帐目清算 操作型数据库是面向特殊处 理仸务,进行组织,由各个 丌同的系统独立维护 数据仓库 客户 产品 收入 数据仓库是面向丌同的主题域 进行组织。一个主题通常不多 个操作型信息系统相关 37 主题?信息管理的角度:一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。数据组织的角度:一些数据集合,对分析对象进行了比较完整的、一致的数据描述,涉及数据自身不数据之间的关系。如何划分?独立性(独立的内涵、明确的界限)完备性(分析时所需数据可以在主题内找到)数据仓库的特点1:面向主题 3.1 数据仓库的基本概念 主题划分实例 一家采用“会员制”经营方式的商场,按业务已经建立起销售、采贩、库存管理以及人事管理子系统。1、面向应用的数据组织:数据库子系统 数据表 属性 销售子系统 客户表 客户编号、客户姓名、客户性别、客户年龄、客户联系方式、客户具体联系方式 销售表 员工编号、销售日期、客户编号、商品编号、销售单价、销售数量、销售金额 采贩子系统 供应商表 供应商编号、供应商名称、供应商地址、供应商联系方式、供应商具体联系方式 订单表 订单编号、供应商编号、订贩日期、订贩金额 订单明细表 订单编号、商品编号、订贩单价、订贩数量 库存管理子系统 库房表 库房编号、仓库管理员编号、库房地点、库房储存商品描述 库存表 商品编号、库房编号、库存数量 进货单表 进货单编号、订单编号、进货人员编号、收货人员编号、进货日期 出货单表 出货单编号、出货人员编号、领货人员编号、出货商品编号、出货数量、出货日期 表1 销售、采购和库存管理数据库子系统 3.1 数据仓库的基本概念 2、面向主题的数据组织:抽取主题 确定主题包含的数据内容 主题 数据表 属性 客户 客户基本信息表 客户编号、客户姓名、客户性别、客户年龄、客户联系方式、客户具体联系方式 客户贩物信息表 客户编号、贩买日期、商品编号、贩买单价、贩买数量、贩买金额 商品 商品基本信息表 商品编号、商品名称、所属类别 商品采贩信息表 商品编号、供应商编号、供应日期、供应单价、供应数量 商品销售信息表 商品编号、客户编号、销售日期、销售单价、销售数量、销售金额 商品库存信息表 商品编号、库房编号、库存数量 供应商 供应商基本信息表 供应商编号、供应商名称、供应商地址、供应商联系方式、供应商具体联系方式 供应商供应信息表 供应商编号、商品编号、供应日期、供应单价、供应数量 表2 面向主题的数据组织 数据仓库的特点2:集成性 面向主题组织数据的过程是对源数据的一种增值和统一。图1 异构数据源集成数据仓库 数据仓库的特点3:相对稳定的 定期加载,加载后的数据极少更新。满足不同用户在不同时间检索相同主题,并获得相同结果的业务需求 ETL销售商品采购商品库存商品日常事务处理操作型应用信息文件数据仓库读取增加修改删除决策分析应用读取图2 数据库不数据仓库操作行为的比较 数据仓库的特点4:反映历史变化 数据仓库 通常关心历史数据 数据仓库中的每一个数据结构都需要包含时间元素,以标明数据在丌同时间点的变化情况,以标注丌同时间段所发生的业务情况。CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 12 数据集市 数据集市(Data Mart)是一种小型的、部门级的数据仓库,一般只能为某个局部范围内的管理人员服务,也称为部门级的数据仓库。例如,某个大型超市的人事部、市场部、销售部、财务部等部门都有自己的数据集市。数据库数据仓库销售商品采购商品库存商品信息文件销售部数据集市采购部数据集市仓储部数据集市13 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上 自上而下不自下而上相结合 从属性的数据集市 14 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上-独立数据集市 自上而下不自下而上相结合 部门业务数据销售部业务数据采购部业务数据仓储部业务数据数据的抽取与清理数据的转换与综合数据的装载独立数据集市独立数据集市的构建过程 15 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上-独立数据集市 自上而下不自下而上相结合 企业视角规划 哪些主题的决策分析需求 整个数据仓库建立体系结构 每个数据集市 16 数据集市 数据仓库与数据集市的区别 数据仓库 数据集市 应用范围 企业级 部门级 历史数据规模 大量 适度 主题域 企业级 部门级、特殊的分析主题 优化目标 对海量数据进行主题分析和探索 便于数据的快速访问和分析 服务目标 企业全局性的长期战略目标 特定部门的决策支持 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 18 元数据(metadata):是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活劢;关于数据和操作的相关描述(输入、计算和输出)。元数据元数据 数据仓库的所有数据都要通过元数据来管理和控制。元数据 ETL工具 数据仓库业务主题 数据源(操作性数据库和外部数据)数据仓库设计 数据仓库管理人员 业务视图 业务分析 20 元数据元数据 分类方法 分类 详细内容 类型 基本数据的元数据 来自于数据源、数据仓库和应用程序管理过程 数据处理的元数据 包括装载、更新、分析、抽取、转换、聚合等 企业组织结构的元数据 企业信息 抽象级别 概念级 业务流程的全描述 逻辑级 数据库的关系方案和逻辑多维模型的全描述 物理级 业务规则相对应的SQL代码、关系的索引文件、分析应用过程的全描述 功能 静态元数据 数据的结构、名称、格式等 劢态元数据 数据的状态不使用方法 使用目的 技术元数据 在管理信息技术开发、维护和环境中所进行的分析、设计、开发、管理等不技术密切相关的数据 业务元数据 为业务目标和过程的解释提供了更加便捷的浏览、导航和查询功用,并使终端用户更易于理解企业环境下的多样服务 21 数据集为基础-元数据文件 优:独立性强 劣:管理丌方便 数据库为基础-元数据库 优:管理方便 目前趋势:元数据库 保证数据仓库数据的一致性和准确性,为企业进行数据质量管理提供基础。元数据元数据存储方式 元数据的作用元数据的作用 描述哪些数据在数据仓库中,帮劣决策分析者对数据仓库的内容定位。定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。记彔业务事件发生而随之进行的数据抽取工作时间安排。记彔并检测系统数据一致性的要求和执行情况。评估数据质量。22 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 粒度(Granularity):数据的综合程度高低 的一个 度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。确定数据粒度的基本准则:粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。24 区域粒度 时间粒度 国家(较大)、城市 季度(较大)、月仹 粒度的划分:早期细节 当前细节 轻度综合 高度综合 25 数据仓库中的数据组织结构数据仓库中的数据组织结构 高度综合级 轻度综合级 当前细节级 早期细节级 多级数据多级数据 26 有关与家讣为,如果数据量只有10000行时,丌考虑粒度,如果有一千万行时,需要一个低的粒度级。如何设计数据粒度 例:某电信公司,客户查询通话的记彔 27 如何设计数据粒度(1)要接受的分析类型、可接受的数据最低粒度和能存储的数据量;(2)粒度的层次定义越高,就越丌能在该仓库中进行更细致的分析;(3)在同一模式中使用多重粒度;(4)如果存储资源有一定的限制,就只能采用较高粒度的数据粒度划分策;(5)粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷;(6)数据粒度划分策略一定要保证数据的粒度 确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。数据来源:万方数据 作者:李静 数据仓库概述 3.1.3 数据仓库的发展 CONTENTS 发展历程 1 发展趋势 2 萌芽阶段 探索阶段 雏形阶段 确立阶段 发展阶段 20世纪70年代 试图将业务处理系统和分析系统分开(MIT)20世纪80年代中后期 TA2规范确定分析系统的四个组成部分:数据获取、数据访问、目录和用户服务(DEC)1988年 VITAL规范:85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网(IBM)1991年 Bill Inmon:Building the Data Warehouse 建立数据仓库的指导意见和基本原则 云原生数据仓库 至今 新型数据仓库的 驱动力 敏捷性 云 下一代数据 数据来源:https:/ 新数据仓库 如何为企业解决问题 数据湖 物联网流数据 跨组织分散的数据 结合两者的优点参与设计 SUMMARY 思考:结合所学内容,通过信息检索比较概念:数据库、数据仓库、数据集市、数据湖、数据中台 数据仓库架构 3.2.1 数据仓库的结构 CONTENTS 基本的数据仓库结构 1 特殊的数据仓库结构 2 查询/生成报告 操作型数据库外部数据源数据的提取、清理、转换、装入、刷新数据仓库数据集市元数据数据的监控数据的管理OLAP服务器OLAP服务器 数据的输出图表分析数据挖掘数据底层数据仓库服务器10%10%25%15%40%中间层OLAP服务器顶层前端工具数据仓库的三层结构 基本的数据仓库结构 特殊的数据仓库结构 独立数据集市架构 数据集市总线架构 星型拓扑架构 集中数据仓库架构 联合数据仓库架构 特殊的数据仓库结构 结合两者的优点参与设计 SUMMARY 思考:数据仓库的结构中的底层-数据仓库服务器的作用是什么?数据仓库架构 3.2.1操作数据存储 2 操作数据存储(操作数据存储(Operational Data Store,ODS)比较内容 数据仓库(DW)操作数据存储(ODS)主要特点 面向主题的 集成的 相对稳定的 反应历史变化的 面向主题的 集成的 可变的 当前的细节数据集合 作用 用于支持管理决策和信息的全局共享 用于支持企业对于即时性的、操作性的、集成的全体信息的需求。3 为什么需要操作数据存储(为什么需要操作数据存储(Operational Data Store,ODS)常常被作为数据仓库的过渡,也是数据仓库结构中的可选项之一。作用:1)在业务系统和数据仓库之间形成一个隔离层(DB-ODS-DW)。2)转移一部分业务系统细节查询的功能。3)完成数据仓库中不能完成的一些功能。4 操作数据存储操作数据存储ODS 数据仓库(数据仓库(Business data warehouse)业务系统(业务系统(Operational systems)数据集市(数据集市(Data marts)操作数据存储(操作数据存储(Operational data store)元数据管理元数据管理(MetaData)数据仓库架构 3.2.3数据的抽取转换加载 抽取(Extract)、转换(Transform)、加载(Load)ETL CONTENTS ETL基本概念 1 E-T-L详解 2 ETL工具 3 抽取(Extract)、转换(Transform)、加载(Load)ETL ETL基本概念 Extraction(数据抽取数据抽取):将数据从各种原始的业务系统中读取出来 Transformation(转换转换)(Clean(清洗清洗):按照预先数据设计好的规则将抽取的数据迚行转换、清洗,以及处理一些冗余、歧义的数据,将本来异构的数据格式能统一起来。Loading(加载加载):将转换完的数据导入到数据仓库中 ETL基本概念 ETL定义:ETL负责将分散的、异构数据源中的数据,例如:关系数据、平面数据文件、第三方接口数据等抽取到临时中间层后迚行清洗、转换、集成,最后加载到目标数据仓库戒数据集市中,成为联机分析处理、数据挖掘的基础。ETL销售商品采购商品库存商品日常事务处理操作型应用信息文件数据仓库读取增加修改删除决策分析应用读取1 1.ETL贯穿于项目始终,它是整个数据仓库的生命线 2.它是联机分析处理、数据挖掘的基础 3.ETL设计的好坏直接关接到BI项目的成败 ETL为BI/DW的核心和灵魂 操作型 数据 存储 E ET(C)L(C)联机分析处理 数据仓库 目的是将企业中的分散、零乱、标准丌统一的数据整合到一起,为企业的决策提供分析依据 2(一一)、数据抽取前的准备工作、数据抽取前的准备工作 确定数据来源 文件系统、业务系统、第三方接口数据 确定抽取方式 根据具体业务进行全量或者增量抽取 考虑抽取策略 根据具体的业务制定抽取的时间、频度,以及抽取的流程 E-T-L详解:Extraction(数据抽取数据抽取)2(二二)、数据抽取、数据抽取需要解决需要解决数据源的数据源的问题问题 数据的时间差异性问题 在抽取旧有数据时,要将不同时期的数据定义统一,较早的数据不够完整或不符合新系统的数据规范,一般可以根据规则,在存入中转区的过程中予以更新或补充。数据的平台多样性问题 在抽取旧有数据时,大部分数据都可采用表复制方式直接导入数据中转区集中,再做处理,但有部分数据可能需要转换成文本文件或使用第三方工具如 Informatica等装载入数据中转区。这部分数据主要是与数据中转区数据库平台不一致的数据库数据,或非存储于数据库内的文本、excel等数据 数据的丌稳定性问题 对于重要信息的完整历史变更记录,在抽取时可以根据各时期的历史信息,在抽取需要信息等基本属性的旧有数据时,要与相应时段的信息关联得到真实的历史属性 数据的依赖性问题 旧有业务系统的数据关联一般已有约束保证,代码表和参照表等数据也比较准确,但仍有少量数据不完整,对这部分数据,需根据需求采取清洗策略,保证数据仓库各事实表和维表之间的关联完整有效 E-T-L详解:Extraction(数据抽取数据抽取)(三三)、抽取方式、抽取方式 全量数据抽取 关键数据(例如用户表)数据量较小(100W条记录)(例如渠道信息表)变更数据丌可确定戒判断困难 增量数据抽取 数据量大(例如业务受理信息)时间增量(例如用户话单)可跟踪变化数据(例如产品订购表)数据可变更(1)全量抽取 全量抽取类似于数据迁移戒数据复制,它将数据源中的表戒视图的数据原封丌劢的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。(2)增量抽取 对于数据量大的系统,必须考虑增量抽取。一般情冴下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取乊前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情冴下,业务系统没有戒者部分有时间戳。E-T-L详解:Extraction(数据抽取数据抽取)2 日志对比 通过分析数据库自身的日志来判断变化的数据,识别从上次抽取乊后发生变化的数据。在对源表迚行insert、update戒 delete等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。优点:易于捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。缺点:需要由业务系统程序用代码来完成 全表比对 关键字段迚行字段比对。事先为要抽取的表建立一个临时表,该临时表记录源表主键和关键字段。每次迚行数据抽取时,对源表和临时表迚行对应关键字段的比对,从而决定源表中的数据是新增、修改还是删除,同时更新临时表数据。优点:对源系统的倾入性较小(仅需要建立一个临时表)缺点:是被劢的迚行全表数据的比对,性能较差。当表中没有主键戒唯一列且含有重复记录时,该方式的准确性较差。时间戳 基于快照比较,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当迚行数据抽取时,通过比较系统时间不时间戳字段的值来决定抽取哪些数据。优点:性能比较好,数据抽取相对清楚简单 缺点:对业务系统也有很大的倾入性(加入额外的时间戳字段),要求业务系统迚行额外的更新时间戳操作。无法捕获对时间戳以前据的delete和update操作,在数据准确性上受到了一定的限制。触发器 在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记戒删除。优点:数据抽取的性能较高 缺点:要求业务表建立触发器,对业务系统有一定的影响。增量抽取捕获变化数据 E-T-L详解:Extraction(数据抽取数据抽取)增量抽取的 性能因素 对源系统性能的负面影响 抽取迚程本身的性能 E-T-L详解:Extraction(数据抽取数据抽取)2(一一)、数据清洗转换、数据清洗转换 一般情况下,数据仓库分为ODS、DW两部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。E-T-L详解:Transformation(转换转换)T(清洗、转换),一般情冴下这部分工作量是整个ETL的2/3 2(二二)、数据质量数据质量 正确性(Accuracy):数据是否正确的表示了现实戒可证实的来源?完整性(Integrity):数据乊间的参照完整性是否存在戒一致?一致性(Consistency):数据是否被一致的定义戒理解?完备性(Completeness):所有需要的数据都存在吗?有效性(Validity):数据是否在企业定义的可接受的范围乊内?时效性(Timeliness):数据在需要的时侯是有效的吗?可获取性(Accessibility):数据是否易于获取、易于理解和易于使用?E-T-L详解:Transformation(转换转换)2 数据清洗数据清洗 1.丌完整的数据 2.错误的数据 3.重复的数据 4.冲突的数据 5.无效的数据 6.丌规范的数据 7.主外键约束 E-T-L详解:Transformation(转换转换)2 数据转换 1.代码标准化 2.数据粒度的转换 3.根据业务规则计算 4.数据汇总计算 5.数据合并拆分 6.行列互换 7.排序、修改序号 8.数据验证 9.数据含义一致性 10.缓慢变化维 E-T-L详解:Transformation(转换转换)2(一)、数据加载 数据加载主要是将绊过转换和清洗的数据加载到数据仓库中,这时的数据已绊是基于分析模型迚行组织起来的。初始加载。一次对整个数据仓库迚行装载。增量加载。保证数据仓库不源数据变化的同期性。(触发器、时间戳、日志表、全表删除插入、全表比对)完全刷新。周期性地重写整个数据仓库,也可能只对一部分数据迚行刷新。E-T-L详解:Loading(加载加载)ETL工具 主流ETL工具介绉 ETL工具 SQL方式实现(编码实现)ETL工具和SQL相结合。数据库厂商自带ETL工具 Oracle Data Integrator SQLServer 的SSIS服务 第三方工具厂商 NCR Teradata Cognos Informatic IBM DataStage 开源ETL工具 Kettle Talend KETL Apatar 结合两者的优点参不设计 SUMMARY 思考:ETL在数据仓库架构中的作用是什么?谢 谢 观 看 主讲人:薛云 数据仓库建模 数据仓库模型 3.3.1 概念模型 CONTENTS 数据仓库的数据模型 1 概念模型 2 概念模型实例 3 4 一、数据仓库的数据模型一、数据仓库的数据模型 数据模型:数据模型是数据库设计中用来对现实世界进行抽象的工具,是数据库中用亍提供信息表示和操作手段的形式构架,它强调从业务、数据存取和使用角度,合理的存储数据。只有数据模型将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。5 一、数据仓库的数据模型一、数据仓库的数据模型 概念模型 逻辑模型 物理模型 面向用户的需求 更详细的 技术细节 6 二、概念模型二、概念模型(conceptual data model)概念模型:独立亍计算机系统,完全不涉及信息在计算机系统的表示,只关心用来描述某个特定组织所关心的信息结构。是用户和数据库设计人员之间进行交流的工具。形式:信息包图 构成部分 含义 维度(顶部)表示维度(维度名称)维度的属性(中间)表示维度的具体构成(维度的层次戒分类)关键指标戒事实(底部)表示需要分析的关键指标 信息包图的构成 7 概念模型概念模型(conceptual data model)概念模型:独立亍计算机系统,完全不涉及信息在计算机系统的表示,只关心用来描述某个特定组织所关心的信息结构。是用户和数据库设计人员之间进行交流的工具。准备工作:1.确定系统边界:决策类型、需要的信息、原始信息 2.确定主题域及其内容:主题域的公共键码、联系、属性组 3.确定维度:如时间维、销售位置维、产品维、组别维等 4.确定类别:相应维的详细类别 5.确定度量和事实:用亍进行分析的数值化信息 8 1.确定系统边界:要进行的决策类型有哪些?(戓略、管理、业务)决策者感兴趣的问题是什么?这些问题需要什么信息?要得到这些信息应该包含原有数据库系统的哪部分数据?9 供应商主题供应商主题供应商商品顾客仓库管理员供应关系购买关系仓库管理关系仓储关系顾客主题顾客主题仓库主题仓库主题商品主题商品主题2、确定主题域及其内容:主题域的公共键码、联系、属性组 业务系统的ER图 10 3、确定维度 维度是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维戒三维以上)视图表示的。例如:一个销售系统中的数据可分为时间维、产品维和地理维等;一个财务系统中的数据可分为时间维、支出维和收入维等;一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。4、确定类别:相应维的详细类别 例如:日期维包括年(10)、季度(40)、月(120)等类别 12 5、确定度量和事实 度量:是业务流程节点上的一个数值。比如销量数量,销售金额等 确定度量就是确定与维度分析有关的数值信息。例如:与地理维相关:某个地区的销售数量 与时间维相关:某个时间段的销售金额 事实包含来自业务过程的度量,基本都以数量值表示。事实就是业务流程中的一条业务,是一个度量集。按照粒度的划分包含着度量,连接着维度。例如:2021年 北京地区 华为手机 的 销售数量、销售金额。5、确定度量和事实 14 三、概念模型实例三、概念模型实例 (一)、确定系统边界 1、要进行的决策类型有哪些?(业务决策)2、决策者感兴趣的问题是什么?(销售额较低的地区,不同年龄段客户的销售金额,不同性别客户的销售金额等等)3、这些问题需要什么信息?(时间、地区、年龄、性别、产品、销售额、销售量等)4、要得到这些信息应该包含原有数据库系统的哪部分数据?(产品信息表、订单信息表、客户信息表)某全球连锁超市,销售部门主管发现某地区的销售额一直较低,希望对已有的10年数据,进行不同年龄组别,不同性别、各地区、产品的销售分析。试画出某销售分析的概念模型。15 三、概念模型实例三、概念模型实例 (二)、确定主题:销售分析 某全球连锁超市,销售部门主管发现某地区的销售额一直较低,希望对已有的10年数据,进行不同年龄组别,不同性别、各地区、产品的销售分析。试画出某销售分析的概念模型。16 三、概念模型实例三、概念模型实例 (三)、确定维度和类别(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。某全球连锁超市,销售部门主管发现某地区的销售额一直较低,希望对已有的10年数据,进行不同年龄组别,不同性别、各地区、产品的销售分析。试画出某销售分析的概念模型。17 三、概念模型实例三、概念模型实例 (四)、确定度量与事实:度量和事实是确定用亍进行分析的数值化信息,包括实际销售量、实际销售额、预测销售量和预测偏差等。某全球连锁超市,销售部门主管发现某地区的销售额一直较低,希望对已有的10年数据,进行不同年龄组别,不同性别、各地区、产品的销售分析。试画出某销售分析的概念模型。18 概念模型-销售分析的信息包 日期 销售地点 销售产品 年龄组别 性别 年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商庖(2000)衡量的关键指标或事实:实际销售量、实际销售金额、预测销售量、实际销售量、预测偏差 信息包:销售分析 维度 类别 结合两者的优点参与设计 SUMMARY 思考1:比较维度、度量、事实的概念 思考2:数仓建模中概念模型可以用哪种形式表示。思考1参考答案:维度是我们描述事实的角度 度量是业务中产生的一个数值 事实是一条业务中度量的集合 思考2参考答案:信息包图 谢 谢 观 看 主讲人:薛于 数据仓库建模 数据仓库模型 3.3.2 逻辑模型 CONTENTS 维度建模 1 星型模型 2 雪花模型 3 Ralph Kimball 数据数据仓库方面的知名仓库方面的知名学者学者 理论:主张自下而上(自下而上(DMDWDMDW)的方式 主要著作:数据仓库工具箱一维度建模的完全指南、数据仓库生命周期工具箱一设计、开发和部署数据仓库的专家方法 数据来源:http:/ Bill Inmon 数据仓库之父数据仓库之父 理论:采用自上而下(自上而下(DWDMDWDM)方式 主要著作:建立数据仓库、企业信息工厂、政府信息工厂、数据仓库建模、数据仓库管理、电子商务中的数据仓库技术 数据来源:百度百科 维度建模维度建模是一种将数据结构化数据结构化的逻辑设计逻辑设计方法。Ralph Kimball 数据仓库方面的知名学者 理论:Multidimensional Architecture(MD)主要著作:数据仓库工具箱一维度建模的完全指南、数据仓库生命周期工具箱一设计、开发和部署数据仓库的专家方法 http:/ 维度建模的3要素 主题(Subject)分析的业务主题 维度(Dimension)不同的角度 事实(Fact)业务流程的度量 维度建模 面向分析分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。星型模型 雪花型模型 星座模型 思考问题:1 1、该视频的分析主题?、该视频的分析主题?2 2、该视频分析主题的维、该视频分析主题的维度包括哪些内容度包括哪些内容?3 3、该视频分析主题的事、该视频分析主题的事实包括哪些内容?实包括哪些内容?4 4、这些、这些数据在数据仓库数据在数据仓库中如何中如何组织和存储将更利组织和存储将更利于分析于分析?(?(*)视频来源:https:/ 星型模型案例-主题:全球疫情分析 比比较较 事实表事实表 FactFact TableTable 维度表维度表 DimensionDimension TableTable 数量 位置 构成*含义 数据量变化 1个 星型模型的中央 所有维度表的主键+度量/指标(多个)描述业务流程,正确记录历史信息为准则 增长快 多个 事实表的周围 主键+具体内容 单一的内容,具体的描述 增长缓慢 地域地域维度表维度表 *地域ID 国家名称 所在大州 时间维度表时间维度表 *时间ID 年 月 日 日期 疫情事实表疫情事实表 *时间ID*地域ID 新增确诊人数 Dimension Table Dimension Table Fact Table 特点:一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,所以数据有一定的冗余 星型模型案例-主题:全球疫情分析 基础指标:基础指标:衍生指标:衍生指标:新增确诊人数 新增死亡人数 新增治愈人数 地域地域维度表维度表 *地域ID 国家名称 所在大州 时间维度表时间维度表 *时间ID 年 月 日 日期 疫情事实表疫情事实表 *时间ID*地域ID 新增确诊人数 死亡率死亡率1=1=累计死亡人数累计死亡人数/累计确诊人数累计确诊人数 死亡率死亡率2=2=累计死亡人数累计死亡人数/(累计死亡人数(累计死亡人数+治愈人数)治愈人数)死亡率 治愈率 累计确诊人数 累计死亡人数 累计治愈人数 疫情事实表疫情事实表 *时间ID*地域ID 新增确诊人数 新增死亡人数 新增治愈人数 累计确诊人数 累计死亡人数 累计治愈人数 治愈率 死亡率 地域地域维度表维度表 *地域ID 国家名称 所在大州 省份 城市 数据来源:国家卫健委官网 星型模型案例-主题:全球疫情分析 后续工作?后续工作?http:/:9090/view/report.do?reportId=80c40eddc1b2439fb9da51a40558e497 数据来源:D企业CRM系统数据表。具体应用:构建一个“星型模型”。思考思考题题1 1:维度维度表表和和事实表事实表的的建立如何实现内建立如何实现内容规范化?容规范化?思考思考题题2 2:如何美观有效的表现数据仓库模:如何美观有效的表现数据仓库模型?型?思路指导:思路指导:1 1、熟悉业务背景熟悉业务背景 2 2、确定分析主题、确定分析主题 3 3、事实表、事实表 4 4、维度表、维度表 问题问题1 1:维度表和事实表维度表和事实表建立建立如何实现内容规范化?如何实现内容规范化?问题问题1 1:维度表和事实表维度表和事实表的的建立如何实现内容规范化建立如何实现内容规范化?事实表:维度表主键事实表:维度表主键+度量度量/指标指标 ETLETL工具工具 建模工具建模工具 数据仓库模型数据仓库模型 导入数据库导入数据库 数据分析及可视化工具数据分析及可视化工具 问题问题2 2:如何美观有效的表现数据仓库模型?如何美观有效的表现数据仓库模型?星型模型的应用(The Application of Star Schema)1 1、便于业务需求的交流,容易理解。、便于业务需求的交流,容易理解。2 2、关系表的结构,加速查询浏览。、关系表的结构,加速查询浏览。3 3、适合于追踪查询多条件限制的关键、适合于追踪查询多条件限制的关键指标。指标。地域地域维度表维度表 *地域ID 国家ID 所在大州ID 时间维度表时间维度表 *时间ID 年 月 日 日期 疫情事实表疫情事实表 *时间ID*地域ID 新增确诊人数 Dimension Table Dimension Table Fact Table 国家维度表国家维度表 *国家ID 国家名称 Dimension Table 所在大洲维度所在大洲维度表表 *大洲ID 大洲名称 Dimension Table 雪花型模型:当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。特点:维表进一步层次化,可能是规范化的,以减少冗余,易于维护,并可节省存储空间。结合两者的优点参与设计 SUMMARY 属性 星型模型 雪花模型 数据总量 多 少 可读性 容易 差 表个数 少 多 查询速度 快 慢 冗余度 高 低 对事实表的影响 增加宽度 字段比较少,冗余低 扩展性 差 好 思考:应该选择哪种模型?数据仓库建模 数据仓库模型 3.3.3 物理模型 CONTENTS 物理模型 1 设计目标 2 具体策略 3 概念模型 逻辑模型 物理模型 面向用户的需求 更详细的 技术细节 数据仓库的数据模型数据仓库的数据模型 5 一、物理模型(一、物理模型(physical model)物理模型:将逡辑模型中各种实体表具体化,例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。目的:提高性能和更好地管理好存储的数据 物理模型的主要组成:表、列、主键、外键、同义词、视图、约束、索引、注释、用户角色、安全特权和文件(表空间)6 二、设计目标 设计 目标 提高性能 保证可伸缩性 存储管理 提供简便地管理 灵活性设计 7 三、具体策略 具体 策略 设计存储结构 设计索引策略 设计存储策略 设计存储结构 重要性高、经常存取并对反应时间要求高的数据高速存储设备上;存取频率低或对存取响应时间要求低的数据低速存储设备上 数据的布局时遵循以下原则:(1)丌要把经常需要连接的几张表放在同一存储设备上。(2)如果几台服务器乊间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格。(3)考虑把整个企业共享的细节数据放在主机或其他集中式服务器上(4)丌要把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,