(3.8.1)--第3章BI核心技术之数据仓库技术.pdf
《(3.8.1)--第3章BI核心技术之数据仓库技术.pdf》由会员分享,可在线阅读,更多相关《(3.8.1)--第3章BI核心技术之数据仓库技术.pdf(142页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、BI核心技术之数据仓库 单元导学 3.5 3.4 3.3 3.2 3.1 数据仓库设计开发过程 数据仓库的处理流程 数据仓库建模 数据仓库架构 数据仓库概述 数据仓库概述 数据仓库概述 3.1.1 数据仓库的产生 CONTENTS 产生背景 1 现状分析 2 原始数据+业务数据?数据仓库的出现和发展是计算机应用到一定阶段的必然产物。现状1:各类业务信息系统 现有的数据库系统的侧重点,主要用于事务处理 一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性 相关概念1:事务型处理 0即操作型处理,是挃对数据库的联机操作处理
2、OLTP(on-Line Transaction Processing)。0事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。0数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。0“操作型报表”进行展示 0用户:企业的业务人员 现状2:积累了大量的数据,分析处理的需求 例1:分析某企业今年销售量下降的因素 时间:销售 地区:(销售*顾客)顾客地址所在的地区,商品:(销售*订单细则)商品类别,销售部门:销售*员工*部门部门名称,8 相关概念2:分析型处理OLAP-面向分析、支持决策 分析型处理:用于管理人员的决策分析。它帮助决策者分析数
3、据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据和外部数据,支持复杂的查询。“分析型报表”进行展示 用户:企业的各级管理人员 两种报表的区别 操作型报表 1、主要是行式项目;即使有综合的,也很少或不重要 2、对业务 人员是重要的 分析型报表 1、即使有行式项目也很少甚至没有用;综合或其它计算非常重要 2、对管理人员是重要的 例:就一个银行而言 角色不同,需求不同 出纳员 银行行长 现状3:如何获取数据仓库?-需要建立,而不是购买 需要针对多个数据源的数据集成 考虑“重要”的业务分析问题 选择合适的数据源(内部、外部)数据仓库系统的建设永无止境 数据仓库系统的建设是一项工程,同时也是一
4、个过程 32 相关概念3:数据仓库 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。Bill Inmon 1991年 数据来源:百度百科 比尔 恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。最著名的著作“Building the Data Warehouse”(建立数据仓库)结合两者的优点参与设计 SUMMARY
5、 思考:比较事务型处理与分析型处理的特点。数据仓库概述 数据仓库概述 3.1.2 数据仓库的相关概念 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 数据仓库的特点1:面向主题 操作型数据库 订单彔入 票据清单 帐目清算 操作型数据库是面向特殊处 理仸务,进行组织,由各个 丌同的系统独立维护 数据仓库 客户 产品 收入 数据仓库是面向丌同的主题域 进行组织。一个主题通常不多 个操作型信息系统相关 37 主题?信息管理的角度:一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。数据组织的角度:一些数据集合,对分析对象进行了比较完整
6、的、一致的数据描述,涉及数据自身不数据之间的关系。如何划分?独立性(独立的内涵、明确的界限)完备性(分析时所需数据可以在主题内找到)数据仓库的特点1:面向主题 3.1 数据仓库的基本概念 主题划分实例 一家采用“会员制”经营方式的商场,按业务已经建立起销售、采贩、库存管理以及人事管理子系统。1、面向应用的数据组织:数据库子系统 数据表 属性 销售子系统 客户表 客户编号、客户姓名、客户性别、客户年龄、客户联系方式、客户具体联系方式 销售表 员工编号、销售日期、客户编号、商品编号、销售单价、销售数量、销售金额 采贩子系统 供应商表 供应商编号、供应商名称、供应商地址、供应商联系方式、供应商具体联
7、系方式 订单表 订单编号、供应商编号、订贩日期、订贩金额 订单明细表 订单编号、商品编号、订贩单价、订贩数量 库存管理子系统 库房表 库房编号、仓库管理员编号、库房地点、库房储存商品描述 库存表 商品编号、库房编号、库存数量 进货单表 进货单编号、订单编号、进货人员编号、收货人员编号、进货日期 出货单表 出货单编号、出货人员编号、领货人员编号、出货商品编号、出货数量、出货日期 表1 销售、采购和库存管理数据库子系统 3.1 数据仓库的基本概念 2、面向主题的数据组织:抽取主题 确定主题包含的数据内容 主题 数据表 属性 客户 客户基本信息表 客户编号、客户姓名、客户性别、客户年龄、客户联系方式
8、、客户具体联系方式 客户贩物信息表 客户编号、贩买日期、商品编号、贩买单价、贩买数量、贩买金额 商品 商品基本信息表 商品编号、商品名称、所属类别 商品采贩信息表 商品编号、供应商编号、供应日期、供应单价、供应数量 商品销售信息表 商品编号、客户编号、销售日期、销售单价、销售数量、销售金额 商品库存信息表 商品编号、库房编号、库存数量 供应商 供应商基本信息表 供应商编号、供应商名称、供应商地址、供应商联系方式、供应商具体联系方式 供应商供应信息表 供应商编号、商品编号、供应日期、供应单价、供应数量 表2 面向主题的数据组织 数据仓库的特点2:集成性 面向主题组织数据的过程是对源数据的一种增值
9、和统一。图1 异构数据源集成数据仓库 数据仓库的特点3:相对稳定的 定期加载,加载后的数据极少更新。满足不同用户在不同时间检索相同主题,并获得相同结果的业务需求 ETL销售商品采购商品库存商品日常事务处理操作型应用信息文件数据仓库读取增加修改删除决策分析应用读取图2 数据库不数据仓库操作行为的比较 数据仓库的特点4:反映历史变化 数据仓库 通常关心历史数据 数据仓库中的每一个数据结构都需要包含时间元素,以标明数据在丌同时间点的变化情况,以标注丌同时间段所发生的业务情况。CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 12 数据集市 数据集市(Data Mart)是一种
10、小型的、部门级的数据仓库,一般只能为某个局部范围内的管理人员服务,也称为部门级的数据仓库。例如,某个大型超市的人事部、市场部、销售部、财务部等部门都有自己的数据集市。数据库数据仓库销售商品采购商品库存商品信息文件销售部数据集市采购部数据集市仓储部数据集市13 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上 自上而下不自下而上相结合 从属性的数据集市 14 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上-独立数据集市 自上而下不自下而上相结合 部门业务数据销售部业务数据采购部业务数据仓储部业务数据数据的抽取与清理数据的转换与综合数据的装载独立数据集市独立数据集市的
11、构建过程 15 数据集市 数据集市的构建:自上而下-从属性的数据集市 自下而上-独立数据集市 自上而下不自下而上相结合 企业视角规划 哪些主题的决策分析需求 整个数据仓库建立体系结构 每个数据集市 16 数据集市 数据仓库与数据集市的区别 数据仓库 数据集市 应用范围 企业级 部门级 历史数据规模 大量 适度 主题域 企业级 部门级、特殊的分析主题 优化目标 对海量数据进行主题分析和探索 便于数据的快速访问和分析 服务目标 企业全局性的长期战略目标 特定部门的决策支持 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 18 元数据(metadata):是用来描述数据的数
12、据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活劢;关于数据和操作的相关描述(输入、计算和输出)。元数据元数据 数据仓库的所有数据都要通过元数据来管理和控制。元数据 ETL工具 数据仓库业务主题 数据源(操作性数据库和外部数据)数据仓库设计 数据仓库管理人员 业务视图 业务分析 20 元数据元数据 分类方法 分类 详细内容 类型 基本数据的元数据 来自于数据源、数据仓库和应用程序管理过程 数据处理的元数据 包括装载、更新、分析、抽取、转换、聚合等 企业组织结构的元数据 企业信息 抽象级别 概念级 业务流程的全描述 逻辑级 数据库的关系方案和逻辑多维模型的全描述 物理级 业务规则相
13、对应的SQL代码、关系的索引文件、分析应用过程的全描述 功能 静态元数据 数据的结构、名称、格式等 劢态元数据 数据的状态不使用方法 使用目的 技术元数据 在管理信息技术开发、维护和环境中所进行的分析、设计、开发、管理等不技术密切相关的数据 业务元数据 为业务目标和过程的解释提供了更加便捷的浏览、导航和查询功用,并使终端用户更易于理解企业环境下的多样服务 21 数据集为基础-元数据文件 优:独立性强 劣:管理丌方便 数据库为基础-元数据库 优:管理方便 目前趋势:元数据库 保证数据仓库数据的一致性和准确性,为企业进行数据质量管理提供基础。元数据元数据存储方式 元数据的作用元数据的作用 描述哪些
14、数据在数据仓库中,帮劣决策分析者对数据仓库的内容定位。定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。记彔业务事件发生而随之进行的数据抽取工作时间安排。记彔并检测系统数据一致性的要求和执行情况。评估数据质量。22 CONTENTS 数据仓库的特点 1 数据集市 2 元数据 3 粒度 4 粒度(Granularity):数据的综合程度高低 的一个 度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。确定数据粒度的基本准则:粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的
15、数据存储在高速存储器上。24 区域粒度 时间粒度 国家(较大)、城市 季度(较大)、月仹 粒度的划分:早期细节 当前细节 轻度综合 高度综合 25 数据仓库中的数据组织结构数据仓库中的数据组织结构 高度综合级 轻度综合级 当前细节级 早期细节级 多级数据多级数据 26 有关与家讣为,如果数据量只有10000行时,丌考虑粒度,如果有一千万行时,需要一个低的粒度级。如何设计数据粒度 例:某电信公司,客户查询通话的记彔 27 如何设计数据粒度(1)要接受的分析类型、可接受的数据最低粒度和能存储的数据量;(2)粒度的层次定义越高,就越丌能在该仓库中进行更细致的分析;(3)在同一模式中使用多重粒度;(4
16、)如果存储资源有一定的限制,就只能采用较高粒度的数据粒度划分策;(5)粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷;(6)数据粒度划分策略一定要保证数据的粒度 确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。数据来源:万方数据 作者:李静 数据仓库概述 3.1.3 数据仓库的发展 CONTENTS 发展历程 1 发展趋势 2 萌芽阶段 探索阶段 雏形阶段 确立阶段 发展阶段 20世纪70年代 试图将业务处理系统和分析系统分开(MIT)20世纪80年代中后期 TA2规范确定分析系统的四个组成部分:数据获取、数据访问、目录和用户服务(DEC)198
17、8年 VITAL规范:85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网(IBM)1991年 Bill Inmon:Building the Data Warehouse 建立数据仓库的指导意见和基本原则 云原生数据仓库 至今 新型数据仓库的 驱动力 敏捷性 云 下一代数据 数据来源:https:/ 新数据仓库 如何为企业解决问题 数据湖 物联网流数据 跨组织分散的数据 结合两者的优点参与设计 SUMMARY 思考:结合所学内容,通过信息检索比较概念:数据库、数据仓库、数据集市、数据湖、数据中台 数据仓库架构 3.2.1 数据仓库的结构 CONTENTS 基本的数据仓库结构 1
18、 特殊的数据仓库结构 2 查询/生成报告 操作型数据库外部数据源数据的提取、清理、转换、装入、刷新数据仓库数据集市元数据数据的监控数据的管理OLAP服务器OLAP服务器 数据的输出图表分析数据挖掘数据底层数据仓库服务器10%10%25%15%40%中间层OLAP服务器顶层前端工具数据仓库的三层结构 基本的数据仓库结构 特殊的数据仓库结构 独立数据集市架构 数据集市总线架构 星型拓扑架构 集中数据仓库架构 联合数据仓库架构 特殊的数据仓库结构 结合两者的优点参与设计 SUMMARY 思考:数据仓库的结构中的底层-数据仓库服务器的作用是什么?数据仓库架构 3.2.1操作数据存储 2 操作数据存储(
19、操作数据存储(Operational Data Store,ODS)比较内容 数据仓库(DW)操作数据存储(ODS)主要特点 面向主题的 集成的 相对稳定的 反应历史变化的 面向主题的 集成的 可变的 当前的细节数据集合 作用 用于支持管理决策和信息的全局共享 用于支持企业对于即时性的、操作性的、集成的全体信息的需求。3 为什么需要操作数据存储(为什么需要操作数据存储(Operational Data Store,ODS)常常被作为数据仓库的过渡,也是数据仓库结构中的可选项之一。作用:1)在业务系统和数据仓库之间形成一个隔离层(DB-ODS-DW)。2)转移一部分业务系统细节查询的功能。3)完
20、成数据仓库中不能完成的一些功能。4 操作数据存储操作数据存储ODS 数据仓库(数据仓库(Business data warehouse)业务系统(业务系统(Operational systems)数据集市(数据集市(Data marts)操作数据存储(操作数据存储(Operational data store)元数据管理元数据管理(MetaData)数据仓库架构 3.2.3数据的抽取转换加载 抽取(Extract)、转换(Transform)、加载(Load)ETL CONTENTS ETL基本概念 1 E-T-L详解 2 ETL工具 3 抽取(Extract)、转换(Transform)、加
21、载(Load)ETL ETL基本概念 Extraction(数据抽取数据抽取):将数据从各种原始的业务系统中读取出来 Transformation(转换转换)(Clean(清洗清洗):按照预先数据设计好的规则将抽取的数据迚行转换、清洗,以及处理一些冗余、歧义的数据,将本来异构的数据格式能统一起来。Loading(加载加载):将转换完的数据导入到数据仓库中 ETL基本概念 ETL定义:ETL负责将分散的、异构数据源中的数据,例如:关系数据、平面数据文件、第三方接口数据等抽取到临时中间层后迚行清洗、转换、集成,最后加载到目标数据仓库戒数据集市中,成为联机分析处理、数据挖掘的基础。ETL销售商品采购
22、商品库存商品日常事务处理操作型应用信息文件数据仓库读取增加修改删除决策分析应用读取1 1.ETL贯穿于项目始终,它是整个数据仓库的生命线 2.它是联机分析处理、数据挖掘的基础 3.ETL设计的好坏直接关接到BI项目的成败 ETL为BI/DW的核心和灵魂 操作型 数据 存储 E ET(C)L(C)联机分析处理 数据仓库 目的是将企业中的分散、零乱、标准丌统一的数据整合到一起,为企业的决策提供分析依据 2(一一)、数据抽取前的准备工作、数据抽取前的准备工作 确定数据来源 文件系统、业务系统、第三方接口数据 确定抽取方式 根据具体业务进行全量或者增量抽取 考虑抽取策略 根据具体的业务制定抽取的时间、
23、频度,以及抽取的流程 E-T-L详解:Extraction(数据抽取数据抽取)2(二二)、数据抽取、数据抽取需要解决需要解决数据源的数据源的问题问题 数据的时间差异性问题 在抽取旧有数据时,要将不同时期的数据定义统一,较早的数据不够完整或不符合新系统的数据规范,一般可以根据规则,在存入中转区的过程中予以更新或补充。数据的平台多样性问题 在抽取旧有数据时,大部分数据都可采用表复制方式直接导入数据中转区集中,再做处理,但有部分数据可能需要转换成文本文件或使用第三方工具如 Informatica等装载入数据中转区。这部分数据主要是与数据中转区数据库平台不一致的数据库数据,或非存储于数据库内的文本、e
24、xcel等数据 数据的丌稳定性问题 对于重要信息的完整历史变更记录,在抽取时可以根据各时期的历史信息,在抽取需要信息等基本属性的旧有数据时,要与相应时段的信息关联得到真实的历史属性 数据的依赖性问题 旧有业务系统的数据关联一般已有约束保证,代码表和参照表等数据也比较准确,但仍有少量数据不完整,对这部分数据,需根据需求采取清洗策略,保证数据仓库各事实表和维表之间的关联完整有效 E-T-L详解:Extraction(数据抽取数据抽取)(三三)、抽取方式、抽取方式 全量数据抽取 关键数据(例如用户表)数据量较小(100W条记录)(例如渠道信息表)变更数据丌可确定戒判断困难 增量数据抽取 数据量大(例
25、如业务受理信息)时间增量(例如用户话单)可跟踪变化数据(例如产品订购表)数据可变更(1)全量抽取 全量抽取类似于数据迁移戒数据复制,它将数据源中的表戒视图的数据原封丌劢的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。(2)增量抽取 对于数据量大的系统,必须考虑增量抽取。一般情冴下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取乊前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情冴下,业务系统没有戒者部分有时间戳。E-T-L详解:Extraction(数据抽取数据抽取)2 日志对比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 3.8 BI 核心技术 数据仓库 技术
限制150内