数据仓库建模与ETL的实践技巧.ppt
《数据仓库建模与ETL的实践技巧.ppt》由会员分享,可在线阅读,更多相关《数据仓库建模与ETL的实践技巧.ppt(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、BIBI,数据,数据仓库(DWDW)建模与)建模与ETLETL的的实践技巧践技巧作者:作者:MALONEMALONE日期:日期:2009-02-202009-02-20主要内容主要内容(一一)一、什么是一、什么是BIBI(Business IntelligenceBusiness Intelligence)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)、常用的、常用的BI BI 厂商和产品厂商和产品主要内容主要内容(二二)二、数据仓库的架构二、数据仓库的架构(一一)、
2、什么是数据仓库?、什么是数据仓库?(二二)、数据仓库和、数据仓库和OLTP数据库的区别数据库的区别?(三三)、数据仓库的架构模型有哪些?、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法三、构建企业级数据仓库五步法 (一一)、确定主题、确定主题 (二二)、确定量度、确定量度 (三三)、确定事实数据粒度、确定事实数据粒度 (四四)、确定维度、确定维度1.如何理解维度?及维度的层次和级别如何理解维度?及维度的层次和级别?2.什么是缓慢变化维度?什么是缓慢变化维度?3.缓慢变化维度缓慢变化维度 几种基本情况?几种基本情况?几种情况的利弊?几种情况的利弊?(五五)、创建事实表、创建事实表主要内容
3、主要内容(三三)四、什么是四、什么是ETL(ETLETL(ETL中的关键技术中的关键技术)(一一)、数据抽取、数据抽取(1)(1)全量抽取全量抽取 (2)(2)增量抽取增量抽取 增量数据抽取中常用的捕获变化数据的方法增量数据抽取中常用的捕获变化数据的方法:a.a.触发器触发器b.b.时间戳时间戳c.c.全表比对全表比对d.d.日志对比日志对比 (二二)、数据转换和加工、数据转换和加工 (1)ETL(1)ETL引擎中的数据转换和加工引擎中的数据转换和加工 (2)(2)在数据库中进行数据加工在数据库中进行数据加工 (三三)、数据装载、数据装载(1)(1)直接直接SQLSQL语句进行语句进行inse
4、rtinsert、updateupdate、deletedelete操作操作 (2)(2)采用批量装载方法,如采用批量装载方法,如bcpbcp、bulkbulk、关系数据库、关系数据库特有的批量装载工具或特有的批量装载工具或apiapi (四四)、主流、主流ETLETL工具介绍工具介绍主要内容主要内容(一一)一、什么是一、什么是BIBI(Business IntelligenceBusiness Intelligence)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)
5、、常用的、常用的BI BI 厂商和产品厂商和产品Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)(一一)、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)a a、什么是、什么是BIBI的定义?的定义?BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助帮助企业更好地利用数据提高决策质量的技术集合技术集合,是从大量的数据中钻取信息与知识
6、的过程。简单讲就是业务、数据、数据价值应用的过程。用图解的方式可以理解为下图:这样不难看出,传统的交易系统完成的是Business到Data的过程,而BI要做的事情是在Data的基础上,让Data产生价值,这个产生价值的过程就是Business Intelligence analyse的过程的过程。Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)b b、如何实现、如何实现Business Intelligence analyse
7、Business Intelligence analyse的过程的过程 从技术角度来说,是一个复杂的技术集合,它包含ETL、DW、OLAP、DM等多环节,基本过程可用下图描述。上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。Marketing Design&BI Application Consulting Comp
8、any一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)说明:说明:BI不能产生决策,而是利用BI过程处理后的数据来支持决策。哪么BI所谓的智能到底是什么呢?(理清这个概念,有助于对BI的应用。)BI最终展现给用户的信息就是报表或图视,但它不同于传统的静态报表或图视,它颠覆了传统报表或图视的提供与阅读的方式,产生的数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或图视,有力的保障了用户分析数据时操作的简单性、报表或图视直观性及思维的连惯性。实例实例:c c、商业智能、商业智能(BI)(BI)在电信行业所处的商业作用和价值
9、?在电信行业所处的商业作用和价值?(什么是电信什么是电信BI)BI)BI应用在电信行业又称作电信经营分析系统。随着竞争的加剧和数据业务的发展,电信业BI市场将进入一个高速发展的时期。在电信市场竞争愈演愈烈的背景下,各个运营商已经从业务为中心向以服务为中心转变,原来赖以竞争的手段如价格战、行业垄断优势、促销策略等以无法适应新形势的需要。为了保住客户资源为了保住客户资源,运营商需要一套业务分析支持系统,以从自身市场数据中获得能够真正反映企业运营状况的有效信息,从而为市场经营决策提供科学支持,商业智能(BI)所处的商业作用和价值显而易见。主要内容主要内容(一一)一、什么是一、什么是BIBI(Busi
10、ness IntelligenceBusiness Intelligence)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)、常用的、常用的BI BI 厂商和产品厂商和产品Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)(二二)、BI的诞生?的诞生?典型的案例有超市,便利店典型的案例有超市,便利店“尿片
11、和啤酒尿片和啤酒”的故事的故事(三三)、基本技术、基本技术 a a、BI(Business Intelligence)BI(Business Intelligence)是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的目的:是为企业决策者提供决策支持。b b、哪么、哪么BIBI技术涉及了哪些方面呢?技术涉及了哪些方面呢?其核心技术中ETL、DW及OLAP。或者说是“数据处理技术”与“数据展现技术”更加容易理解。c c、为什么要在操作型数据库和、为什么要在操作型数据库和 OLAP OLAP 之间加一层之间加一层“数据仓库数据仓库”呢?呢?花空间买时间花空间买时间(资源
12、与效能的问题资源与效能的问题)说一千道一万都计算机资源与效能惹的祸,操作型数据库以快速响应业务为主要目标,而OLAP的时候要占用大量的硬件资源,在OLAP的时候,业务操作很难快速响应,无法保证业务的顺利进行,从业务、数据、数据的价值的逻辑来看,没有业务就谈不上OLAP;零星分散的数据一般存在有多个应用,对应多个业务操作型数据库,访问效能极其低下。最高效的方法:就是将数据先整合到数据仓库中,而 由OLAP应用统一从数据仓库里取数,以解决快速响应业务与OLAP的矛盾。主要内容主要内容(一一)一、什么是一、什么是BIBI(Business IntelligenceBusiness Intellige
13、nce)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)、常用的、常用的BI BI 厂商和产品厂商和产品Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户
14、利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。DB2、InformixOracleSysbase其他数据结构类型其他数据结构类型Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)(四四)、数据处理、数据处理(1)(1)、ODS ODS 层的作用?层的作用?1)1)、在业务系统和数据仓库之间的数据过渡离层
15、。、在业务系统和数据仓库之间的数据过渡离层。如果业务数据来源比较复杂,一般采用构造ODS的方法来实现收集当前需要处理的数据。如下述数据来源:a、业务数据库种类繁多。业务交易系统使用了不同种的数据库,如DB2、Informix、Oracle、SQL server、文本等。b、不同的应用系统、不同的地理位置。c、订阅数据源。d、批量还原非传统数据库数据。.等等。用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。2)2)、保存当前或接近当前的细节数据,以供查询或、保存当前或接近当前的细节数据,以供查询或ETLETL检错使用。检错使用。3)3)、数
16、据存储周期性。、数据存储周期性。ODSODS中存储的数据都是临时的,每次中存储的数据都是临时的,每次ETLETL之前都要清空之前都要清空ODSODS中存储的数据。中存储的数据。(2)(2)、ETL(Extract Transform Load)ETL(Extract Transform Load)操作型业务数据库(操作型业务数据库(DBDB)到数据仓库()到数据仓库(DWDW)的过程称之为)的过程称之为ETLETL,它实现数据的,它实现数据的抽取,转换及装载工作。抽取,转换及装载工作。抽取:抽取:将数据从各种原始的业务系统中读取出来。转换:转换:按照预先设计好的规则将抽取得数据进行转换、清洗,
17、以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。装载:装载:将转换完的数据按计划增量或全部的导入到数据仓库中。在技术上主要涉及增量、转换、调度和监控等几个方面的处理。(3)(3)、DW,(Data Warehouse)DW,(Data Warehouse)数据仓库的官方定义是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。(4)(4)、OLAPOLAP(On-Line Analytical ProcessingOn-Line Analyt
18、ical Processing)即联机分析处理,是BI的一种全新的数据封装方式,直接产物是报表或Cube,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。主要内容主要内容(一一)一、什么是一、什么是BIBI(Business IntelligenceBusiness Intelligence)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)、常用的、常用的BI BI 厂商和产品厂商和产品Market
19、ing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。DB2、InformixOracleSysbase其他数据结构类型
20、其他数据结构类型Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)(五五)、数据展现、数据展现 数据查询是最简单的 BI 应用,输出报表是BI最直接的产物,根据数据连接,加工过程及用途,应用模式大致可以分为四种:格式报表;在线分析;数据可视化;数据挖掘。1 1、格式报表:、格式报表:带格式的数据集合,如:交叉表等。2 2、在线分析:、在线分析:多维数据集合,如:Cube等。3 3、数据可视化:、数据可视化:信息以尽可能多的形式展现
21、出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如柱图,仪表盘等。4 4、数据挖掘:、数据挖掘:从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。(六六)、常用的、常用的BI BI 厂商和产品厂商和产品ETLETL:Informatica,SQL Server Analysis ServerDWDW:IBM DB2,Oracle,NCR Teradata,Sybase IQ等等;OLAPOLAP:Business Objects,Hyperion,Cognos,MicroStrategy,IBM Data MiningData Mining:IBM,SAS
22、,SPSS 现在很多的数据库提供商都开始绑定BI的开发组件到自己的数据库产品中,他们都瞄准了这其中的肥肉,磨拳檫掌,各论长短。Marketing Design&BI Application Consulting Company一、一、什么是什么是BIBI(Business IntelligenceBusiness Intelligence)上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Descr
23、iption and Visualization)的数据,支持业务决策。DB2、InformixOracleSysbase其他数据结构类型其他数据结构类型InformaticaSQL Server Analysis ServerIBM DB2OracleNCR TeradataBusiness ObjectsHyperionCognosMicroStrategy主要内容主要内容(一一)总结总结一、什么是一、什么是BIBI(Business IntelligenceBusiness Intelligence)(一一)、什么是、什么是BIBI的定义?的定义?(二二)、BIBI的诞生?的诞生?(三三
24、)、基本技术、基本技术(四四)、数据处理、数据处理(五五)、数据展现、数据展现(六六)、常用的、常用的BI BI 厂商和产品厂商和产品主要内容主要内容(二二)二、数据仓库的架构二、数据仓库的架构(一一)、什么是数据仓库?、什么是数据仓库?(二二)、数据仓库、数据仓库OLAP和和OLTP数据库的区别数据库的区别?(三三)、数据仓库的架构模型有哪些?、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法三、构建企业级数据仓库五步法 (一一)、确定主题、确定主题 (二二)、确定量度、确定量度 (三三)、确定事实数据粒度、确定事实数据粒度 (四四)、确定维度、确定维度1.如何理解维度?及维度的层次和
25、级别如何理解维度?及维度的层次和级别?2.什么是缓慢变化维度?什么是缓慢变化维度?3.缓慢变化维度缓慢变化维度 几种基本情况?几种基本情况?几种情况的利弊?几种情况的利弊?(五五)、创建事实表、创建事实表Marketing Design&BI Application Consulting Company一、数据仓库的架构一、数据仓库的架构(一一)、什么是数据仓库?、什么是数据仓库?数据仓库(Data Warehouse DW)是为了为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 建模 ETL 实践 技巧
限制150内