《数据仓库入门》PPT课件.ppt
《《数据仓库入门》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据仓库入门》PPT课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Data Warehouse overview数据仓库管理的历史时期数据仓库管理的历史时期l人工管理方式:这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功能;一组数据对应一个应用,这使得程序之间可能有重复的数据。l 文件系统管理 这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了,在硬件和软件方面都得到
2、了发展,磁盘磁鼓出现,操作系统也产生。这一时期数据管理的特点主要是:数据保存,数据可以长期保存在磁盘上;有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了区别;有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度的复用。但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序之间缺乏独立性,容易造成数据的不一致性。l 数据库系统(60年代末开始)数据仓库的发展的动力数据仓库的发展的动力l业务需求驱动主要是详细的分析科学的经营l市场活动的细化和实施等l数据驱动数据量不断扩大没有数据仓库等相关技术很难全面了解企业l项目驱动数据仓库定义数据仓库定义lInmon的定
3、义:DataWarehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making processl数据仓库的特点数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是与时间相关的 数据仓库的数据是稳定的 简单的数据仓库架构简单的数据仓库架构数据仓库实际应用例子数据仓库实际应用例子数据集成数据集成l企业全面的经营数据OLTP分散在各个不同系统中(事件独立)l银行:卡、储蓄、信贷、会计、中间
4、业务等等系统lBOSS增值业务财务l集成数据建立关联l事件关联(业务之间是相互关联)l客户数据统一历史数据l大量历史数据的保存问题中国建设银行一个中等规模的省产生每天的交易详细记录大约200M通常在业务系统中只保存当日数据历史数据查询困难数据仓库数据处理流程数据仓库数据处理流程数据格式检查源数据清洁、抽取、转换ODS数据抽取、转换装载数据到DW装载到OLAP报表展现业务系统数据/外部数据DW数据抽取、转换DW数据生成报表装载数据到ODS分析性查询 ETL简述简述ETL定义定义ETL:Extract-Transform-Load 数 据 抽 取(Extract)、转 换(Transform)、装
5、 载(Load)的过程。ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤ETL应用过程应用过程l数据抽取 抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。(数据源和文件等多种形式)l数据传输 数据传输是通过网络负责把远程的数据到本地目录下。ETL应用过程应用过程l数据的清洗和转换 转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型 到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了
6、各种复杂的 转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转,换数据类型转换、数据汇总计算、数据拼接等等。清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务 规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应 的清洗操作。ETL应用过程应用过程l数据加载入库 数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性lETL调度 ETL的调度控制方式有两种:自动方式 由系统每天定时或准实时启动后台程序,自
7、动完成数据仓库ETL处理流程。手动方式 用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。ETL应用过程应用过程l监控 主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问提,应告警。ETL工具框架工具框架OLAP简述简述OLAP&OLTP(on-line transaction processing)OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB 设计面向应用面向主题数据当前的,最新的细节的,二维的分立的历史的,聚集的,多维的集成的,统一的存取
8、读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB什么是什么是OLAP定定义义1:OLAP(联联机机分分析析处处理理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定定义义2:OLAP(联联机机分分析析处处理理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OL
9、AP的的目目标标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。相关基本概念相关基本概念1.维维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。2.维维的的层层次次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。3.维维的的成成员员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)4.多多维维数数组组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库入门 数据仓库 入门 PPT 课件
限制150内