第1章数据仓库概述14445.pptx
《第1章数据仓库概述14445.pptx》由会员分享,可在线阅读,更多相关《第1章数据仓库概述14445.pptx(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第1章章 数据仓库概述数据仓库概述DW&DM1l数据库到数据仓库的演变DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景 数据库到数据仓库的演变数据库的发展 企业运营环境 以数据库为中心企业级数据库市场部 销售、市场策划财务部 产生财务报表人事部 人员变动情况 蜘蛛网问题蜘蛛网问题(图1-1)1数据分析的结果缺乏可靠性 图1-2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。市场部认为“业务A的市场前景很好”,而计划部却得到截然相反的结果“业务A没有市场前景”。作为企业的最棕决策者,将如何根据这样的结论进行决策呢?一、一、蜘蛛网问题
2、蜘蛛网问题DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景外部市场信息A分析程序1分析结果1:业务A市场前景很好分析结果2:业务A没有市场前景外部市场信息B外部市场信息C抽取数据的时间不同分析程序2抽取数据的内容不同外 部 信 息分析程序和内容不同 两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析两个过程的差异来寻求原因。首先,市场部门和计划部门从企业数据库中抽取的数据可能不同,比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取的是在普通客户中对业务A的
3、使用情况,二者分析的数据存在差异。其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最终分析结果不同。最后,市场部门使用的分析程序可能与计划部不同,通过上面的分析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是数据的来源部一致,对于不同来源的数据的分析结果显然是不
4、一致的。2.数据处理的效率很低 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2,对于中小型数据库可能使用SQL Server。各种数据库的开发工具和开发环境不同,抽取程序应用的技术不同,因而难以集成。如果一个大型企业的决策者需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到,首先,需要确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员分析员对应用进行分析,设计和编码。由于数据分散在各个数据库中,因此需要编写的程序很多。由于在企业中使用的数据库类型很多,因此可能需要使用多种的技术来实
5、现。程序的重用性很差,因为决策者明天想看的内容很可能和今天是不同的。可见,动用大量的人力,物力和时间才能完成的报表不仅实效性很差,数据处理的效率也很低。DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景以数据库为中心以数据库为中心以数据仓库为中心 以数据仓库为中心3.难以将数据转化成信息 除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结构还难以将数据转化为信息。比如,某电力公司想分析某个大客户今年的情况和过去的3年有什么不同?大客户的情况可能包括客户的呼叫行为,话费情况,交费情况,咨询问题等。因此想要比较完整的回答这个问题,实际上需要将客户多方面的数据综合成
6、信息。在实际的数据库系统中,记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图14所示。每个数据库由于其数据量和业务处理的需求不同,对于历史数据的存储时间也不同,因此以现有的数据库系统难以提供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数据中提取出完整的信息。DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析型系统的使用人员通常是企业的中高层的管
7、理者,或者是从事数据分析的工程师。分析型系统包含的信息而非具体的细节,其目的是为企业的决策者提供支持信息。操作型系统和分析型系统的划分如图14所示。操作型处理和分析型处理的分离,划清了数据处理的分析型环境和操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境,如图15所示。DW&DM第一章 数据仓库概述1.1 数据库到数据仓库的演变1.3 仓库的应用前景以数据库为中心以数据库为中心以数据仓库为中心 以数据仓库为中心DW&DM2.1 数据仓库的体系结构 2.
8、2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线1.2 数据仓库体系结构一、数据仓库体系结构(图 1-6)由于数据库和数据仓库的出发点不同,数据仓库将独立于业务数据库系统,但是数据仓库又同数据库系统息息相关。也就是说,数据仓库不是简单对数据进行存储,而是对数据进行“再组织”。2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM数据挖掘系统/数据展现系统数据集市数据提取提取仓库数 据元 数 据数据集市数据集市数据集市数据仓库存储企业外部数据业务操作型数据2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条
9、技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据数据清洗/转换DW&DM1.3数据仓库重要名词 1 1数据提取(数据提取(Data ExtractionData Extraction)数据抽取数据抽取 数据仓库按主题从业务数据库提取相关数据的过程。数据仓库按主题从业务数据库提取相关数据的过程。从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必须的。数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必须的那一部分数据。例如:某超市确定以分析客户的购买行为为主题建立数据仓库,只需将同客户购买行为相关的数据提取出来,超市员工的数据没有必要放进数据仓库。2 数据
10、清洗(数据清洗(Data Cleaning)企业建立很多不同的数据库企业建立很多不同的数据库 数据的不一致数据的不一致 是将错误的、不一致的数据在进入数据仓库之前予以更正或 删除,以免影响DSS决策的正确性。图22所示,客户数据库中有客户基本信息表,客户服务数据库中有一张客户咨询信息表,由于操作人员的失误,将客户信息表中的“张山”在客户咨询表录入为“张三”。图23所示,客户信息表“张三”的手机状态是正常,此时张山去办理停机,在客户业务变更表中,手机状态修改为“停机”,如果数据刷新不够实时,导致客户基本信息表和客户业务表变更不同步。2.1 数据仓库的体系结构DW&DM客户基本信息表客户咨询信息表
11、客户基本信息表客户业务变更信息表客户号:100姓名:张山年龄:23客户号:100姓名:张山咨询问题:客户号:100姓名:张山年龄:23手机服务状态:正常客户号:100姓名:张山业务变更:停机2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM3 数据转化(数据转化(Data Transformation)(图)(图2-4)把源数据的数据格式转换成统一的数据格式的过程。把源数据的数据格式转换成统一的数据格式的过程。也叫:数据集成(也叫:数据集成(Data Integrati
12、on)由于业务系统可能使用不同的数据库厂商的产品,比如IBM DB2、informix、Sybase.Sql server 等,各种数据库产品提供的数据类型可能不同,需要将不同格式的数据转换成统一的格式。4 提取仓库提取仓库 由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在数据放进数据由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在数据放进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。5 5提取日志(提取日志(Extraction StoreExtraction Store)6
13、 6 当从业务系统提取数据时,需要记录提取数据的过程,该过程被记载在提取日当从业务系统提取数据时,需要记录提取数据的过程,该过程被记载在提取日志中。提取日志详细的记录了数据的来源,数据的转化过程等。志中。提取日志详细的记录了数据的来源,数据的转化过程等。6 6 数据管理员数据管理员 是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据 提取的错误和源于业务系统的错误。提取的错误和源于业务系统的错误。2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2
14、.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM2000-2-3.2000-2-52000-2-42/3/2000.2/5/20002/4/20002000/2/3.2000/2/52000/2/42.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM7 外部数据源(外部数据源(External Source)从系统外部获取的同主题分析相关的数据来源。从系统外部获取的同主题分析相关的数据来源。例:采购部 (确定采购订单)采购货单 产品销售情况(内部)商品的价格
15、水平 质量水平 竞争对手的采购信息(外部)8数据仓库存储数据仓库存储9 用于存放数据仓库数据和元数据的存储空间。用于存放数据仓库数据和元数据的存储空间。10 数据存储方式:多维数据集,关系型数据库以及二者的结合。数据存储方式:多维数据集,关系型数据库以及二者的结合。9数据数据10 业务系统中提取的或者从外部数据源中导入的数据进行清洗,转化后成为业务系统中提取的或者从外部数据源中导入的数据进行清洗,转化后成为数据仓库的原始数据,它们是数据仓库数据的一部分,不是全部。数据仓库的原始数据,它们是数据仓库数据的一部分,不是全部。2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组
16、织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM10 元数据(元数据(Meta Data)(图)(图2-5)数据是对事物的描述,而元数据是对数据的描述;它提供了有关数据的环境。数据是对事物的描述,而元数据是对数据的描述;它提供了有关数据的环境。数据仓库中的元数据有两类:数据仓库中的元数据有两类:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据的名称,属性及其在提取仓库中的转化;数据的名称,属性及其在提取仓库中的转化;第二种是在数据仓库中是用来与最
17、终用户的多维商业模型和前端工具之间建立映第二种是在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持系统元数据,包括射的,这种数据成为决策支持系统元数据,包括 (1)数据仓库中的信息的种类,存储位置,存储格式)数据仓库中的信息的种类,存储位置,存储格式 (2)信息之间的关系,信息和业务的关系,数据使用的业务规则()信息之间的关系,信息和业务的关系,数据使用的业务规则(3)数据模型)数据模型(4)数据模型和数据仓库的关系。)数据模型和数据仓库的关系。例如:从customer业务数据库的user表中取出3列(user_id,user_name,address),
18、在清洗转换过程中,将user_name从char(20)转化为varchar(50)格式,最终放进user维表(User_ID,User_name,Address)中,转换后(User_ID,User_name,Address)3列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都作为元数据的一部分,图25所示。2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DMChar(20)User_nameVarchar(50)User_Name
19、User 表User_idUser_nameaddressUser_IDUser_NameAddressUser 维表原始数据位置数据清洗转化数据最终存放位置格式转化Customer 数据库 维表 数据库2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据11数据集市(数据集市(Data Market)12 面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据13子集。子集。14 减少数据处
20、理量,使信息更快捷,灵活。DW&DM权威定义权威定义 ,William Inmon William Inmon 博士博士 90 90年代年代 初,给出:初,给出:数据仓库:数据仓库:通常是一个面向主题的、集成的、随时间变化的、但信息本身是相对稳定的数据集合,用于对管理决策过程的支持。1.4 数据仓库定义操作型数据的特点分析型数据的特点细节的综合的、经过提炼的在存取的瞬间是准确的代表过去的数据可更新的不可更新操作需求通常事先知道分析需求通常事先不知道生命周期符合SDLC生命周期不同于SDLC对性能(如操作时延)要求高对性能要求较宽一个时刻操作一个数据单元一个时刻操作一个数据集合事务驱动(数据驱动
21、)分析驱动(模型驱动)面向应用面向分析一次操作数量小一次操作数据量很大支持日常操作需求支持管理需求操作型数据和分析型数据的特性比较操作型数据和分析型数据的特性比较2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM一、数据库的功能和特性1数据的安全性数据的安全性 (以 SQL Server 为例)用用 户户DBAPDBMS操作系统操作系统数据库数据库身份验证身份验证操作权控制操作权控制文件操作控制文件操作控制加密存储加密存储与与 控制控制计算机系统的安全模式计算机系统的安
22、全模式数据库数据的加密存取数据库数据的加密存取 防止有意的非法活动;防止有意的非法活动;使用用户身份验证使用用户身份验证限制操作权限制操作权 控制有意的非法操作;控制有意的非法操作;提高系统可靠性提高系统可靠性数据备份数据备份 控制无意的损坏控制无意的损坏2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM2 2 数据处理的并发性数据处理的并发性事务事务T T1 1 时间时间 事务事务T T2 2读 A=16 T1 k T2 读 A=16 B=B2,写回B=200 A=A
23、-1 T3 写回 A=15 T4 A=A-4 写回 A=12 (覆盖了(覆盖了T T1 1对对A A的修改)的修改)丢失数据修改丢失数据修改2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM事务事务T T1 1 时间时间 事务事务T T2 2对A加X锁 T1 获得 k读A=16 T2 T3 要对 A 加X 锁 等待 修改A=A 1 T4 等待 写回A=15释放对A的X锁 T5 等待o T6 获得对A的X锁p T7 读A=15q T8 修改A=A 4 写回A=11 T9
24、释放对A的X锁 没没有有丢丢失失数数据据2.1 数据仓库的体系结构 2.2 数据仓库的特点2.3 数据仓库的数据组织2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS2.6 外部数据和非结构数据DW&DM3 3 事务处理的可靠性事务处理的可靠性事务(事务(TransactionTransaction):):是用户定义的数据操作系列,这些操作可作为一个完整的工作单元。一个事务内的所有语句是一个整体,要么全部执行,要么全部不执行。例如:例如:A 账户向账户向B 账户转帐账户转帐100元元 第一个动作第一个动作 A 账户账户 100元元 第二个动作第二个动作 B 账户账户 +100元元事
25、务的特征:(1 1)原子性(原子性(AtomicityAtomicity)事务是数据库的逻辑工作单位,其中的操作,要么都进行,要么都不进行;事务是数据库的逻辑工作单位,其中的操作,要么都进行,要么都不进行;(2 2)一致性(一致性(ConsistencyConsistency)事务的执行结果,必须是从数据库的一个一致性状态转换到另一个一致性状态;事务的执行结果,必须是从数据库的一个一致性状态转换到另一个一致性状态;(3 3)隔离性(隔离性(IsolationIsolation)一事务的操作不受其它事务的干扰,即事务操作中使用的数据是隔离的;一事务的操作不受其它事务的干扰,即事务操作中使用的数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概述 14445
限制150内