数据仓库基本原理.ppt
《数据仓库基本原理.ppt》由会员分享,可在线阅读,更多相关《数据仓库基本原理.ppt(131页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 数据仓库基本原理数据仓库基本原理第第2章章 数据仓库的基本原理数据仓库的基本原理 2.1数据仓库的体系结构数据仓库的体系结构2.1.1数据仓库的体系结构数据仓库的体系结构 数数据据仓仓库库的的体体系系结结构构可可以以用用图图2-1来来表表示示。由由于于数数据据库库和和数数据据仓仓库库应应用用的的出出发发点点不不同同,数数据据仓仓库库将将独独立立于于业业务务数数据据库库系系统统,但但是是数数据据仓仓库库与与业业务务数数据据库库系系统统息息息息相相关关。数数据据仓仓库库不不是是简简单单的的对对数数据据进进行行存存储储,而而是对数据进行是对数据进行“再组织再组织”。2.1.1 数据仓库
2、的体系结构数据仓库的体系结构2.1.2 数据仓库的关键名词数据仓库的关键名词下下面面我我们们沿沿着着数数据据的的流流向向详详细细说说明明数数据据在在数数据仓库处理的过程,以及一些关键名词。据仓库处理的过程,以及一些关键名词。1.数据提取(数据提取(DataExtraction)从从数数据据仓仓库库的的角角度度来来看看,并并不不是是业业务务数数据据库库中中的的所所有有数数据据都都是是决决策策支支持持所所必必需需的的。通通常常,数数据据仓仓库库按按照照分分析析的的主主题题来来组组织织数数据据,我我们们只只需需要要提提取取出出系系统统分分析析必必需需的的那那一一部部分分数数据据。例例如如,某某超超市
3、市确确定定以以分分析析客客户户的的购购买买行行为为为为主主题题建建立立数数据据仓仓库库,则则我我们们只只需需将将同同客客户户购购买买行行为为相相关关的的数数据据提提取取出出来来,而而超超市市服服务务员员工工的的数数据据就就没没有有必必要要放放进数据仓库。进数据仓库。现有的数据仓库产品几乎都提供各种关系型现有的数据仓库产品几乎都提供各种关系型数据接口,从关系型数据中提取数据。数据接口,从关系型数据中提取数据。2.1.2 数据仓库的关键名词数据仓库的关键名词2.数据清洗(数据清洗(DataCleaning)由由于于企企业业常常常常为为不不同同的的应应用用对对象象建建立立不不同同的的业业务务数数据据
4、库库,比比如如一一个个电电信信运运营营公公司司拥拥有有计计费费数数据据库库、账账务务数数据据库库、客客户户数数据据库库、客客户户投投诉诉数数据据库库等等业业务务系系统统,这这些些业业务务系系统统中中可可能能包包含含重重复复的的信信息息,比比如如客客户户数数据据库库中中的的部部分分客客户户基基本本信信息息也也在在客客户户投投诉诉数数据据库库中中存在。存在。由由于于不不同同的的数数据据库库可可能能使使用用不不同同数数据据库库公公司司的的产产品品,不不同同的的业业务务系系统统可可能能有有不不同同的的软软件件开开发发商商提提供供,这这使使得得各各个个业业务务数数据据库库中中的的数数据据存存在在不不一一
5、致致的的现现象象,数数据据库库使使用用人人员员的操作失误也会造成数据的不一致。的操作失误也会造成数据的不一致。2.1.2 数据仓库的关键名词数据仓库的关键名词如图如图2-2所示,显示了一个数据不一致的例子。所示,显示了一个数据不一致的例子。客户数据库中有一张客户基本信息表,客户数据库中有一张客户基本信息表,其中记录了客户的客户号、姓名、年龄等其中记录了客户的客户号、姓名、年龄等基本信息。在客户服务数据库中有一张客基本信息。在客户服务数据库中有一张客户咨询信息表用于记录客户咨询问题的内户咨询信息表用于记录客户咨询问题的内容和解答。由于数据库使用人员的失误,容和解答。由于数据库使用人员的失误,使得
6、在客户基本信息表中的使得在客户基本信息表中的100号客户号客户“张张山山”,在客户咨询表中的客户姓名被错误,在客户咨询表中的客户姓名被错误的录入为的录入为“张三张三”。客户基本信息表客户咨询信息表客户号:100姓名:张山年龄:23客户号:100姓名:张三咨询问题:图2-2 操作失误导致数据不一致2.1.2 数据仓库的关键名词数据仓库的关键名词 由于冗余的数据存放在不同的数据库中,如由于冗余的数据存放在不同的数据库中,如果不同数据库间的数据刷新不是实时的,则可能果不同数据库间的数据刷新不是实时的,则可能出现出现数据不同步数据不同步的情况。如图的情况。如图2-3所示,在客户基所示,在客户基本信息表
7、中记录了本信息表中记录了100号客户号客户“张山张山”的手机状的手机状态正常,如果此时张山去办理停机手续,在客户态正常,如果此时张山去办理停机手续,在客户业务变更表中,张山的手机状态将被修改为业务变更表中,张山的手机状态将被修改为“停停机机”,如果数据刷新不够实时,客户基本信息表,如果数据刷新不够实时,客户基本信息表中的手机服务状态将与客户业务变更表不同步。中的手机服务状态将与客户业务变更表不同步。客户基本信息表客户业务变更表客户号:100姓名:张山年龄:23手机服务状态:正常客户号:100姓名:张三业务变更:停机图2-3 数据刷新不实时导致数据不同步2.1.2 数据仓库的关键名词数据仓库的关
8、键名词对对于于决决策策支支持持系系统统来来说说,最最重重要要的的是是决决策策的的准准确确性性,因因此此确确保保数数据据仓仓库库中中数数据据的的准准确确性性是是极极其其重重要要的的。从从多多个个业业务务系系统统中中获获取取数数据据时时,必必须须对对数数据据进进行行必必要要的的清清洗洗,从而得到准确的数据。从而得到准确的数据。所谓所谓“清洗清洗”就是将错误的、不一致就是将错误的、不一致的数据在进入数据仓库之前予以更正或删的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。除,以免影响决策支持系统决策的正确性。2.1.2 数据仓库的关键名词数据仓库的关键名词3.数据转化(数据转
9、化(DataTransformation)由于业务系统可能使用不同的数据库厂由于业务系统可能使用不同的数据库厂商的产品,比如商的产品,比如IBMDB2、Informix、Sybase、SQLServer、NCR等,各种数据等,各种数据库产品提供的数据类型可能不同,因此需要库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。将不同格式的数据转换成统一的数据格式。比如比如图图2-4中所示的不同时间格式的差异。中所示的不同时间格式的差异。2.1.2 数据仓库的关键名词数据仓库的关键名词4.提取仓库(提取仓库(ExtractionStore)由于业务数据库系统中的数据和数据由于
10、业务数据库系统中的数据和数据格式存在不一致的问题,因此在把数据放格式存在不一致的问题,因此在把数据放进数据仓库前需要进行缓存,以等待清洗进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。和转换,这些数据缓存的位置即提取仓库。5.提取日志(提取日志(ExtractionLog)当当从从业业务务系系统统提提取取数数据据时时,需需要要记记录录提提取取数数据据的的过过程程,这这个个过过程程被被记记载载在在提提取取日日志志中中。提提取取日日志志详详细细记记录录了了数数据据的的来来源源,数数据据的的转转化化过过程程等等,它它是是数数据据仓仓库库元元数数据据的的重重要要组组成成部部分
11、分,它它对对于于保保证证数数据据质质量量非非常常重重要要,并并且且便便于于数数据据管管理理员员验验证证数数据据的的质量。质量。2.1.2 数据仓库的关键名词数据仓库的关键名词6.数据管理员数据管理员 在数据仓库中,还有一个重要的角色,在数据仓库中,还有一个重要的角色,就是数据管理员。数据管理员不同于数据就是数据管理员。数据管理员不同于数据库管理员和系统管理员。数据库管理员负库管理员和系统管理员。数据库管理员负责数据库系统的数据备份、恢复、性能优责数据库系统的数据备份、恢复、性能优化等工作,系统管理员负责操作系统级的化等工作,系统管理员负责操作系统级的维护和管理,而数据管理员是负责数据质维护和管
12、理,而数据管理员是负责数据质量的专业人员,数据管理员查阅提取日志,量的专业人员,数据管理员查阅提取日志,发现其中记载的数据提取中出现的错误,发现其中记载的数据提取中出现的错误,有时候数据管理员还要检测源业务系统的有时候数据管理员还要检测源业务系统的错误,比如业务系统中的程序或者不正确错误,比如业务系统中的程序或者不正确的数据项造成的错误。的数据项造成的错误。2.1.2 数据仓库的关键名词数据仓库的关键名词7.外部数据源(外部数据源(ExternalSource)外外部部数数据据源源就就是是从从系系统统外外部部获获取取的的同同分析主题相关的数据。分析主题相关的数据。对对于于一一个个好好的的决决策
13、策,不不但但需需要要系系统统内内部部的的信信息息,还还需需要要来来自自系系统统外外部部的的相相关关信信息息。比比如如,超超市市的的采采购购部部门门要要确确定定采采购购货货单单,不不但但要要了了解解超超市市内内部部产产品品的的销销售售情情况况,还还需需要要了了解解市市场场上上各各种种商商品品的的价价格格水水平平、质质量量水水平平、竞竞争争对对手手的的采采购购信信息息等等。因因此此一一个个好好的的决决策策支支持持系系统统必必须须综综合合考考虑虑系系统统内内部和外部的相关数据。部和外部的相关数据。2.1.2 数据仓库的关键名词数据仓库的关键名词8.数据仓库存储(数据仓库存储(DataReposito
14、ry)数据仓库存储就是用于存放数据仓库数据和数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。数据的存储方式主要有元数据的存储空间。数据的存储方式主要有3种:种:多维数据库、关系型数据库以及前两种存储方式多维数据库、关系型数据库以及前两种存储方式的结合(在第的结合(在第3章章OLAP的基本概念中将详细讲解)的基本概念中将详细讲解)。9.数据数据业业务务系系统统中中提提取取的的或或者者从从外外部部数数据据源源中中导导入入的的数数据据经经过过清清洗洗、转转化化后后成成为为数数据据仓仓库库的的原原始始数数据据,需需要要注注意意的的是是,它它们们是是数数据据仓仓库库数数据据的的一一部部分分,但但
15、不不是是全全部部。由由于于需需要要数数据据仓仓库库进进行行OLAP分分析析和和数数据据挖挖掘掘,因因此此需需要要在在原原始始数数据据的的基基础础上上增增加加冗冗余余信信息息,比比如如进进行行大大量量的的预预运运算算,建建立立多多维数据库,以求迅速的展现数据。维数据库,以求迅速的展现数据。2.1.2 数据仓库的关键名词数据仓库的关键名词10.元数据元数据 数据是对事物的描述,数据是对事物的描述,“元数据元数据”就是描述数据就是描述数据的数据,它提供了有关数据的环境。的数据,它提供了有关数据的环境。数据仓库的元数数据仓库的元数据主要包含两类数据:第一种是为了从操作型环境向据主要包含两类数据:第一种
16、是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;第二种据项的名称、属性及其在提取仓库中的转化;第二种元数据在仓库中是用来与最终用户的多维商业模型和元数据在仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据称为决策支持系前端工具之间建立映射的,这种数据称为决策支持系统(统(DSS)元数据,它包括:)元数据,它包括:(1)数据仓库中信息的种类、存储位置、存储格式;)数据仓库中信息的种类、存储位置、存储格式;(2)信息之间的关系、信息和业务的关系、数据使)信息之间的关系、信息和
17、业务的关系、数据使用的业务规则;用的业务规则;(3)数据模型;)数据模型;(4)数据模型和数据仓库的关系。)数据模型和数据仓库的关系。2.1.2 数据仓库的关键名词数据仓库的关键名词下面通过一个简单的例子说明元数据的基本内容,如图下面通过一个简单的例子说明元数据的基本内容,如图2-5所示所示:我们从我们从Customer业务数据库的业务数据库的user表中取出表中取出3列列(user_id,user_name,address),在清洗转换过程中,将在清洗转换过程中,将user_name从从char(20)转化成转化成varchar(50)格式,最终放进格式,最终放进User维表(维表(User
18、_ID,User_Name,Address)中。在转换后,)中。在转换后,(User_ID,User_Name,Address)3列原始的存放位置、列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分数据使用的规则等等都将作为元数据的一部分。通常数据库将建立专用的元数据库来存放和管理元数据。通常数据库将建立专用的元数据库来存放和管理元数据。2.1.2 数据仓库的关键名词数据仓库的关键名词11.数据集市(数据集市(DataMarket)数数据据仓仓库库中中存存放放的的是是整整个个企企业业的的
19、信信息息,并并且且数数据据是是按按照照不不同同的的主主题题来来组组织织的的。比比如如市市场场发发展展趋趋势势的的分分析析主主题题主主要要由由市市场场部部门门的的人人员员使使用用,我我们们可可以以将将这这部部分分数数据据逻逻辑辑上上或或者者物物理理上上分分离离出出来来,当当市市场场部部使使用用数数据据时时,不不需需要要到到数数据据仓仓库库的的巨巨量量数数据据中中检检索索,而而只只需需要要在在这这些些数数据据上上进进行行分分析析,因因此此从从效效率率和和处处理理速速度度的的角角度度出出发发,这这种种划划分分是是合理的。合理的。我我们们把把这这种种面面向向企企业业的的某某个个部部门门(主主题题)而而
20、在在逻逻辑辑上上或或物物理理上上划划分分出出来来的的数数据据仓仓库库中中的的数数据据子集称为数据集市。子集称为数据集市。数数据据仓仓库库面面向向整整个个企企业业,而而数数据据集集市市则则是是面面向向企企业业中中的的某某个个部部门门。数数据据仓仓库库中中存存放放了了企企业业的的整整体体信信息息,而而数数据据集集市市只只存存放放了了某某个个主主题题需需要要的的信信息息,其其目目的的是是减减少少数数据据处处理理量量,使使信信息息的的利利用用更快捷、灵活。更快捷、灵活。2.2 数据仓库的特点数据仓库的特点 通过对数据仓库体系结构的完整介绍,通过对数据仓库体系结构的完整介绍,我们对数据仓库有了一定的感性
21、认识。现我们对数据仓库有了一定的感性认识。现在我们来分析数据库和数据仓库在功能、在我们来分析数据库和数据仓库在功能、技术上的差异,以加深理解。技术上的差异,以加深理解。2.2.1数据库的功能和特点数据库的功能和特点 对于一个大型的处理多用户并发的数据对于一个大型的处理多用户并发的数据库系统,数据的安全性、数据处理的并发库系统,数据的安全性、数据处理的并发性、事务处理的可靠性、数据的一致性和性、事务处理的可靠性、数据的一致性和完整性可能是其最为关心的问题。完整性可能是其最为关心的问题。2.2.1 数据库的功能和特点数据库的功能和特点 1.数据的安全性数据的安全性 首先是本地数据的安全性。数据库应
22、首先是本地数据的安全性。数据库应当防止数据被不必要的用户访问,因此需当防止数据被不必要的用户访问,因此需要使用数据加密技术,使得数据不能轻易要使用数据加密技术,使得数据不能轻易的被读取。的被读取。可以为数据库系统定义不同的角色,可以为数据库系统定义不同的角色,每个角色具有不同的访问权限,从而控制每个角色具有不同的访问权限,从而控制不同用户的访问权限。不同用户的访问权限。当数据库通过网络被访问时,还需要当数据库通过网络被访问时,还需要增加新的网络安全机制来确保网络的安全增加新的网络安全机制来确保网络的安全性,在网络传输中使用数据加密技术,防性,在网络传输中使用数据加密技术,防止数据在网络中被监听
23、,防止管理员的口止数据在网络中被监听,防止管理员的口令泄漏。令泄漏。2.2.1 数据库的功能和特点数据库的功能和特点 2.数据处理的并发性数据处理的并发性在在多多用用户户的的环环境境下下,多多个个进进程程将将并并发发地地访访问问数数据据库库,这这使使得得数数据据库库管管理理系系统统必必须须提提供供高高效效的的加加锁锁解解锁锁方方法法以以实实现现进进程程间间的的同同步步和和互互斥斥,使使用用多多线线程程、多多进进程程技技术术、磁磁盘盘的的存存储储优优化化、合合适适的的索索引引等等来来提提高高并并发访问的效率。发访问的效率。3.事务处理的可靠性事务处理的可靠性为为了了保保证证业业务务逻逻辑辑的的正
24、正确确性性,数数据据库库系系统统必必须须提提供供良良好好的的事事务务处处理理能能力力,一一个个原原子子操操作作(逻逻辑辑上上不不可可分分的的操操作作)不不能能被被分分开开执执行行,如如果果其其中中某某个个步步骤骤失失败败,则则数数据据库库系系统统必必须须返返回回并并更更改改操操作作,以以确确保保数数据的一致性和完整性。据的一致性和完整性。2.2.1 数据库的功能和特点数据库的功能和特点 4.数据的一致性和完整性数据的一致性和完整性为为了了确确保保数数据据的的一一致致性性和和完完整整性性,需需要要在在数数据据库库的的设设计计、应应用用程程序序的的开开发发、系系统的维护等环节上进行复杂的工作。统的
25、维护等环节上进行复杂的工作。由此可见,操作型的环境涉及到事务由此可见,操作型的环境涉及到事务处理、封锁管理、数据备份恢复、系统日处理、封锁管理、数据备份恢复、系统日志管理、数据存储管理等一系列复杂技术。志管理、数据存储管理等一系列复杂技术。2.2.2 数据仓库的功能和特征数据仓库的功能和特征 在在BuildingtheDataWarehouse一书中列一书中列出了操作型数据和分析型数据的区别,如出了操作型数据和分析型数据的区别,如表表2-1所示。所示。2.2.2 数据仓库的功能和特征数据仓库的功能和特征 二二者者的的区区别别从从根根本本上上体体现现了了事事务务处处理理和和分分析析处处理理的的差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 基本原理
限制150内