《数据仓库与数据挖掘技术44519.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术44519.docx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章商务智能基本概念一数据仓库的发展与展望作为商务智能三大核心技术之一的数据仓库发源于处理日常业务的数据库。传统数据库在日常的业务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息。为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-数据仓库(DW,Data Warehouse)。1. 数据仓库-一种能够够将日常业务处理理中所收集到到的各种数据据转变为具有有商业价值信信息的技术2. 而传统数据库系系统无法
2、承担担起这一责任任。因为传统统数据库的处处理方式与决决策分析中的的数据需求不不相称,导致致传统数据库库无法支持决决策分析活动动。这些不相相称性主要表表现在决策处处理中的系统统响应问题、决策数据需需求的问题和和决策数据的的操作问题l 系统响应问题在传统的事务处处理系统中,用用户对系统和和数据库的要要求是数据存存取频率要高高、操作时间间要快。用户户的业务处理理操作请求往往往在很短的的时间内就能能完成,这就就使系统在多多用户的情况况下,也可以以保持较高的的系统响应时时间。但在决策分析析处理中,用用户对系统和和数据的要求求发生了很大大的变化。有有的决策问题题处理请求,可可能会导致系系统长达数小小时的运
3、行。有有的决策分析析问题的解决决,则需要遍遍历数据库中中大部分数据据。这些操作作必然要消耗耗大量的系统统资源,这是是实时处理业业务的事务联联机处理系统统所无法忍受受的。l 据测数据需求的的问题在进行决策分析析时,需要全全面、正确的的集成数据,这这些集成数据据不仅包含企企业内部各部部门的又关上上护具,而且且还包含企业业外部的、甚甚至竞争对手手的相关数据据。但是在传统数数据库中,只只存储了本部部门的事务处处理数据,而而没有与决策策问题有关的的集成数据,更更没有企业外外部数据。(数据的集成操做是有数据仓库处理,不是由决策分析程序处理)。在决策数据的继继承中还需要要解决数据混混乱问题。例例如,同一实实
4、体的属性在在不同的应用用系统中,可可能有不同 的数据类型型、不同的字字段名称。这这样在使用这这些数据进行行决策之前,必必须对这些数数据进行分析析,确认其真真实含义。在决策分析中,系系统常常需要要从数据库中中抽取数据、查查找有用的数数据,然后将将这些数据导导入其他文件件或数据库中中,供用户使使用。这些被被抽取出来的的数据,有可可能被其他用用户再次抽取取。由于这种种不加限制数数据的连续抽抽取,使企业业的数据控件件构成了一个个错综复杂的的数据“蜘蛛网”,即形成了了自然演化体体系结构。在在这个数据“蜘蛛”网中,有可可能两个节点点上的数据来来自于同一个个原始数据库库。但是由于于数据抽取的的时间、抽取取方
5、法、抽取取级别等方面面的差异,可可能使这两个个节点的数据据不一致。这这样,在对同同一个问题的的决策分析中中,由于数据据的出发基准准不同,而可可能导致截然然相反的结果果。也就是说说,由于决策策分析过程中中所形成的自自然演化体系系,造成了数数据可信度的的降低,必然然导致数据uu转化为信息息的不可行与与不可信,使使企业无法将将大量宝贵的的信息资源转转化为企业的的核心竞争力力。数据的集成还涉涉及外部数据据与非结构化化数据的应用用问题。决策策分析中经常常要用到系统统外数据,如如行业的统计计报告,管理理咨询公司的的市场调查分分析数据。这这些数据必须须经过格式、类类型的转换,曾曾能被决策系系统应用。在在决策
6、分析系系统中要求数数据能够进行行定期的、及及时的更新,数数据的更新期期可能是一天天,也可能是是一周,而传传统数据库缺缺乏数据动态态更新的能力力。为完成事务处理理的需要,传传统数据库中中的数据一般般只保留当前前的数据。但但是对于决策策分析而言,历历史上的、长长期的数据却却具有重要的的意义。利用用历史数据可可对未来的发发展进行正确确的预测,但但是传统数据据库却无法长长期保留大量量的历史数据据。在决策分析过程程中,决策人人员往往需要要的并不是非非常详细的数数据,而是一一些经过汇总总、概要的数数据。但在传传统数据库中中为支持日常常的事务处理理需要,只保保留一些非常常详细的数据据,这对决策策分析十分不不
7、利。l 策数据的操作问问题在对数据的操作作方式上,决决策分析人员员则往往希望望以专业用户户的身份,而而不是参数用用户的身份对对数据进行操操作。他们希希望能够用各各种工具对数数据进行多种种形式的操作作,希望数据据操作的结果果能以商务智智能的方式表表达出来。而而传统的业务务处理系统智智能以标准的的固定报表方方式为用户提提供信息,使使用户很难理理解信息的内内涵,无法用用于管理决策策。由于系统响应、决决策数据需求求和决策数据据操作等问题题的影响,使使企业无法使使用现有的事事务处理系统统去解决决策策分析的需要要。因此,决决策分析需要要一个能够不不受传统事务务处理的约束束,能够高效效处理决策分分析数据的环
8、环境,由此而而产色和难过过了可以满足足这一要求的的数据存储和和数据组织技技术-数据据仓库。数据仓库与数据据库的对比表表对比内容数据库数据仓库数据内容当前值历史的、存档的的、归纳的、计计算的数据数据目标面向业务操作程程序、重复处处理面向主题域、管管理决策分析析的应用数据特性动态变化、按字字段更新静态、不能直接接更新、只定定时添加数据结构高度结构化、复复杂、适合操操作计算简单、适合分析析使用频率高中到低数据访问量每个事务只访问问少量记录有的事务可能要要访问大量记记录对响应时间的要要求以秒为单位计量量以秒、分钟、甚甚至小时为计计量单位二数据仓库的的定义与基本本特性数据仓库具有这这样一些重要要的特性:
9、面面向主题性、数据的集成成性、数据的时变变性、数据的非易易失性、数据的集合合性和支持决策作作用。1. 面向主题性面向主题性表示示了数据仓库库中数据组织织的基本原则则,数据仓库库中的所有数数据都是围绕绕着某一主题题组织展开的的。从信息管管理的角度看看,主题就是是在一个较高高的管理层次次上对信息系系统中的数据据按照某一具具体的管理对对象进行综合合、归类所形形成的分析对对象。从数据据组织的角度度看,主题就就是一些数据据集合,这些些数据集合对对分析对象做做了比较完整整的、一致的的描述,这种种描述不仅涉涉及数据自身身,并且还涉涉及数据之间间的联系。2. 数据集成性数据仓库的集成成性就是指根根据决策分析析
10、的要求,将将分散于各处处的元数据进进行抽取、筛选、清理、综合等工作,最最终集成到数数据仓库中。首先要从源数据据库中挑选出数据仓仓库所需要的的数据;然后后将这些来自自不同数据库库中的数据按按照某一标准准进行统一,即即将不同数据据源中数据的的单位、字长长与内容按照照数据仓库的的要求统一起起来,消除元元数据中字段段的同名异义义、异名同义义现象,这些些工作统称为为数据的清理理;在将元数数据加载进数数据仓库后,即即元数据装入入数据仓库后后,还需要将将数据仓库中中的数据进行行某种程度的的综合,经根据据决策分析的的需要对这些些数据进行概概括、聚集处处理。3. 数据的时变性数据仓库必须能能够不断捕捉捉主题的变
11、化化数据,将那那些变化的数数据追加到数数据仓库中去去,也就是说说在数据仓库库中不断生成成主题的新快快照,以满足足决策分析的的需要。数据仓库数据的的时变性,不不仅反映在数数据的追加方方面,而且还还反映在数据据的删除上。尽尽管数据仓库库中的数据可可以长期保留留,但是在数数据仓库中的的数据存储期期限还是有限限的,一般保保留5-100年,在超过过期限以后,也也需要删除。数据仓库中数据据的时变性还还表现在概括括数据的变化化上。数据仓仓库中的概括括数据是与时间有关的,概概括数据需要要按照时间进行综合合,按照时间间进行抽取。因因此,在数据据仓库中的概概括数据必须须随着时间的的变化而重新新进行概括处处理。4.
12、 数据的非易失性性数据仓库中的数数据不进行更更新处理,而而是一旦数据据进入数据仓仓库以后,就就会保持一个个相当长的时时间。数据在在追加以后,一一般不再修改改。数据的非非易失性,可可以支持不同同的用户在不不同的时间查查询、分析相相同的问题时时,获得同一一结果。避免免了以往决策策分析中面对对同一问题,因因为数据的变变化而导致结结论不同的尴尴尬。5. 数据的集合性目前数据仓库所所采用的数据据集合方式主主要是以多为为数据库方式式进行存储的的多维模式、以以关系数据库库方式进行存存储的关系模模式或以两者者相结合的方方式进行存储储的混合模式式。6. 支持决策作用数据仓库组织的的根本目的在在于对决策的的支持。
13、高层层的企业决策策者、中层的的管理者和基基层的业务处处理这等不同同层次的管理理人员均可以以利用数据仓仓库进行决策策分析,提高高管理决策的的质量。企业各级管理理人员可以利利用数据仓库库进行各种管管理决策的分分析,利用自自己所特有的的、敏锐的商商业洞察力和和业务知识从从貌似平淡的的数据中敏锐锐地发现众多多的上级。数数据仓库为管管理者利用数数据进行管理理决策分析提提供了极大的的便利。三数据仓库的的体系结构数据仓库体系结结构建立在其其概念结构基础础之上,并根根据商务智能能的不同应用用情况可以选选择虚拟数据据仓库结构、数据集市结结构、单一数据仓仓库结构和分布式数据据仓库结构。1. 数据仓库的概念念结构数
14、据仓库应该包包含:数据源源、数据准备区区、数据仓库数数据库、数据集市/知识挖掘库库及各种管理理工具和应用用工具。数据据仓库建立以以后,首先要要从数据源中中抽取所需要要的数据到数数据准备区,在在数据准备区区中经过数据据的净化处理理,再加载到到数据仓库数数据库中,最最后在根据用用户的需求将将数据发布到到数据集市/知识挖掘库库中。当用户户使用数据仓仓库时,可以以通过OLAAP等数据仓仓库的应用工工具向数据集集市/知识挖挖掘库或数据据仓库进行决决策查询分析析或知识挖掘掘。如图业务系统外部数据源数据准备区数据仓库数据库数据集市/数据挖掘库数据集市/数据挖掘库应用工具应用工具管理工具用户用户2.数据集市市
15、结构数据集市结构或或称为主题结结构的数据仓仓库是按照主主题进行构思思所形成的数数据仓库,它它没有一个独独立的数据仓仓库。系统的的数据不存储储在统一数据据仓库中,每每个主题有自自己的物理存存储区。但是是不同的主题题数据仓库在在设计时采用用了统一企业业数据模型,这这就保证了不不同主题数据据仓库可以ccia用相同同的字段结构构、编码和关关键字,可以以保证不同主主题数据仓库库的联合查询询。四数据仓库的的参照结构数据仓库的参照照结构由不同同的层次组成成,这些层次次包含了数据据仓库的基本本功能层、数据仓库的的管理层和数据仓库的的环境支持层层。数据仓库的基本本功能层包含含:数据抽取取,数据筛选选、清理,清清
16、理后的数据据加载,设立立数据及时,完完成数据仓库库的查询、决决策分析和知知识的挖掘等等操作。数据仓库的管理理层分成数据据管理与元数数据管理两部部分,主要负负责对数据仓仓库中的数据据抽取、清理理、加载、更更新等操作进进行管理。1. 数据仓库基本功功能层包含数据源、数数据准备区数数据仓库功能能结构、数据据集市知识识挖掘库以及及数据仓库的的数据存取与与使用功能部部分,如图数据源数据准备区数据仓库数据集市/知识识挖掘库数据仓库的数据据存取与使用用A. 数据仓库的数据据源包含业务数据、历历史数据、办办公数据、WWeb数据、外外部数据及数数据源元数据据,如图业务数据历史数据办公数据Web数据外部数据数据源
17、元数据a. 业务数据是指从从组织目前正正在运行的业业务处理系统统那里收集到到,并保存在在业务处理系系统数据库中中的数据。b. 历史数据是指组组织在长期的的信息处理过过程中所积累累下来的数据据,这些数据据一般进行了了脱机处理,以以磁带或其他他脱机存储设设施保存,对对业务系统的的当前运行不不起作用。这这些数据一般般要根据仓库库模型和用户户的决策分析析需求来确定定是否加载进进数据仓库c. 办公数据主要是是指组织内部部的办公系统统数据,这些些数据分电子子数据和非电电子数据两种种。非电子数数据主要指那那些文件、通通知、会议纪纪要等公文。办办公数据源的的数据结构十十分复杂,这这就给数据仓仓库的数据抽抽取、
18、加载增增加了很大的的难度。有时时甚至需要人人工处理以后后,才能加载载到数据仓库库。办公数据据在数据仓库库中常常用于于支持对跨部部门的决策分分析。对于办公数据据中非电子数数据的抽取和和加载首先要要利用扫描仪仪将书面文档档转变为电子子图像,然后后利用可是文文字识别软件件(OCR)将将图像文件转转换为文本文文件,最后还还要创建能够够描述和组织织文档内部信信息的元数据据。经过这些些处理以后,非非电子数据才才能加载到数数据仓库。d. Web数据是企企业通过innterneet所获得的的数据,则和和谐数据可以以通过企业的的电子商务系系统获取,也也可以通过网网络调查获取取。Web数据大大多是HTMML格式,
19、需需要将其转换换成数据仓库库的统一格式式后才能家再再进数据仓库库。e. 外部数据是指那那些不为企业业所操作、所所拥有、所控控制的数据。这这些数据有的的是电子形式式的,如证券券市场的证券券数据,或市市场咨询部门门的研究报告告。有的是以以电子形式的的,如报刊、政政府公告等。f. 数据源元数据属属于元数据管管理层范围,在在数据仓库哦哦那广州的所所有数据都需需要通过元数数据管理层来来进行管理、控控制。源数据据的元数据描描述了关于源源数据的一些些说明,包含含了源数据的的来源,源数数据的名称、源源数据的定义义、源数据的的创建时间等等对源数据进进行管理所需需要的信息。源源数据的来源源说明源数据是从哪哪一个系
20、统、哪哪一个历史数数据、哪一个个办公数据、哪哪一个Webb页上、哪一一个外部系统统抽取来的。源源数据的名称称,用以说明明源数据现在在和过去的名名称。源数据据的定义,用用以说明源数数据在数据仓仓库中的作用用、用途及数数据类型,长长度等基本属属性。数据的的变化时间是是指源数据在在数据源的创创建时间和在在数据仓库中中的创建时间间及变化时间间。这些信息息主要用于对对源数据的管管理;B. 数据准备区由于数据仓库的的数据来源十十分复杂,这这些数据在进进入数据仓库库之前常常需需要在数据准准备区内进行行筛选、清理理等数据的标标准化处理。因因此,数据准准备区的功能能结构部分由由数据的标准化化处理、数据的过滤滤与
21、匹配、数据的净化化处理、标明数据的时时间戳、确认数据质质量与源数据抽取取和创建等操操作组成。 数据的标准化处处理元数据抽取与创创建数据的过滤与匹匹配数据的净化处理理标明数据的时间间戳确认数据质量a. 数据的标准化处处理主要是将将同名不同内内容、同内容容不同名、同同名同内容但但不同结构的的数据进行统统一处理。例例如,在不同同数据源中,关关于销售地点点“上海市”,有的系统统用了“上海”,有的用了了“上海市”,有的甚至至用了“沪”等值,但是是它们的实际际含义都是一一致的,为此此需要对这些些值进行统一一处理,这样样才不至于导导致数据仓库库的应用混乱乱。b. 数据的过滤与匹匹配主要是对对进入数据仓仓库的
22、数据按按照用户的需需要进行筛选选,将不需要要的数据从数数据源中剔除除,而留下的的数据要能够够与数据仓库库用户的需求求相匹配。c. 数据的净化处理理主要是对准准备加载到数数据仓库中的的数据进行正正确性判断,将将那些数据内内容错误、格格式错误或类类型错误的数数据进行修正正、净化处理理。例如,数数据仓库中的的客户邮政编编码是字符类类型,但在有有的数据源中中却以数字类类型表示。此此时,就需要要将其转换为为字符类型。d. 表明数据的时间间戳,由于在在数据仓库重重要进行数据据的概括,以以分析事务的的发展趋势。而而数据的概括括与发展趋势势的分析,都都需要知名数数据的时间属属性。因为数数据的概括往往往是基于时
23、时间进行的,而而趋势的分析析也是以时间间为基轴描绘绘的。因此在在将数据夹加加载到数据仓仓库之前必须须完成数据的的时间戳设置置,使时间具具有时间属性性。e. 确认数据质量,数数据仓库中数数据质量的高高低是数据仓仓库能否成功功的关键因素素之一。例如如,在对客户户进行邮寄广广告促销时,由由于客户名称称的错误,可可能会激怒客客户,导致客客户转向其他他供应商而造造成客户的流流失。有的又又会因客户地地址的错误耽耽误时间,造造成邮寄广告告费的浪费。这这些信息应用用的失败,都都是由于数据据质量的低劣劣所造成的。因此,需要在数据准备区通过手工的方式或软件自动检测的方式来完成对数据质量的确认。f. 元数据抽取与创
24、创建,在数据据的求精过程程中,还需要要从数据源中中确定这些源源数据的元数数据内容,完完成元数据的的名称与定义义,以及其有有关描述,为为今后数据仓仓库的管理提提供基础。C. 数据仓库功能结结构数据仓库的功能能结构部分有有数据重整、数据仓库创创建和元数据管理3部部分组成,如如图数据重整数据仓库创建元数据管理数据集成与分解解数据仓库的建模模元数据浏览与导导航数据概括与聚集集数据的概括数据预算与推导导数据的聚集元数据的创建数据翻译与格式式化数据的调整与确确认数据转换与映射射建立结构化查询询创建词汇表a. 数据重整是为使使数据仓库能能够更好地为为用户服务所所进行的一些些操作。l 数据集成与分解解。对来自
25、不不同系统的数数据进行集成成,创建新的的数据。有时时按照数据处处理的需要,在在将数据存储储到数据仓库库过程中,可可能要将一个个表中的数据据分解成数据据仓库的两个个或多个数据据块。l 数据的概括与聚聚集。就是根根据某一属性性将数据进行行汇总。例如如,客户每天天的采购就是是特定客户在在一天内的所所有采购总和和。数据的概概括处理就要要根据用户使使用数据仓库库的需要,预预先进行数据据的汇总与叠叠加操作,为为使用数据仓仓库提供便利利。l 数据的预算与推推导。为提高高数据仓库信信息使用者的的使用效率,在在数据仓库中中需要事先对对信息使用者者的常规操作作进行预先设设置。即无须须用户干预就就可以实现数数据的预
26、算和和推导。作为为数据预算和和推导的算法法应该作为数数据仓库的元元数据进行存存储和管理。l 数据的转换与映映射、数据的的翻译与格式式化(跟数据据准备区的操操作类似)b. 数据仓库创建-重重点作为数据仓库的的核心功能,应应该完成数据据仓库的建模模、数据的概概括、数据的的聚集、数据据的调整与确确认,并建立立结构化查询询。l 数据仓库的建模模。从已经创创建的数据模模型中导出数数据仓库的数数据模型(星星型模型或雪雪花模型),如如果没有数据据模型,就需需要构造新的的数据模型。在在数据仓库模模型的书籍过过程中,要完完成数据的分分割、主题域域和粒度的确确认,实际数数据库的设计计模型和数据据仓库的物理理数据库
27、模式式的定型等工工作。l 数据的概括。根根据用户的需需要,从初步步的概括数据据中创建用户户所需的高度度概括数据。l 数据的聚集。从从拥有大批量量数据的数据据仓库中进行行查询分析,是是一个非常费费时的操作。例例如,在一个个有10000个产品和110万个客户户的数据仓库库中,为执行行一个概括性性查询,就要要涉及1亿条条记录,需要要较长的时间间才能完成,这这对经常查询询的信息使用用者而言是无无法接受的。因因此,在数据据仓库中,常常常要根据一一些典型的查查询需求,对对数据仓库中中数据进行聚聚集处理。例例如,可以对对产品的地区区分布、品牌牌的分布进行行事先聚集,只只有这样才能能使用户在数数据仓库的使使用
28、中每次都都感受到使用用时间的一致致性和快速性性。l 数据的调整与确确认。在数据据完成概括聚聚集以后,需需要对概括与与聚集后的数数据进行确认认,如果数据据概括、聚集集的效果不好好,还需要进进行一些调整整,以保证数数据仓库的使使用效果l 建立结构化查询询。为提高一一些结构化查查询,可以预预定义这些查查询,并将这这些结构化查查询结果作为为元数据存储储在元数据库库中。当用户户进行数据仓仓库的查询时时,只要从元元数据库中取取回就可,这这样可以大大大提高数据仓仓库的运行效效率。c. 元数据管理-重点点(元数据有有这么重要吗吗?wwqq)数据仓库的功能能能够发挥在在很大的程度度上取决于元元数据的管理理功能,
29、元数数据管理功能能的强弱决定定了数据仓库库功能发挥的的好坏。元数数据管理功能能主要包含元元数据浏览与与导航、元数数据的创建和和创建词汇表表。l 元数据浏览与导导航。数据仓仓库的建设者者在数据仓库库的建设和维维护中需要利利用数据仓库库的元数据浏浏览和导航功功能,而且数数据仓库用户户在使用数据据仓库时也需需要利用元数数据的浏览及及导航功能对对数据仓库所所提供的各种种决策辅助信信息加以说明明。l 元数据创建。在在数据重整过过程中需要从从集成数据、概概括数据和衍衍生数据中捕捕获元数据。确确定数据的粒粒度和分割程程度、数据的的翻译和转移移规则,捕获获映射规则及及数据源和数数据仓库之间间的映射关系系。这些
30、都是是元数据创建建的内容。l 创建词汇表。在在创建数据仓仓库的过程中中,需要根据据所捕获的元元数据建立元元数据的词汇汇表。在词汇汇表中一般需需要包含元数数据的名称,别别名,简述,创创建时间,上上次更新时间间,关键字,数数据来源,转转移/转换信信息,概括或或推到算法等等内容。D. 数据集市/知识识挖掘库数据集市/知识识挖掘库的功功能结构与数数据仓库的功功能结构极为为相似,如图图求精与重整数据集市/知识识挖掘库创建建元数据管理过滤与匹配建模元数据浏览与导导航集成与分割概括概括与聚集聚集元数据的抽取与与创建预算与推导调整与确认标明时间维的数数据源建立结构化查询询创建词汇表只是数据集市设设立的目的在在
31、于为某一部部门或某一领领域的用户提提供服务,而而设立数据仓仓库的目的则则在于为企业业全体用户提提供服务。因因此,可以将将数据集市/知识挖掘库库看成是数据据仓库的一个个逻辑上或物物理上的子集集。E. 数据仓库的存取取与使用数据仓库的存取取与使用结构构主要用于实实现数据仓库库的最终功能能,为数据仓仓库的最终用用户提供进行行决策分析和和知识挖掘的的功能。为达达到这一目的的,数据仓库库的数据存取取与使用结构构应该包含数数据仓库存取取与检索、数据仓库分分析与报告及及元数据管理理,如图数据仓库存取与与检索数据仓库分析与与报告元数据管理数据仓库直接存存取报表处理工具元数据管理与报报表数据集市存取分析与决策支
32、持持工具数据集市重整业务建模与分析析处理工具元数据抽取与创创建转换为多维结构构数据挖掘工具创建局部存储图形工具数据仓库存取取与检索部分分为用户提供供了访问数据据仓库或数据据集市的功能能,利用这些些功能可以将将用户所检索索的数据转换换为多维数据据并存入多维维数据库。可可以将数据仓仓库或数据集集市中的数据据“卸载”下来,成为为局部存储数数据,便于用用户进行局部部分析、数据据挖掘、翻译译转换等处理理。这就需要要解决如何从从预定义的查查询到即席的的查询、到迭迭代的查询、到到细剖查询的的实现。为用户使用方方便,这里还还提供了管理理与使用数据据仓库元数据据管理功能。这这些功能可以以帮助用户了了解数据仓库库
33、或数据集市市的名称、描描述说明、数数值、价值来来源及版本内内容,了解数数据的名称、数数值等内容和和数据从抽取取到存入数据据仓库或数据据集市的转移移过程,了解解数据的定位位和数据的可可靠性,以及及如何存取和和使用数据。这这些功能有助助于用户掌握握数据的正确确内容、信息息的粒度、信信息的概括成成都、原始数数据的来源和和日期。并可可以按照其上上下文查看数数据,将数据据转换为信息息。此外,还还可以验证数数据源的质量量,在数据抽抽取和存储过过程中用于判判断数据的可可靠性和质量量。数据仓库分析与与报告为最终终用户使用数数据仓库提供供了一组工具具,可以是用用户能够依靠靠数据仓库或或数据集市进进行决策分析析或
34、知识挖掘掘。这些工具具包含了报表表处理工具、分分析与决策支支持工具、业业务建模与分分析处理工具具、数据挖掘掘工具等。具体地说,这些些工具具有地地理信息系统统(GIS)、数数据挖掘工具具、联机分析析处理(OLLAP)、可可视化工具、经经理信息系统统(EIS)、统统计工具、iinternnet浏览器器、元数据浏浏览器、第四四代语言、图图形用户界面面(GUI)建建立程序、电电子表格、报报表生成器和和数据访问工工具等。地理信息系统(GGIS)可以以利用数据仓仓库中的数据据图示化地表表达数据关系系。例如,可可以通过GIIS了解生活活在某一特定定销售点范围围之内的客户户数量,或在在两个销售点点之间的平均均
35、到达时间。利利用GIS还还可以确定对对公司感兴趣趣的潜在客户户居住区域,帮帮助企业确定定新的销售点点位置。利用数据挖掘工工具和统计工工具可以找出出隐藏在大量量数据背后的的商业规律。例例如,哪些客客户可能会在在信用上发生生问题,哪些些客户可能会会对企业的促促销手段作出出积极的反应应。连接分析处理和和经理信息系系统能够以便便捷的手段让让用户完成复复杂的数据查查询,并能以以形象的图形形、图像和表表格的方式给给出决策分析析的结果。Interneet浏览器主主要为用户的的WEB数据据仓库使用提提供便利。电子表格作为办办公处理软件件,许多企业业都已经拥有有。电子表哥哥也可作为数数据仓库的分分析工具加以以应
36、用。但是是将数据仓库库中的数据转转入电子表格格还需费一番番周折。可视化工具、元元数据浏览器器、第四代语语言、图形用用户界面(GGUI)建立立程序、报表表生成器和数数据访问工具具等都可以作作为数据仓库库的范文分析析工具使用,知知识在实际应应用中各有千千秋。例如,OOLAP可以以提供强大的的数据查询功功能,但是报报表的生成能能力就不如报报表生成器。而而第四代语言言与GUI建建立程序可以以提供受限的的查询界面,并并能知道用户户完成查询。这这对数据仓库库的安全使用用与知道新用用户使用数据据仓库十分有有利,但不利利于有经验的的用户对数据据仓库的知识识挖掘。此外外,根据需要要也可以用第第四代语言建建立一个
37、OLLAP工具。2. 数据仓库的管理理层数据仓库的运行行除依靠上面面所介绍的数数据仓库基本本功能外,还还需要能对这这些基本功能能进行管理的的结构框架,这这样数据仓库库才能正常运运行使用。数数据仓库管理理层由数据仓库的的数据管理层层和数据仓库库的元数据管管理层组成。A. 数据仓库的数据据管理层包含数据抽取与与新数据需求求和查询管理理,数据加载载、存储、刷刷新和更新系系统,安全性性与用户授权权管理系统,数数据归档、恢恢复及净化系系统。数据抽取与新数数据需求和查查询管理数据加载、存储储、刷新和更更新系统安全性与用户授授权管理系统统数据归档、恢复复及净化系统统数据抽取与新数数据需求和查查询管理主要要负
38、责完成从从数据源中抽抽取数据的管管理;用户在在数据仓库应应用中出现对对新数据的要要求时,从新新的数据源或或当前数据源源中按照用户户需求追踪和和充实新数据据;对数据查查询中的并行行处理工作的的管理。数据加载、存储储、刷新和更更新系统负责责对从数据源源中所抽取的的数据在完成成筛选、净化化处理以后,将将这些数据加加载、存储到到数据仓库中中;捕获数据据源中的数据据变化,用最最新数据充实实数据仓库;根据用户的的需求和数据据仓库管理的的要求对数据据仓库进行更更新等工作。安全性与用户授授权管理系统统主要负责数数据仓库的安安全管理工作作,禁止用户户对数据仓库库进行某些非非法操作;根根据用户的管管理权限和工工作
39、需要给予予用户对数据据仓库的不同同操作权限。数据归档、恢复复及净化系统统中的数据归归档、恢复功功能主要负责责定期对数据据仓库中的数数据进行归档档、备份,以以便在数据仓仓库遭到破坏坏时可以恢复复;而净化系系统则负责对对从数据源所所抽取的数据据进行数据的的筛选、数据据标准的统一一、数据内容容的统一等各各种求精、重重整净化工作作的管理。B. 数据仓库的元数数据管理层数据仓库的有效效性完全建立立在数据的定定义(元数据据)之上。元元数据已经渗渗透到数据仓仓库的各种活活动中,数据据源的性质有有所获得数据据的定义来刻刻画,增加时时间戳就需要要有与元数据据相关的时间间信息,元数数据还要为数数据仓库的数数据操作
40、提供供索引。数据仓库的元数数据管理层负负责管理数据据仓库所使用用的元数据,其其中包括数据据仓库、数据据集市/知识识挖掘库和词词汇表管理,元数据抽取取、创建、存存储和更新管管理,预定义的查查询、报表和和索引管理,刷新和复制制管理,登录、归档档、恢复与净净化管理。如如图:括数据仓库、数数据集市/知知识挖掘库和和词汇表管理理元数据抽取、创创建、存储和和更新管理预定义的查询、报报表和索引管管理刷新和复制管理理登录、归档、恢恢复与净化管管理a. 数据仓库、数据据集市/知识识挖掘库和元元数据词汇表表管理元数据管理层利利用元数据词词汇表来管理理数据仓库和和数据集市中中逻辑数据模模型和物理数数据模型,以以及与
41、技术和和业务相关的的数据说明。元数据主要包含含两大部分的的元数据:一一类元数据用用于说明从数数据源想数据据仓库转移的的数据,主要要方便数据仓仓库维护人员员对数据舱仓仓库的应用;另一类元数数据用于建立立从数据仓库库想数据仓库库前端工具的的映射,以方方便用户对数数据仓库的使使用。b. 元数据抽取、创创建、存储和和更新管理元数据在数据仓仓库对数据源源进行数据抽抽取、清理、加加载等操作过过程中需要对对所涉及的元元数据进行抽抽取、创建、存存储和更新处处理。即从数数据源中将关关于这些数据据的说明抽取取出来,如果果在元数据库库中没有这些些元数据,就就需要创建并并存储在元数数据库中。如如果这些元数数据已经存在
42、在于元数据库库中,则需要要根据最新情情况进行更新新。c. 预定义的查询、报报表和索引管管理在元数据管理中中还需要对设设计人员为数数据仓库用户户预定义的查查询和报表进进行管理,将将预定义的查查询和报表处处理方式,甚甚至处理结果果置于元数据据库中,这样样当用户需要要进行相同的的预定义查询询和报表时,就就可以提供相相应的结果。而而预定义的查查询和报表处处理方式也需需要存储在元元数据中。元元数据管理层层哈需要实现现大型数据仓仓库的多级索索引、数据压压缩和复合键键等方面的管管理。d. 刷新和复制、登登录、归档、恢恢复与净化管管理当数据仓库所连连接的数据源源发生变化时时,数据仓库库的内容也要要定期刷新。这
43、这些刷新工作作的进行需要要依靠元数据据库中所包含含的有关说明明。为保证数数据仓库的安安全,需要经经常定期进行行复制。这样样在数据仓库库遇到破坏后后,可以从备备份中将数据据仓库恢复。数数据仓库的备备份与恢复工工作也有赖于于元数据的帮帮助。用户在在使用数据仓仓库时需要进进行身份的验验证,对用户户的登录管理理也离不开元元数据的支持持。元数据在在加载进数据据仓库之前必必须要进行净净化处理,而而净化处理的的规则也需要要元数据说明明。3. 数据仓库的环境境支持层数据仓库的运行行除需要数据据仓库管理层层对基本功能能进行管理外外,还需要有有数据仓库的的环境支持层层对基本功能能提供支持。数数据仓库的环环境支持层
44、有有数据仓库数数据传输层和和数据仓库基基础层组成。A. 数据仓库的数据据传输层数据仓库中不同同结构之间的的数据传输,需需由数据仓库库的传输层完完成,数据传传输层包含了了数据传输和和传送网络、客户-服务务器代理和中中间件、数据复制系系统、数据传输的的安全和保障障系统。如图图数据传输和传送送网络客户-服务器代代理和中间件件数据复制系统数据传输的安全全和保障系统统a. 数据传输层的组组成在数据传输层中中的数据传输输和传送网络络包含网络协协议、网络管管理框架、网网络操作系统统和网络。从数据仓库的角角度看,网络络操作系统的的性能应该支支持内核线程程、高达4TTB的内存、最最大为1TBB的特大型文文件系统
45、、大大小可变的应应用程序所用用页面及并行行处理,并有有日志文件系系统、内存分分页管理功能能、动态加载载核心模块功功能,可以为为数据仓库提提供良好的可可恢复性能。而而且操作系统统应该遵循开开放系统标准准,能够支持持系统的互操操作,这样才才能使数据仓仓库在多操作作系统环境中中运行。数据仓库中的网网络问题在于于贷款,在数数据仓库的网网络配置中可可以将用户和和系统数据分分隔到不同的的网络中,以以增加系统的的整体带宽。系系统数据流量量可以通过1100Basse-TX以以太网、FDDDI、ATTM、千兆位位或HIPPPI接口,而而用户数据流流量则放在110/1000Base-TX以太局局域网上。b. 客户
46、-服务器代代理与中间件件包含数据库网管管、数据仓库库的中间件、传传输层的数据据舱仓库数据据发布和复制制系统等。数据库网管便于于将数据仓库库链接到其他他软件产品上上。而数据仓库的中中间件一般用用于补充数据据仓库中其他他组件功能的的不足,如用用于监视数据据库与查询管管理程序之间间的TCP/IP包,这这就可以提供供关于数据仓仓库用户、被被访问数据库库及访问时间间等信息。利利用这些信息息可以对数据据仓库的结构构进行调整,提提高数据仓库库的性能。目目前许多数据据库管理系统统开始将各种种中间件的功功能添加到数数据库管理系系统中,英雌雌,在选择中中间件之前需需要了解中间间件的功能是是否已经在数数据库管理系系
47、统存在。传输层的数据仓仓库数据发布布和复制系统统主要用于将将数据源中的的源数据库数数据复制到数数据仓库的目目标数据库上上,或将数据据仓库中的元元数据库数据据复制到数据据集市的目标标数据库上。源源数据库和幕幕布奥数据库库可以在同一一台机器上,也也可以不再同同一台及其上上。数据的复复制可以根据据制定的时间间进行数据发发送,还可以以在数据发送送过程中对发发送数据进行行修改,然后后再发送到目目标数据库上上。c. 数据复制系统在传输层的复制制系统中有发发布与复制系系统、数据库库网管内定义义的复制工具具和专用的数数据仓库产品品等。d. 数据传输的安全全和保障系统统数据传输的安全全和保障系统统不仅要解决决保障数据仓仓库中的数据据安全问题,还还需要保护用用户正常使用用数据仓库的的权利问题。因因此数据仓库库安全保障系系统需要设立立用户的安全全角色,明确确哪些用户可可以访问哪些些数据,确认认用户对数据据的访问是否否威胁到系统统的安全;为为不同数据设设立不同的安安全级别,根根据安全需要要对数据进行行安全分区;对用户进行行鉴别,并将将鉴别的用户户通知安全保保障系统;保保护用户访问问数据的路径径。B. 数据仓库的基础础层包含系统管理、工作流程管管理、存储系统和处理系统部分分,如图:系统管理工作流程管理存储系统处
限制150内