数据仓库与数据挖掘原理及应用V.ppt
《数据仓库与数据挖掘原理及应用V.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用V.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库与数据挖掘原理及应用东华理工大学 理学院刘爱华目录目录1.数据仓库基础数据仓库基础 7.分类和预测分类和预测 2.数据仓库设计和实现数据仓库设计和实现 8.关联分析关联分析 3.数据仓库实例数据仓库实例 9.Web挖掘挖掘 4.OLAP和和OLAM 10.数据挖掘实例数据挖掘实例 5.数据挖掘基础数据挖掘基础 11.知识知识 6.聚类分析聚类分析 12.语义网和本体语义网和本体 1 数据仓库基础数据仓库基础1.1 引言引言1.2 体系结构体系结构1.3 组成组成1.4 元数据元数据1.5 数据粒度数据粒度1.6 数据模型数据模型1.7 ETL1.1 引言引言 数据仓库定义数据仓库定义
2、数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。此定义由最为权威的、被称为“数据仓库之父”的William H.Inmon 先生给出。面向主题的面向主题的 是相对于传统数据库的面向应用而言的。所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。典型的主题领域典型的主题领域 顾客、产品、事务或活动、保险单、索赔和账目。1.1 引言引言集成的集成的 数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输
3、入到数据仓库之前,必须经历一个集成过程。1.1 引言引言集成的集成的 最重要的特点。应用问题的设计人员制定出不同的设计决策,且表示方法不同。例如编码、命名习惯、实际属性和属性度量等方面不一致。数据进入数据仓库时,需要消除各种不一致性。例如,数据仓库中顾客“性别”的编码,可采用“男/女”或“m/f”,采用哪种方式并不重要,重要的是在数据仓库中应该统一编码。如果应用数据编码为“X/Y”,则进入数据仓库时需要进行转换。此外,对所有应用所涉及的问题都要考虑一致性。例如命名习惯、键码结构、属性度量以及数据特点等。1.1 引言引言与时间相关的与时间相关的 数据仓库以维的形式对数据进行组织,时间维是数据仓库
4、中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据。1.1 引言引言不可修改的不可修改的 面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。操作型数据是一次访问和处理一个记录,可以对操作型数据库中的数据进行更新。但数据仓库中的数据则不同,通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。1.1 引言引言1.2 体系结构体系结构二层体系结构1.2 体系结构体系结构三层体系结构1.3 数据仓库组成数据仓库组成一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程
5、序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)1.3 数据仓库组成数据仓库组成1.4 元数据元数据 定义定义 元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员非常方便地找到他们所需的数据;元数据是描述数据仓库中数据结构和构建方法的数据。1.4 元数据元数据 分类分类 按照用途的不同分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)两大类。技术元数据存储关于数据仓库系统技术细节的数据
6、,是用于开发和管理数据仓库使用的数据,它保证了数据仓库系统的正常运行;业务元数据从业务角度描述数据仓库中的数据,它提供介于使用者和实际系统之间的语义层,使得数据仓库使用人员能够“读懂”数据仓库中的数据。1.5 数据粒度数据粒度 定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。1.5 数据粒度数据粒度 当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度级别上,
7、几乎可以回答任何问题,但在高粒度级别上,数据所能处理的问题的数量是有限的。1.6 数据模型数据模型 数据模型是对现实世界的一种抽象,根据抽象程度的不同,可形成不同抽象层次上的数据模型。与数据库的数据模型相类似,数据仓库的数据模型也分为三个层次:概念模型 逻辑模型 物理模型 数据仓库的数据模型 星型结构 雪花型结构 星型雪花型结构数据仓库的数据事实数据维度数据 不论是星型、雪花型或者是星型雪花型结构都是以事实表为中心。不同点只是在外围维度表相互之间的关系不同而已。1.6 数据模型数据模型 将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为ETL(Extraction,T
8、ransformation and Loading)过程,制定这个过程的策略称之为ETL策略,而完成ETL过程的工具则是ETL工具。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库。在打造一个数据仓库的过程中,ETL的实施是一项繁琐、冗长而艰巨的任务,因为它关系到数据仓库中数据的质量问题,如果导入的数据漏洞百出,对决策者来说无疑是个噩耗。ETL过程是搭建“数据仓库”时最重要的最重要的和最最易误解的易误解的步骤之一。1.7 ETL ETL过程不仅仅是数据的迁移迁移(Migration)或净化净化(Cleansing),
9、也应该是企业数据管理策略企业数据管理策略中不可缺少的一部分。ETL过程的功能是:发现发现数据仓库需要的数据,将其从源系统中抽取抽取出来,并进行一定的处理处理,然后装载装载到数据仓库中去。1.7 ETL提高数据质量提供一种统一的、跨平台的存取数据方法将数据“信息化”,为企业决策者的经营分析提供信息来源1.7 ETL2 数据仓库设计和实现数据仓库设计和实现2.1 数据仓库设计数据仓库设计2.2 ETL设计设计2.3 数据仓库实现数据仓库实现(1 1)确定数据仓库的主题)确定数据仓库的主题 根据电信业务和电信运营的需求,电信公司涉及的最主要的三个主题是:客户发展 收益分析 呼叫特性分析 2.1 数据
10、仓库设计数据仓库设计(2 2)数据仓库模型的设计)数据仓库模型的设计可用的数据可用的数据 例如,要完成客户发展、收益分析、呼叫特性分析三个主题,下列三部分信息是必要的,即:客户的基本信息表 客户的账单信息表 客户的呼叫信息表 2.1 数据仓库设计数据仓库设计(2 2)数据仓库模型的设计)数据仓库模型的设计粒度的确定粒度的确定 在数据仓库设计中,最重要的步骤是确定数据的粒度。单一粒度单一粒度 对于客户基本信息表,由于它属于增长较为缓慢的信息(随着客户数量的增长,客户业务信息的变更表会增长),可以使用单一的数据粒度。2.1 数据仓库设计数据仓库设计(2 2)数据仓库模型的设计)数据仓库模型的设计
11、OLAP OLAP模型的设计模型的设计 针对每一个主题确定其需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构,在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。以客户信息主题为例,客户信息主题的维度设计书如下:2.1 数据仓库设计数据仓库设计 数据提取转换加载随着应用和系统环境的不同而具有不同的特点。一般而言,总包括下面的处理过程:a.预处理 正式开始作业之前的准备工作,包括清空工作区、检查过渡准备区。如果需要直接访问操作型数据源系统时,要检查远程数据库服务器状态,并核对目标区数据加载状态,以核算出加载作业的参数,如加载数据的时间间隔和范围(24小时的数据,还
12、是前3天的数据)。2.2 ETL设计设计 b.启动数据加载的批作业 c.因为维度表有事实表所参照的主键,所以要先完成对维表的加载,生成维表主键,并作为以后加载事实表所需要的外键。在加载维表中,有时要处理好缓慢变化的维的问题,并可能涉及到版号的处理问题。2.2 ETL设计设计 d.加载事实表 这中间也涉及到键查找的问题,即从有关维表中找到相应的主键,并以此作事实表的外键。e.事实表加载完成后,再对总计方阵体系进行刷新,以保障总计方阵与它的基础数据同步。f.设计具有完善的出错处理机制和作业控制日志系统,用以监测和协调整个加载的过程。2.2 ETL设计设计加载数据到数据仓库的具体步骤加载数据到数据仓
13、库的具体步骤 设定数据库和数据源 建立多维数据集 设计存储和处理多维数据集 为多维数据集创立分区2.3 数据仓库实现数据仓库实现企业级数据仓库的实现途径企业级数据仓库的实现途径从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反映企业全貌的企业级数据仓库;从一开始就从企业的整体来考虑数据仓库的主题和实施。2.3 数据仓库实现数据仓库实现 第一种方法类似于软件工程中“自底向上”的方法,投资少、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其他的主题和部门扩充往往比较困难;第二种方法与第一种相反,即“自顶向下”的方法,投资大、周期长
14、。实际中大多采用第一种方法。2.3 数据仓库实现数据仓库实现3 数据仓库实例数据仓库实例3.1 实例一实例一3.2 实例二实例二4 OLAP和和OLAM4.1 OLAP4.2 OLAM OLAPOLAP定义定义60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端客户对数据库查询分析的需要,SQL对大型数据库的简单查询也不能满足终端客户分析的要求。客户的决策分析需要对关系数据库进行大量计算才能获得结果,而查询的结果并不能满足决策者提出的需求。因此
15、,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。4.1 OLAPOLAPOLAP(On-Line Analysis ProcessingOn-Line Analysis Processing)定义定义 是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。OLAPOLAP的主要特点的主要特点 一是在线性(On Line),体现为对用户请求的快速响应和交互式操作;二是多维分析(Multi_Analysis),这是OLAP技术的核心所在。4.1 OLAP根据对数据的组织方式的不同,OLAP分为两种:基于多维数据库的基于多维数据库的OLAP(MD-OLAP)OLAP(MD-OLA
16、P)基于关系数据库的基于关系数据库的OLAP(ROLAP)OLAP(ROLAP)前者响应速度快、执行效率高,但源于结构的局限,灵活性不高。与之相比,后者由于建立在大量现有数据库(数据仓库)的基础上,灵活性、扩展性要高的多,并且支持大数据量和较多维数的能力也要强于前者。因此,虽然在响应速度、执行效率上差一点,仍然得到了广泛应用。现有的OLAP工具大多基于后者。4.1 OLAP 将OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。OLAM(On Line Analytical Mining,联机分析挖掘)正是这种结合的产物。4.2 OLAM5
17、数据挖掘基础数据挖掘基础5.1 概述概述5.2 实现实现5.3 工具工具 二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。5.1 概述概述 数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。1989年8月,在美国底特律召开的第11
18、届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。5.1 概述概述 现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据
19、挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(Customer Relationship Management,CRM)、商业智能(Business Intelligence,BI)等热点领域的核心技术之一。5.1 概述概述数据准备数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。数据准备是
20、KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性。5.2 实现实现数据挖掘数据挖掘 数据挖掘是最为关键的步骤,它根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。5.2 实现实现模式的评估、解释模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。5.2 实现实现知
21、识运用知识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。5.2 实现实现 一般而言,一个企业实施数据挖掘项目有三种方式可供选择:购买成熟的模型 购买一般性数据挖掘系统软件 构建数据挖掘系统 5.2 实现实现 目前,世界上比较有影响的典型数据挖掘系统包括:Enterprise Miner(SAS公司)Intell
22、igent Miner(IBM公司)SetMiner(SGI公司)Clementine(SPSS公司)Warehouse Studio(Sybase公司)See5(RuleQuest Research公司)CoverStoryEXPLORAKnowledge Discovery WorkbenchDBMinerQuest等5.3 工具工具6 聚类分析聚类分析6.1 硬聚类硬聚类6.2 模糊聚类模糊聚类6.3 评价评价聚类分析聚类分析 从纷繁复杂的数据中,根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。即使得在一个簇内的对象具有高相似性,而不同簇间的对象具有低相似性的过程。6.1 硬
23、聚类硬聚类6.1 硬聚类硬聚类基于划分的聚类方法基于划分的聚类方法基于层次的聚类方法基于层次的聚类方法基于密度的聚类方法基于密度的聚类方法基于网格的聚类方法基于网格的聚类方法基于模型的聚类方法基于模型的聚类方法 6.2 模糊聚类模糊聚类模糊聚类(Fuzzy Clustering Analysis,FCA)是指一个对象以不同程度属于多个类,各个类之间的界限是不确定的。其本质是不仅要考虑对象是否属于该类,而且要考虑属于该类的程度如何。模糊聚类完全不同于所谓的硬聚类,即类别之间的界限是明确而严格的。聚类有效性对聚类分析具有重要意义,被认为是聚类分析的一个瓶颈。对于相同的数据集合,采用不同的聚类方法,
24、可能得到不同的聚类结果。即便是采用同一种聚类方法,若选择不同的初始参数(如聚类数、聚类中心等)也可能会得到不同的聚类结果。6.3 评价评价可伸缩性可伸缩性 即算法中模式数发生变化的情况。有些算法在模式数小的条件下,算法的性能很好,但是模式数增大后,算法性能下降。如PAM算法是一种k-中心点算法,它对小的数据集合非常有效,但对大的数据集合则没有良好的可伸缩性。高维性高维性 即算法中模式属性个数发生变化的情况。同样,有些算法只擅长处理低维数据。在高维空间中聚类是一个挑战,特别是数据有可能非常稀疏和偏斜。6.3 评价评价发现任意形状的聚类发现任意形状的聚类 一个簇可能是任意形状的,但一般的聚类算法是
25、基于欧氏距离和曼哈顿距离度量实现聚类,更趋于发现球状簇。在这方面,基于密度的聚类方法较好。处理噪声数据的能力处理噪声数据的能力 噪声数据可能是数据本身不完整,也可能是孤立点数据(Outlier)。有些算法不擅于处理孤立点数据,因此还专门出现了发现孤立点数据的算法。6.3 评价评价用于决定输入参数的领域知识最小化和输用于决定输入参数的领域知识最小化和输入记录顺序敏感性入记录顺序敏感性 一方面要求降低算法对输入参数的敏感程度,另一方面要求输入记录顺序对算法的结果影响小。如经典的k-均值算法,需要预先给出簇的数目。在一些知识发现应用中,这一参数非常影响聚类的质量。这常常是高效率算法的弱点。6.3 评
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 原理 应用
限制150内