第5章:基于数据仓库的决策支持系统(3).ppt
《第5章:基于数据仓库的决策支持系统(3).ppt》由会员分享,可在线阅读,更多相关《第5章:基于数据仓库的决策支持系统(3).ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第第5章章基于基于数据仓库的数据仓库的决策支持系统决策支持系统 (3)1第(第(3)部分)部分 5.4 数据挖掘数据挖掘 5.5数据挖掘的决策支持数据挖掘的决策支持 5.5.1 数据挖掘的决策支持分类数据挖掘的决策支持分类 5.5.2决策树与决策规则树的挖掘决策树与决策规则树的挖掘 及其应用及其应用5.4 数据挖掘数据挖掘5.4.1知识发现与数据挖掘概念知识发现与数据挖掘概念5.4.2 数据挖掘方法和技术数据挖掘方法和技术5.4.3 数据挖掘的知识表示数据挖掘的知识表示数据挖掘的兴起数据挖掘的兴起 (1 1)8080年在美国召开了第一届国际机器学习研讨会;年在美国召开了第一届国际机器学习研讨
2、会;(2 2)8989年年8 8月月于于美美国国底底特特律律市市召召开开的的第第一一届届KDDKDD国国际际学学术术会议;会议;(3 3)9595年年在在加加拿拿大大召召开开了了第第一一届届知知识识发发现现和和数数据据挖挖掘掘国国际学术会议;际学术会议;(4 4)我国于)我国于8787年召开了第一届全国机器学习研讨会。年召开了第一届全国机器学习研讨会。5.5.4.1 4.1 知识发现与数据挖掘概念知识发现与数据挖掘概念知识发现(知识发现(KDD):从数据中发现有用知识的整个过程。从数据中发现有用知识的整个过程。数据挖掘(数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算过程中的一个特定步
3、骤,它用专门算 法从数据中抽取模式(法从数据中抽取模式(patterns)。)。KDD过程定义过程定义:从大量数据中提取出可信的、新颖的、有用的并能被人理从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。解的模式的高级处理过程。“模式模式”可以看成是可以看成是“知识知识”的雏形,经过验证、完善后的雏形,经过验证、完善后形成知识。形成知识。数据源数据源数据数据数据集成数据集成目标数据目标数据预处理后预处理后数据数据转换数据转换数据模式模式知识知识数据选择数据选择预处理预处理数据挖掘数据挖掘数据转换数据转换结果表达和解释结果表达和解释数据准备数据准备数据挖掘数据挖掘结果表达
4、和解释结果表达和解释KDDKDD过程过程5.5.4.2 4.2 数据挖掘方法和技术数据挖掘方法和技术(一)归纳学习方法(一)归纳学习方法 分为两大类:信息论方法(决策树方法)和集合论方法。分为两大类:信息论方法(决策树方法)和集合论方法。1 1、信息论方法(决策树方法)、信息论方法(决策树方法)利用信息论的原理建立决策树或者是决策规则树。利用信息论的原理建立决策树或者是决策规则树。(1 1)ID3ID3方法:方法:QuiulanQuiulan研制的研制的ID3ID3方法是利用信息论中互方法是利用信息论中互信息建立决策树。信息建立决策树。(2 2)IBLEIBLE方方法法:我我们们研研制制的的I
5、BLEIBLE方方法法,是是利利用用信信息息论论中中信信道道容容量量,寻寻找找数数据据库库中中信信息息量量大大的的多多个个字字段段的的取取值值建建立立决决策策规规则树。则树。2 2、集合论方法、集合论方法 (1 1)粗糙集()粗糙集(Rough SetRough Set)方法方法 对对数数据据库库中中的的条条件件属属性性集集与与决决策策属属性性集集建建立立上上下下近近似似关关系系,对对下下近近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。(2 2)关联规则挖掘)关联规则挖掘 在在交交易易事事务务数数据据库库中中,
6、挖挖掘掘出出不不同同商商品品集集的的关关联联关关系系,即即发发现现哪哪些些商商品频繁地被顾客同时购买。品频繁地被顾客同时购买。(3 3)覆盖正例排斥反例方法)覆盖正例排斥反例方法 它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有比较典型的有AQ11AQ11方法、方法、AQ15AQ15方法以及方法以及AE5AE5方法。方法。(二)仿生物技术(二)仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法。仿生物技术典型的方法是神经网络方法和遗传算法。1 1、神经网络方法:、神经网络方法:包括:前馈式网络、反馈式网络、自包括:前馈式
7、网络、反馈式网络、自组织网络等多个神经网络方法。组织网络等多个神经网络方法。2 2、遗传算法:、遗传算法:这是模拟生物进化过程的算法。这是模拟生物进化过程的算法。它由三个基本算子组成:它由三个基本算子组成:繁殖(选择)、交叉(重组)、变异(突变)繁殖(选择)、交叉(重组)、变异(突变)遗传算法起到产生优良后代的作用,经过若干代的遗传,遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。将得到满足要求的后代(问题的解)。(三)公式发现(三)公式发现 在工程和科学数据库中对若干数据项(变量)在工程和科学数据库中对若干数据项(变量)进行一进行一定的数学运算,求得相应的
8、数学公式。定的数学运算,求得相应的数学公式。1 1物理定律发现系统物理定律发现系统BACONBACON BACONBACON发现系统完成了物理学中大量定律的重新发现。发现系统完成了物理学中大量定律的重新发现。2 2经验公式发现系统经验公式发现系统FDDFDD 我们研制了我们研制了FDDFDD发现系统,寻找由数据项的初等函数或发现系统,寻找由数据项的初等函数或复合函数组合成的经验公式。复合函数组合成的经验公式。(四)统计分析方法(四)统计分析方法 利用统计学原理通过对总体中的样本数据进行分析得出利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方法。描述和推断该总体信息
9、和知识的方法。(五)模糊数学方法(五)模糊数学方法 利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。类等。(六)可视化技术(六)可视化技术 利用可视化技术分析数据库,找到潜在的有用信息。利用可视化技术分析数据库,找到潜在的有用信息。5.5.4.3 4.3 数据挖掘的知识表示数据挖掘的知识表示主要有:主要有:规则、决策树、知识基、网络权值、公式。规则、决策树、知识基、网络权值、公式。1、规则、规则 规则知识由规则知识由前提条件前提条件和和结论结论两部分组成两部分组成 前前 提提 条条 件件 由由 字字 段段 项项(属属 性性)的的 取取 值值
10、 的的 合合 取取(与与 )和析取(或和析取(或)组合而成。)组合而成。结论结论为决策字段项(属性)的取值或者类别组成。为决策字段项(属性)的取值或者类别组成。2、决策树、决策树例如:上例的人群数据库,按例如:上例的人群数据库,按ID3ID3方法得到的决策树如下:方法得到的决策树如下:3、知识基(浓缩数据)、知识基(浓缩数据)例如上例的人群数据库,通过计算可以得出例如上例的人群数据库,通过计算可以得出身高身高是不重要的字段,是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:删除它后,再合并相同数据元组,得到浓缩数据如下表:4、网络权值、网络权值 神经网络方法经过对训练样本的学习
11、后,所得神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈值。到的知识是网络连接权值和结点的阈值。Zy2x1 x2 1y1 T1 T2 w12 w21w11 w22 2 ,=0.5 5、公式、公式 例如,太阳系行星运动数据中包含行星运动周期(旋转一周所例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:长半轴,百万公里),数据如下表:发现的公式为:发现的公式为:d3/p2=255.5.5 5 数据挖掘的决策支持数据挖掘的决策
12、支持 5.5.1 5.5.1 数据挖掘的决策支持分类数据挖掘的决策支持分类 5.5.2 5.5.2决策树与决策规则树的挖掘及其应用决策树与决策规则树的挖掘及其应用 5.5.3 5.5.3关联规则的挖掘及其应用关联规则的挖掘及其应用5.5.1 数据挖掘的决策支持分类数据挖掘的决策支持分类数据挖掘的分类:数据挖掘的分类:关联分析、时序模式、聚类、分类、偏差检测、预测。关联分析、时序模式、聚类、分类、偏差检测、预测。1、关联分析、关联分析 若两个或多个数据项的取值之间重复出现且概率若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据很高时,它就存在某种关联,可以建立
13、起这些数据项的关联规则。项的关联规则。2、时序模式、时序模式 通过时间序列搜索出重复发生概率较高的模式。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。这里强调时间序列的影响。3 3、聚类:、聚类:在数据库中找出一系列有意义的子集,在数据库中找出一系列有意义的子集,即类。即类。4 4、分类:、分类:对数据库中的类,找出该类别的概念描对数据库中的类,找出该类别的概念描述规则。述规则。5 5、偏差检测:、偏差检测:在数据库中找出异常数据。在数据库中找出异常数据。6 6、预预测测:利利用用历历史史数数据据找找出出变变化化规规律律的的模模型型,并并用此模型预测未来。用此模型预测未来。
14、5.5.5.2 5.2 决策树决策树的挖掘及其应用(一)的挖掘及其应用(一)1 1、决策树概念:、决策树概念:决策树是用样本的属性作为结点,用属性的取值作决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。性进行分析和归纳而产生的。决策树方法的原理是信息论决策树方法的原理是信息论,信息论是,信息论是C.E.ShannonC.E.Shannon为解决信息传递(通信)过程问题而建立为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。的理论,也称为统计通信理论。2 2、ID3
15、ID3算法算法n当前国际上最有影响的示例学习方法首推当前国际上最有影响的示例学习方法首推J.R.QuinlanJ.R.Quinlan的的ID3ID3。nID3ID3引进了信息论中的引进了信息论中的互信息互信息,他将其称为,他将其称为信信息增益(息增益(information gaininformation gain),作为特征判别作为特征判别能力的度量,并且将建树的方法嵌在一个迭代能力的度量,并且将建树的方法嵌在一个迭代的中。的中。一、一、ID3ID3基本思想基本思想某天早晨气候描述为某天早晨气候描述为:天气天气:多云多云 气温气温:冷冷 湿度湿度:正常正常 风风:无风无风 在一实体世界中,每
16、个实体用多个特征来描述。每在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。例如,设实体个特征限于在一个离散集中取互斥的值。例如,设实体是某天早晨,分类任务是关于气候的类型,特征为是某天早晨,分类任务是关于气候的类型,特征为:天气天气 取值为:取值为:晴,多云,雨晴,多云,雨 气温气温 取值为:取值为:冷冷 ,适中,热,适中,热 湿度湿度 取值为:取值为:高高 ,正常,正常 风风 取值为:取值为:有风,有风,无风无风n它属于哪类气候(能否打高尔夫球)呢它属于哪类气候(能否打高尔夫球)呢?n每个实体属于不同的类别,为简单起见,假定仅有两个每个实体属于不同的类别,为简
17、单起见,假定仅有两个类别,分别为类别,分别为P P,N N。在这种两个类别的归纳任务中,在这种两个类别的归纳任务中,P P类和类和N N类的实体分别称为概念的正例和反例。类的实体分别称为概念的正例和反例。n将一些已知的正例和反例放在一起便得到训练集。将一些已知的正例和反例放在一起便得到训练集。n下表给出一个训练集。由下表给出一个训练集。由ID3ID3算法得出一棵正确分类训算法得出一棵正确分类训练集中每个实体的决策树,见图。练集中每个实体的决策树,见图。NO.属性属性类别类别天气天气气温气温湿度湿度风风1晴晴热热高高无无风风N2晴晴热热高高有有风风N3多云多云热热高高无无风风P4雨雨适中适中高高
18、无无风风P5雨雨冷冷正常正常无无风风P6雨雨冷冷正常正常有有风风N7多云多云冷冷正常正常有有风风P8晴晴适中适中高高无无风风N9晴晴冷冷正常正常无无风风P10雨雨适中适中正常正常无无风风P11晴晴适中适中正常正常有有风风P12多云多云适中适中高高有有风风P13多云多云热热正常正常无无风风P14雨雨适中适中高高有有风风N天天 气气湿湿 度度风风晴晴雨雨多云多云高高正常正常有风有风无风无风P PN NN NP PP PID3ID3决策树决策树n决策树叶子为类别名,即决策树叶子为类别名,即P P 或者或者N N。其它结点由实体的特其它结点由实体的特征组成,每个特征的不同取值对应一分枝。征组成,每个特
19、征的不同取值对应一分枝。n若要对一实体分类,从树根开始进行测试,按特征的取若要对一实体分类,从树根开始进行测试,按特征的取值分枝向下进入下层结点,对该结点进行测试,过程一值分枝向下进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类直进行到叶结点,实体被判为属于该叶结点所标记的类别。别。n 用图来判本节开始处的具体例子,得该实体的类别用图来判本节开始处的具体例子,得该实体的类别为为P P类。类。n ID3ID3方法就是要从表的训练集构造图这样的决策树。方法就是要从表的训练集构造图这样的决策树。n 实际上,能正确分类训练集的决策树不止一棵。实际上,能正确分类训练
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据仓库 决策 支持系统
限制150内