第5章:数据仓库与数据挖掘的决策支持(3).ppt
《第5章:数据仓库与数据挖掘的决策支持(3).ppt》由会员分享,可在线阅读,更多相关《第5章:数据仓库与数据挖掘的决策支持(3).ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、LOGO决策支持系统及其开发主讲教师:唐晶磊主讲教师:唐晶磊E-mail:Tel:87091337(O)2022/12/20信息分析与决策支持 唐晶磊 5.5 5.5 知识发现与数据挖掘知识发现与数据挖掘 5.6 5.6 数据挖掘的决策支持及应用数据挖掘的决策支持及应用2022/12/20信息分析与决策支持 唐晶磊DWDW的兴起的兴起的兴起的兴起(1 1)8080年在美国召开了年在美国召开了第一届国际机器学习第一届国际机器学习研讨会;研讨会;(2 2)8989年年8 8月月,美国底特律市召开的美国底特律市召开的第一届第一届KDDKDD国际学术会议;国际学术会议;(3 3)9595年年,加拿大召
2、开了加拿大召开了第一届第一届KDDKDD和和DMDM国际学术会议;国际学术会议;(4 4)我国于)我国于8787年召开了年召开了第一届全国机器学习第一届全国机器学习研讨会。研讨会。5.5 知识发现与数据挖掘知识发现与数据挖掘2022/12/20信息分析与决策支持 唐晶磊5.5.1 5.5.1 知识发现与数据挖掘概念知识发现与数据挖掘概念知识发现(知识发现(Knowledge discovery in database):从数据中发现从数据中发现有用知识有用知识的整个过程的整个过程(KDD)。KDD过程过程定义定义:从从数据集数据集中识别出中识别出有效的、新颖的、潜在有用有效的、新颖的、潜在有用
3、的,的,以及最终可理解的以及最终可理解的模式模式的高级处理过程。的高级处理过程。“模式模式”即是即是“知识知识”的雏形,需经过验证、完善的雏形,需经过验证、完善(模式评价模式评价)后后形成知识。形成知识。KDD过程过程概括:概括:数据准备数据准备(data preparation)、数据挖掘数据挖掘(data mining)及及结果的解释和评估结果的解释和评估(interpretation&evaluation)。2022/12/20信息分析与决策支持 唐晶磊5.5.1 5.5.1 知识发现与数据挖掘概念知识发现与数据挖掘概念问题:所有企业都面临企业数据量巨大,而其中真正有价值的问题:所有企业
4、都面临企业数据量巨大,而其中真正有价值的信息却很少。信息却很少。解决方法:对大量的数据进行深层分析,获得有利于商业运作、解决方法:对大量的数据进行深层分析,获得有利于商业运作、提高竞争力的信息。提高竞争力的信息。数据挖掘(数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算过程中的一个特定步骤,它用专门算 法从数据中抽取模式(法从数据中抽取模式(patterns)。)。数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面。数理统计、可视化技术、并行计算等方面。2022/12/20信息分析与决策支持
5、唐晶磊5.5.1 5.5.1 知识发现与数据挖掘概念知识发现与数据挖掘概念(1)DM(技术角度)(技术角度):从大量的、不完全的、有噪声的、:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的、但又是潜在先不知道的、但又是潜在有用的信息和知识有用的信息和知识的过程。即从的过程。即从数据源数据源发现用户感兴趣的知识,发现用户感兴趣的知识,知识知识要可接受、可以理解要可接受、可以理解和运用;和运用;2022/12/20信息分析与决策支持 唐晶磊5.5.1 5.5.1 知识发现与数据挖掘概念知识发现与数据挖掘概
6、念(2)()(DM)商业角度)商业角度:是一种新的、商业信息处理技术。:是一种新的、商业信息处理技术。对商业数据库中的大量业务数据进行抽取、转换、分析和其对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘是一种数据挖掘是一种深层次的数据分析方法。深层次的数据分析方法。2022/12/20信息分析与决策支持 唐晶磊5.5.1 5.5.1 知识发现与数据挖掘概念知识发现与数据挖掘概念(3)(DM)企业角度企业角度:按企业既定业务目标,对大量的企业:按企业既定业务目标,对大量的企业数据进行探索和
7、分析,揭示隐藏的、未知的或验证已知的规数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效方法。律性,并进一步将其模型化的先进有效方法。2022/12/20信息分析与决策支持 唐晶磊数据源数据源数据数据数据集成数据集成目标数据目标数据预处理预处理数据数据转换数据转换数据模式模式知识知识数据选择数据选择预处理预处理数据挖掘数据挖掘转换转换结果表达和解释结果表达和解释KDDKDD过程过程数据准备数据准备数据挖掘数据挖掘结果解释和评估结果解释和评估2022/12/20信息分析与决策支持 唐晶磊v数据准备:数据准备:数据选择数据选择(data selection)、数
8、据预处理数据预处理(data preprocessing)和和数据转换数据转换(data transformation)。v数据选择:数据选择:确定操作对象,即目标数据确定操作对象,即目标数据(target data),是,是根据用户的需要,从原始根据用户的需要,从原始DB中选取的一组数据。中选取的一组数据。v数据预处理:数据预处理:消除噪声、处理缺值数据、消除重复记录等。消除噪声、处理缺值数据、消除重复记录等。v数据转换:数据转换:完成数据完成数据类型转换类型转换,进行,进行属性约简属性约简(从初始属(从初始属性中找出真正有用的属性,删除无用属性,以减少数据挖掘性中找出真正有用的属性,删除无
9、用属性,以减少数据挖掘时要考虑的属性个数)。时要考虑的属性个数)。数据准备数据准备2022/12/20信息分析与决策支持 唐晶磊数据挖掘数据挖掘v数据挖掘数据挖掘(1)首先确定挖掘的任务或目的;)首先确定挖掘的任务或目的;(2)确定使用何种挖掘算法。)确定使用何种挖掘算法。v选择挖掘算法需考虑选择挖掘算法需考虑2个因素:个因素:不同数据具有不同特点,需要用与之相关的算法来挖掘;不同数据具有不同特点,需要用与之相关的算法来挖掘;考虑用户或实际运行系统的要求。如用户可能希望考虑用户或实际运行系统的要求。如用户可能希望获取描获取描述性的、容易理解的知识述性的、容易理解的知识,或者希望获取预测准确度更
10、可,或者希望获取预测准确度更可能高能高预测型知识预测型知识。2022/12/20信息分析与决策支持 唐晶磊结果的解释和评估结果的解释和评估v结果的解释和评估(模式评价)结果的解释和评估(模式评价)(1)经过评估,剔除冗余或无关的模式;)经过评估,剔除冗余或无关的模式;(2)不满足用户要求的模式,需回退到)不满足用户要求的模式,需回退到KDD过程的前面阶段。过程的前面阶段。(3)KDD是面向用户的,一般需对发现的模式进行可视化处是面向用户的,一般需对发现的模式进行可视化处理,或把结果转换为用户易懂的表示形式。理,或把结果转换为用户易懂的表示形式。vDM质量好坏的质量好坏的2个影响因素:个影响因素
11、:(1)所采用的)所采用的DM技术的有效性;技术的有效性;(2)用于挖掘的数据的质量和数量(数据量的大小)。)用于挖掘的数据的质量和数量(数据量的大小)。2022/12/20信息分析与决策支持 唐晶磊数据挖掘任务数据挖掘任务vDM任务有六项:任务有六项:(1)关联分析)关联分析 若两个或多个数据项的取值重复出现,且概率很高时,若两个或多个数据项的取值重复出现,且概率很高时,它就存在某种关联,它就存在某种关联,则可建立起这些数据项的关联规则。则可建立起这些数据项的关联规则。(2)时序模式)时序模式 通过时间序列,搜索出通过时间序列,搜索出重复发生概率较高的模式。重复发生概率较高的模式。(3)聚类
12、(通过聚类建立宏观概念)聚类(通过聚类建立宏观概念)有统计分析方法、机器学习方法、神经网络方法等。有统计分析方法、机器学习方法、神经网络方法等。2022/12/20信息分析与决策支持 唐晶磊数据挖掘任务数据挖掘任务(4)分类:以聚类为基础,对已确定的类找出该类别的概念)分类:以聚类为基础,对已确定的类找出该类别的概念描述。它代表此类数据的整体信息(内涵描述)。描述。它代表此类数据的整体信息(内涵描述)。内涵描述内涵描述分为分为特征描述特征描述和和辨别性描述辨别性描述。判别分类方法的判别分类方法的3个标准:个标准:预测准确度预测准确度、计算复杂度计算复杂度、模式的模式的简洁度简洁度。(5)偏差检
13、测:寻找观察结果与)偏差检测:寻找观察结果与DB中参照数据之间的差别。中参照数据之间的差别。(6)预测:利用历史数据找出变化规律,建立模型,并用此)预测:利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。模型来预测未来数据的种类、特征等。2022/12/20信息分析与决策支持 唐晶磊属性约简属性约简v属性约简常用于分类问题属性约简常用于分类问题原则:原则:保持数据库中分类关系不变。保持数据库中分类关系不变。一般采用一般采用粗糙集粗糙集(rough set)方法,也可采用方法,也可采用信息论信息论方法。方法。v在在DB的分类问题中,属性分为条件属性的分类问题中,属性分为
14、条件属性(C)和决策属性和决策属性(D)。条件属性分为条件属性分为可省略属性可省略属性和不可省略属性。和不可省略属性。v属性约简是在属性约简是在条件属性条件属性中,删除不影响中,删除不影响对决策属性进行分类对决策属性进行分类的多余的条件属性。的多余的条件属性。v不可省略属性,实质上是对决策属性进行分类的核心属性。不可省略属性,实质上是对决策属性进行分类的核心属性。2022/12/20信息分析与决策支持 唐晶磊补充:数据挖掘与传统分析方法的区别补充:数据挖掘与传统分析方法的区别v传统的数据分析方法:查询、报表和联机分析等。传统的数据分析方法:查询、报表和联机分析等。v采用完全不同的工具,基于的技
15、术差别也很大。采用完全不同的工具,基于的技术差别也很大。(1)查询和报表,告诉决策者数据库中都有什么。)查询和报表,告诉决策者数据库中都有什么。(2)OLAP会进一步告诉决策者,下一步会怎么样,会进一步告诉决策者,下一步会怎么样,(假设假设)如果我采用这样的措施,又会怎么样。)如果我采用这样的措施,又会怎么样。OLAP通通过建立一系列的假设,来证实或推翻这些假设,以得到合过建立一系列的假设,来证实或推翻这些假设,以得到合理的结论。因此,理的结论。因此,OLAP本质上是本质上是演绎推理过程。演绎推理过程。2022/12/20信息分析与决策支持 唐晶磊补充:数据挖掘与联机分析处理的区别补充:数据挖
16、掘与联机分析处理的区别vDM在没有明确假设的前提下去挖掘信息、发现知识。在没有明确假设的前提下去挖掘信息、发现知识。vDM所得到的信息是所得到的信息是先前未知、先前未知、有效的和可实用的。有效的和可实用的。v数据挖掘不用于验证某个假定的模式,而是在数据库中自己数据挖掘不用于验证某个假定的模式,而是在数据库中自己寻找模型。本质是一个归纳的过程。寻找模型。本质是一个归纳的过程。vDM和和OLAP具有一定的互补性。具有一定的互补性。v在利用在利用DM出来的结论采取行动之前,利用出来的结论采取行动之前,利用OLAP验证一下,验证一下,如果采取这样的行动,将会给公司带来什么样的影响。如果采取这样的行动,
17、将会给公司带来什么样的影响。2022/12/20信息分析与决策支持 唐晶磊5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术vDM方法由人工智能、机器学习的方法发展而来。结方法由人工智能、机器学习的方法发展而来。结合传统的统计分析方法、模糊数学方法以及计算科合传统的统计分析方法、模糊数学方法以及计算科学可视化技术,以数据库为研究对象,形成了数据学可视化技术,以数据库为研究对象,形成了数据挖掘方法和技术。挖掘方法和技术。v数据挖掘方法和技术可以分为六大类。数据挖掘方法和技术可以分为六大类。2022/12/20信息分析与决策支持 唐晶磊5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方
18、法和技术(一)归纳学习方法(一)归纳学习方法按采用的技术可分为信息论方法(决策树方法)和集合论方法。按采用的技术可分为信息论方法(决策树方法)和集合论方法。1 1、信息论方法(决策树方法)、信息论方法(决策树方法)利用信息论的原理建立决策树或者决策规则树。利用信息论的原理建立决策树或者决策规则树。较有特色的方法有:较有特色的方法有:(1)ID3等方法(决策树方法)等方法(决策树方法)(2)IBLE(决策规则树)方法。(决策规则树)方法。2022/12/20信息分析与决策支持 唐晶磊2 2、集合论方法、集合论方法 (1 1)粗糙集()粗糙集(Rough SetRough Set)方法方法对对数数
19、据据库库中中的的条条件件属属性性集集与与决决策策属属性性集集建建立立上上下下近近似似关关系系,对对下下近近似似集集合合建建立立确确定定性性规规则则,对对上上近近似似集集合合建建立立不不确确定定性性规规则则(含含可可信信度)。度)。(2 2)关联规则挖掘)关联规则挖掘在在交交易易事事务务数数据据库库中中,挖挖掘掘出出不不同同商商品品集集的的关关联联关关系系,即即发发现现哪哪些些商品频繁地被顾客同时购买。商品频繁地被顾客同时购买。(3 3)覆盖正例排斥反例方法)覆盖正例排斥反例方法它是利用它是利用覆盖所有正例覆盖所有正例,排斥所有反例排斥所有反例的思想来寻找规则。较典型的思想来寻找规则。较典型的有
20、的有AQ11AQ11方法、方法、AQ15AQ15方法及方法及AE5AE5方法。方法。2022/12/20信息分析与决策支持 唐晶磊 (二)仿生物技术(二)仿生物技术 典型的仿生物技术方法是神经网络方法和遗传算法。典型的仿生物技术方法是神经网络方法和遗传算法。1 1、神经网络方法:、神经网络方法:包括:前馈式网络、反馈式网络、自包括:前馈式网络、反馈式网络、自组织网络等多个神经网络方法。组织网络等多个神经网络方法。2 2、遗传算法:、遗传算法:模拟生物进化过程的算法。它由三个基本模拟生物进化过程的算法。它由三个基本算子组成:算子组成:繁殖(选择)、交叉(重组)、变异(突变)繁殖(选择)、交叉(重
21、组)、变异(突变)遗传算法起到产生优良后代的作用,经过若干代的遗传,遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。将得到满足要求的后代(问题的解)。2022/12/20信息分析与决策支持 唐晶磊(三)公式发现(三)公式发现 在工程和科学数据库中对若干数据项(变量)在工程和科学数据库中对若干数据项(变量)进行一定进行一定的数学运算,求得相应的数学公式。的数学运算,求得相应的数学公式。1 1物理定律发现系统物理定律发现系统BACONBACON BACONBACON发现系统完成了物理学中大量定律的重新发现。发现系统完成了物理学中大量定律的重新发现。2 2经验公式
22、发现系统经验公式发现系统FDDFDD 寻找由数据项的初等函数或复合函数组合成的经验公式。寻找由数据项的初等函数或复合函数组合成的经验公式。2022/12/20信息分析与决策支持 唐晶磊(四)统计分析方法(四)统计分析方法 利用统计学原理对总体中的样本数据进行分析,得出描利用统计学原理对总体中的样本数据进行分析,得出描述和推断该总体信息和知识的方法。述和推断该总体信息和知识的方法。(五)模糊数学方法(五)模糊数学方法 利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。类等。(六)可视化技术(六)可视化技术 利用可视化技术分析数据库,找到潜在的有
23、用信息。利用可视化技术分析数据库,找到潜在的有用信息。2022/12/20信息分析与决策支持 唐晶磊5.5.3 5.5.3 数据挖掘的知识表示(一)数据挖掘的知识表示(一)DM获取知识表示形式主要有六种:获取知识表示形式主要有六种:规则、决策树、浓缩数据、网络权值、公式和案例。规则、决策树、浓缩数据、网络权值、公式和案例。1、规则、规则 规则知识由规则知识由前提条件前提条件和和结论结论两部分组成两部分组成 前前 提提 条条 件件 由由 字字 段段 项项(属属 性性)的的 取取 值值 的的 合合 取取(与与 )和析取(或和析取(或)组合而成。)组合而成。结论结论为决策字段项(属性)的取值或者类别
24、组成。为决策字段项(属性)的取值或者类别组成。2022/12/20信息分析与决策支持 唐晶磊5.5.3 5.5.3 数据挖掘的知识表示(一)数据挖掘的知识表示(一)2022/12/20信息分析与决策支持 唐晶磊2、决策树、决策树例如:上例的人群数据库,按例如:上例的人群数据库,按ID3ID3方法得到的决策树如下:方法得到的决策树如下:数据挖掘的知识表示(二)数据挖掘的知识表示(二)2022/12/20信息分析与决策支持 唐晶磊 3、知识基(浓缩数据)、知识基(浓缩数据)例如上例的人群数据库,通过计算可得出例如上例的人群数据库,通过计算可得出身高身高是不重要的字段,是不重要的字段,删除它后,再删
25、除它后,再合并相同数据元组合并相同数据元组,得到浓缩数据如下表:,得到浓缩数据如下表:数据挖掘的知识表示(三)数据挖掘的知识表示(三)2022/12/20信息分析与决策支持 唐晶磊 4、网络权值、网络权值 神经网络方法经过对神经网络方法经过对训练样本训练样本的学习后,的学习后,所得到的知所得到的知识识是网络是网络连接权值连接权值和和结点的阈值结点的阈值。数据挖掘的知识表示(四)数据挖掘的知识表示(四)Zy2x1 x2 1y1 T1 T2 w12 w21w11 w22 2 ,=0.52022/12/20信息分析与决策支持 唐晶磊 5、公式、公式 例如,太阳系行星运动数据中包含行星运动周期(旋转一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 决策 支持
限制150内