决策支持系统的核心数据挖优秀课件.ppt
《决策支持系统的核心数据挖优秀课件.ppt》由会员分享,可在线阅读,更多相关《决策支持系统的核心数据挖优秀课件.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策支持系统的核心数据挖第1页,本讲稿共79页0 决策支持系统(决策支持系统(DSS)数据数据模型模型推理推理知识知识决策决策人机人机交互交互第2页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘(数据挖掘(DM)的产生背景)的产生背景n随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及数据库管理系统的广泛应用,企业和组织积累的数据越来越统的广泛应用,企业和组织积累的数据越来越多多第3页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘(数据挖掘(DM)的产生背景)的产生背景n数据库系统可以高效地实现数据的录入、查询、数据库系统可以高效地实现
2、数据的录入、查询、统计等功能,但无法发现数据中存在的关系和统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋规则,无法根据现有的数据预测未来的发展趋势,势,从而出现从而出现“数据爆炸但知识贫乏数据爆炸但知识贫乏”的的现象现象第4页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘(数据挖掘(DM)的产生背景)的产生背景n大量数据背后隐藏着许多重要的信息,企业大量数据背后隐藏着许多重要的信息,企业和组织的管理决策者希望能够对其进行更高和组织的管理决策者希望能够对其进行更高层次的分析。层次的分析。第5页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基
3、本概念n数据挖掘(数据挖掘(DM)的产生背景)的产生背景nGartner Group的一次高级技术调查结果的一次高级技术调查结果将数据挖掘和人工智能列为将数据挖掘和人工智能列为“将对未来三将对未来三到五年内工业产生深远影响的五大关键技到五年内工业产生深远影响的五大关键技术术”之首;之首;n世界世界500强企业中强企业中80%都涉足数据挖掘的都涉足数据挖掘的前瞻性研究。前瞻性研究。第6页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的概念数据挖掘的概念 数据挖掘又称为数据库中的知识发现数据挖掘又称为数据库中的知识发现(Knowledge Discovery from Data
4、base,KDD),它是一个从大量的、不完全的、有噪声的、),它是一个从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中抽取挖掘出隐含其模糊的、随机的实际应用数据中抽取挖掘出隐含其中的、事先未知的、有价值的模式或规律等知识的中的、事先未知的、有价值的模式或规律等知识的复杂过程,该过程如下图所示。复杂过程,该过程如下图所示。第7页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念数据清洗与集成数据清洗与集成任务相关数据集任务相关数据集选择与转换选择与转换数据挖掘数据挖掘评估与表示评估与表示数据仓库数据仓库数据库数据库知识知识第8页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本
5、概念n数据挖掘的概念数据挖掘的概念n数据挖掘涉及多学科技术的集成:数据库技术,数据挖掘涉及多学科技术的集成:数据库技术,统计学,机器学习,高性能计算,模式识别,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图象与信神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析。号处理和空间数据分析。第9页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的概念数据挖掘的概念n数据挖掘功能用于指定数据挖掘任务中要找数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分两类:的模式类型。数据挖掘任务一般分两类:n描述式数据挖掘:刻画数据库或数据
6、仓库中数据描述式数据挖掘:刻画数据库或数据仓库中数据的一般特性。的一般特性。n预测式数据挖掘:在当前数据上进行推断,以进预测式数据挖掘:在当前数据上进行推断,以进行预测。行预测。第10页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n概念描述(概念描述(Concept description):利用):利用数据属性中更广义的(属性)内容对其进行数据属性中更广义的(属性)内容对其进行归纳和总结归纳和总结第11页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n关联分析(关联分析(Association Analysis
7、):从):从给定的数据集中发现频繁出现的项集模式知给定的数据集中发现频繁出现的项集模式知识识第12页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n分类(分类(Classification):找出一组能够描):找出一组能够描述数据集合典型特征的函数,以便能够识别述数据集合典型特征的函数,以便能够识别未知数据的归属或类别,即将未知事例映射未知数据的归属或类别,即将未知事例映射到某个离散类别到某个离散类别第13页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n聚类分析(聚类分析(Clustering Analysis)
8、:根据):根据“各聚集(各聚集(cluster)之内数据对象的相似)之内数据对象的相似度最大化和各聚集之间数据对象相似度最小度最大化和各聚集之间数据对象相似度最小化化”这一原则将数据对象划分为若干组这一原则将数据对象划分为若干组第14页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n孤立点分析(孤立点分析(Outlier Analysis):寻找不):寻找不符合大多数数据对象所构成的规律(模型)符合大多数数据对象所构成的规律(模型)的数据对象的数据对象 第15页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念n数据挖掘的功能数据挖掘的功能n演化分
9、析(演化分析(Evolution Analysis):对随):对随时间变化的数据对象的变化规律和趋势进行时间变化的数据对象的变化规律和趋势进行建模描述建模描述第16页,本讲稿共79页1 数据挖掘的基本概念数据挖掘的基本概念工具特点工具特点分析重点分析重点分析目的分析目的数据大小数据大小控制方式控制方式发展状况发展状况传统数据分析工具传统数据分析工具回顾型、验证型回顾型、验证型已经发生了什么已经发生了什么从最近的销售文件中列出最大客户从最近的销售文件中列出最大客户数据量和数据维度均是少量的数据量和数据维度均是少量的企业管理人员、系统分析员、企业管理人员、系统分析员、管理顾问启动与控制管理顾问启动
10、与控制成熟成熟数据挖掘工具数据挖掘工具发现型、预测型发现型、预测型解释发生的原因、解释发生的原因、预测未来的情况预测未来的情况锁定未来的可能客户,以减少锁定未来的可能客户,以减少未来的销售成本未来的销售成本数据量和数据维度均是庞大的数据量和数据维度均是庞大的数据与系统启动,数据与系统启动,少量的控制人员少量的控制人员发展中发展中数据挖掘工具与传统数据分析工具的比较数据挖掘工具与传统数据分析工具的比较第17页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则n关联规则的基本概念关联规则的基本概念n关联规则挖掘发现大量数据中项集之间有关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系
11、。趣的关联或相关联系。n从大量商业事务记录中发现有趣的关联关从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。类设计、交叉购物和促销分析等。第18页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则n购物篮分析购物篮分析n购物篮分析是关联规则挖掘的最初形式购物篮分析是关联规则挖掘的最初形式n假定作为某商店经理,你想更加了解你的顾假定作为某商店经理,你想更加了解你的顾客的购物习惯。例如:客的购物习惯。例如:“什么商品组或集合什么商品组或集合顾客多半会在一次购物时同时购买?顾客多半会在一次购物时同时购
12、买?”。为。为解答这个问题,可以在商店顾客事务零售数解答这个问题,可以在商店顾客事务零售数据上运行购物篮分析。据上运行购物篮分析。n分析的结果可用于市场规划、广告策划和分分析的结果可用于市场规划、广告策划和分类设计。类设计。第19页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则n购物篮分析购物篮分析n若设商店中所有销售商品为一个集合,则每若设商店中所有销售商品为一个集合,则每个商品均为一个布尔变量,表示该商品是否个商品均为一个布尔变量,表示该商品是否被(一个)顾客购买。因此每个购物篮就可被(一个)顾客购买。因此每个购物篮就可以用一个布尔向量表示。以用一个布尔向量表示。第20页,本
13、讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则n购物篮分析购物篮分析n分析相应布尔向量,得到反映商品频繁关联分析相应布尔向量,得到反映商品频繁关联或同时购买的购买模式,并可用关联规则的或同时购买的购买模式,并可用关联规则的形式表示模式。例如,购买计算机也趋向于形式表示模式。例如,购买计算机也趋向于同时购买财务管理软件可用以下关联规则表同时购买财务管理软件可用以下关联规则表示:示:第21页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则n购物篮分析购物篮分析n关联规则的支持度(关联规则的支持度(support)2%表示分表示分析中的全部事务的析中的全部事务的2%同时购买计算
14、机和财同时购买计算机和财务管理软件。务管理软件。n关联规则的置信度(关联规则的置信度(confidence)60%表表示:购买计算机的顾客示:购买计算机的顾客60%也购买财务管也购买财务管理软件。理软件。第22页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法nApriori算法是根据有关频繁项集性质的先算法是根据有关频繁项集性质的先验知识而命名。该算法使用一种逐层搜索的验知识而命名。该算法使用一种逐层搜索的迭代方法,利用迭代方法,利用k-项集探索项集探索(k+1)-项集。项集。n具体做法:首先找出频繁具体做法:首先找出频繁1-项集的集合,记项集的集合,记为
15、为L1;再用;再用L1找频繁找频繁2-项集的集合项集的集合L2;再用;再用L2找找L3 如此下去,直到不能找到频繁如此下去,直到不能找到频繁k-项项集为止。找每个集为止。找每个Lk需要一次数据库扫描。需要一次数据库扫描。第23页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法nApriori算法的有效性算法的有效性,在于它利用了一个在于它利用了一个非常重要的原理非常重要的原理,即即Apriori性质性质:如果一:如果一个项集是频繁的,则这个项集的任意一个非个项集是频繁的,则这个项集的任意一个非空子集都是频繁的。空子集都是频繁的。nApriori性质性质基于如
16、下观察:如果项集基于如下观察:如果项集I不满不满足最小支持度阈值足最小支持度阈值min_sup,则,则I 不是频繁不是频繁的。如果增加项的。如果增加项A到到I,则结果项集不可能比,则结果项集不可能比I更频繁出现。因此,也不是频繁的。更频繁出现。因此,也不是频繁的。第24页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n该性质属于一种特殊的分类,也称作反单调该性质属于一种特殊的分类,也称作反单调性。意指如果一个集合不能通过测试,则它性。意指如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。的所有超集也都不能通过相同的测试。n反单调性能迅速减值,
17、提高搜索频繁项集的反单调性能迅速减值,提高搜索频繁项集的处理效率。处理效率。第25页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n整个过程由连接和剪枝两步组成,即整个过程由连接和剪枝两步组成,即n连接步:为找连接步:为找Lk,可通过,可通过Lk-1与自己连接,与自己连接,产生一个候选产生一个候选k-项集的集合,该候选项集的项集的集合,该候选项集的集合记作集合记作Ck。剪枝步确定频繁项集连接步产生候选项集第26页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n设设l1和和l2是是Lk-1中的项集,记号中的项集,记号li
18、 j表示表示li的第的第j项。为方便计,假定事务或项集中的项按字项。为方便计,假定事务或项集中的项按字典次序排序。典次序排序。n执行连接执行连接 ,其中其中Lk-1的元素是可的元素是可连接的,如果它们连接的,如果它们前前(k-2)个项相同个项相同。Lk-1Lk-1第27页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n即即Lk-1的元素的元素l1和和l2是可连接的,如果(是可连接的,如果(l11=l21 l12=l22 l1k-2=l2k-2 l1k-1 l2k-1)。条件)。条件(l1k-1 l2 k-1)可确保不产生重复的)可确保不产生重复的项集。项集
19、。第28页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n剪枝步剪枝步nCk是是Lk的超集,即它的成员不一定都是频繁的超集,即它的成员不一定都是频繁项集,但所有的频繁项集,但所有的频繁k-项集都包含在项集都包含在Ck中中n扫描数据库,确定扫描数据库,确定Ck中每个候选项集的计数,中每个候选项集的计数,从而确定从而确定Lk。然而,。然而,Ck可能很大,这样所涉可能很大,这样所涉及的计算量就很大。及的计算量就很大。第29页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则nApriori算法算法n剪枝步剪枝步n为了压缩为了压缩 Ck,可利用,可利用A
20、priori性质:任何非性质:任何非频繁的频繁的(k-1)-项集都不可能是频繁项集都不可能是频繁k-项集的子项集的子集。因此,若一个候选集。因此,若一个候选k-项集的项集的(k-1)-项子集项子集不在不在 Lk-1中,则该候选也不可能是频繁的,中,则该候选也不可能是频繁的,从而可以从从而可以从 Ck 中删除。中删除。第30页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则【例】一个Apriori的具体例子,该例基于右图某商店的事务DB。DB中有9个事务,Apriori假定事务中的项按字典次序存放。TID项ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400
21、I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3第31页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(1)在算法的第一次迭代,每个项都是在算法的第一次迭代,每个项都是候选候选1-1-项项集集的集合的集合C1的成员。算法简单地扫描所有的事的成员。算法简单地扫描所有的事务,对每个项的出现次数计数。务,对每个项的出现次数计数。扫描D D,对每个候选计数项集支持度计数I16I27I36I42I52C1第32页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(2 2)设最小支持计数为)设最小支持计数为
22、2 2,可以确定频繁,可以确定频繁1-1-项集的项集的集合集合Lk-1。它由具有最小支持度的候选。它由具有最小支持度的候选1-1-项集组成。项集组成。项集支持度计数I16I27I36I42I52比较候选支持度计数与最小支持度计数L1第33页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(3 3)为发现频繁)为发现频繁2-2-项集的集合项集的集合L2,算法使用,算法使用 产生候选产生候选2-2-项集集合项集集合C2。L1L1项集I1,I2I1,I3I1,I4I1,I5I2,I3I2,I4I2,I5I3,I4I3,I5I4,I5C2由L1产生候选C2第34页,本讲稿共79页2 数据挖
23、掘功能数据挖掘功能关联规则关联规则(4 4)扫描)扫描D D中事务,计算中事务,计算C2中每个候选项集的支持中每个候选项集的支持计数。计数。项集支持度计数I1,I24I1,I34I1,I41I1,I52I2,I34I2,I42I2,I52I3,I40I3,I51I4,I50扫描D,对每个候选计数C2第35页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(5 5)确定频繁)确定频繁2-2-项集的集项集的集合合L2,它由具有最小支持度,它由具有最小支持度的的C2中的候选中的候选2-2-项集组成。项集组成。项集支持度计数I1,I24I1,I34I1,I52I2,I34I2,I42I2,
24、I52比较候选支持度计数与最小支持度计数L2第36页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(6 6)候选)候选3-3-项集的集合项集的集合C3的产生如下:的产生如下:连接:连接:C3=I1,I2,I1,I3,I1,I5,I2,I3,I2,I4,I2,I5 I1,I2,I1,I3,I1,I5,I2,I3,I2,I4,I2,I5=I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5L2L2第37页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(6 6)候选)候选3-3-项集的集合项集的集合C3的产生如下:的产
25、生如下:利用利用Apriori性质剪枝:频繁项集的所有子集必须是频性质剪枝:频繁项集的所有子集必须是频繁的。存在候选项集,判断其子集是否频繁。繁的。存在候选项集,判断其子集是否频繁。I1,I2,I3的的2-项子集项子集是是I1,I2,I1,I3和和I2,I3,它它们都是们都是L2的元素。因此保留的元素。因此保留I1,I2,I3在在C3中。中。I1,I2,I5的的2-项子集项子集是是I1,I2,I1,I5和和I2,I5,它们都是它们都是L2的元素。因此保留的元素。因此保留I1,I2,I5在在C3中。中。第38页,本讲稿共79页2 数据挖掘功能数据挖掘功能关联规则关联规则(6 6)候选)候选3-3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策 支持系统 核心 数据 优秀 课件
限制150内