数据仓库与数据挖掘教程(第2版)第八章集合论方法37536.pptx





《数据仓库与数据挖掘教程(第2版)第八章集合论方法37536.pptx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘教程(第2版)第八章集合论方法37536.pptx(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 集合论方法12粗糙集概念粗糙集概念3粗糙集含义粗糙集含义知识的分类观点知识的分类观点4粗糙集含义粗糙集含义粗糙集是处理不精确、不确定与不完全数据的理论粗糙集概述粗糙集概述1、粗糙集以等价关系(不可分辨关系)为基础,用于分类问题。2、它用上、下近似两个集合来逼近任意一个集合,该集合的边界线区域被定义为上近似集和下近似集之差集。3、上、下近似集可以通过等价关系给出确定的描述,边界域的含糊元素数目可以被计算出来。而模糊集(Fuzzy)是用隶属度来描述集合边界的不确定性,隶属度是认为给定的,不是计算得出了。粗糙集理论用在数据库中的知识发现主要体现在:1、利用等价关系对数据库进行属性约简;2、利
2、用集合的上、下近似关系获取分类规则。基本定义信息表定义基本定义等价关系定义基本定义等价类定义基本定义划分的定义例:例:集合集合X的上、下近似关系的上、下近似关系下近似定义下近似定义集合集合X的上、下近似关系的上、下近似关系上近似定义上近似定义正域,负域和边界的定义正域,负域和边界的定义用图来说明正域、负域和边界,每一个小长方形表示一个等价类。用图来说明正域、负域和边界,每一个小长方形表示一个等价类。粗糙集定义粗糙集定义例例属性约简的粗糙集理论属性约简的粗糙集理论属性约简概念属性约简概念 在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表
3、中数据。对信息表中的数据按横方向进行约简就是看信息表中有无冗余的属性,即去除这些属性后能保持等价性,使对象分类能力不会下降。约简后的属性集称为属性约简集,约简集通常不唯一。约简定义约简定义核定义核定义正域定义正域定义上面的约简定义没有考虑决策属性,下面研究条件属性上面的约简定义没有考虑决策属性,下面研究条件属性C相对决策属性相对决策属性D的约简。的约简。属性约简实例属性约简实例属性约简实例属性约简实例属性约简实例属性约简实例属性约简实例属性约简实例属性约简的粗糙集方法属性约简的粗糙集方法属性依赖度属性依赖度属性约简的粗糙集方法属性约简的粗糙集方法属性重要度属性重要度属性约简的粗糙集方法属性约简
4、的粗糙集方法最小属性集概念最小属性集概念粗糙集方法的规则获取粗糙集方法的规则获取K-均值聚类均值聚类聚类的问题描述为:聚类的问题描述为:给定数据集合给定数据集合D D,把它划分为一组聚类:,把它划分为一组聚类:CC1 1,C C2 2,,C CK K,C,Ci i D D,使得不同类中的数据尽可能的不相似(或距离较,使得不同类中的数据尽可能的不相似(或距离较远),而同一类中的数据尽可能的相似(或距离较近)。远),而同一类中的数据尽可能的相似(或距离较近)。即聚类内紧凑,类间独立。即聚类内紧凑,类间独立。K-均值聚类均值聚类算法描述:算法描述:1 1、为中心向量、为中心向量 CC1 1,C C2
5、 2,,C,CK K 初始化初始化K K个种子;个种子;2 2、分组:、分组:1 1)将样本分配给距离其最近的中心向量;)将样本分配给距离其最近的中心向量;2 2)由这些样本构造不相交的聚类;)由这些样本构造不相交的聚类;3 3、确定中心:用各个聚类的中心向量作为新的中心;、确定中心:用各个聚类的中心向量作为新的中心;4 4、重复分组和确定中心的步骤,直至算法收敛。、重复分组和确定中心的步骤,直至算法收敛。关联规则挖掘关联规则挖掘基本原理设I=i1,i2,im是项(Item)的集合。记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且TI。设A是I中一个项集,如果A
6、T,那么称事务T包含A。定义1:关联规则是形如AB的蕴涵式,这里AI,BI,并且AB=。定义2:规则的支持度。规则AB在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。关联规则挖掘关联规则挖掘基本原理定义3:规则的可信度。规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A),即:其中 表示数据库中 包含项集A的事务个数。定义4:阈值在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度
7、(min_conf)。定义5:项的集合称为项集(Itemset),包含k个项的项集称之为k-项集。如果项集满足最小支持度,则它称之为频繁项集(Frequent Itemset)。定义6:关联规则同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则,即 成立时,规则称之为关联规则,也可以称为强关联规则。关联规则挖掘过程关联规则的挖掘一般分为两个过程:(1)找出所有的频繁项集:根据定义,这些项集的支持度大于最小支持度的项集,即频繁项集。(2)由频繁项集产生关联规则:根据定义,这些规则必须满足最小支持度和最小可信度。其中,(2)是在(1)的基础上进行的,工作量非常
8、小。挖掘关联规则的总体性能由(1)决定。关联规则的兴趣度例子:讨论不购买商品与购买商品的关系。设,交易集D,经过对D的分析,得到表格:37定义7:兴趣度 公式反映了项集A与项集B的相关程度。若 即表示项集A出现和项集B是相互独立的。若表示A出现和B出现是负相关的。若表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。兴趣度的含义兴趣度的含义1、一条规则的兴趣度越大于1说明我们对这条规则越感兴趣(即其实际利用价值越大);2、一条规则的兴趣度越小于1说明我们对这条规则的反面规则越感兴趣(即其反面规则的实际利用价值越大);3、兴趣度不小于0。所有可能的关联规则 40讨论:讨论:I1I2I3I6
9、共共4条规则:条规则:由于由于I1,I21,规则才有价值。规则才有价值。注:兴趣度也称为作用度(注:兴趣度也称为作用度(Lift),表示关联规则表示关联规则AB的的“提升提升”。如果作用度(兴趣度)不大于。如果作用度(兴趣度)不大于1,则此关联规则就没有意义了。则此关联规则就没有意义了。概括概括分析分析可信度是对关联规则地准确度的衡量。支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。兴趣度(作用度)描述了项集A对项集B的影响力的大小。兴趣度越大,说明项集B受项集A的影响越大。
10、Apriori算法基本思想算法基本思想Apriori是挖掘关挖掘关联规则联规则的一个重要方法。算法分为两个子问题:1、找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频繁集(Frequent Itemset)。2、使用第1步找到的频繁集产生规则。Apriori算法基本方法算法基本方法Apriori 使用一种称作逐层搜索的迭代方法,“K-项集”用于探索“K+1-项集”。1、首先,找出频繁“1-项集”的集合。该集合记作L1。L1用于找频繁“2-项集”的集合L2,而L2用于找L3;2、如此下去,直到不能找到“K-项集”。找每个LK需要一次数据库扫描。Apriori 性质性质:频繁项
11、集的所有非空子集都必须也是频繁的。1、如果项集B不满足最小支持度阈值min-sup,则B不是频繁的,即 P(B)min-sup2、如果项A添加到B,则结果项集(即BA)不可能比B更频繁出现。因此,BA也不是频繁的,即 P(BA)min-sup。“K-项集”产生“K+1-项集”设K-项集LK,K+1项集LK+1,产生LK+1的候选集CK+1,有公式:CK+1=LKLK=XY,其中X,Y LK,|XY|=K+1 其中C1是1-项集的集合,取自所有事务中的单项元素。例:如 L1=A,B C2=AB=A,B,且|AB|=2 L2=A,B,A,C C3=A,BA,C=A,B,C,且|ABC|=3Apri
12、ori 算法中候选项集与频繁项集的产生实例算法中候选项集与频繁项集的产生实例事务ID事务的项目集T1A,B,ET2B,DT3B,CT4A,B,DT5A,CT6B,CT7A,CT8A,B,C,ET9A,B,C46过程举例过程举例1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法扫描所有事务,对每个项的出现次数计数;2)假定最小事务支持计数为2。(即min-sup=2/9=22%),可以确定频繁1-项集的集合L1。它由具有最小支持度的候选1-项集组成。3)为发现频繁2-项集的集合L2,算法使用L1*L1来产生候选集C2;4)扫描D中事务,计算C2中每个候选项集的支持度计数;5)确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 教程 第八 集合论 方法 37536

限制150内