第六章:关联规则-《数据挖掘与知识发现》-教学课件.ppt
《第六章:关联规则-《数据挖掘与知识发现》-教学课件.ppt》由会员分享,可在线阅读,更多相关《第六章:关联规则-《数据挖掘与知识发现》-教学课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章:关联规则n6.1 引言n6.2 关联规则基本模型n6.3 多级关联规则与多维关联规则n6.4 关联规则价值衡量与发展n本章小结2003-11-11高等教育出版社第六章:关联规则n6.1 引言n6.2 关联规则基本模型n6.3 多级关联规则与多维关联规则n6.4 关联规则价值衡量与发展n本章小结2003-11-12高等教育出版社关联规则简介n关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。n典型的关联规则发现问题是对超市中的货篮数据(Market Basket)进行分析。通过发现顾客放入货篮中
2、的不同商品之间的关系来分析顾客的购买习惯。2003-11-13高等教育出版社第六章:关联规则n6.1 引言n6.2 关联规则基本模型n6.3 多级关联规则与多维关联规则n6.4 关联规则价值衡量与发展n本章小结2003-11-14高等教育出版社关联规则基本模型(续)n设I=i1,i2,im为所有项目的集合,D为事务数据库,事务T是一个项目子集(TI)。每一个事务具有唯一的事务标识TID。设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定
3、的最小支持度阈值,就称该项集是频繁项集(或大项集)。2003-11-16高等教育出版社关联规则基本模型(续)n关联规则是形如XY的逻辑蕴含式,其中XI,YI,且XY=。如果事务数据库D中有s%的事务包含XY,则称关联规则XY的支持度为s%,实际上,支持度是一个概率值。若项集X的支持度记为support(X),规则的信任度为support(XY)support(X)。这是一个条件概率P(Y|X)。也就是:support(XY)=P(X Y)confidence(XY)=P(Y|X)2003-11-17高等教育出版社关联规则基本模型(续)n关联规则就是支持度和信任度分别满足用户给定阈值的规则。n发
4、现关联规则需要经历如下两个步骤:n找出所有频繁项集。n由频繁项集生成满足最小信任度阈值的规则。2003-11-18高等教育出版社频繁项集n为了避免计算所有项集的支持度(实际上频繁项集只占很少一部分),Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck,频繁k项集的集合记为Lk,m个项目构成的k项集的集合为,则三者之间满足关系Lk Ck 。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。2003-11-110高等教育出版社关联规则的性质:n性质6.1 频繁项集的子集必为频繁项集。n性质6.2 非频繁项集的超集一定是非频繁的。nApriori算法运用性质6.1,
5、通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck 是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。2003-11-111高等教育出版社LIG算法基本定义及定理n定义6.1 设T是事务数据库中的一个事务,TD,称T中基本项的个数为事务T的规模,记为T。n定义6.2 若d是一个项集,将d中元素的个数称为该项集的长度,记为d。n定理6.1 在一个已知事务数量的数据集D中,规模小于A的事务不会影响计算D(A)。n定理6.2 已知数据集D中的一个频繁k项集Ak(即,D(Ak)
6、minsup),令数据集D=ddDdmk,若D(Ak)minsup,则对D中任意一个频繁m项集Am而言,一定有Ak Am。2003-11-113高等教育出版社LIG算法基本定义及定理n定理6.3 若频繁k项集itemi和itemj的多段支持度分别为(ik,ik+1,iq)和(jk,jk+1,jq),满足 1)+=t;n(7)end;n(8)L1=large 1-itemset;/满足最小支持度n(9)C2=a,b a L1 and ba.AREA;/潜在频繁2项集2003-11-116高等教育出版社LIG算法(续)n(18)else t=Mk;/剔除事务中无价值的项n(19)for all C
7、andidates cCt don(20)c.sr+;n(21)endn(22)LCk=limit-gen(k,Ck);/生成 Lk 和 LCkn(23)Ck+1=JOIN(LCk);/新的潜在频繁项集的集合n(24)Mk+1=Ck+1中相异元素;/提取因子n(25)k+;q+;n(26)end while(LCk1);n(27)L=2003-11-118高等教育出版社Apriori算法与LIG算法数据规模比较表 2003-11-119高等教育出版社FP算法nProcedure FP_growth(Tree,)n(1)if Tree包含一个单一路径P thenn(2)for each 路径P中
8、节点组合(记为)n(3)生成模式,拥有支持度为节点中的最小支持度n(4)else for each 树的头列表节点ai n(5)生成模式=ai且support=ai.supportn(6)构成,的条件模式基和的条件FP_tree Treen(7)if Tree thenn(8)call FP_growth(Tree,);2003-11-120高等教育出版社第六章:关联规则n6.1 引言n6.2 关联规则基本模型n6.3 多级关联规则与多维关联规则n6.4 关联规则价值衡量与发展n本章小结2003-11-121高等教育出版社多级关联规则 n在很多应用中,由于多维数据空间上的数据稀少,在低层或原始
9、抽象级别上很难发现数据项间的强关联(Strong Associations)。nHan等人对多级关联规则进行了深入研究,指出强关联在高层概念上可以描述通常意义的知识。n多级关联规则可以在不同的抽象空间上描述多层抽象知识。2003-11-122高等教育出版社多级关联规则的挖掘n多级关联规则的挖掘基本上可以沿用“支持度和信任度”的框架。挖掘多级关联规则时可采用自上而下,深度优先的方法,由较抽象的概念层开始向下,到较低的具体概念层(如原始概念层),对每个概念层的频繁项集累加计数,直到再也找不到频繁项集为止。nApriori算法及其变种算法均可以应用到每一级频繁项集的发现上。n从模型上讲可以分成两类:
10、n所有级别采用统一的最小支持度阈值;n低级别上采用较小的最小支持度阈值。2003-11-124高等教育出版社规则的冗余性n概念分层允许在不同抽象层上发现知识,所以多级关联规则在数据挖掘中能发挥较大的作用。但由于“祖先”关系的原因,有些规则可能是冗余的。n如果同时挖掘到这两条规则且后者不能提供更新的信息,就把这个规则剔除。设规则R1是规则R2的祖先,如果通过修改R2的前件使之提升到上一级概念抽象后,能够得到规则R1,则规则R2就是冗余的,可以从规则集中把R2删去。2003-11-125高等教育出版社多维关联规则 n在多维数据库中,将每个不同的谓词层称作维。n称规则购买(X,“牛奶”)购买(X,“
11、面包”)为单维或者维内关联规则,这些规则一般都是在交易数据库中挖掘出的。n对多维数据库而言,还有一类多维的关联规则。多维关联规则是涉及两个或多个属性或谓词的规则,例如:年龄(X,“20.30”)职业(X,“学生”)购买(X,“笔记本电脑”)2003-11-126高等教育出版社数量属性的处理方法 n数据库属性分为定性和定量两种。定性的属性有有限个可能取值;定量的属性不能给出确切范围的数量值。n数量属性的处理方法分为三种:n把数量值划分为若干个离散区间,用区间值描述数量属性,这样就可以把定量的问题转化为定性的问题。也就是通过数量属性静态离散化挖掘多维关联规则。n对离散数据而言,为适应数据挖掘需要,
12、离散化进程可以是动态的,这样的关联规则称为数量相关规则。n如果在离散化时考虑数据点间的距离,就将这样的数量关联规则称为基于距离的关联规则。2003-11-128高等教育出版社用数量属性静态离散化挖掘多维关联规则 n在这种情况下,数量属性依据事先定义的概念层次进行离散化,数量值由范围取代。n数据立方体非常适合于挖掘多维关联规则,因为它包含描述多维数据结构的立方体格,有利于数据聚集和信息分组。n多维数据挖掘问题可以利用类似于Apriori的算法予以解决。在挖掘之前利用特定的概念分层对数量属性(量化属性)进行离散化。这里的离散化是静态的、预确定的。离散化的数值属性具有区间值,将每个区间看作一个类,就
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘与知识发现 第六 关联 规则 数据 挖掘 知识 发现 教学 课件
限制150内