数据挖掘原理与算法03关联规则挖掘.ppt
《数据挖掘原理与算法03关联规则挖掘.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与算法03关联规则挖掘.ppt(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与算法03关联规则挖掘 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望n关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。n最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。n关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理
2、论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。n关联规则挖掘是数据挖掘的其他研究分支的基础。3.1 基本概念与解决方法2022/12/323.1 基本概念与解决方法n事务数据库事务数据库n设I=i1,i2,im 是一个项目集合,事务数据库D=t1,t2,tn 是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,n)都对应I上的一个子集。n一个事务数据库可以用来刻画:n购物记录:I是全部物品集合,D是购物清单,每
3、个元组ti是一次购买物品的集合(它当然是I的一个子集)。n其它应用问题2022/12/33支持度与频繁项目集 n定义定义3-13-1(项目集的支持度)(项目集的支持度).给定一个全局项目集I和数据库D,一个项目集I1I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support(I1)=|t D|I1 t|/|D|。n定义定义3-23-2(频繁项目集).给定全局项目集I和数据库D,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Larg
4、e Iitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集:Maximum Frequent Itemsets)或最大大项目集(Maximum Large Iitemsets)。2022/12/34可信度与关联规则n定义定义3-33-3(关联规则与可信度)(关联规则与可信度).给定一个全局项目集I和数据库D,一个定义在I和D上的关联规则形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即Confidence(I1I2)=support(I1I2)/support(I1),其中I1
5、,I2I,I1I2=。n定义定义3-43-4(强关联规则)(强关联规则).D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则(Strong Association Rule)。2022/12/35关联规则挖掘基本过程n关联规则挖掘问题可以划分成两个子问题:n1.1.发现频繁项目集发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。n2 2生成关联规则生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。n第1个子问题是近年来关联规则挖掘算法研究的重点。2022/12/363.2 经典的频繁项
6、目集生成算法分析n项目集空间理论n经典的发现频繁项目集算法经典的发现频繁项目集算法n关联规则生成算法关联规则生成算法2022/12/373.2.1 项目集空间理论 nAgrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993,Appriori 属性)。n定理定理3-13-1(Appriori 属性1).如果项目集X 是频繁项目集,那么它的所有非空子集都是频繁项目集。证明 设X是一个项目集,事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y,设T中支持Y的元组数为s1。根据项目集支持数的定义,很容易知道支持X 的元组一定支持Y,所以s1 s,即support(Y)suppo
7、rt(X)。按假设:项目集X 是频繁项目集,即support(X)minsupport,所以support(Y)support(X)minsupport,因此Y是频繁项目集。n定理定理3-23-2(Appriori 属性2).如果项目集X 是非频繁项目集,那么它的所有超集都是非频繁项目集。证明(略)2022/12/383.2.2 3.2.2 经典的发现频繁项目集算法经典的发现频繁项目集算法n1994年,Agrawal 等人提出了著名的Apriori 算法。n算法算法3-13-1 Apriori(发现频繁项目集)(1)L1=large 1-itemsets;/所有1-项目频集(2)FOR(k=2
8、;Lk-1;k+)DO BEGIN(3)Ck=apriori-gen(Lk-1);/Ck是k-候选集(4)FOR all transactions tD DO BEGIN(5)Ct=subset(Ck,t);/Ct是所有t包含的候选集元素(6)FOR all candidates c Ct DO(7)c.count+;(8)END(9)Lk=cCk|c.countminsup_count(10)END(11)L=Lk;2022/12/39apriori-gen过程n算法apriori中调用了apriori-gen(Lk-1),是为了通过(k-1)-频集产生K-侯选集。nhas_infreque
9、nt_subset(c,Lk-1),判断c是否加入到k-侯选集中。(1)FOR all itemset p Lk-1 DO(2)FOR all itemset qLk-1 DO(3)IF p.item1=q.item1,p.itemk-2=q.itemk-2,p.itemk-1 1)THEN/generate rules with subsets of xm-1 as antecedents(7)genrules(lk,xm-1);(8)END(9)END;2022/12/316Rule-generate算法例子nMinconfidence=80%序号lkxm-1confidencesuppo
10、rt规则(是否是强规则)123523100%50%235(是)2235267%50%235(否)3235367%50%325(否)42352567%50%253(否)5235567%50%523(否)623535100%50%352(是)2022/12/3173.3 Apriori算法的性能瓶颈问题nApriori作为经典的频繁项目集生成算法,在数据挖掘中具有里程碑的作用。nApriori算法有两个致命的性能瓶颈:n1 1多次扫描事务数据库,需要很大的多次扫描事务数据库,需要很大的I/OI/O负载负载n对每次对每次k k循环,侯选集循环,侯选集C Ck k中的每个元素都必须通过扫描中的每个元素
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 算法 03 关联 规则
限制150内