第四章关联规则挖掘年精选文档.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章关联规则挖掘年精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章关联规则挖掘年精选文档.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章关联规则挖掘年本讲稿第一页,共三十五页“尿布与啤酒”典型关联分析案例n采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。本讲稿第二页,共三十五页一、基本概念n给定:q项的集合:I=i1,i2,.,inqT=t1,t2tn是数据库中事务的集合,每个事务ti则是项的集合,使得n则 为T中的关联规则。q其中 并且本讲稿第三页,
2、共三十五页规则度量:支持度和置信度Customerbuys diaperCustomerbuys bothCustomerbuys beern对所有满足最小支持度和置信度的关联规则q支持度s是指事务集T中包含 的百分比q置信度c是指T中包含A同时也包含B的事务占包含A的事务的百分比n最小支持度 min_supn最小置信度 min_conf本讲稿第四页,共三十五页n强关联规则:如果事务集合T中的关联规则AnB同时满足support(AB)min_sup,n confidence(AB)min_conf,n则AB称为T中的强关联规则。n关联规则挖掘就是在事务集合中挖掘强关联规则。本讲稿第五页,共三
3、十五页qk项集项集:包含k个项的集合n牛奶,面包,黄油是个3项集q如果K项集的频率(即支持计数)大于最小支持计数(最小支持度T中的事务总数n),则称该项集为频繁频繁K项集项集本讲稿第六页,共三十五页二、关联规则挖掘步骤n大型数据库中的关联规则挖掘包含两个过程:q找出所有频繁项集n大部分的计算都集中在这一步q由频繁项集产生强关联规则n即满足最小支持度和最小置信度的规则本讲稿第七页,共三十五页nApriori算法n定理一 如果某k-项集不是频繁k-项集,则包含IK的(k+1)-项集也不是频繁(k+1)-项集。该性质称为Apriori性质。本讲稿第八页,共三十五页由事务数据库挖掘单维布尔关联规则n最
4、简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。最小支持度 50%最小置信度 50%n对规则A C,其支持度 n置信度本讲稿第九页,共三十五页Apriori算法思想n一.扫描一次事务集合,找出频繁1项集集合L1;n二.基于L1,产生候选2项集集合C2,再扫描一次事务集合,比较候选支持计数与最小支持计数,找出频繁2项集L2;n三.基于L2,找出C3,作剪枝运算剪枝运算,得到剪枝后的C3,再扫描一次事务集合,确定L3;n四.以此类推,直至找出频繁项集为止。最后在所有频繁项集中产生强关联规则。本讲稿第十页,共三十五页Apriori算法示例Database TDB1st scanC1L1L2C2
5、C22nd scanC3L33rd scanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA,BA,CA,EB,CB,EC,EItemsetsupA,B1A,C2A,E1B,C2B,E3C,E2ItemsetsupA,C2B,C2B,E3C,E2ItemsetB,C,EItemsetsupB,C,E2最小支持计数:2本讲稿第十一页,共三十五页使用Apiori性质由L2产生C3n1 连接:qC3=L2 L2=A,C,B,C,B,EC,E A,C,B,C,B,EC,E=A,B,C,A
6、,C,E,B,C,En2使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:qA,B,C的2项子集是A,B,A,C,B,C,其中A,B不是L2的元素,所以删除这个选项;qA,C,E的2项子集是A,C,A,E,C,E,其中A,E 不是L2的元素,所以删除这个选项;qB,C,E的2项子集是B,C,B,E,C,E,它的所有2项子集都是L2的元素,因此保留这个选项。n3这样,剪枝后得到C3=B,C,E本讲稿第十二页,共三十五页由频繁项集产生关联规则n同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则
7、可由一下公式计算:n每个关联规则可由如下过程产生:q对于每个频繁项集l,产生l的所有非空子集;q对于每个非空子集s,如果 则输出规则“”本讲稿第十三页,共三十五页多层关联规则(1)n数据项中经常会形成概念分层n底层的数据项,其支持度往往也较低q这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度AllComputeraccessorysoftwarelaptopfinancialmousecolorprintercomputerdesktopIBMedu.Microsoftb/wHPSonywristpadLogitechTIDItemsT1IBM D/C,Sony b/wT2Ms.edu
8、.Sw.,Ms.fin.Sw.T3Logi.mouse,Ergoway wrist padT4IBM D/C,Ms.Fin.Sw.T5IBM D/CErgoway本讲稿第十四页,共三十五页多层关联规则(2)n在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的n通常,事务数据库中的数据也是根据维和概念分层来进行储存的q这为从事务数据库中挖掘不同层次的关联规则提供了可能。n在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力本讲稿第十五页,共三十五页挖掘多层关联规则的方法n通常,多层关联规则的挖掘还是使用置信度支持度框架,可以采用自顶向下策略q请注意:概念分层中,
9、一个节点的支持度肯定不小于该节点的任何子节点的支持度q由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数q每一层的关联规则挖掘可以使用Apriori等多种方法q例如:n先找高层的关联规则:computer-printer 20%,60%n再找较低层的关联规则:laptop-color printer 10%,50%本讲稿第十六页,共三十五页多层关联一致支持度n一致支持度:对所有层都使用一致的最小支持度q优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索q缺点:最小支持度值设置困难n太高:将丢掉出现在较低抽象层中有意义的关联规则n太低
10、:会在较高层产生太多的无兴趣的规则本讲稿第十七页,共三十五页多层关联递减支持度n使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难n递减支持度:在较低层使用递减的最小支持度q每一层都有自己的一个独立的最小支持度q抽象层越低,对应的最小支持度越小min_sup=5%min_sup=5%min_sup=3%Computer support=10%Laptopsupport=6%Desktopsupport=4%本讲稿第十八页,共三十五页多层关联搜索策略(1)n具有递减支持度的多层关联规则的搜索策略q逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝q层交叉单项过滤:一个第i层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 关联 规则 挖掘 精选 文档
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内