最新大型数据库中的关联规则挖掘教学课件.ppt
《最新大型数据库中的关联规则挖掘教学课件.ppt》由会员分享,可在线阅读,更多相关《最新大型数据库中的关联规则挖掘教学课件.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大型数据库中的关联规则挖掘大型数据库关联规则挖掘 (1)n基本概念qk项集项集:包含k个项的集合n牛奶,面包,黄油是个3项集q项集的频率项集的频率是指包含项集的事务数q如果项集的频率大于(最小支持度D中的事务总数),则称该项集为频繁项集频繁项集大型数据库关联规则挖掘 (2)n大型数据库中的关联规则挖掘包含两个过程:q找出所有频繁项集n大部分的计算都集中在这一步q由频繁项集产生强关联规则n即满足最小支持度和最小置信度的规则关联规则挖掘分类 (1)n关联规则有多种分类:q根据规则中所处理的值类型n布尔关联规则n量化关联规则(规则描述的是量化的项或属性间的关联性)q根据规则中涉及的数据维n单维关联规
2、则n(仅涉及buys这个维)n多维关联规则) ,( )48.42 ,( )39.30 ,( computerXbuyskkXincomeXage) ,( ) ,( softwareXbuyscomputerXbuyssoftwaremanagementfinancialcomputer_关联规则挖掘分类 (2)q根据规则集所涉及的抽象层n单层关联规则n多层关联规则 (在不同的抽象层发现关联规则)q根据关联挖掘的各种扩充n挖掘最大的频繁模式(该模式的任何真超模式都是非频繁的)n挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超集c,使得每个包含c的事务也包含c)n(最大的频繁模式和频繁闭项
3、集可以用来减少挖掘中产生的频繁项集)) _ ,( ) 39.30 ,( computerlaptopXbuysXage) ,( ) 39.30 ,( computerXbuysXage由事务数据库挖掘单维布尔关联规则n最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。Transaction ID Items Bought2000A,B,C1000A,C4000A,D5000B,E,FFrequent Itemset SupportA75%B50%C50%A,C50%最小支持度 50%最小置信度 50%n对规则A C,其支持度 =50%n置信度%6 .66)(sup/ )(sup)(/ )
4、()|( )( AportCAportAPCAPACPCAconfidence)( )(supCAPCAportApriori算法 (1)nApriori算法是挖掘布尔关联规则频繁项集的算法nApriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。q 模式不可能比A更频繁的出现qApriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。qApriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率BAApriori算法 (2)nApriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭
5、代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。q先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。Apriori算法步骤nApriori算法由连接连接和剪枝剪枝两个步骤组成。n连接:连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选候选k项集项集记为Ck。qLk-1中的两个元素L1和L2可以执行连接操作 的条件是nCk是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到
6、Lk 。q为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。)1 1()22(.)22()1 1 (21212121klklklklllll21ll Apriori算法示例Database TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A, C, D20B, C, E30A, B, C, E40B, EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA, BA, CA, EB, CB, EC, EItemse
7、tsupA, B1A, C2A, E1B, C2B, E3C, E2ItemsetsupA, C2B, C2B, E3C, E2ItemsetB, C, EItemsetsupB, C, E2最小支持计数:2使用Apiori性质由L2产生C3n1 连接:qC3=L2 L2= A,C,B,C,B,EC,E A,C,B,C,B,EC,E = A,B,C,A,C,E,B,C,En2使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:qA,B,C的2项子集是A,B,A,C,B,C,其中A,B不是L2的元素,所以删除这个选项;qA,C,E的2项子集
8、是A,C,A,E,C,E,其中A,E 不是L2的元素,所以删除这个选项;qB,C,E的2项子集是B,C,B,E,C,E,它的所有2项子集都是L2的元素,因此保留这个选项。n3这样,剪枝后得到C3=B,C,E由频繁项集产生关联规则n同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:n每个关联规则可由如下过程产生:q对于每个频繁项集l,产生l的所有非空子集;q对于每个非空子集s,如果 则输出规则“ ”)(_sup)(_sup)|()(AcountportBAcountportBAPBAconfidenceconfscountport
9、lcountportmin_)(_sup)(_sup)(sls多层关联规则 (1)n数据项中经常会形成概念分层n底层的数据项,其支持度往往也较低q这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度AllComputeraccessorysoftwarelaptopfinancialmousecolorprintercomputerdesktopIBMedu.Microsoftb/wHPSonywristpadLogitechTID ItemsT1IBM D/C, Sony b/wT2 Ms. edu. Sw., Ms. fin. Sw.T3 Logi. mouse, Ergoway wr
10、ist padT4IBM D/C, Ms. Fin. Sw.T5IBM D/CErgoway多层关联规则 (2)n在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的n通常,事务数据库中的数据也是根据维和概念分层来进行储存的q这为从事务数据库中挖掘不同层次的关联规则提供了可能。n在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力挖掘多层关联规则的方法n通常,多层关联规则的挖掘还是使用置信度支持度框架,可以采用自顶向下策略q请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度q由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计
11、算累加计数q每一层的关联规则挖掘可以使用Apriori等多种方法q例如:n先找高层的关联规则:computer - printer 20%, 60%n再找较低层的关联规则:laptop - color printer 10%, 50%多层关联一致支持度n一致支持度:对所有层都使用一致的最小支持度q优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索q缺点:最小支持度值设置困难n太高:将丢掉出现在较低抽象层中有意义的关联规则n太低:会在较高层产生太多的无兴趣的规则多层关联递减支持度n使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难n递减支持度:
12、在较低层使用递减的最小支持度q每一层都有自己的一个独立的最小支持度q抽象层越低,对应的最小支持度越小Computer support=10%Laptopsupport=6%Desktopsupport=4%min_sup = 5%min_sup = 5%min_sup = 3%多层关联搜索策略 (1)n具有递减支持度的多层关联规则的搜索策略q逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝q层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的(P165, 图6-14)n(computer)( laptop computer, desktop computer
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 大型 数据库 中的 关联 规则 挖掘 教学 课件
限制150内