6、大型数据库中关联规则挖掘(精品).ppt
《6、大型数据库中关联规则挖掘(精品).ppt》由会员分享,可在线阅读,更多相关《6、大型数据库中关联规则挖掘(精品).ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大型数据库中的关联规则挖掘什么是关联规则挖掘?n关联规则挖掘:q从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。n应用:q购物篮分析、分类设计、捆绑销售等“尿布与啤酒”典型关联分析案例n采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。购物篮分析n如果问题的全域是商店中所有
2、商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(0001001100,这种方法丢失了什么信息?)n关联规则的两个兴趣度度量q支持度q置信度关联规则:基本概念n给定:q项的集合:I=i1,i2,.,inq任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得q每个事务由事务标识符TID标识;qA,B为两个项集,事务T包含A当且仅当n则关联规则是如下蕴涵式:q其中 并且 ,规则 在事务集D中成立,并且具有支持度s和置信度c基本概念示例n项的
3、集合 I=A,B,C,D,E,Fn每个事务T由事务标识符TID标识,它是项的集合 q比如:TID(2000)=A,B,Cn任务相关数据D是数据库事务的集合规则度量:支持度和置信度Customerbuys diaperCustomerbuys bothCustomerbuys beern对所有满足最小支持度和置信度的关联规则q支持度s是指事务集D中包含 的百分比q置信度c是指D中包含A的事务同时也包含B的百分比n假设最小支持度为50%,最小置信度为50%,则有如下关联规则qA C (50%,66.6%)qC A (50%,100%)大型数据库关联规则挖掘(1)n基本概念qk项集项集:包含k个项的
4、集合n牛奶,面包,黄油是个3项集q项集的频率项集的频率是指包含项集的事务数q如果项集的频率大于(最小支持度D中的事务总数),则称该项集为频繁项集频繁项集大型数据库关联规则挖掘(2)n大型数据库中的关联规则挖掘包含两个过程:q找出所有频繁项集n大部分的计算都集中在这一步q由频繁项集产生强关联规则n即满足最小支持度和最小置信度的规则关联规则挖掘分类(1)n关联规则有多种分类:q根据规则中所处理的值类型n布尔关联规则n量化关联规则(规则描述的是量化的项或属性间的关联性)q根据规则中涉及的数据维n单维关联规则n(仅涉及buys这个维)n多维关联规则关联规则挖掘分类(2)q根据规则集所涉及的抽象层n单层
5、关联规则n多层关联规则(在不同的抽象层发现关联规则)q根据关联挖掘的各种扩充n挖掘最大的频繁模式(该模式的任何真超模式都是非频繁的)n挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超集c,使得每个包含c的事务也包含c)n(最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项集)由事务数据库挖掘单维布尔关联规则n最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。最小支持度 50%最小置信度 50%n对规则A C,其支持度 =50%n置信度Apriori算法(1)nApriori算法是挖掘布尔关联规则频繁项集的算法nApriori算法利用的是Apriori性质:频繁项集的所有非空
6、子集也必须是频繁的。q 模式不可能比A更频繁的出现qApriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。qApriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率Apriori算法(2)nApriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。q先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。Apriori算法步骤nApriori算法由连接
7、连接和剪枝剪枝两个步骤组成。n连接:连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选候选k项集项集记为Ck。qLk-1中的两个元素L1和L2可以执行连接操作 的条件是nCk是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk。q为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。Apriori算法示例Database TDB1st scanC1L1L2C2C22nd scanC3L33rd
8、scanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA,BA,CA,EB,CB,EC,EItemsetsupA,B1A,C2A,E1B,C2B,E3C,E2ItemsetsupA,C2B,C2B,E3C,E2ItemsetB,C,EItemsetsupB,C,E2最小支持计数:2使用Apiori性质由L2产生C3n1 连接:qC3=L2 L2=A,C,B,C,B,EC,E A,C,B,C,B,EC,E=A,B,C,A,C,E,B,C,En2使用Apriori性质剪枝:频繁项集的
9、所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:qA,B,C的2项子集是A,B,A,C,B,C,其中A,B不是L2的元素,所以删除这个选项;qA,C,E的2项子集是A,C,A,E,C,E,其中A,E 不是L2的元素,所以删除这个选项;qB,C,E的2项子集是B,C,B,E,C,E,它的所有2项子集都是L2的元素,因此保留这个选项。n3这样,剪枝后得到C3=B,C,E由频繁项集产生关联规则n同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:n每个关联规则可由如下过程产生:q对于每个频繁项集l,产生l的所有非空
10、子集;q对于每个非空子集s,如果 则输出规则“”多层关联规则(1)n数据项中经常会形成概念分层n底层的数据项,其支持度往往也较低q这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度AllComputeraccessorysoftwarelaptopfinancialmousecolorprintercomputerdesktopIBMedu.Microsoftb/wHPSonywristpadLogitechTID ItemsT1IBM D/C,Sony b/wT2 Ms.edu.Sw.,Ms.fin.Sw.T3 Logi.mouse,Ergoway wrist padT4IBM D/C
11、,Ms.Fin.Sw.T5IBM D/CErgoway多层关联规则(2)n在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的n通常,事务数据库中的数据也是根据维和概念分层来进行储存的q这为从事务数据库中挖掘不同层次的关联规则提供了可能。n在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力挖掘多层关联规则的方法n通常,多层关联规则的挖掘还是使用置信度支持度框架,可以采用自顶向下策略q请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度q由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数q每一层的关联规则挖掘可以使用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大型 数据库 关联 规则 挖掘 精品
限制150内