第6章挖掘大型数据库中的关联规则数据挖掘概念与技术教学课件ppt.ppt
《第6章挖掘大型数据库中的关联规则数据挖掘概念与技术教学课件ppt.ppt》由会员分享,可在线阅读,更多相关《第6章挖掘大型数据库中的关联规则数据挖掘概念与技术教学课件ppt.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。第第6章:挖掘大型数据库中的关联规则章:挖掘大型数据库中的关联规则6.1 关联规则挖掘关联规则挖掘关联规则挖掘寻找给定数据集中项之间的有趣联系。关联规则挖掘寻找给定数据集中项之间的有趣联系。2023/4/131Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/132Data Mining:
2、Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/133Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.1.2 基本概念基本概念:频繁模式和关联规则频繁模式和关联规则nItemset(项集)(项集)X=x1,xkn找出满足最小支持度和置信度的所找出满足最小支持度和置信度的所规则规则 XY
3、:n支持度支持度,s,事务包含事务包含 X Y 的的概概率率 n置信度置信度,c,事务含事务含 X 也包含也包含 Y 的的条件概率条件概率.设设 min_support=50%,min_conf =50%:A C (50%,66.7%)C A (50%,100%)顾客购买顾客购买尿布尿布顾客购买顾客购买二者二者顾客购买顾客购买啤酒啤酒Transaction-idItems bought10A,B,C20A,C30A,D40B,E,F2023/4/134Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开
4、式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。挖掘关联规则挖掘关联规则一个例子一个例子规则规则 A C:支持度支持度=support(A C)=50%置信度置信度=support(A C)/support(A)=66.6%最小支持度最小支持度 50%最小置信度最小置信度 50%Transaction-idItems bought10A,B,C20A,C30A,D40B,E,FFrequent patternSupportA75%B50%C50%A,C50%2023/4/135Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较
5、广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.1.3 关联规则挖掘:一个路径图关联规则挖掘:一个路径图2023/4/136Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/137Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很
6、少使用,在此不再说明。2023/4/138Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/139Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.2 单维关联规则挖掘算法单维关联规则挖掘算法最简单形式的关联规则挖潜方法:关联规则是单维、最简单形式的关联规则挖潜方法
7、:关联规则是单维、单层、布尔关联规则。单层、布尔关联规则。2023/4/1310Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.2.1 Apriori:一种候选产生一种候选产生-测试方法测试方法nApriori性质:频繁项集的任何子集必须是频繁的。性质:频繁项集的任何子集必须是频繁的。n如果如果 beer,diaper,nuts 是频繁的是频繁的,beer,diaper也是。也是。n每个包含每个包含 beer,diaper,nuts
8、的事务的事务 也包含也包含 beer,diaper。nApriori 剪枝原则剪枝原则:n如果一个项集不是如果一个项集不是频繁的频繁的,将不产生将不产生/测试它的超集反单调性。测试它的超集反单调性。n方法方法:n由长度为由长度为k的的频繁频繁项集产生长度为项集产生长度为(k+1)的候选项集的候选项集,并且并且n根据根据 DB测试这些候选。测试这些候选。n性能研究表明了它的有效性和可伸缩性。性能研究表明了它的有效性和可伸缩性。nAgrawal&Srikant 1994,Mannila,et al.19942023/4/1311Data Mining:Concepts and Techniques
9、从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。AprioriApriori算法:通过已知的频繁项集构成长度更大的算法:通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁项集,并将其称为潜在频繁项集。潜在频繁k k项集的集合项集的集合C Ck k 是指由有可能成为频繁是指由有可能成为频繁k k项集项集L Lk k的项集组成的集合。的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算所有
10、不同项集的支持度,因此在一定程度上减少了计算量。量。2023/4/1312Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。1.Apriori 算法算法 一个例子一个例子数据库数据库 TDB第第1次扫描次扫描C1L1L2C2C2第第2次扫描次扫描C3L3第第3次扫描次扫描TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA,BA
11、,CA,EB,CB,EC,EItemsetsupA,B1A,C2A,E1B,C2B,E3C,E2ItemsetsupA,C2B,C2B,E3C,E2ItemsetB,C,EItemsetsupB,C,E2最小支持度最小支持度=22023/4/1313Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2.Apriori 算法算法n算法伪代码算法伪代码:Ck:长度为长度为 k的候选项集的候选项集Lk:长度为长度为k的频繁项集的频繁项集L1=频
12、繁项频繁项;for(k=1;Lk!=;k+)do begin Ck+1=由由 Lk产生的候选产生的候选;for each 数据库中的事务数据库中的事务 t do 增加包含在增加包含在t 中的所有候选中的所有候选Ck+1的计数的计数 Lk+1 =Ck+1 中满足中满足 min_support的候选的候选 endreturn k Lk;2023/4/1314Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。3.Apriori的重要细节的重要细
13、节n如何产生候选如何产生候选?n步骤步骤 1:Lk的自连接的自连接 n步骤步骤 2:剪枝剪枝n入何对候选的支持度计数入何对候选的支持度计数?n候选产生的例子候选产生的例子nL3=abc,abd,acd,ace,bcdn自连接自连接:L3*L3nabcd:由由 abc 和和 abdnacde:由由 acd 和和 acen剪枝剪枝:nacde 被删除被删除,因为因为 ade 不在不在 L3nC4=abcdL4的每个频繁项的子的每个频繁项的子集都应在集都应在L3中。中。2023/4/1315Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞
14、开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。4.如何产生候选如何产生候选?n假定假定 Lk-1 中的项集已排序中的项集已排序n步骤步骤 1:Lk-1自连接自连接 insert into Ckselect p.item1,p.item2,p.itemk-1,q.itemk-1from Lk-1 p,Lk-1 qwhere p.item1=q.item1,p.itemk-2=q.itemk-2,p.itemk-1 q.itemk-1在在p和和q中,前中,前K-2项相同,且项相同,且p的第的第k-1项少于项少于q的第的第k-1项值。项值。nSte
15、p 2:剪枝剪枝forall itemsets c in Ck doforall(k-1)-subsets s of c doif(s is not in Lk-1)then delete c from Ck2023/4/1316Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。5.完整的完整的Apriori算法算法n(1)L1=频繁频繁1项集项集;n(2)for(k=2;Lk-1;k+)do begin n(3)Ck=apriori_g
16、en(Lk-1);/新的潜在频繁项集新的潜在频繁项集 n(4)for all transactions t D do begin n(5)Ct=subset(Ck,t);/t中包含的潜在频繁项集中包含的潜在频繁项集 n(6)for all candidates c Ct do n(7)c.count+;n(8)end;n(9)Lk=c Ck|c.count minsup n(10)end;2023/4/1317Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很
17、少使用,在此不再说明。D:2023/4/1318Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/1319Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.2.2 由频繁项集产生关联规则由频繁项集产生关联规则2023/4/1320Data Mining:Concep
18、ts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2023/4/1321Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。关联规则的可视化关联规则的可视化:Pane Graph2023/4/1322Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中
19、有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。关联规则的可视化关联规则的可视化:Rule Graph2023/4/1323Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。6.2.3 提高提高Apriori算法的有效性算法的有效性频繁模式挖掘的挑战频繁模式挖掘的挑战n挑战挑战n事务数据库的多遍扫描事务数据库的多遍扫描n数量巨大的候选数量巨大的候选n候选支持度计数繁重的工作量候选支持度计数繁重的工作量
20、n改进改进 Apriori:基本思想基本思想n减少事务数据库的扫描遍数减少事务数据库的扫描遍数n压缩候选数量压缩候选数量n便于候选计数便于候选计数2023/4/1324Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。1.基于基于Hash的技术的技术一种基于一种基于Hash的技术可以用于压缩候选的技术可以用于压缩候选k项集项集Ck(k1)。)。2023/4/1325Data Mining:Concepts and Techniques从使
21、用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。由由C1中的候选中的候选1项集产生项集产生1项集项集L1时,可以时,可以对每个事务产生所有的对每个事务产生所有的2项集。项集。Hash函数:函数:h(Ii,Ij)=(i*10+j)mod 7若支持度若支持度=3,则,则0、1、3和和4桶中的项集不可能是频繁的。桶中的项集不可能是频繁的。频繁项:频繁项:I2,I3:4、I1,I2:4、I1,I3:42023/4/1326Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使
22、用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。2.事务压缩事务压缩不包含任何不包含任何k项集的事务不可能包含任何项集的事务不可能包含任何k+1项集。项集。这样,这种事务在其后的考虑时,可以加上标记或删除。这样,这种事务在其后的考虑时,可以加上标记或删除。因为为产生因为为产生j项集(项集(jk),扫描数据库时不再需要),扫描数据库时不再需要它们。它们。2023/4/1327Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些
23、年的城市地下工程施工中已很少使用,在此不再说明。3.划分划分:只扫描数据库两次只扫描数据库两次n项集在项集在DB中是频繁的中是频繁的,它必须至少在它必须至少在DB的一个划分中是频的一个划分中是频繁的繁的n扫描扫描 1:划分数据库划分数据库,并找出局部频繁模式。并找出局部频繁模式。n扫描扫描 2:求出全局频繁模式。求出全局频繁模式。2023/4/1328Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。4.选样计算频繁模式选样计算频繁模式选
24、取给定数据库选取给定数据库D的随机样本的随机样本S,然后,在,然后,在S而不是而不是D中找频繁项集。中找频繁项集。牺牲一些精度换取了有效性。牺牲一些精度换取了有效性。2023/4/1329Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。5.动态项集计数动态项集计数将数据库划分为标记开始点的块。不像将数据库划分为标记开始点的块。不像Aprior仅在每次完整的数据库扫描之前确定新的候选,在仅在每次完整的数据库扫描之前确定新的候选,在这种变形
25、中,可以在任何开始点添加新的候选项集。这种变形中,可以在任何开始点添加新的候选项集。如果一个项集的所有子集已被确定为频繁的,如果一个项集的所有子集已被确定为频繁的,则添加它作为新的候选。结果算法需要的数据库扫则添加它作为新的候选。结果算法需要的数据库扫描比描比Apriori少。少。2023/4/1330Data Mining:Concepts and Techniques从使用情况来看,闭胸式的使用比较广泛。敞开式盾构之中有挤压式盾构、全部敞开式盾构,但在近些年的城市地下工程施工中已很少使用,在此不再说明。频繁模式挖掘的瓶颈频繁模式挖掘的瓶颈n多遍数据库扫描是多遍数据库扫描是 昂贵的。昂贵的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 挖掘 大型 数据库 中的 关联 规则 数据 概念 技术 教学 课件 ppt
限制150内