数据挖掘导论关联分析学习教案.pptx
《数据挖掘导论关联分析学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘导论关联分析学习教案.pptx(110页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据挖掘导论数据挖掘导论(do ln)关联分析关联分析第一页,共110页。6.1 问题问题(wnt)定义定义n n关联分析n n频繁项集n n关联规则n n关联规则强度:n n支持度n n置信度n n关联规则发现(fxin)n n挖掘关联规则的策略第1页/共110页第二页,共110页。定义定义(dngy):关联分析关联分析(association analysis)n n关联分析用于发现隐藏在大型数据集中(jzhng)的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。n n关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等Rules Discovered
2、:Diaper-Beer第2页/共110页第三页,共110页。定义定义(dngy):频繁项集频繁项集(Frequent Itemset)n n项集(项集(项集(项集(ItemsetItemset)n n包含包含包含包含0 0个或多个项的集合个或多个项的集合个或多个项的集合个或多个项的集合n n例子例子例子例子:Milk,Bread,Diaper:Milk,Bread,Diapern nk-k-项集项集项集项集n n如果一个项集包含如果一个项集包含如果一个项集包含如果一个项集包含k k个项个项个项个项n n支持度计数(支持度计数(支持度计数(支持度计数(Support count Support
3、 count)()n n包含特定项集的事务个数包含特定项集的事务个数包含特定项集的事务个数包含特定项集的事务个数n n例如:例如:例如:例如:(Milk,Bread,Diaper)=2(Milk,Bread,Diaper)=2 n n支持度(支持度(支持度(支持度(SupportSupport)n n包含项集的事务数与总事务数的比值包含项集的事务数与总事务数的比值包含项集的事务数与总事务数的比值包含项集的事务数与总事务数的比值n n例如:例如:例如:例如:s(Milk,Bread,Diaper)=2/5 s(Milk,Bread,Diaper)=2/5n n频繁频繁频繁频繁(pnfn)(pnf
4、n)项集(项集(项集(项集(Frequent ItemsetFrequent Itemset)n n满足最小支持度阈值(满足最小支持度阈值(满足最小支持度阈值(满足最小支持度阈值(minsup minsup )的所有)的所有)的所有)的所有项集项集项集项集第3页/共110页第四页,共110页。定义定义:关联关联(gunlin)规则规则(Association Rule)Example:l关联规则关联规则是形如 X Y的蕴含表达式,其中 X 和 Y 是不相交的项集例子:Milk,Diaper Beer l关联规则的强度支持度 Support(s)u确定项集的频繁程度置信度 Confidence(
5、c)u确定Y在包含X的事 务中出现的频繁程度第4页/共110页第五页,共110页。关联规则关联规则(guz)发现发现n n关联规则发现:给定事务的集合 T,关联规则发现是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有规则,minsup和minconf是对应的支持度和置信度阈值n n关联规则发现的一种原始方法是:Brute-force approach:n n计算每个可能规则的支持度和置信度n n这种方法计算代价过高,因为可以从数据集提取的规则的数量(shling)达指数级n n从包含d个项的数据集提取的可能规则的总数n nR=3d-2d+1+1,如果d等于6,则R=6
6、02第5页/共110页第六页,共110页。挖掘挖掘挖掘挖掘(wju)(wju)关联规则(关联规则(关联规则(关联规则(Mining Association RulesMining Association Rules)的策略)的策略)的策略)的策略n n大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务(rn wu)分解为如下两个主要的子任务(rn wu):n n频繁项集产生(Frequent Itemset Generation)n n其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。n n规则的产生(Rule Generation)n n其目标是从上一步发现的频繁项
7、集中提取所有高置信度的规则,这些规则称作强规则(strong rule)。第6页/共110页第七页,共110页。6.2 频繁频繁(pnfn)项集的产生项集的产生n n6.1 问题定义n n6.2 频繁(pnfn)项集的产生第7页/共110页第八页,共110页。频繁频繁频繁频繁(pnfn)(pnfn)项集产生(项集产生(项集产生(项集产生(Frequent Itemset GenerationFrequent Itemset Generation)格结构(格结构(lattice structure)格结构用来枚举所有格结构用来枚举所有(suyu)可能项可能项集集第8页/共110页第九页,共110
8、页。频繁频繁频繁频繁(pnfn)(pnfn)项集产生(项集产生(项集产生(项集产生(Frequent Itemset GenerationFrequent Itemset Generation)n nBrute-force 方法:n n把格结构中每个项集作为候选项集n n将每个候选项集和每个事务进行(jnxng)比较,确定每个候选项集的支持度计数。n n时间复杂度 O(NMw),这种方法的开销可能非常大。第9页/共110页第十页,共110页。降低产生降低产生降低产生降低产生(ch(ch nshng)nshng)频繁项集计算复杂度的方法频繁项集计算复杂度的方法频繁项集计算复杂度的方法频繁项集计算
9、复杂度的方法n n减少候选项集的数量(M)n n先验(apriori)原理n n减少比较的次数(NM)n n替代将每个候选项集与每个事务相匹配,可以使用更高级的数据结构,或存储(cn ch)候选项集或压缩数据集,来减少比较次数第10页/共110页第十一页,共110页。6.2 频繁频繁(pnfn)项集的产生项集的产生n n6.2.1 先验(xin yn)原理第11页/共110页第十二页,共110页。先验先验(xin yn)原理(原理(Apriori principle)n n先验原理:n n如果一个项集是频繁(pnfn)的,则它的所有子集一定也是频繁(pnfn)的第12页/共110页第十三页,共
10、110页。先验先验(xin yn)原理(原理(Apriori principle)n n先验原理:n n如果一个项集是频繁的,则它的所有子集一定也是频繁的n n相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:n n这种基于支持度度量修剪指数搜索空间的策略称为(chn wi)基于支持度的剪枝(support-based pruning)n n这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为(chn wi)支持度度量的反单调性(anti-monotone)。第13页/共110页第十四页,共110页。非频繁项集例子例子例子例子(l
11、 zi)(l zi)被剪枝的超集第14页/共110页第十五页,共110页。6.2 频繁频繁(pnfn)项集的产生项集的产生n n6.2.1 先验原理(yunl)n n6.2.2 Apriori算法的频繁项集产生第15页/共110页第十六页,共110页。Apriori算法算法(sun f)的频繁项集的频繁项集产生产生第16页/共110页第十七页,共110页。Apriori算法的频繁算法的频繁(pnfn)项集产项集产生生Items(1-itemsets)Pairs(2-itemsets)Triplets(3-itemsets)支持度阈值(y zh)=60%最小支持度计数=3枚举所有项集将产生 个候
12、选而使用先验原理,将较少为 =13第17页/共110页第十八页,共110页。Apriori 算法算法(sun f)第18页/共110页第十九页,共110页。Apriori 算法算法(sun f)n nApriori算法的频繁项集产生的部分有两个重要的特点:n n它是一个逐层算法。即从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层n n它使用产生-测试策略来发现频繁项集。在每次迭代,新的候选(hu xun)项集由前一次迭代发现的频繁项集产生,然后对每个候选(hu xun)的支持度进行计数,并与最小支持度阈值进行比较。n n该算法需要的总迭代次数是kmax+1,其中kmax是频繁项集的最大
13、长度第19页/共110页第二十页,共110页。6.2 频繁频繁(pnfn)项集的产生项集的产生n n6.2.1 先验原理(yunl)n n6.2.2 Apriori算法的频繁项集产生n n6.2.3 候选的产生与剪枝第20页/共110页第二十一页,共110页。候选的产生候选的产生(chnshng)与剪枝与剪枝(构造构造apriori-gen函数函数)n n候选项集的产生与剪枝(构造apriori-gen函数)包含2个步骤:n n候选项集的产生:由频繁(pnfn)(k-1)-项集产生新的候选k-项集n n候选项集的剪枝:采用基于支持度的剪枝,删除一些候选k-项集第21页/共110页第二十二页,共
14、110页。候选的产生与剪枝候选的产生与剪枝(构造构造(guzo)apriori-gen函数函数)n n蛮力方法n n蛮力方法把所有的k-项集都看作可能的候选,然后使用候选剪枝除去不必要的候选n n第k层产生的候选项集的数目为 。(d为项的总数)n n虽然(surn)候选产生是相当简单的,但是候选剪枝的开销极大,因为必须考察的项集数量太大。n n设每一个候选项集所需的计算量为O(k),这种方法n n 的总复杂度为第22页/共110页第二十三页,共110页。候选候选(hu xun)的产生与剪枝的产生与剪枝第23页/共110页第二十四页,共110页。Items(1-itemsets)Pairs(2-
15、itemsets)Triplets(3-itemsets)支持(zhch)度阈值=60%最小支持(zhch)度计数=3枚举所有项集将产生 6C1+6C2+6C3=41个候选而使用先验(xin yn)原理,将较少为6+6+1=13第24页/共110页第二十五页,共110页。候选的产生与剪枝候选的产生与剪枝(jin zh)(Fk-1XF1方法)方法)n n n n这种方法用其他频繁项来扩展每个频繁(这种方法用其他频繁项来扩展每个频繁(k-1k-1)-项集项集n n这种方法将产生这种方法将产生(ch(ch nshng)nshng)个候选个候选k-k-项集,其中项集,其中|Fj|Fj|表示频繁表示频繁
16、j-j-项集的个数。这种方法总复杂度是项集的个数。这种方法总复杂度是n n这种方法是完全的,因为每一个频繁这种方法是完全的,因为每一个频繁k-k-项集都是由一个频繁项集都是由一个频繁(k-1k-1)-项集和一个频繁项集和一个频繁1-1-项集组成的。因此,所有的频繁项集组成的。因此,所有的频繁k-k-项集是这种方法所产生项集是这种方法所产生(ch(ch nshng)nshng)的候选的候选k-k-项集的一部分。项集的一部分。n n然而,这种方法很难避免重复地产生然而,这种方法很难避免重复地产生(ch(ch nshng)nshng)候选项集。候选项集。n n 如:如:面包,尿布,牛奶面包,尿布,牛
17、奶 不仅可以由合并项集不仅可以由合并项集 面包,尿面包,尿布布 和和 牛奶牛奶 得到,而且还可以由合并得到,而且还可以由合并 面包,牛奶面包,牛奶 和和 尿布尿布 得到,或由合并得到,或由合并 尿布,牛奶尿布,牛奶 和和 面包面包 得到。得到。第25页/共110页第二十六页,共110页。候选的产生与剪枝候选的产生与剪枝(jin zh)(Fk-1XF1方法)方法)第26页/共110页第二十七页,共110页。候选候选(hu xun)的产生与剪枝的产生与剪枝(Fk-1XF1方法)方法)n n避免产生重复的候选项集的一种方法是确保每个避免产生重复的候选项集的一种方法是确保每个频繁项集中的项以字典序存储
18、,每个频繁(频繁项集中的项以字典序存储,每个频繁(k-1k-1)-项集项集X X只用字典序比只用字典序比X X中所有的项都大的频繁项进中所有的项都大的频繁项进行扩展行扩展n n 如:项集如:项集 面包,尿布面包,尿布 可以用项集可以用项集 牛奶牛奶 扩展,扩展,因为因为“牛奶牛奶”(milkmilk)在字典序下比)在字典序下比“面包面包”(BreadBread)和)和“尿布尿布”(DiapersDiapers)都大。)都大。n n尽管这种方法比蛮力方法有明显改进,但是仍然尽管这种方法比蛮力方法有明显改进,但是仍然产生大量不必要的候选。产生大量不必要的候选。n n 例如例如(lr)(lr),通过
19、合并,通过合并 啤酒,尿布啤酒,尿布 和和 牛奶牛奶 而得到的候选是不必要的。因为它的子集而得到的候选是不必要的。因为它的子集 啤酒,啤酒,牛奶牛奶 是非频繁的。是非频繁的。n n【每个【每个K-K-项集,它的每一个项必须至少在项集,它的每一个项必须至少在k-1k-1个个(k-1k-1)项集中出现,否则,)项集中出现,否则,这个这个K-K-项集是非频繁项集是非频繁项集】项集】第27页/共110页第二十八页,共110页。候选的产生与剪枝候选的产生与剪枝(jin zh)(Fk-1XFk-1方法)方法)n n n n这种方法合并一对频繁(这种方法合并一对频繁(k-1k-1)-项集,仅当它们的前项集,
20、仅当它们的前k-2k-2个项个项都相同。都相同。n n 如频繁项集如频繁项集 面包,尿布面包,尿布 和和 面包,牛奶面包,牛奶 合并,形成了候合并,形成了候选选3-3-项集项集 面包,尿布,牛奶面包,尿布,牛奶。算法不会合并项集。算法不会合并项集 啤酒,尿啤酒,尿布布 和和 尿布,牛奶尿布,牛奶,因为它们的第一个项不相同。,因为它们的第一个项不相同。n n然而,由于每个候选都由一对频繁(然而,由于每个候选都由一对频繁(k-1k-1)-项集合并而成,项集合并而成,因此,需要因此,需要(xyo)(xyo)附加的候选剪枝步骤来确保该候选的其余附加的候选剪枝步骤来确保该候选的其余k-2k-2个子集是频
21、繁的。个子集是频繁的。第28页/共110页第二十九页,共110页。候选候选(hu xun)的产生与剪枝的产生与剪枝(Fk-1XFk-1方法)方法)第29页/共110页第三十页,共110页。6.2 频繁频繁(pnfn)项集的产生项集的产生n n6.2.1 先验(xin yn)原理n n6.2.2 Apriori算法的频繁项集产生n n6.2.3 候选的产生与剪枝n n6.2.4 支持度计数第30页/共110页第三十一页,共110页。支持支持(zhch)度计数度计数n n支持度计数过程确定在apriori-gen函数的候选项剪枝步骤保留下来的每个候选项集出现的频繁(pnfn)程度。计算支持度的主要
22、方法:n n一种方法是将每个事务与所有的候选项集进行比较,并且更新包含在事务中的候选项集的支持度计数。这种方法是计算昂贵的,尤其当事务和候选项集的数目都很大时。n n另一种方法是枚举每个事务所包含的项集,并且利用它们更新对应的候选项集的支持度。第31页/共110页第三十二页,共110页。枚举枚举(mi j)事务事务t的所有包含的所有包含3个个项的子集项的子集第32页/共110页第三十三页,共110页。产生产生(chnshng)Hash树树2 3 45 6 71 4 51 3 61 2 44 5 71 2 54 5 81 5 93 4 53 5 63 5 76 8 93 6 73 6 81,4,
23、72,5,83,6,9Hash functionHash函数函数h(p)=p mod 3假设假设(jish)有有15个候选个候选3-项集项集:1 4 5,1 2 4,4 5 7,1 2 5,4 5 8,1 5 9,1 3 6,2 3 4,5 6 7,3 4 5,3 5 6,3 5 7,6 8 9,3 6 7,3 6 8第33页/共110页第三十四页,共110页。Hash树结构树结构1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash FunctionCandi
24、date Hash TreeHash on 1,4 or 7第34页/共110页第三十五页,共110页。Hash树结构树结构1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash FunctionCandidate Hash TreeHash on 2,5 or 8第35页/共110页第三十六页,共110页。Hash树结构树结构1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2
25、 54 5 81,4,72,5,83,6,9Hash FunctionCandidate Hash TreeHash on 3,6 or 9第36页/共110页第三十七页,共110页。使用使用Hash树进行树进行(jnxng)支持支持度计数度计数1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81 2 3 5 61+2 3 5 63 5 62+5 63+1,4,72,5,83,6,9Hash Functiontransaction第37页/共110页第三十八页,共110页。使用使用Hash树进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 导论 关联 分析 学习 教案
限制150内