数据挖掘与关联规则.pptx
《数据挖掘与关联规则.pptx》由会员分享,可在线阅读,更多相关《数据挖掘与关联规则.pptx(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。首先被Agrawal,Imielinski and Swami在1993年的SIGMOD会议上提出.关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。关联规则关联规则第1页/共35页“尿布与啤酒”的故事。美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外
2、发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。案例案例第2页/共35页70%购买了牛奶的顾客将倾向于同时购买面包。某网上书店向用户推荐相关书籍。案例案例第3页/共35页在买了一台PC之后下一步会购买?案例案例第4页/共35页在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的调查;在医疗方面,可找出可能的治疗组合
3、;在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。案例案例第5页/共35页什么是规则?规则形如如果那么(IfThen),前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。如何来度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购买记录。关联规则基本模型关联规则基本模型第6页/共35页关联规则基本模型关联规则基本模型_ _置信度置信度置信度置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率(即:if A,then B的概率)。即 Confidence
4、(AB)=P(B|A)。例如计算“如果Orange则Coke”的置信度。由于在含有“橙汁”的4条交易中,仅有2条交易含有“可乐”。其置信度为0.5。第7页/共35页关联规则基本模型关联规则基本模型_ _支持度支持度支持度支持度计算在所有的交易集中,既有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为 2/5=0.4,即Support(AB)=P(AB)。现在这条规则可表述为,如果一个顾客购买了橙汁,则有50%(置信度)的可能购买可乐。而这样的情况(即买了橙汁会再买可乐)会有40%(支持度)的可能发生。第8页/共35页关联规则的相关概念关联规则的相关概念定义1
5、 项目与项集设I=i1,i2,im是m个不同项目的集合,每个ik(k=1,2,m)称为一个项目(Item)。项目的集合 I 称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。第9页/共35页关联规则的相关概念关联规则的相关概念l定义2 交易l每笔交易T(Transaction)是项集I上的一个子集,即TI,但通常TI。l对应每一个交易有一个唯一的标识交易号,记作TIDl交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。l交易集D中包含交易的个数记为|D|。第10页/共35页关联规则的相关概念关联规则的相关概念l定
6、义3 项集的支持度l对于项集X,XI,设定count(XT)为交易集D中包含X的交易的数量l项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。第11页/共35页关联规则的相关概念关联规则的相关概念定义4 项集的最小支持度与频繁集发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(Minimum Support),记为supmin。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。第12页/共35页关联规则的相关概念关联规则的相关概念定义5 关联规则关联规则(Ass
7、ociation Rule)可以表示为一个蕴含式:R:XY 其中:XI,YI,并且XY=。例如:R:牛奶面包第13页/共35页关联规则的相关概念关联规则的相关概念定义6 关联规则的支持度对于关联规则R:XY,其中XI,YI,并且XY=。规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。第14页/共35页关联规则的相关概念关联规则的相关概念定义7 关联规则的置信度对于关联规则R:XY,其中XI,YI,并且XY=。规则R的置信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比 一般来说,只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关
8、联规则。第15页/共35页关联规则的相关概念关联规则的相关概念定义8 关联规则的最小支持度和最小置信度关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为supmin,它用于衡量规则需要满足的最低重要性。关联规则的最小置信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。第16页/共35页关联规则的相关概念关联规则的相关概念定义9 强关联规则如 果 规 则 R:XY满 足 support(XY)supmin且confidence(XY)confmin,称关联规则XY为强关联规则,否则称关联规则XY为弱关联规则。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 关联 规则
限制150内