数据仓库与数据挖掘技术第6章4关联规则.ppt





《数据仓库与数据挖掘技术第6章4关联规则.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术第6章4关联规则.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、6.3 关联算法5/20/20231购物篮分析一个引发关联规则挖掘的典型例子5/20/20232应用:购物分析l市场购物分析结果将帮助商场内商品应如何合理摆放进行规划设计。l 其中一种策略就是将常常一起购买的商品摆放在相邻近的位置,以方便顾客同时购买这两件商品;如:如果顾客购买电脑的同时常也会购买一些金融管理类软件,那么将电脑软件摆放在电脑硬件附近显然将有助于促进这两种商品的销售。l而另一种策略则是将电脑软件与电脑硬件分别摆放在商场的两端,这就会促使顾客在购买两种商品时,走更多的路从而达到诱导他们购买更多商品的目的。比如:顾客在决定购买一台昂贵电脑之后,在去购买相应金融管理软件的路上可能会看到
2、安全系统软件,这时他就有可能购买这一类软件。l市场购物分析可以帮助商场主管确定那些物品可以进行捆绑减价销售,如一个购买电脑的顾客很有可能购买一个捆绑减价销售的打印机。5/20/20233关联规则的概念l超市中客户在购买A的同时,经常会购买B,即A=B(关联规则)l客户在购买A后,隔了一段时间后会购买B(序列分析)l“90%的客户在购买面包时也会购买牛奶”l“啤酒与尿布”l“买外套=买鞋子”l 5/20/20234关联规则挖掘l关联规则挖掘关联规则挖掘就是从大量的数据中挖掘出有价值描述数就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。据项之间相互联系的有关知识。l随着收集和存储在
3、数据库中的数据规模越来越大,人们对这些数据中挖掘相应的关联知识越来越有兴趣。l例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。l在数据挖掘的知识模式中,关联规则是比较重要的一种。l关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。5/20/20235基本概念:关联规则、支持度、置信度(P145)l设I=i1,i2,im是项目集,其中的元素im称为项,D是全体事务的集合,事务T是I上的一个子集,集合TI,每个事务有唯一的TID标识。设X是一个项集,事务T包含X当且仅当XT,关联规则就是形如X=Y的蕴含式,其中XI
4、,YI且XY=,X称为规则的条件,Y称为规则的结果。关联规则设定两项约束:支持度Supp和可信度Conf。(1)支持度s:support(X=Y)=P(XY)P(XY):X和Y这两个项目集在事务集D中同时出现的概率(2)置信度c:confidence(X=Y)=P(YX)P(YX):在出现项目集X的事务集D中,项目集Y也同时出现的概率(3)关联规则X=Y成立的条件是:它具有支持度,即事务集D中至少有s%的事务包含XY;它具有置信度,即事务集D中包含X的事务至少有c%同时也包含Y l强规则:满足最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则(用0%和100%之间的值而不是
5、用0到1之间的值表示)5/20/20236什么是关联挖掘?l关联规则挖掘:l在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。l应用:l购物篮分析、交叉销售、产品目录设计、聚集、分类、lossleader analysis等l举例:规则形式:5/20/20237应用:进行关联分析5/20/20238关联的挖掘过程l 挖掘关联规则的问题的处理过程分为两步:(1)发现频繁项目集。通过用户给定的最小支持度寻找所有频繁项集,即找出所有支持度不低于用户指定的最小支持度的项目集。事实上这些频繁项目集可能具有包含关系,一般我们只关心那些不被其他频繁项
6、目集所包含的,所谓频繁大项目集的集合,这些频繁大项目集是形成关联规则的基础。(2)生成关联规则。通过用户给定的最小可信度在每个最大频繁项目集中寻找可信度不小于给定的最小可信度的关联规则。所有支持度大于最小支持度的项集称为频繁项集(频集)5/20/20239关联规则的优缺点l优点l可以产生清晰有用的结果;l支持间接数据挖掘;l可以处理变长的数据;l计算的消耗量是可以预见的;l缺点l当问题变大时,计算量增长得厉害;l难以决定正确的数据;l容易忽略离群数据;5/20/202310简单形式的关联规则算法l几个经典的关联挖掘算法lApriori算法l抽样算法lDIC算法lApriori算法是最经典的关联
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 关联 规则

限制150内