挖掘大型数据库中的关联规则幻灯片.ppt
《挖掘大型数据库中的关联规则幻灯片.ppt》由会员分享,可在线阅读,更多相关《挖掘大型数据库中的关联规则幻灯片.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、挖掘大型数据库中的关联规则挖掘大型数据库中的关联规则第1页,共64页,编辑于2022年,星期六引引 言言要挖掘知识的类型要挖掘知识的类型u概念描述:特征化和比较;u 关联规则;关联规则;u 分类/预测;u 聚类分析;u其他的数据挖掘任务。2第2页,共64页,编辑于2022年,星期六 第第 6 6 章章挖掘大型数据库中的关联规则挖掘大型数据库中的关联规则第3页,共64页,编辑于2022年,星期六引引 言言 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。2第4页,共64页,编辑于2022
2、年,星期六引引 言言 如何从事务DB或关系DB的大量数据中挖掘出关联规则知识?什么样的关联规则才是最有意义的?如何才能使挖掘过程尽快发现有价值的关联规则知识?这是本章要讨论的内容。2第5页,共64页,编辑于2022年,星期六 第第 6 6 章章6.1 关联规则挖掘6.2 由事务数据库挖掘单维布尔关联规则6.3 由事务数据库挖掘多层关联规则6.4 由事务数据库和数据仓库挖掘多维关联规则第6页,共64页,编辑于2022年,星期六学习目的学习目的u 掌握关联规则挖掘算法-Apriori算法。u 理解多层关联规则挖掘及其方法;u 理解多维关联规则挖掘及其方法。7第7页,共64页,编辑于2022年,星期
3、六6.1 6.1 关关联规则联规则挖掘挖掘关联规则挖掘关联规则挖掘(Association rule mining):关联规则挖掘的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号组成。关联规则挖掘用以挖掘一次交易中,物品之间同时出现的规律的知识模式,以反映顾客的购买行为。更确切的说,关联规则是通过量化的数字来描述物品X的出现对物品Y的出现有多大的影响。第8页,共64页,编辑于2022年,星期六 以零售业为例,通过对销售数据的关联分析,体育用品商店可以发现隐含在数据中的规律:“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购
4、买篮球和篮球运动服”等等。关联规则挖掘关联规则挖掘第9页,共64页,编辑于2022年,星期六 购物篮分析购物篮分析 购物篮分析是关联规则挖掘的最初形式。如,某商店经理可能更想了解如下的购物习惯:“顾客多半会在购物时同时购买什么商品组或集合?”为解答这个问题,可以在商店顾客事务零售数据库上进行购物篮分析。分析的结果可用于市场规划、广告策划和分类设计。4第10页,共64页,编辑于2022年,星期六5 设商店中所有销售商品为一个集合,每个商品均为一个布尔变量,布尔变量用来表示该商品是否被(一个)顾客购买。则,每个购物篮(事务数据库)可以用一个布尔向量表示。分析该布尔向量,得到反映商品频繁关联或同时购
5、买的购买模式。购物篮分析购物篮分析第11页,共64页,编辑于2022年,星期六computer=financial _ management _ softwaresupport=2%,confidence=60%v关联规则的支持度(support)2%表示:全部事务中,有2%的交易同时购买计算机和财务管理软件。v关联规则的置信度(confidence)60%表示:购买计算机的顾客中,有60%也同时购买了财务管理软件。6 购物篮分析购物篮分析 例如,在购买计算机的同时购买财务管理软件,可用如下关联规则表示:第12页,共64页,编辑于2022年,星期六1.1.关联规则的基本概念?关联规则的基本概念
6、?第13页,共64页,编辑于2022年,星期六关关联规则联规则挖掘的基本概念挖掘的基本概念1)事务数据库:)事务数据库:设I=i1,i2,im 是一个项目集合,事务数据库D=t1,t2,tn 是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,n)都对应I上的一个子集。示例:示例:购物记录v I是全部物品集合,如商场现有的所有商品;v D是购物清单,如顾客的购物清单;v D中的每个元组ti代表一次事务(商业行为),是一次购买物品的集合(I的一个子集)。第14页,共64页,编辑于2022年,星期六基本概念基本概念2)支持度)支持度(support):支持度是模式为真的任务相关的元组
7、(或事务)所占的百分比。对于形如“”的关联规则,支持度定义为:其中,A、B是项目的集合。示例:示例:假定任务相关数据由AllElectronics的计算机部的事务数组成,一个支持度为30%的关联规则:意味着在计算机部的所有顾客中,有30%同时购买了计算机(A)和软件(B)。第15页,共64页,编辑于2022年,星期六基本概念基本概念3)置信度)置信度(certainty):每个发现的模式都有一个表示其有效性或值得信赖性的度量。对于形如“”的关联规则,其有效性度量为置信度,定义为:其中,A、B是项目的集合。示例:示例:假定任务相关数据由AllElectronics的计算机部购买物品的事务数组成,
8、一个置信度为85%的关联规则:意味着买计算机(A)的顾客中,有85%也同时购买了软件(B)。第16页,共64页,编辑于2022年,星期六第17页,共64页,编辑于2022年,星期六基本概念基本概念4)强关联规则:)强关联规则:置信度表示规则的可信度;置信度小:规则无意义支持度表示模式在事务数据库中的出现频率;支持度小:规则使用面窄同时满足用户定义的最小置信度和最小支持度阈值的关联规则,称为强关联规则(strong association rule),并被认为是有趣的。第18页,共64页,编辑于2022年,星期六2.2.关联规则的分类?关联规则的分类?第19页,共64页,编辑于2022年,星期六
9、(1 1)基于规则中处理的变量类别)基于规则中处理的变量类别v布尔型布尔型:离散的、可枚举的、种类化的如:性别=“男”=职业=“网络工程师”v数值型数值型:含有定量的数据项如,性别=“男”=收入=“3500”关联规则的分类:关联规则的分类:第20页,共64页,编辑于2022年,星期六(2 2)基于规则中数据的抽象层次)基于规则中数据的抽象层次u单层关联规则单层关联规则:所有的变量都不考虑层次如:性别=“男”=职业=“网络工程师”u多层关联规则多层关联规则:考虑变量的不同层次性如,数码相机=三星手机,(数码相机是三星数码相机的较高层抽象)再如,数码相机=手机(数码相机、手机是三星数码相机和三星手
10、机的较高层抽象)。关联规则的分类:关联规则的分类:第21页,共64页,编辑于2022年,星期六u多层关联规则又可以分为:v同层关联规则同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则那么它是同层关联规则 如,数码相机如,数码相机=手机手机。v层间关联规则层间关联规则:如果在不同的粒度层次上考虑问题,那么得如果在不同的粒度层次上考虑问题,那么得到的是层间关联规则。到的是层间关联规则。如,数码相机如,数码相机=三星手机三星手机关联规则的分类:关联规则的分类:第22页,共64页,编辑于2022年,星期六(3 3)基于规则中涉及
11、的数据维数)基于规则中涉及的数据维数v单维关联规则单维关联规则:只涉及一个属性(维),处理单个属性(维)中的一些关系如:啤酒=尿布,只涉及到用户购买的物品一个维;v多维关联规则多维关联规则:处理多个属性(维)上的关系如,性别“女”=职业“秘书”,此规则涉及到两个属性(维)的关系。关联规则的分类:关联规则的分类:第23页,共64页,编辑于2022年,星期六6.2 6.2 由事由事务务数据数据库库挖掘挖掘单维单维布布尔尔关关联规则联规则关联规则挖掘的两步过程:关联规则挖掘的两步过程:v 1)找出所有的频繁项集:)找出所有的频繁项集:这些项集出现的频繁性要满足最小支持度原则。v2)由频繁项集产生强关
12、联规则:)由频繁项集产生强关联规则:满足最小支持度和最小置信度。v常用方法:Apriori算法算法第24页,共64页,编辑于2022年,星期六频频繁繁项项集集v 项的集合称为项集(itemset),项的项集称为k-项集,如集合computer,software是一个2-项集。v 项集的频率:即包含项集的事务数,也称为项集的支持计数(support_count)。Min_sup:设定的支持率阈值如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,就称该项集满足最小支持度min_sup。v频繁项集:满足最小支持度的项集,频繁k-项集通常记做:Lk。第25页,共64页,编辑于2022年,
13、星期六基本概念基本概念频繁项集:频繁项集:v频繁项集是频繁出现在数据集中的项集;v有助于发现数据中蕴含的内在规律哪些产品经常被一起购买?-啤酒和尿布?买了PC之后接着都会买些什么?哪种DNA对这种新药敏感?v能揭示数据集内在的、重要的特性。第26页,共64页,编辑于2022年,星期六Apriori 算法算法uApriori 算法原理:v任何一个频繁项集的子集必定是频繁项集;任何一个频繁项集的子集必定是频繁项集;如,如果A,B是频繁项集,则A、B都是频繁项集。v任何非频繁项集的超集都为非频繁项集任何非频繁项集的超集都为非频繁项集如,如果A、B是非频繁项集,则A,B是非频繁项集第27页,共64页,
14、编辑于2022年,星期六Apriori算法算法u 算法的关键步骤:v找出频繁项集:满足最小支持度的项目集;v方法:使用从1到k的候选集逐层递归的产生频繁项集。u由频繁项集产生关联规则。第28页,共64页,编辑于2022年,星期六APRIORI算法过程算法过程pApriori算法利用逐层迭代来计算数据库中的频繁项集。第i次迭代计算出所有频繁i项集(包含i个元素的项集)。每一次迭代有两个步骤:产生候选集;计算和选择候选集。p原理是:如果一个项集是频繁的,那么它的所有子集也是频繁的。p在第一次迭代中,产生的候选集包含所有1-项集,并计算其支持度s,s大于阈值的1-项集被选为频繁1-项集。p第二次迭代
15、时,Apriori算法首先去除非频繁1-项集,在频繁1-项集的基础上产生候选二项集,继而结合设定的最小支持度阈值,产生频繁2-项集。第29页,共64页,编辑于2022年,星期六如,以表6-1中的数据为例。假设smin=50%。APRIORI算法过程算法过程第30页,共64页,编辑于2022年,星期六在第一次迭代中,所有单项集都作为候选集,产生一个候选集列表;图5-1给出第一次迭代的结果在下一步中,计算每一项的支持度,然后在smin的基础上选择频繁项集。APRIORI算法过程算法过程图图5-1 Apriori算法第一次迭代的结果算法第一次迭代的结果第31页,共64页,编辑于2022年,星期六p在
16、挖掘2-项集时,因为2-项集的任何子集都是频繁项集,所以Apriori算法使用L1*L1来产生候选集。*运算通常定义为:Lk*Lk=XY 其中X,YLk,|X Y|=k+1 注:|X Y|=k+1,即X和Y合取容量为k+1p因此,第二次迭代中的候选集C2由运算|L1|L1-1|/2所产生,其个数为:43/2=6。用该列表来扫描DB,计算每一个候选集的支持度,并与smin进行比较,产生2-项频繁集L2。图5-2给出了所有这些步骤和第二次迭代的结果。APRIORI算法过程算法过程第32页,共64页,编辑于2022年,星期六APRIORI算法过程算法过程第33页,共64页,编辑于2022年,星期六p
17、 候选集C3 运用L2*L2来产生,运算结果得到A,B,C,A,C,E,B,C,E,但只有B,C,E的所有子集是频繁项集,成为候选的3-项集。然后扫描DB,根据最小支持计数,挖掘出频繁3-项集,见图5-3所示:p 因为本例的L3无法产生候选的4-项集,所以算法停止迭代过程。图图5-3 Apriori算法第三次迭代的结果算法第三次迭代的结果APRIORI算法过程算法过程第34页,共64页,编辑于2022年,星期六p 该算法不仅计算所有频繁集的支持度,也计算那些没有被删除的非频繁候选集的支持度。p所有非频繁但被算法计算支持度的候选项集的集合被称为负边界。因此,如果项集是非频繁的,但它的子集都是频繁
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 挖掘 大型 数据库 中的 关联 规则 幻灯片
限制150内