《关联规则分析及应用.ppt》由会员分享,可在线阅读,更多相关《关联规则分析及应用.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Data Mining关联规则分析及应用,2012-10-12,1,目录,基本概念,关联规则挖掘过程,分类,关联规则的价值衡量,4,1,2,3,挖掘算法,关联规则的应用,5,6,2012-10-12,2,绪论,在购买铁锤的顾客当中,有70的人同时购买了铁钉。 年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。 在超市购买面包的人有70%会购买牛奶,2012-10-12,3,绪论,2012-10-12,4,一、基本概念,设 I=I1,I2,In 是项的集合。 任务相关数据D:是事务(或元组)的集合。 事务T:是项的集合,且每个事务具有事务标识符TID。 项集A:是T 的
2、一个子集,加上TID 即事务。 项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。 支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。,2012-10-12,5,一、基本概念,D,T,A,B,In(n=1,2,)指具体项目,如购物篮分析中: I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒 Support-count(I1)=6,2012-10-12,6,一、基本概念,关联规则:形如 A = B 的蕴涵式,其中A I , BI,并且 AB =。 支持度:关联规则在D中的支持度(support)是D中事务同时包
3、含A、B的百分比,即概率。规则代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T) 频繁项集:若一个项集的支持度大于等于某个阈值。,2012-10-12,7,一、基本概念,置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence ( A B ) = P ( B | A) 强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。,2012-10-12,8,=,9,二、关联规则挖掘过程,两个步骤: 找出所有频繁项集。 由频繁
4、项集生成满足最小信任度阈值的规则。 挖掘模式:,2012-10-12,9,min_sup,min_conf,二、关联规则挖掘过程,关联规则挖掘举例: 假定数据包含频繁项集 M=I1,I2,I5。可以由M 产生哪些关联规则?,2012-10-12,10,二、关联规则挖掘过程,M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。,2012-10-12,11,6 7 6 2 2,I1 I2 I3 I4 I5,二、关联规则挖掘过程,I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I
5、2,2012-10-12,12,confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 % confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %,二、关联规则挖掘过程,如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。,2012-10-12,13,I1 I5 I2, I2 I5 I1, I5 I1 I2,confidence = 2/2 = 100 % conf
6、idence = 2/2 = 100% confidence = 2/2 = 100%,二、关联规则挖掘过程,对强关联规则的批评: eg:,2012-10-12,14,在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。 打篮球 = 喝麦片粥 40%, 66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。 打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。,二、关联规则挖掘过程,兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。 P(AB) P
7、(A)P(B) 若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; 若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。,2012-10-12,15,I(A B)=,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10-12,16,华南理工大学经
8、贸学院,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10-12,17,三、关联规则的分类,基于规则中数据的抽象层次: 单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的; 多层关联规则:对数据的多层性已经进行了充分的考虑。 层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。 eg: IBM台式机=So
9、ny打印机 台式机=Sony打印机,2012-10-12,18,三、关联规则的分类,2012-10-12,19,分层示例:,三、关联规则的分类,2012-10-12,20,基于规则中数据的维数: 单维关联规则:只涉及到数据的一个维,如用户购买的物品; 多维关联规则:要处理的数据将会涉及多个维。 eg: 啤酒=尿布 性别=“女”=职业=“秘书”,四、关联规则的价值衡量,对关联规则的评价与价值衡量涉及两个层面: A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。 B.用户主观的层面 只有用户才能决定规则的有效性、可行性。 如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。,2012-10-12,21,五、关联规则的挖掘算法,2012-10-12,22,Apriori算法 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 不足:产生大量候选频繁集、多次扫描数据库 FP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库 其他算法,六、关联规则的应用,气象预测,医疗诊断,购物分析,2012-10-12,23,Thank You!,2012-10-12,24,
限制150内