数据挖掘之关联算法.pptx
《数据挖掘之关联算法.pptx》由会员分享,可在线阅读,更多相关《数据挖掘之关联算法.pptx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘之关联算法 第九组小组成员熊勇 吴笈 卢菁菁 刘珂妤 黄玉琼关联算法的两个概念支持度(Support),也就是数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence),也就是在数据集中已经出现A时,B发生的概率,置信度的计算公式是:A与B同时出现的概率/A出现的概率。关联规则的发现过程迭代识别所有的频繁项目集要求频繁项目集的支持度不低于用户设定的最低值产生关联规则是从频繁项目集中构造置信度不低于用户设定的最低值的规则,识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。最
2、典型运用实例:购物篮分析Apriori关联算法1首先,从一家公司的销售记录中找到以下8条消费记录,并以3作为最小支持度,也就是说出现频率在3次以下的记录是被我们所忽略的。交易标号销售内容1牛奶、冰淇淋、果酱、面包2冰淇淋、果酱、面包、咖啡3牛奶、面包、果酱4牛奶、咖啡5牛奶、面包、巧克力6冰淇淋、面包、咖啡7牛奶、果酱、面包、香蕉8咖啡、面包、葡萄最典型运用实例:购物篮分析Apriori关联算法2所有满足最小支持度3的1项频集如下,其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次,而冰淇淋出现了3次。支持度销售内容5牛奶3冰淇淋4果酱3咖啡6面包最典型运用实例:购物篮分析Apriori关联算法3递归执行,所有满足最小支持度3的2项频集如下,这其中出现最多的频集是牛奶,面包和面包,果酱,各自出现了4次。支持度销售内容3面包、咖啡4牛奶、面包3冰淇淋、面包4面包、果酱6面包最典型运用实例:购物篮分析Apriori关联算法4再次递归执行,所有满足最小支持度3的3项频集只剩下一条,此时已无法继续迭代运算,故结束算法。支持度销售内容3牛奶、果酱、面包那么牛奶,果酱,面包就是我们要的满足最小支持度3的3项频集,也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。案例信息来源:SOTON数据分析谢 谢 观 看
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 关联 算法
限制150内