数据挖掘关联分析.doc
《数据挖掘关联分析.doc》由会员分享,可在线阅读,更多相关《数据挖掘关联分析.doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘关联分析数据挖掘关联分析1 引言在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一 关联规则挖掘就是从大量数据中发现项集之间的相关联系 Apriori 算法,前者采用逐层搜索的迭代策略,先产生候选集,再对候选集进行筛选,然后产生该层的频繁集.2Apriori 算法Apriori 算法是关联规则挖掘中最基本也是最常见的算法 它是由 Agrawal 等人于 1993年提出的一种最有影响的挖掘布尔关联规则频繁项集的算法,主要用来在大型数据库上进行快速挖掘关联规则。2.1 算法基本思想Apriori 算法采用逐层迭代搜索方法,使用候选项集来找频繁项集。其基本思想是: 首先找出所有频繁1项集
2、的集合Ll,L1用于找频繁2项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k项集.并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度.2。2 算法的挖掘如果一个项集是频繁的,那么它的所有子集都是频繁的先验原理成立的原因:一个项集的支持度不会超过其任何子集的支持度该性质称作支持度的反单调性质2.2。1候选项集的生成Apriori 算法使用了Apriori性质来产生候选项集 任何非频繁的 ( k1 )项集都不可能是频繁k项集的子集 因此,如果一个候选k项集的( k1 )子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 关联 分析
限制150内