2022年2022年关联规则挖掘Apriori算法综述 .pdf
《2022年2022年关联规则挖掘Apriori算法综述 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年关联规则挖掘Apriori算法综述 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文献综述课程名称:科技写作与文献检索完成题目:关联规则挖掘Apriori算法综述专业班级:姓名:学号:完成时间:批阅时间:指导教师:成绩:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 关联规则挖掘Apriori算法综述摘要: 关联规则挖掘是数据挖掘研究领域中的一个重要任务, 随着大量数据不停的收集和存储 , 从数据库中挖掘关联规则变得极为重要。关联规则挖掘Apriori算法是关联规则挖掘中的一种经典算法。为此,本文对国内外有关
2、 Apriori 算法的研究现状、 算法的原理、 优化算法的思想进行了探讨,综述了 Apriori算法的主要优化方法 , 并指出了 Apriori算法在实际中的应用领域, 提出了未 Apriori算法的研究方向和应用发展趋势。关键词 :关联规则;数据挖掘;Apriori算法;综述Abstract :The associative rule mining technique is an important technique in data mining research. Apriori algorithm is a classical algorithm of associative rul
3、es. How to dig out the rules of the associated data set from the database in the IT development process is important with increasing of massive data collection and storage. In this paper the principles and optimization idea of Apriori algorithm are discussed and several classical optimization algori
4、thms are analyzed at the same time. Finally the trends of future development are forecasted. Key words:associative rules ;massive data ;optimization;developmental trends 1. 引言数据挖掘也称数据库中的知识发现, 是指从大型数据库或数据仓库中提取人们感兴趣的知识 , 这些知识是隐含的、 事先未知的潜在有用信息, 提取的知识一般可表示为概念、规则、规律、模式等形式1。大家知道 , 如今已可以用数据库管理系统来存储数据 , 还可用
5、机器学习的方法来分析数据和挖掘大量数据背后的知识,而这两者的结合就促成了数据挖掘技术的产生。数据挖掘是一门交叉性的学科, 涉及到机器学习、模式识别、归纳推理、统计学、数据库、数据可视化、高性能计算等多个领域。关联规则挖掘是数据挖掘中最活跃的研究方向之一,其本质是要找出隐藏在名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - - - - - - 数据间的相互关系。 Agrawal 等于 1993年设计了一个基本算法Apriori算法2,首先提出了挖掘顾客
6、交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。 以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行思想等,以提高算法挖掘规则的效率; 提出各种变体模型, 如泛化的关联规则、 周期关联规则等,对关联规则的应用进行推广。 关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、 关系数据库和其他信息存储设施中的大量数据项之间隐藏的、有趣的规律。关联规则挖掘最初仅限于挖掘事务数据库的布尔型关联规则3,近年来广泛应用于关系数据库。因此,积极开展在关系数据库中挖掘关联规则的相关研究具有重要的意义。数据挖掘是一个
7、在数据库领域中占比较重要地位的领域,国内外数据挖掘的发展趋势及其研究方向主要有知识发现方法的研究及其应用。目前大部分有关数据挖掘的研究文章主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。关联规则挖掘作为数据挖掘的核心内容之一,近些年来得到了很快的发展,并成为了当今数据挖掘的热点。2. Apriori 算法概述及研究现状Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由Rakesh Agrawal 和Ramakrishnan Skrikant提出的。它使用一种称作逐层搜索的迭代方法, k- 项集用于探索( k+1)- 项集。首先找出频繁 1- 项集的集合。该
8、集合记作 L1。L1 用于找频繁 2- 项集的集合 L2,而L2 用于找 L2,如此下去,直到不能找到 k- 项集。每找一个 Lk需要一次数据库扫描。 为提高频繁项集逐层产生的效率,一种称作 Apriori性质的重要性质用于压缩搜索空间。其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的,二是非频繁项集的所有父集都是非频繁的。Apriori算法提出以后,很多研究人员对关联规则的挖掘问题进行了大量研究,特别是对关联规则挖掘算法进行了大量的研究和优化,如Savasere等人设计了一个基于划分的算法,Park等人提出的基于散列的算法,Mannila 提出的基于采样的方法, Lin 和Dunha
9、m 提出的反扭曲算法, Brin 等提出如何减少扫描数据库名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - 发现频繁项集算法等4。国内目前 Apriori算法在应用方面较为成熟,也出现了很多对此算法的改进和优化,但与国外有关关联规则挖掘方法研究相比,我国对数据挖掘的研究相对较晚,有关数据挖掘的研究也只有十几年的时间,主要集中在部分实力相对较强的院校和研究机构,如中国科学院、清华大学、西安交通大学、上海交通大学及国防科技大学等。 虽
10、然对关联规则的研究才刚刚起步,但是近几年已经取得了可喜的成果。国内对关联规则挖掘所涉及的研究领域很多,主要集中在求关联规则频繁项集算法的研究、 关联规则挖掘的实际应用以及关联规则挖掘理论方面的研究56。有着重要意义的研究项目有:中国科学院计算机研究所的多策略数据挖掘平台 MS Miner系统和复旦大学研制开发的AR Miner系统,目前这两个系统已经在实际应用上取得了一定的成就。3. 关于 Apriori算法的几种优化方案虽然Apriori算法是关联规则挖掘的最经典的算法, 它是采用取循序渐进的方式,一层一层地组合出侯选项目集7,并扫描数据库计算侯选项目集支持度与规则强度。虽然该算法已经将许多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年关联规则挖掘Apriori算法综述 2022 年关 规则 挖掘 Apriori 算法 综述
限制150内