数据挖掘技术与关联规则挖掘算法研究.doc
《数据挖掘技术与关联规则挖掘算法研究.doc》由会员分享,可在线阅读,更多相关《数据挖掘技术与关联规则挖掘算法研究.doc(102页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘 要数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖
2、掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要利用用户的约束等聚焦挖掘目标;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,在各类基金的支持下,我们选择了这一课题开展相关工作。本文的研究主要包括数据挖掘应用系统体系结构、关联规则挖掘理论及其算法等。关于数据挖掘应用系统体系结构研究方面,我们设计了一个数据挖掘应用系统的原型体系结构,系统化地分析了知识发现的基本过程和系统的各部件功能。由于不同的源数据类型、不同的应用目标以及不同的挖掘策略对数据挖掘系统的功能部件要求不同,这些研究主要是从知识
3、发现的基本过程出发,探讨系统应具备的主要功能部件及其相互联系等。在关联规则挖掘理论研究上,我们首次给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子。基于项目序列集格空间及其操作,我们建立了关联规则挖掘模型和算法。在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法ISS-DM、时态约束下的关联规则挖掘算法TISS-DM、数据分割下的关联规则挖掘算法PISS-DM。ISS-DM 算法是建立在严格的项目序列集格理论及其操作基础上,是一个一次数据库扫描的而且不使用侯选集的高效算法。我们选择目前引用率较高的Apriori算法和ISS-DM进行了对比实验。结果表明,ISS-
4、DM执行时间整体上优于Apriori算法,而且随着数据量的增大ISS-DM执行时间的增长幅度也小于Apriori算法。为了提高对大型数据集挖掘的适应性,将时态约束应用到挖掘的预处理中,改进ISS-DM成TISS-DM。这部分工作还包括对时态区间、时态约束下的数据挖掘空间以及时态区间操作等进行了形式化,它们是TISS-DM的理论基础。对ISS-DM的另一个改进算法是PISS-DM。它是针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况被提出和设计的,采用了数据分割的方法来减少资源的占用。本文解决了数据分割下局部频繁项目序列集和全局频繁项目序列集的转换等问题,是一个两次扫描数据库的算法。
5、总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构、关联规则挖掘理论模型以及算法方面的研究。在项目序列集格及其操作、时态约束挖掘空间等方面具有较好的理论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。关键词:数据挖掘,知识发现,关联规则,项目序列集,时态约束,数据分割。 AbstractAbstractData mining is a technique that aims to analyze and understand large source data and reveal knowledge hidden in
6、 the data. It has been viewed as an important evolution in information processing. Why there have been more attentions to it from researchers or businessmen is due to the wide availability of huge amounts of data and imminent needs for turning such data into valuable information. During the past dec
7、ade or over, the concepts and techniques on data mining have been presented, and some of them have been discussed in higher levels for the last few years. Data mining involves an integration of techniques from database, artificial intelligence, machine learning, statistics, knowledge engineering, ob
8、ject-oriented method, information retrieval, high-performance computing and visualization. Essentially, data mining is high-level analysis technology and it has a strong purpose for business profiting. Unlike OLTP applications, data mining should provide in-depth data analysis and the supports for b
9、usiness decisions. Like the other new techniques, however, data mining must develop gradually from concept creation, accepted importance, wide discussion, few usage attempts to a large applications. Most experts consider it as the phase of wide discussion today. It still needs theoretic studies and
10、algorithm exploring. Though some results have been achieved, more theoretic problems are kept in ongoing researches. In addition, data mining is from real applications and must combine with the specific business application logic to solve the specific problem. This is because that different business
11、 fields have different mining needs and targets. The successful data mining systems are the excellent combination of data mining techniques and the business logic, rather than tools that are designed to make data mining application development convenient. Association rule mining is an important bran
12、ch of data mining that it has obtained many valuable results but there still are a deal of more challenging problems to discuss. For large databases, the research on improving the mining performance and precision is necessary, so many focuses of today on association rule mining are about new mining
13、theories, algorithms and improvement to old methods.In this paper, the main researches involve the application architecture of data mining, the mining theories for association rules and the design of new efficient algorithms. This paper analyzed the basic processing phases of data mining or KDD, and
14、 gives the components of a data mining application system and their functions. In theoretic research, we first define Set of Item Sequences, and give some operators on this algebra lattice. Applying such theoretic results, we design an algorithm for mining association rules called ISS-DM, which is e
15、fficient with one pass to the database and without large candidates generated and stored. For mining large-scale databases, it is smart strategy to make use of constrains for improving data quality and reducing data capability. This paper introduces the problem of data mining based on temporal const
16、rains. We create two new operators on temporal interval space and design an algorithm called TISS-DM by making advance of these operators. TISS-DM may be seen as an improvement algorithm to ISS-DM, which can process more scale databases. In fact, recent researches have paid more attention to reduce
17、the number of passes over databases (I/O cost), memory usage and CPU overhead. This paper also gives an algorithm called PISS-DM which employs data partitioning technique and only has two passes over databases. Experimental results showed that these algorithms have higher mining efficiency in execut
18、ion time, memory usage and CPU utilization than most current ones like Apriori.In conclusion, this paper analyzes application architecture of data mining systems, creates new mining theoretic models, and designs a series of new algorithms based on such theories. Key words: Data mining, KDD(Knowledge
19、 Discovery in Databases), Association rules,Set of itemsequences, Temporal constraint, Data partitioning.目录 目 录摘要 IAbstract III第1章 绪论 11.1 研究背景 11.2 拟解决的问题 31.3 创新性工作 41.3.1 数据挖掘理论研究 41.3.2 关联规则挖掘算法设计与实现 51.4 本章小节 6第2章 数据挖掘技术 72.1 数据挖掘技术的产生背景 72.1.1 数据挖掘技术的商业需求分析 72.1.2 数据挖掘产生的技术背景分析 92.2 数据挖掘概念 102
20、.2.1 从商业角度看数据挖掘技术 102.2.2 数据挖掘的技术含义 112.2.3 数据挖掘研究的理论基础 122.3 数据挖掘技术的分类问题152.4 数据挖掘常用的知识表示模式与方法152.4.1 广义知识挖掘 152.4.2 关联知识挖掘 192.4.3 类知识挖掘 192.4.4 预测型知识挖掘 242.4.5 特异型知识挖掘 262.5 不同存储形式下的数据挖掘问题272.5.1 事务数据库中的数据挖掘 282.5.2 关系型数据库中的数据挖掘 282.5.3 数据仓库中的数据挖掘 302.5.4 在关系模型基础上发展的新型数据库中的数据挖掘 312.5.5 面向应用的新型数据源
21、中的数据挖掘 312.5.6 Web 数据源中的数据挖掘 322.6 数据挖掘的应用分析342.6.1 数据挖掘与 CRM 352.6.2 数据挖掘应用的成功案例分析 352.7 本章小节36第3章 知识发现过程与系统结构设计 373.1 知识发现的基本过程373.2 知识发现系统的基本构架403.3 知识发现软件或工具的发展423.4 知识发现项目的过程化管理443.5 本章小节45第4章 关联规则挖掘理论和算法研究 474.1 基本概念与解决方法474.2 经典的关联规则挖掘算法分析484.3 Apriori 算法的性能瓶颈问题504.4 对项目集格空间理论的发展514.5 项目序列集格空
22、间和它的操作554.6 基于项目序列集操作的关联规则挖掘算法 574.6.1 关联规则挖掘空间定义 574.6.2 三个实用算子 584.6.3 最大频繁项目序列集的生成算法 604.6.4 ISS-DM 算法执行示例 604.7 算法分析614.7.1 空间与时间复杂度的理论分析 614.7.2 实验数据与分析 624.8 本章小结65第5章 时态约束关联规则挖掘问题及算法 675.1 改善关联规则挖掘质量问题675.1.1 用户主观层面 685.1.2 系统客观层面 695.2 约束数据挖掘问题695.3 时态区间格及时态约束关联规则挖掘725.4 时态约束关联规则挖掘的预处理745.5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 关联 规则 算法 研究
限制150内