2022年数据挖掘的最新发展技术 .pdf
《2022年数据挖掘的最新发展技术 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘的最新发展技术 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘技术引言面对如今海量数据库,人们感到“数据爆炸” ,但“知识贫乏”。数据挖掘技术的出现正是解决了这一问题,能在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以最小的花费得到最好的销售。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。本文就数据挖掘的常用技术和过程进行了研究。1 数据挖掘的定义数据挖掘( Data Mining) ,也称数据库中的知识发现(K
2、DD:Knowledge Discovery in Database ) , 是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事前未知的潜在有用信息,提取的知识一般可表示为概念(Concepts ) 、规则( Rules) 、规律( Regularities ) 、模式( Patterns)等形式1。数据挖掘研究具有广泛的应用前景, 因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。Parsaye 把决策支持空间从应用层次上分成数据空间(Data Space ) 、 聚合空间(Aggregation Space ) 、 影响空间(Influence Sp
3、ace )和变化空间( Variation Space )等 4 个子空间2其中,数据空间是用于处理基于关键字的决策查询,其最典型的是联机事务处理( OLTP ) ;而对数据空间中数据元素进行聚合运算所形成的空间就是聚合空数据空间影响空间变化空间聚合空间决策支持名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 间,它主要用于联机分析处理(OLAP ) ;影响空间则用于处理逻辑性质的决策支持。变化空间负责回答某种变化过程和速度问题,
4、在上述 4 个空间中, 数据挖掘处于影响空间中,从中可以看出数据挖掘在决策支持中所处的重要地位。2 数据挖掘技术的分类数据挖掘技术按照知识的种类可分为:有关联规则挖掘、 分类规则挖掘、 特征规则挖掘、离群数据挖掘、聚类分析、数据总结、趋势分析、偏差分析、回归分析、序列模式分析等;根据挖掘的数据库种类分类有关系型、事务型、面向对象型、时间型、空间型、文本型、多媒体型、主动型和异构数据库等;根据采用的技术分类,最常用的数据挖掘技术有如下7 种:(1) 规则归纳:通过统计方法归纳、提取有价值的if-then 规则;(2) 决策树方法3:即用树形结构表示决策集合,这些决策集合是通过对数据集的分类来产生
5、规则。 决策树方法是首先利用信息熵来寻找数据库中具有最大信息量的字段, 从而建立决策树的一个结点, 再根据字段的不同取值来建立数的分支; 然后在每个分支子集中, 重复建立数的下层结点和分支。(3) 人工神经网络: 这种方法主要是模拟人脑神经元结构,也是一种通过训练来学习的非线性预测模型,它可以完成分类、 聚类、特征规则等多种数据挖掘人物,同时它又以MP 模型和 HEBB学习规则为基础,来建立前馈式网络、反馈式网络、自组织网络3 类神经网络模型;(4) 遗传算法4:这是一种模拟生物进化过程的算法。它是基于群体的、具有随机和定向搜索特征的迭代过程,这些过程有基因组合、交叉、变异和自然选择 4 中典
6、型算子。遗传算法作用于一个由问题的多个潜在解组成的群体上, 并且群体中的每个个体都由一个编码表示,同时每个个体均需依据问题的目标函数而被赋予一个适应值,另外,为了应用遗传算法, 还需要把数据挖掘任务表达为一种搜索的问题,以便发挥遗传算法的优势搜索能力。(5) 模糊技术5:即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。 这种模糊性是客观存在的, 且系统的名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - -
7、- 复杂性越高,模糊性越强。(6) 粗(Rough )集方法6:它是 1982 年由波兰逻辑学家Pawlak提出的一种全新的数据分析方法,近年来在机器学习和KDD 等领域获得了广泛的重视和应用。 这种粗集方法是一种研究信息系统中不确定、不精确问题的有效手段, 其基本原理是基于等价类的思想,而这种等价类中的元素在粗集中被视为不可区分的,其基本方法是首先用粗集近似的方法来将信息系统中的属性值进行离散化,然后对每一个属性划分等价类,再利用集合的等价关系进行信息系统的约简;最后得到一个最小的决策关系,从而便于获得规则。(7) 可视化技术7:即采用直观的图形方式来将信息模式、数据的关联或趋势呈现给决策者
8、,这样决策者就可以通过可视化技术来交互地分析数据关系,而可视化技术主要包括数据、模型和过程3 方面的可视化,其中,数据可视化主要有直方图、 盒须图和散点图; 模型可视化的具体方法则与数据挖掘采用的算法有关。3 数据挖掘的过程KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。 整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有以下几点。(1) 目标定义阶段: 要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖掘的成败, 因此往往需要具有数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘的最新发展技术 2022 数据 挖掘 最新 发展 技术
限制150内