《第一章:绪论-《数据挖掘与知识发现》-教学课件.ppt》由会员分享,可在线阅读,更多相关《第一章:绪论-《数据挖掘与知识发现》-教学课件.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-11高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-12高等教育出版社背景n科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。n数据库中存储的数据量急剧增大。n面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现(Know
2、ledge Discovery in Database)以及相应的数据挖掘(Data Mining)理论和技术的研究。2003-11-13高等教育出版社KDD的出现n基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。n1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD95)。n由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。2003-11-14高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与
3、环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-16高等教育出版社KDD的定义n人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。n所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。2003-11-17高等教育出版社KDD过程nKDD是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。n从宏观上看,KDD过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。2003-11-18高等教育出版社KDD过程(续)n1.数据
4、准备:了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。n2.数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。2003-11-110高等教育出版社KDD过程(续)n3.数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。n4.数据变换:根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。2003-11-111高等教育出版
5、社KDD过程(续)n7.数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。n8.模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。2003-11-113高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-1
6、15高等教育出版社数据与系统特征nKDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征:n海量数据集n数据利用非常不足n在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要n最终用户专门知识缺乏 2003-11-116高等教育出版社数据结构n数据库中的数据可以采用多种形式:n数据库中的数据可以采用多种形式,通常情况下,相对于符号实体而言把数字实体作为第一类别,符号实体是第二类别。n描述某些概念等级时就会面对复合数据类型。n重要的问题是在知识发现的观点上如何操作这些数据。人们对数据的理解非常有限,因此要对数据进行抽象。从不同的角度出发会涉及到不同的理论和方法。2003-11-118
7、高等教育出版社数据类型示例 2003-11-119高等教育出版社关于汽车油耗的几种信息聚合模型2003-11-120高等教育出版社数据库系统 n关系数据库 n数据仓库 n事务数据库 n面向对象数据库 n关系对象数据库 n空间数据库 n时态数据库和时间序列数据库 n文本数据库 n多媒体数据库 n异构数据库和遗产数据库 2003-11-121高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-122高等教育出版社数据挖掘方法与相关领域 2003-11-124高等教育出版社
8、粗糙集(Rough Set)n粗糙集理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具。n粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。n粗糙集可以用于对信息系统的属性进行约简,即求出原有属性集合的一个子集,该子集具有与原属性集合相同的分类能力。n粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。2003-11-125高等教育出版社聚类(Clustering)n聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组
9、称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。2003-11-126高等教育出版社数据挖掘中的聚类分析n数据挖掘关心聚类算法的如下特性:处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。n主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。2003-11-128高等教育出
10、版社关联规则 nAgrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。n所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。n几年来,在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。nApriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则。2003-11-129高等教育出版社模糊集 n美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了
11、模糊集。n模糊集合论用隶属程度来描述差异的中介过渡,是一种用精确的数学语言对模糊性进行描述的方法。n扎德提出了著名的复杂性与精确性的“不相容原理”。模糊数学的产生把数学的应用范围从精确现象扩大到模糊现象的领域。n模糊聚类方法对对象的这种不分明的类属性质进行了很好地表达和处理。n模糊集方法也可用于分类问题。2003-11-131高等教育出版社规则归纳 n规则归纳是通过统计方法归纳、提取有价值的if-then规则。nJ.Han等人提出面向属性的规则归纳法,通过概念树得到一阶谓词逻辑表示的规则。n面向属性归纳法主要是目标类所有元组的属性值由低到高提升,通过合并使原来若干属性值不同的元组成为相同的元组
12、,直到全部元组不超过最大规则数,再将其转化为一阶谓词逻辑表示的规则。n与面向元组的归纳方法相比,面向属性归纳法搜索空间减少,运行效率显著提高,对冗余元组的测试在概括所有属性值后进行,提高了测试效率。2003-11-132高等教育出版社进化计算 n遗传算法、进化策略和进化规划形成进化计算的三个主流版块。n遗传算法强调染色体的作用,进化策略强调个体级的行为变化,而进化规划则强调种群级上的行为变化。n在利用生物进化机制提高计算机求解问题能力的目标和基本思路上三者是一致的。2003-11-133高等教育出版社遗传算法 n遗传算法GA的产生受自然界生物进化现象的启发,问题的解用一定长度的二进制编码表示,
13、个体的二进制编码称为“基因型”或“染色体”,其编码对应的实际意义叫“表现型”。n在种群中,每个个体的性能用“适值函数”来度量,一组遗传操作作用于种群上,使种群不断进化,直到产生符合要求的个体。n遗传操作主要有“选择(复制)”、“交叉”、“变异”三种。种群就在这三种遗传操作的作用下对问题的解空间进行搜索。2003-11-134高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-135高等教育出版社KDD系统nKDD系统的开发工作十分复杂,不仅要有大量的数据挖掘算法,而且
14、其应用领域往往取决于最终用户的知识结构等因素。2003-11-136高等教育出版社KDD系统nBerry等人研制的数据挖掘系统成功地应用到商业领域数据库中的知识发现,商家通过发现顾客的购物习惯来决定营销策略。nSKICAT是由MIT喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的工具。nHealth-KEFIR是用于健康状况预警的知识发现系统。nTASA是为预测通信网络故障而开发的通信网络预警分析系统。nR-MINI运用分类技术从噪声中提取有价值的信息。nKDW是大型商业数据库中的交互分析系统。nDBMiner是加拿大Simon Fraser大学开发的多任务KDD系统。2
15、003-11-137高等教育出版社KDD系统nClementine是SPSS的数据挖掘应用工具。nDarwin包含三个数据挖掘方法:神经网络、决策树和K邻近。nDMW是一个用在信用卡欺诈分析方面的数据挖掘工具,支持反向传播神经网络算法,并能以自动和人工的模式操作。nDecision Series为描述和预测分析提供了集成算法集和知识挖掘环境。nIntelligent Miner是IBM开发的包括人工智能、机器学习、语言分析和知识发现领域成果在内的复杂软件解决方案。nKnowledgeSEEKER是一个基于决策树的数据挖掘工具。2003-11-138高等教育出版社第一章:绪论n1.1 引言n1.2 KDD与数据挖掘n1.3 数据挖掘的对象与环境n1.4 数据挖掘方法与相关领域n1.5 KDD系统与应用n本章小结2003-11-139高等教育出版社小结n所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。n数据挖掘是整个KDD过程中的重要步骤。n本章介绍知识发现与数据挖掘的基本概念、涉及的数据对象和相关研究领域。n简要地介绍了一些数据挖掘方法。2003-11-140高等教育出版社
限制150内