书签分享收藏举报版权申诉 / 91

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 数据挖掘入门幻灯片.ppt

数据挖掘入门幻灯片.ppt

上传人：石***

文档编号：87449472

上传时间：2023-04-16

格式：PPT

页数：91

大小：4.32MB

( 4.5 )

《数据挖掘入门幻灯片.ppt》由会员分享，可在线阅读，更多相关《数据挖掘入门幻灯片.ppt（91页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、数据挖掘入门数据挖掘入门第1页，共91页，编辑于2022年，星期六2023/4/112一、引言一、引言n n什么激发了数据挖掘什么激发了数据挖掘近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据可以广泛使用，并且迫切需要将这些数据转换成有用的存在大量数据可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域，如商务管信息和知识。获取的信息和知识可以广泛应用于各种领域，如商务管理、生产控制、市场分析、工程设计和科学探索等。理、生产控制、市场分析、工程设计和科学探索等。面对海量数

2、据库和大量繁杂信息，如何才能从中提取有价面对海量数据库和大量繁杂信息，如何才能从中提取有价值的知识，进一步提高信息的利用率，由此引发了一个新的研值的知识，进一步提高信息的利用率，由此引发了一个新的研究方向：基于数据库的知识发现（究方向：基于数据库的知识发现（Knowledge Discovery in Knowledge Discovery in DatabaseDatabase）及相应的数据挖掘（）及相应的数据挖掘（Data MiningData Mining）理论和技术的研究。）理论和技术的研究。第2页，共91页，编辑于2022年，星期六2023/4/113n n为什么数据挖掘是重要的数

3、据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中，没有强有力的工具，这些数据就变成了“数据坟墓”难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识“金块”。第3页，共91页，编辑于2022年，星期六2023/4/1142.1 KDD定义人们给KDD下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。二、二、KDD与数据挖掘与数据挖掘第4页，共91页，编辑于2022年，星期六

4、2023/4/1152.2 KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，KDD过程主要经由三个部分组成，即数据整理、数据挖掘和结果的解释评估。第5页，共91页，编辑于2022年，星期六2023/4/116知识发现（知识发现（KDD）的过程）的过程数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估第6页，共91页，编辑于2022年，星期六2023/4/117知识发现（知识发现（KDD）的步骤）的步骤1.1.数据准备：了解KDD应用领域的有关情况。包括熟悉相

5、关的知识背景，搞清用户需求。2.2.数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。3.3.数据预处理：对步骤数据预处理：对步骤2 2中选出的数据进行再处理，检中选出的数据进行再处理，检查数据的完整性及一致性，消除噪声及与数据挖掘无查数据的完整性及一致性，消除噪声及与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。用统计等方法填充丢失的数据。第7页，共91页，编辑于2022年，星期六2023/4/1184.4.数据变换：

6、根据知识发现的任务对经过预处理的数据再处理，主要是通过投影或利用数据库的其它操作减少数据量。5.5.确定KDD目标：根据用户的要求，确定KDD要发现的知识类型。6.6.选择算法：根据步骤5确定的任务，选择合适的知识发现算法，包括选取合适的模型和参数。第8页，共91页，编辑于2022年，星期六2023/4/1197.7.数据挖掘：这是整个数据挖掘：这是整个KDDKDD过程中很重要的一个步骤。过程中很重要的一个步骤。运用前面的选择算法，从数据库中提取用户感兴趣的运用前面的选择算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来。知识，并以一定的方式表示出来。8.8.模式解释：对在数据挖掘步

7、骤中发现的模式（知识）进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。9.9.知识评价：将发现的知识以用户能了解的方式呈现给用知识评价：将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查，以确信本次发现户。其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识相抵触。的知识不会与以前发现的知识相抵触。第9页，共91页，编辑于2022年，星期六2023/4/1110n n什么是数据挖掘1.1.数据挖掘（从数据中发现知识）数据挖掘（从数据中发现知识）从海量的数据中抽取感兴趣的（有价值的、隐含的、以前没有用从海量的数据中

8、抽取感兴趣的（有价值的、隐含的、以前没有用但是潜在有用信息的）模式和知识。但是潜在有用信息的）模式和知识。2.2.其它可选择的名字其它可选择的名字数据库中知识挖掘、知识提取、数据数据库中知识挖掘、知识提取、数据/模式分析、数据考古、模式分析、数据考古、数据捕捞、信息获取、事务智能等。数据捕捞、信息获取、事务智能等。3.3.广义观点广义观点数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。数据中挖掘有趣知识的过程。第10页，共91页，编辑于2022年，星期六2023/4/1111n n数据挖掘系统的组成n

9、 n数据库、数据仓库或其他信息库：是一个或一组数据数据库、数据仓库或其他信息库：是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。在数据上进行数据清理和集成。n n数据库或数据仓库服务器：根据用户的挖掘请求，数据库或数据仓库服务器负责提取相关数据。n n知识库：是领域知识，用于指导搜索，或评估结果模式知识库：是领域知识，用于指导搜索，或评估结果模式的兴趣度。的兴趣度。第11页，共91页，编辑于2022年，星期六2023/4/1112数据挖掘引擎：数据挖掘系统的基本部分，由一组功能模块组成，用于特征化、关联、分

10、类、聚类分析以及演变和偏差分析。模式评估模块：使用兴趣度量，并与数据挖掘模块交互，模式评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式。过滤发现的模式。图形用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。第12页，共91页，编辑于2022年，星期六2023/4/1113数据挖掘系统结构数据挖掘系统结构数据仓库数据仓库数据清理数据清理数据集成数据集成过滤过滤数据库数据库数据库或数据

11、仓库服务器数据挖掘引擎模式评估图形用户界面知识库第13页，共91页，编辑于2022年，星期六2023/4/11143.1 可以分别按挖掘任务任务、挖掘、挖掘对象和挖掘和挖掘方法来分类。1.1.按挖掘任务分类：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时序模式发现，依赖关系或依赖模型发现，异常和趋势发现等。2.2.按挖掘对象分类：包括关系数据库，面向对象数据库，按挖掘对象分类：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，演绎数据库和异构数据库，数据仓库，演绎数据库和

12、WebWeb数据库等。数据库等。三、数据挖掘方法三、数据挖掘方法第14页，共91页，编辑于2022年，星期六2023/4/11153.3.按挖掘方法分类：包括统计方法，机器学习方法，神经网按挖掘方法分类：包括统计方法，机器学习方法，神经网络方法和数据库方法，其中：络方法和数据库方法，其中：n n统计方法可分为：回归分析（多元回归、自回归等），判别分析统计方法可分为：回归分析（多元回归、自回归等），判别分析（贝叶斯判别、费歇尔判别、非参数判别等），聚类分析（系统聚（贝叶斯判别、费歇尔判别、非参数判别等），聚类分析（系统聚类、动态聚类等），探索性分析（主成分分析、相关分析等）等。类、动态聚类等），

13、探索性分析（主成分分析、相关分析等）等。n n 机器学习方法可分为：归纳学习方法（决策树、规则归纳等），机器学习方法可分为：归纳学习方法（决策树、规则归纳等），基于范例学习，遗传算法等。基于范例学习，遗传算法等。n n神经网络方法可以分为：前向神经网络（神经网络方法可以分为：前向神经网络（BPBP算法等），自算法等），自组织神经网络（自组织特征映射、竞争学习等）。组织神经网络（自组织特征映射、竞争学习等）。n n数据库方法分为：多为数据分析和数据库方法分为：多为数据分析和OLAPOLAP技术，此外还有面技术，此外还有面向属性的归纳方法。向属性的归纳方法。第15页，共91页，编辑于2022年，星

14、期六2023/4/1116数据挖掘技术分类数据挖掘技术分类数据挖掘数据挖掘数据挖掘数据挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘SQLSQLSQLSQL生成器生成器生成器生成器查询工具查询工具查询工具查询工具OLAPOLAP描述描述描述描述预测预测预测预测可视化可视化可视化可视化聚类聚类聚类聚类关联规则关联规则关联规则关联规则顺序关联顺序关联顺序关联顺序关联汇总描述汇总描述汇总描述汇总描述分类分类分类分类统计回归统计回归统计回归统计回归时间序列时间序列时间序列时间序列决策树决策树决策树决策树神经网路神经网路神经网路神经网路第16页，共9

15、1页，编辑于2022年，星期六2023/4/11173.2 3.2 数据挖掘方法1.1.粗糙集 1982年波兰数学家Z.Pawlak针对G.Frege的边界线区域思想提出了粗糙集（Rough Set），他把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集。粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性，即以不完全信息或知识去处理一些不分明现象的能力，或依据观察、度量到的某些不精确的结果而进行分类数据的能力。第17页，共91页，编辑于2022年，星期六2023/4/11182.2.模糊集经典集合理论对应二值逻辑，一个元素要么属于、

16、要么不属于给定集合。因此经典集合不能很好地描述具有模糊性和不确定性的问题。美国加利福尼亚大学的扎德教授于1965年提出了模糊集合论，用隶属程度来描述差异的中间过渡，是一种用精确的数学语言对模糊性进行描述的方法。第18页，共91页，编辑于2022年，星期六2023/4/1119 定义：论域X=x上的模糊集合A由隶属函数A(x)来表征。其中A(x)在实轴的闭区间0，1中取值，A(x)的大小反映x对于模糊集合A的隶属程度。A(x)的值接近1，表示x隶属于A的程度很高。A(x)的值接近0，表示x隶属于A的程度很低。特例，当A的值域取0，1闭区间的两个端点，亦即0，1两个值时，A便退化为一个普通的逻辑子

17、集。隶属函数也就退化为普通逻辑值。第19页，共91页，编辑于2022年，星期六2023/4/11203.3.聚类分析聚类分析聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组为簇，簇是数据对象的集合。簇内部任意两个对象之间具有较高的为簇，簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。相似度，而属于不同簇的两个对象间具有较高的相异度。相异度可以根据描述对象的属性值计算，对象间的距离相异度可以根据描述对象的属性值计算，对象间的距离是最常采用的度量指标。在实际应用中，经常将一个簇中的是

18、最常采用的度量指标。在实际应用中，经常将一个簇中的数据对象作为一个整体看待。用聚类生成的簇来表达数据集数据对象作为一个整体看待。用聚类生成的簇来表达数据集不可避免地会损失一些信息，但却可以使问题得到必要的简不可避免地会损失一些信息，但却可以使问题得到必要的简化。化。主要的数据挖掘聚类方法有：划分的方法、层次的方法、主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法基于密度的方法、基于网格的方法、基于模型的方法第20页，共91页，编辑于2022年，星期六2023/4/11214.4.关联规则关联规则关联规则反映一个事物与其它事物之间的相互依存性和关

19、联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。系，那么其中一个事物就能够通过其他事物预测到。人们希望在海量的商业交易记录中发现感兴趣的数据人们希望在海量的商业交易记录中发现感兴趣的数据关联关系，用以帮助商家作出决策。例如：关联关系，用以帮助商家作出决策。例如：面包面包 2%2%牛奶牛奶 1.5%1.5%（占超市交易总数）（占超市交易总数）2%2%和和1.5%1.5%表明这两种商品在超市经营中的重要程度，称为表明这两种商品在超市经营中的重要程度，称

20、为支持度。商家关注高支持度的产品。支持度。商家关注高支持度的产品。面包面包=牛奶牛奶 60%60%在购买面包的交易中，有在购买面包的交易中，有60%60%的交易既买了面包又买了牛奶，的交易既买了面包又买了牛奶，成成60%60%为规则为规则“面包面包=牛奶牛奶”的信任度。信任度反映了商品间的关的信任度。信任度反映了商品间的关联程度。联程度。第21页，共91页，编辑于2022年，星期六2023/4/1122 项目构成的集合称为项集。项集在事物数据库中出现的次项目构成的集合称为项集。项集在事物数据库中出现的次数占总事物的百分比叫做项集的支持度。如果项集的支持度数占总事物的百分比叫做项集的支持度。如果

21、项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集。超过用户给定的最小支持度阈值，就称该项集是频繁项集。关联规则就是支持度和信任度分别满足用户给定阈值的规关联规则就是支持度和信任度分别满足用户给定阈值的规则则。发现关联规则需要经历如下两个步骤：。发现关联规则需要经历如下两个步骤：（1 1）找出所有的频繁项。）找出所有的频繁项。（2 2）由频繁项集生成满足最小信任度阈值的规则。）由频繁项集生成满足最小信任度阈值的规则。第22页，共91页，编辑于2022年，星期六2023/4/11235.5.人工神经网络人工神经网络人工神经网络是指由简单计算单元组成的广泛并行互联的网络，人工神经网络

22、是指由简单计算单元组成的广泛并行互联的网络，能够模拟生物神经系统的结构和功能。组成神经网络的单个神经元能够模拟生物神经系统的结构和功能。组成神经网络的单个神经元的结构简单，功能有限，但是，由大量神经元构成的网络系统可以的结构简单，功能有限，但是，由大量神经元构成的网络系统可以实现强大的功能。实现强大的功能。由于现实世界的数据关系相当复杂，非线性问题和噪声由于现实世界的数据关系相当复杂，非线性问题和噪声数据普遍存在。将人工神经网络应用于数据挖掘，希望借助数据普遍存在。将人工神经网络应用于数据挖掘，希望借助其非线性处理能力和容噪能力，得到较好的数据挖掘结果。其非线性处理能力和容噪能力，得到较好的数

23、据挖掘结果。将人工神经网络应用于数据挖掘的主要障碍是，通过人将人工神经网络应用于数据挖掘的主要障碍是，通过人工神经网络学习到的知识难于理解；学习时间太长，不适于工神经网络学习到的知识难于理解；学习时间太长，不适于大型数据集。大型数据集。第23页，共91页，编辑于2022年，星期六2023/4/11246 6，分类与预测，分类与预测分类和预测是两种重要的数据分析方法，在商业上的应用分类和预测是两种重要的数据分析方法，在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。的数据趋势。分类的目的是提出一个分类函数或分类

24、模型（即分类分类的目的是提出一个分类函数或分类模型（即分类器）通过分类器将数据对象映射到某一个给定的类别中。器）通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模型，用于描述数据分类可以分为两步进行。第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。第二步是用模型对数据对象进反映数据集合特性的模型。第二步是用模型对数据对象进行分类。行分类。预测的目的是从历史数据记录中自动推导出对给定数据预测的目的是从历史数据记录中自动推导出对给定数据的推广描述，从而能够对事先未知

25、的数据进行预测。的推广描述，从而能够对事先未知的数据进行预测。第24页，共91页，编辑于2022年，星期六2023/4/1125 分类的方法：分类的方法：n n决策树：决策树内部节点进行属性值测试，并根据属性值判断决策树：决策树内部节点进行属性值测试，并根据属性值判断由该节点引出的分支，在决策树的叶结点得到结论。内部节点由该节点引出的分支，在决策树的叶结点得到结论。内部节点是属性或属性的集合，叶节点代表样本所属的类或类分布。是属性或属性的集合，叶节点代表样本所属的类或类分布。n n贝叶斯分类：是一种统计学分类方法，可以预测类成员关系贝叶斯分类：是一种统计学分类方法，可以预测类成员关系关系的可能

26、性，如给定样本属于一个特征类的概率。贝叶斯关系的可能性，如给定样本属于一个特征类的概率。贝叶斯方法已在文本分类、字母识别、经济预测等领域获得了成功方法已在文本分类、字母识别、经济预测等领域获得了成功的应用。的应用。n n基于遗传算法分类：模拟生物进化过程中的计算模型，是自然遗传学基于遗传算法分类：模拟生物进化过程中的计算模型，是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。利用选择、与计算机科学互相结合、互相渗透而形成的新的计算方法。利用选择、交叉、变异等操作对子代进行操作，优点是问题求解与初始条件无关，交叉、变异等操作对子代进行操作，优点是问题求解与初始条件无关，搜索最优解的

27、能力极强，可以对各种数据挖掘技术进行优化。搜索最优解的能力极强，可以对各种数据挖掘技术进行优化。第25页，共91页，编辑于2022年，星期六2023/4/1126n n预测预测是构造和使用模型评估无标号样本类，或评估给预测是构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或区间值。预测的目的是从历史定样本可能具有的属性值或区间值。预测的目的是从历史数据中自动推导出对给定数据的推广描述，从而能对未来数据中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。例如，金融系统可以根据顾客信誉卡消费数据进行预测。例如，金融系统可以根据顾客信誉卡消费量预测他未来的刷卡消费量或用于信誉

28、证实。推销人员希量预测他未来的刷卡消费量或用于信誉证实。推销人员希望在开拓新客户时，找出顾客一些共同特征，预测出潜在望在开拓新客户时，找出顾客一些共同特征，预测出潜在顾客群。顾客群。预测的方法主要是回归统计，包括：线性回归、非线预测的方法主要是回归统计，包括：线性回归、非线性回归、多元回归、泊松回归、对数回归等。分类也可性回归、多元回归、泊松回归、对数回归等。分类也可以用来预测。以用来预测。第26页，共91页，编辑于2022年，星期六2023/4/11277 7，多媒体数据挖掘，多媒体数据挖掘多媒体数据库系统由多媒体数据库管理系统和多媒体数据多媒体数据库系统由多媒体数据库管理系统和多媒体数据

29、库构成。其中多媒体数据库用于存储和管理多媒体数据，多媒库构成。其中多媒体数据库用于存储和管理多媒体数据，多媒体数据库管理系统负责对多媒体数据库进行管理。多媒体数据体数据库管理系统负责对多媒体数据库进行管理。多媒体数据库包括结构化的数据、半结构化的数据和非结构化的数据，如库包括结构化的数据、半结构化的数据和非结构化的数据，如音频数据、视频数据、文本数据和图像数据等。音频数据、视频数据、文本数据和图像数据等。多媒体数据挖掘就是通过综合分析多媒体数据的内容和多媒体数据挖掘就是通过综合分析多媒体数据的内容和语义，从大量多媒体数据中发现隐含的、有效的、有价值语义，从大量多媒体数据中发现隐含的、有效的、有

30、价值的、可理解的模式，得出事件的发展趋向和关联关系，为的、可理解的模式，得出事件的发展趋向和关联关系，为用户提供问题求解层次上的决策支持能力。用户提供问题求解层次上的决策支持能力。第27页，共91页，编辑于2022年，星期六2023/4/1128 多媒体数据是指由多种不同类型多媒体数据组成的，包多媒体数据是指由多种不同类型多媒体数据组成的，包括文本、图形、图像、声音、视频图像、动画等不同类型的括文本、图形、图像、声音、视频图像、动画等不同类型的媒体数据。为了挖掘多媒体数据，必须对两种或多种类型的媒体数据。为了挖掘多媒体数据，必须对两种或多种类型的媒体数据进行综合挖掘。媒体数据进行综合挖掘。多媒

31、体挖掘的方法有两种：多媒体挖掘的方法有两种：一种是先从多媒体数据数据库中提取出结构化数据，然后用传统一种是先从多媒体数据数据库中提取出结构化数据，然后用传统的数据挖掘工具在这些结构化的数据上进行挖掘。的数据挖掘工具在这些结构化的数据上进行挖掘。另一种解决办法是研究开发可以直接对多媒体数据进行另一种解决办法是研究开发可以直接对多媒体数据进行挖掘的工具。挖掘的工具。第28页，共91页，编辑于2022年，星期六2023/4/1129四、数据挖掘系统与应用四、数据挖掘系统与应用数据挖掘系统的开发工作十分复杂，不仅要有大量的数据挖数据挖掘系统的开发工作十分复杂，不仅要有大量的数据挖掘算法，而且其应用领

32、域往往取决于最终用户的知识结构等因素。掘算法，而且其应用领域往往取决于最终用户的知识结构等因素。下面介绍几个数据挖掘系统：下面介绍几个数据挖掘系统：n nSKICATSKICAT是是MITMIT喷气推进实验室与天文科学家合作开发的喷气推进实验室与天文科学家合作开发的用于用于帮助天文学家发现遥远的类星体的工具帮助天文学家发现遥远的类星体的工具。n nHealth-KEFIRHealth-KEFIR是用于健康状况预警的知识发现系统是用于健康状况预警的知识发现系统。n nTASATASA是为预测通信网络故障是为预测通信网络故障而开发的而开发的通信网络预警分析系统通信网络预警分析系统。会产生会产生“如

33、果在某一时间段内发生某些预警信息组合，那么其如果在某一时间段内发生某些预警信息组合，那么其他类型的预警信息将在某个时间范围内发生他类型的预警信息将在某个时间范围内发生”的规则。时间段的规则。时间段大小由用户定义。大小由用户定义。n nR-MINIR-MINI运用分类技术从噪声中提取有价值的信息。由于是在微运用分类技术从噪声中提取有价值的信息。由于是在微弱变化中获取信息，该系统也可以应用于弱变化中获取信息，该系统也可以应用于证券领域中的股市行证券领域中的股市行情预测情预测。第29页，共91页，编辑于2022年，星期六2023/4/1130KDWKDW是大型商业数据库中的交互分析系统。包括聚类、分

34、类、是大型商业数据库中的交互分析系统。包括聚类、分类、总结、相关性分析等多种模式。总结、相关性分析等多种模式。DBMinerDBMiner是加拿大是加拿大Simon FraserSimon Fraser大学开发的一个多任务大学开发的一个多任务KDDKDD系系统。能够完成多种知识发现，综合了多种数据挖掘技术。统。能够完成多种知识发现，综合了多种数据挖掘技术。ClementineClementine可以把直观的图形用户界面与多种分析技术结合可以把直观的图形用户界面与多种分析技术结合在一起，包括神经网络、关联规则和规则归纳技术。在一起，包括神经网络、关联规则和规则归纳技术。DarwinDarwin包

35、含神经网络、决策书和包含神经网络、决策书和K-K-邻近三种数据挖掘方法，处邻近三种数据挖掘方法，处理分类、预测和预报问题。理分类、预测和预报问题。DMWDMW是一个用在信用卡欺诈分析方面的数据挖掘工具，支持反是一个用在信用卡欺诈分析方面的数据挖掘工具，支持反向传播神经网络算法，并能以自动和人工模式操作向传播神经网络算法，并能以自动和人工模式操作Intelligent MinerIntelligent Miner是是IBMIBM开发的包括人工智能、机器学习、语言分析和开发的包括人工智能、机器学习、语言分析和知识发现领域成果在内的复杂软件解决方案。知识发现领域成果在内的复杂软件解决方案。第30页，

36、共91页，编辑于2022年，星期六2023/4/1131五，数据预处理五，数据预处理n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结第31页，共91页，编辑于2022年，星期六2023/4/1132为什么需要数据预处理为什么需要数据预处理?n n在现实社会中，存在着大量的“脏”数据n n不完整性不完整性（数据结构的设计人员、数据采集设备和数据录入人员）（数据结构的设计人员、数据采集设备和数据录入人员）n n缺少感兴趣的属性缺少感兴趣的属性n n感兴趣的属性缺少部分属性值感兴趣的属性缺少部分属性值n n仅仅包含聚合数据，

37、没有详细数据仅仅包含聚合数据，没有详细数据n n噪音数据（采集数据的设备、数据录入人员、数据传输）噪音数据（采集数据的设备、数据录入人员、数据传输）n n数据中包含错误的信息数据中包含错误的信息n n存在着部分偏离期望值的孤立点存在着部分偏离期望值的孤立点n n不一致性（数据结构的设计人员、数据录入人员）不一致性（数据结构的设计人员、数据录入人员）n n数据结构的不一致性数据结构的不一致性n nLabelLabel的不一致性的不一致性n n数据值的不一致性数据值的不一致性第32页，共91页，编辑于2022年，星期六2023/4/1133为什么需要数据预处理为什么需要数据预处理?n n数据挖掘的

38、数据源可能是多个互相独立的数据源数据挖掘的数据源可能是多个互相独立的数据源n n关系数据库关系数据库n n多维数据库（多维数据库（Data CubeData Cube）n n文件、文档数据库文件、文档数据库n n数据转换n n为了数据挖掘的方便为了数据挖掘的方便n n海量数据的处理海量数据的处理n n数据归约（在获得相同或者相似结果的前提下）数据归约（在获得相同或者相似结果的前提下）第33页，共91页，编辑于2022年，星期六2023/4/1134为什么需要数据预处理？为什么需要数据预处理？n n没有高质量的数据，就没有高质量的挖掘结果n n高质量的决策必须基于高质量的数据基础上n n数据仓库

39、是在高质量数据上的集成第34页，共91页，编辑于2022年，星期六2023/4/1135数据预处理的主要任务数据预处理的主要任务n n数据清理n n填入缺失数据填入缺失数据n n平滑噪音数据平滑噪音数据n n确认和去除孤立点确认和去除孤立点n n解决不一致性解决不一致性n n数据集成数据集成n n多个数据库、多个数据库、Data CubeData Cube和文件系统的集成和文件系统的集成n n数据转换n n规范化、聚集等规范化、聚集等n n数据归约n n在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减n n数据离散化数据离

40、散化n n对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数区间值来代替实际数据值，以减少属性值的个数.第35页，共91页，编辑于2022年，星期六2023/4/1136数据预处理的形式数据预处理的形式数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约第36页，共91页，编辑于2022年，星期六2023/4/1137主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构

41、建n n本章小结第37页，共91页，编辑于2022年，星期六2023/4/1138数据清洗数据清洗n n主要任务n n补充缺失数据n n识别孤立点，平滑噪音数据n n处理不一致的数据第38页，共91页，编辑于2022年，星期六2023/4/1139缺失数据的处理缺失数据的处理n n部分数据通常是不可用的部分数据通常是不可用的n n在许多元组中部分属性值为空。如：在客户表中的客户收入为在许多元组中部分属性值为空。如：在客户表中的客户收入为空。空。n n导致数据缺失的原因n n数据采集设备的故障数据采集设备的故障n n由于与其它信息的数据存在不一致性，因此数据项被删除由于与其它信息的数据存在不一致

42、性，因此数据项被删除n n由于不理解或者不知道而未能输入由于不理解或者不知道而未能输入n n在当时数据输入的时候，该数据项不重要而忽略在当时数据输入的时候，该数据项不重要而忽略n n数据传输过程中引入的错误数据传输过程中引入的错误n n缺失数据通常需要经过合理的推断予以添加缺失数据通常需要经过合理的推断予以添加第39页，共91页，编辑于2022年，星期六2023/4/1140缺失数据的处理方法缺失数据的处理方法n n忽略该记录（元组）n n通常在进行分类、描述、聚类等挖掘，但是元组缺失类标识时通常在进行分类、描述、聚类等挖掘，但是元组缺失类标识时n n该种方法通常不是最佳的，尤其是缺失数据比例

43、比较大的时候该种方法通常不是最佳的，尤其是缺失数据比例比较大的时候n n手工填入空缺的值手工填入空缺的值n n枯燥、费时，可操作性差，不推荐使用枯燥、费时，可操作性差，不推荐使用n n使用一个全局的常量填充空缺数值使用一个全局的常量填充空缺数值n n给定一个固定的属性值如：未知、不祥、给定一个固定的属性值如：未知、不祥、Unknown Unknown、Null Null等等n n简单，但是没有意义简单，但是没有意义第40页，共91页，编辑于2022年，星期六2023/4/1141n n使用属性的平均值填充空缺数值使用属性的平均值填充空缺数值n n简单方便、挖掘结果容易产生不精确的结果简单方便、

44、挖掘结果容易产生不精确的结果n n使用与给定元组同一个类别的所有样本的平均值使用与给定元组同一个类别的所有样本的平均值n n分类非常重要，尤其是分类指标的选择分类非常重要，尤其是分类指标的选择n n使用最有可能的值予以填充使用最有可能的值予以填充n n利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定定树归纳确定n n利用属性之间的关系进行推断，保持了属性之间的联系利用属性之间的关系进行推断，保持了属性之间的联系缺失数据的处理方法（续）缺失数据的处理方法（续）第41页，共91页，编辑于2022年，星期六2023/4/1142

45、噪音数据噪音数据n n噪音数据噪音数据:一个度量（指标）变量中的随机错误或者偏差n n主要原因n n数据采集设备的错误数据采集设备的错误n n数据录入问题数据录入问题n n数据传输问题数据传输问题n n部分技术的限制部分技术的限制n n数据转换中的不一致数据转换中的不一致 n n数据清理中所需要处理的其它问题数据清理中所需要处理的其它问题n n重复的记录重复的记录n n不完整的数据不完整的数据n n不一致的数据不一致的数据第42页，共91页，编辑于2022年，星期六2023/4/1143噪音数据的处理噪音数据的处理n n分箱（Binning）的方法n n聚类方法n n检测并消除异常点n n线性

46、回归n n对不符合回归的数据进行平滑处理n n人机结合共同检测n n由计算机检测可疑的点，然后由用户确认第43页，共91页，编辑于2022年，星期六2023/4/1144处理噪音数据：分箱方法处理噪音数据：分箱方法n n分箱（Binning）方法:n n基本思想：通过考察相邻数据的值，来平滑存储数据的值n n基本步骤：n n首先，对数据进行排序，并分配到具有相同宽度首先，对数据进行排序，并分配到具有相同宽度/深度深度的不同的的不同的“箱子箱子”中中n n其次，通过箱子的平均值（其次，通过箱子的平均值（MeansMeans）、中值）、中值（MedianMedian）、或者边界值等来进行平滑处理）

47、、或者边界值等来进行平滑处理第44页，共91页，编辑于2022年，星期六2023/4/1145分箱（分箱（BinningBinning）方法举例方法举例n n对数据进行排序对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34:4,8,9,15,21,21,24,25,26,28,29,34n n对数据进行分割对数据进行分割(相同深度相同深度):):n n-Bin 1:4,8,9,15-Bin 1:4,8,9,15n n-Bin 2:21,21,24,25-Bin 2:21,21,24,25n n-Bin 3:26,28,29,34-Bin 3:26,28,29,34

48、n n根据根据binbin中的平均值进行离散化中的平均值进行离散化:n n-Bin 1:9,9,9,9-Bin 1:9,9,9,9n n-Bin 2:23,23,23,23-Bin 2:23,23,23,23n n-Bin 3:29,29,29,29-Bin 3:29,29,29,29第45页，共91页，编辑于2022年，星期六2023/4/1146基于聚类分析的平滑处理基于聚类分析的平滑处理第46页，共91页，编辑于2022年，星期六2023/4/1147通过线性回归的平滑处理通过线性回归的平滑处理xyy=x+1X1Y1Y1第47页，共91页，编辑于2022年，星期六2023/4/1148主

49、要内容主要内容n n为什么需要数据预处理n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结第48页，共91页，编辑于2022年，星期六2023/4/1149数据集成数据集成n n数据集成的概念数据集成的概念n n将多个数据源中的数据结合起来存放在一个一致的数据存储中将多个数据源中的数据结合起来存放在一个一致的数据存储中n n数据源包括：多个数据库、多维数据库和一般的文件数据源包括：多个数据库、多维数据库和一般的文件n n数据集成也是数据仓库建设中的一个重要问题数据集成也是数据仓库建设中的一个重要问题n n数据集成的内容数据集成的内容n n模式集成模

50、式集成n n利用数据库和数据仓库的元数据信息利用数据库和数据仓库的元数据信息n n主要工作是识别现实世界中的实体定义主要工作是识别现实世界中的实体定义n n冗余数据的处理冗余数据的处理n n检测和解决数值冲突检测和解决数值冲突n n对于现实世界中的同一实体，来自于不同数据源的属性值可能不同对于现实世界中的同一实体，来自于不同数据源的属性值可能不同n n主要原因：不同的数据表示、度量单位、编码方式以及语义的不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同第49页，共91页，编辑于2022年，星期六2023/4/1150模式集成模式集成n n数据类型冲突数据类型冲突n n性别：性别：

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘入门幻灯片

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据挖掘入门幻灯片.ppt
链接地址：https://www.taowenge.com/p-87449472.html