数据挖掘——数据预处理.ppt
《数据挖掘——数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘——数据预处理.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘与知识发现数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现)(复杂数据对象的数据挖掘与知识发现)4数数据据挖掘的预处理挖掘的预处理数据挖掘的困难所在数据挖掘的困难所在nNoisenSkewed distributionnMissing values(incomplete info)nScalabilitynHigh dimensionalitynBias in datan.预处理在知识发现中所占份量预处理在知识发现中所占份量预处理预处理n各种不同的数据源和数据对象各种不同的数据源和数据对象数据的选择、集成与整合,对问题进行限定数据的选择、集成与整合,对问题进行限定n数据库中的数据具
2、有噪声、缺值、不易至数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题,提高挖掘精度数据的去噪和规范化问题,提高挖掘精度n数据的变换数据的变换规范化、映射到不同的空间,提高挖掘效率规范化、映射到不同的空间,提高挖掘效率n数据的规约数据的规约取出冗余、属性聚类来压缩数据取出冗余、属性聚类来压缩数据数据的预处理是数据的预处理是KDD&DM的重要步骤的重要步骤预处理的基本功能预处理的基本功能n预处理主要是接受并理解预处理主要是接受并理解KDD要求,确定发现要求,确定发现任务任务n抽取与发现任务相关的数据源,根据背景知识抽取与发现任务相关的数据源,根据背景知识中的约束性规则对数据进行合法性检查
3、中的约束性规则对数据进行合法性检查n通过清理和归约等操作,生成供挖掘核心使用通过清理和归约等操作,生成供挖掘核心使用的目标数据。的目标数据。它汇集了原始数据库中与发现有关的所有数据它汇集了原始数据库中与发现有关的所有数据的总体特征,是知识发现状态空间的基底。的总体特征,是知识发现状态空间的基底。4数据挖掘的预处理数据挖掘的预处理4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散4.1数据选择数据选择n分析需求和应用,了解业务背景分析需求和应用,了解业务背景n确定分析主题确定分析主题n数据库或数据仓库中选择索要分析的数据数据库或数据仓库中选择索要分析的数据n利用数据转换
4、工具进行分析处理利用数据转换工具进行分析处理4.1数据集成数据集成将将多多文文件件或或多多数数据据库库运运行行环环境境中中的的异异构构数数据据进进行行合合并并处处理理,解解决决语语义义的的模模糊糊性性。解解决决数数据的冲突问题以及不一致数据的处理问题。据的冲突问题以及不一致数据的处理问题。n数数据据来来自自多多个个系系统统,存存在在着着异异构构数数据据的的转转换换问问。多多个个数数据据源源的的之之间间还还存存在在许许多多不不一一致致的的地地方方,如如命命名名、结结构构、单单位位、含含义义等等。因因此此,数数据据集集成成并并非非是是简简单单的的数数据据合合并并,而而是是把把数数据据进进行行统统一
5、一化化和和规规范范化化处处理理的复杂过程。的复杂过程。n需需要要统统一一原原始始数数据据中中的的所所有有矛矛盾盾之之处处,如如字字段段的的同同名名异异义义、异异名名同同义义、单单位位不不统统一一、字字长长不不一一致致等等,把原始数据在最低层次上加以转换、提炼和聚集。把原始数据在最低层次上加以转换、提炼和聚集。n数据集成中还应考虑数据类型的选择问题数据集成中还应考虑数据类型的选择问题,尽量选,尽量选择占物理空间较小的数据类型。择占物理空间较小的数据类型。4.1数据集成数据集成冗余冗余n冗余的原因:数据库设计,不同来源的数冗余的原因:数据库设计,不同来源的数据引起的数据的相关性据引起的数据的相关性
6、n冗余检验:属性的相关性冗余检验:属性的相关性属性属性A,B其其相关性度量相关性度量4.2数据清理4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散4.2数据清理数据清理n数据清理要去除源数据集中的数据清理要去除源数据集中的噪声噪声和和无关数据无关数据n处理遗漏数据和清洗脏数据处理遗漏数据和清洗脏数据n去除空白数据域和知识背景上的白噪声去除空白数据域和知识背景上的白噪声n考考虑虑时时间间顺顺序序和和数数据据变变化化等等,主主要要包包括括重重复复数数据处理和缺值数据处理据处理和缺值数据处理n完成一些数据类型的转换。完成一些数据类型的转换。4.2数据清理数据清理n数据清理
7、可以分为有监督和无监督数据清理可以分为有监督和无监督n有有监监督督过过程程是是在在领领域域专专家家的的指指导导下下,分分析析收收集集的的数数据据,去去除除明明显显错错误误的的噪噪音音数数据据和和重重复复记记录录,填补缺值数据;填补缺值数据;n无无监监督督过过程程是是用用样样本本数数据据训训练练算算法法,使使其其获获得得一一定定的的经经验验,并并在在以以后后的的处处理理过过程程中中自自动动采采用用这些经验完成数据清理工作。这些经验完成数据清理工作。4.2数据清理数据清理n另一个重要内容是数据类型的转换,通常是指另一个重要内容是数据类型的转换,通常是指连续属性的离散化连续属性的离散化n离散化方法有
8、等距区间法、等频区间法和最大离散化方法有等距区间法、等频区间法和最大熵法。熵法。n通过离散化,可以有效地减少数据表的大小,通过离散化,可以有效地减少数据表的大小,提高分类准确性。提高分类准确性。4数据挖掘的预处理数据挖掘的预处理4.1数据库与数据仓库4.2数据选择与集成4.3数据清理4.4数据归约4.5数据变换4.6数据离散4.4数据规约数据规约n有有些些数数据据属属性性对对发发现现任任务务是是没没有有影影响响的的,这这些些属属性性的的加加入入会会大大大大影影响响挖挖掘掘效效率率,甚甚至至还还可可能能导致挖掘结果的偏差。导致挖掘结果的偏差。简简化化是是在在对对发发现现任任务务和和数数据据本本身
9、身内内容容理理解解的的基基础础上上,寻寻找找依依赖赖于于发发现现目目标标的的表表达达数数据据的的有有用用特特征征,以以缩缩减减数数据据规规模模,从从而而在在尽尽可可能能保保持持数数据原貌的前提下最大限度地精简数据量。据原貌的前提下最大限度地精简数据量。4.4数据规约数据规约n主主要要有有两两个个途途径径:属属性性选选择择和和数数据据抽抽样样,分分别别针对数据库中的针对数据库中的属性和记录属性和记录。n属属性性选选择择包包括括针针对对属属性性进进行行剪剪枝枝、并并枝枝、找找相相关等操作。关等操作。n数据抽样是进行数据记录之间的相关性分析,数据抽样是进行数据记录之间的相关性分析,用少量的记录基底的
10、线性组合来表示大量的记用少量的记录基底的线性组合来表示大量的记录。它主要得用统计学中的抽样方法如简单随录。它主要得用统计学中的抽样方法如简单随机抽样、等距抽样、分层抽样等。机抽样、等距抽样、分层抽样等。4.4数据规约数据规约基于粗糙集理论的约简法基于粗糙集理论的约简法粗糙集(粗糙集(RoughSet,RS)一一种种研研究究不不精精确确、不不确确定定性性知知识识的的数数据据学学工工具具,目目前前受受到到了了KDD研研究究者者的的广广泛泛重重视视,用用RS理理论论对对数数据据时时行行处处理理是是一一种种十十分分有有效效的的精精简简数数据据维维数数的的方方法法。我我们们所所处处理理的的数数据据一一般
11、般存存在在信信息息的的含含糊糊性性问问题题,含含糊糊性性有有三三种种,术术语语的的模模糊糊性性,知识自身的不确定性;数据的不确定性。知识自身的不确定性;数据的不确定性。4.4数据规约数据规约基于粗糙集理论的约简法基于粗糙集理论的约简法粗糙集(粗糙集(RoughSet,RS)RS理理论论的的最最大大特特点点是是无无需需提提供供问问题题所所需需处处理理的的数数据据集集合合之之外外的的任任何何先先验验信信息息,其其基基本本思思路路是是利利用用定定义义在在数数据据集集合合U上上等等价价关关系系对对U进进行行划划分分。对对于于数数据据表表来来说说,这这种种等等价价关关系系可可以以是是某某个个属属性性,或
12、或者者是是几几个个属属性性的的集集合合。因因此此按按照照不不同同属属性性的的组组合合就就把把数数据据表表划划分分成成不不同同的的基基本本类类。在在这这些些基基本本类类的的基基础础上上进进一一步步求求得得最最小小约约简集。简集。4.4数据规约数据规约基于粗糙集理论的约简法基于粗糙集理论的约简法粗糙集(粗糙集(RoughSet,RS)采采用用RS理理论论作作为为数数据据预预处处理理方方法法具具有有许许多多的的优优点点:不不需需要要预预先先知知道道额额外外信信息息;算算法法简简单单、易易于于操操作作。应应用用RS的的属属性性约约简简可可以以有有效效地地去去除除冗冗余余现现象象,同同样样可可以以应应用
13、用RS方方法法中中的的约约简简技技术术删删除除某某些些属属性性的的多多余余值值,从从而而使使条条件件属属性性的的个个数和取值得到约简。数和取值得到约简。但但是是,RS理理论论只只能能处处理理离离散散型型属属性性。对对于于连连续续的的属属性性必必须须先先进进行行离离散散化化才才能能再再运运用用RS理理论论进进行处理。行处理。4.4数据规约数据规约基于粗糙集理论的约简法基于粗糙集理论的约简法概念概念树树的的基本思路基本思路在在数数据据库库中中,许许多多属属性性都都是是可可以以进进行行归归类类,各各属属性性值值和和概概念念依依据据抽抽象象程程度度不不同同可可以以进进行行数数据据归归类类并并构构成成一
14、一个个层层次次结结构构,概概念念的的这这种种层层次次结结构通常称为概念树。构通常称为概念树。概概念念树树一一般般由由领领域域专专家家提提供供,它它将将各各个个层层次次的的概念按一般到特殊的顺序排列。概念按一般到特殊的顺序排列。n基于概念树的数据预处理方法是一种归纳方法,基于概念树的数据预处理方法是一种归纳方法,其实是数据库中元组合并的处理过程,其基本其实是数据库中元组合并的处理过程,其基本思路如下思路如下:n首先,一个属性的具体的值被该属性的概念树首先,一个属性的具体的值被该属性的概念树中的父概念所代替,然后对相同元组进行合并,中的父概念所代替,然后对相同元组进行合并,构成更宏观的元组,并计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 预处理
限制150内