《数据预处理概述36040.pptx》由会员分享,可在线阅读,更多相关《数据预处理概述36040.pptx(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/5/164.数据预处理数据预处理2023/5/161为什么要进行数据挖掘?现实世界的数据是脏的不完整:缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g.,occupation=“”有噪声:包含错误的数据或异常值e.g.,Salary=“-10”不一致:在代码或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Was rating“1,2,3”,now rating“A,B,C”e.g.,discrepancy between duplicate records2023/5/162为什么数据预处理重要?No quality d
2、ata,no quality mining results!Quality decisions must be based on quality datae.g.,duplicate or missing data may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction,cleaning,and transformation comprises the majority of the work of b
3、uilding a data warehouse2023/5/1632023/5/164数据预处理的主要内容:2023/5/16数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约2023/5/165数据样本是数据挖掘过程的基本组成部分。一、原始数据的表述2023/5/166每个样本都用几个特征来描述,每个特征有不同类型的值。2023/5/162023/5/16常见的数据类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。72023/5/162023/5/16一个有两个值的分类型变量:分类型
4、变量的两个值可以平等或不平等。原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。82023/5/162023/5/16例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 000192023/5/162023/5/16变量的分类:连续型变量和离散型变量。连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。注:一种特殊类型的离散型
5、变量是周期变量,例如:星期、月和年中的日期。102023/5/162023/5/16与时间有关的数据分类:静态数据数据不随时间变化而变化动态数据(时间数据)随时间变化而变化的属性。注:大多数数据挖掘方法更适用于静态数据,在对动态数据进行挖掘时要有特殊的考虑和预处理。112023/5/16二、数据清理缺失值的填补2023/5/16对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例也非常少,这样就面临数据的缺失问题。应用数据挖掘方法之前如何处理这样现象,最简单的办法是减少数据集,去掉所有有缺失值的样本。如果我们不想扔掉这些有缺失值的样本,就必须找到它们的缺失值,用什么方法来实现呢?填补缺
6、失值。122023/5/161、单一填补法(1)均值填补法。均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组,然后分别计算各组目标属性的均值,将各组均值作为组内所有缺失项的填补值。均值填补的优点是操作简便,并且可以有效地降低其点估计的偏差。但它的缺点也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目标属性的分布;其次,也导致在均值和总量估计中对方差的低估。2023/5/1613例:2023/5/1614均值填补:2023/5/16152023/5/16(2)随机填补法。随机填补法是采用某种概率抽样的方式,从有完整信息的元组中抽取缺失数据的填补值的方
7、法。它虽然能够避免均值填补中填补值过于凝集以及容易扭曲目标属性分布的弱点,使得填补值的分布与真值分布更为接近。但它却增大了估计量的方差,并且稳定性不够。2023/5/16162023/5/16(3)热卡填补法。热卡填补法(hot deck imputation)是规定一个或多个排序属性,按其观察值大小对全部观察单位排序,如果选择的是两个以上的属性,排序按属性的入选顺序依次进行。排序属性值完全相同的观察单位称为匹配,缺失值就用与之匹配的观察单位的属性值来填补。如果有多例相匹配,可取第一例或随机取其一。如果没有相匹配的,可以每次减少一个排序属性,再找相匹配的元组。如果直到最后一个排序属性,还没有找
8、到相匹配的,则需要重新规定排序属性。2023/5/1617项目性别年龄学生身分收入办卡1男45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女20是低会2023/5/16Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.6
9、4006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/5/16举例:IRIS样本集的具体步骤 712023/5/16首先,从第一个分割点开始,将属性值分为两部分即4.3,4.4)和4.4,7.9,则分割后新的类别熵为:2023/5/16区间区间d1d2d3合计合计4.3,4.4)10014.4,7.9495050
10、149722023/5/16以此类推,如把属性值分为4.3,5.6)和5.6,7,9两个区间时,产生的新的类别熵为:2023/5/16区间区间d1d2d3合计合计4.3,5.6)47111595.6,7.93394991732023/5/16对所有的分割点将属性值分为两个区间的新类别熵计算出来,有2023/5/16d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.4395
11、46.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90
12、210.337427.70040.473927.9001742023/5/16从上表中可以看到,将属性值分为4.3,5.6)和5.6,7,9两个区间时,类别熵最小,因此首先把属性值分为两大部分。按照上述步骤,分别再找出区间 4.3,5.6)和5.6,7,9的二分点,以此类推,逐渐将区间分割为更小的区间,直到满足某个终止条件为止。2023/5/16752023/5/162023/5/16d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.
13、64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010
14、.457305.81330.330407.60010.460715.90210.337427.70040.473927.9001762023/5/162023/5/164、CHIMERGE算法772023/5/162023/5/1678Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52
15、507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/5/162023/5/16792023/5/162023/5/16802023/5/16应用采用Iris样本集进行统计模拟。现在以花萼长(sepal length in cm)属性为例,来进行连续型值属性的离散化。2023/5/16812023/5/16Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60
16、204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/5/16822023/5/16具体步骤:(1)观察各区间,先将类分布完全相同的区间进行合并。2023/5/16区间d1d2d3区间d1d2d34.3,4.9)16005.7,5.9)3844.9,5.0)4115.9,6.6)018225.0,5.3)19406.6,6.7)0205.3,5.4)1006.7,7.0)0
17、5105.4,5.6)7607.0,7.1)0105.6,5.7)0517.1,7.9)0012832023/5/162023/5/16(2)考察4.3,4.9)与4.9,5),看其是否能够合并?两区间的卡方统计量和为5.87,大于临界值,因此两区间不能合并。区间d1d2d3求和4.3,4.9)1600164.9,5)4116求和201122区间eijeijeij4.3,4.9)14.5450.7270.7274.9,5)5.4550.2730.273区间24.3,4.9)0.1450.7270.7271.64.9,5)0.3881.9391.939 4.267表1:两区间的列联表表2:计算各
18、项的eij表3:两区间的卡方统计量值842023/5/162023/5/16(3)继续考察区间4.9,5)与5.0,5.3),看其是否能够合并,直到所有的区间卡方统计量大于阀值为止。852023/5/16五、属性的归约属性的归约包括两类方法:属性的提取和属性子集的选择。(一)属性的提取属性的提取是通过映射(或变换)的方法,将高维的属性空间压缩为低维的属性空间,即将原始属性变换即将原始属性变换为较少的新属性为较少的新属性。此时,“较少的新属性”是原始属性的某种线性组合,也可以称为“二次属性”。2023/5/16862023/5/16属性提取的最大的优点在于:这样的线性组合比属性选择中的最优子集有
19、更好的判别能力。但相但相应的问题是,这样的线性组合的实际意义却不明应的问题是,这样的线性组合的实际意义却不明显,有时难以解释。显,有时难以解释。到目前为止,对属性提取的研究主要是从线性和非线性的数据变换角度进行的。用的比较多的线性数据变换方法是:主成分分析、因子分析、判别分析、聚类分析、多维标度、投影寻踪以及小波变换等。非线性的数据变换,主要是基于自组织映射的属性抽取方法、基于核的主成分分析和基于核的判别分析方法等。2023/5/16872023/5/161、主成分分析(因子分析)n主成分分析和因子分析都是多元统计分析中的一种常用方法,是数学上处理降维的一种方法。n主成分分析的基本思想:设法将
20、原始属性重新组合成一组新的互相无关的几个综合属性,同时根据需要从中选取少数几个综合属性来尽可能多地反映原来指标的信息。综合指标的选取使用的是方差最大法。2023/5/16882、因子分析因子分析的基本思想:通过变量(或样本)的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个因子去描述多个变量之间的相关关系;然后,根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组之间相关性较低。2023/5/16892023/5/16主成分分析和因子分析的对比数据标准化建立指标之间的相关系数矩阵R求R的特征值和特征向量计算累计贡献率大于85%的前n个特征值的特征向量根据特征向量建立n个
21、主成分(由变量的线性组合而成)2023/5/16根据n个特征向量建立因子载荷阵对因子载荷阵实行方差最大旋转按照变量在每个因子上载荷阵的高低,分类。主成分分析因子分析由因子的线性组合来解释变量90主成份分析和因子分析的优点因子(主成份)之间的线性相关关系不显著。主成份参与数据建模能够有效地解决变量多重共线性等分析应用带来的问题。因子能够反映原有变量的绝大部分信息。因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。该值越高,说明相应因子的重要性越高。aij因子载荷反映了某i个变量在第j因子上的相对重要性。因子得分是因子分析的最终体现。在后续的分析中可以用因子变量代替原有变量进行建模,或者利用因
22、子变量对样本分类、评价或排序等研究。2023/5/16913、聚类分析K均值聚类分析 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中.具体的算法至少包括以下三个步骤:1将所有的样品分成K个初始类;2通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3重复步骤2,直到所有的样品都不能再分配时为止。2023/5/16922023/5/16(二)属性子集的选择属性子集的选择是通过删除不相关的属性来减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概使得数据类的概率分布尽可能地接近使用
23、所有属性的原分布。率分布尽可能地接近使用所有属性的原分布。2023/5/16932023/5/16属性子集的选择方法一般有两个组成部分:一是高效率的属性子集搜索策略,即在允许的时间内,用以找出最小的、最能描述类别的属性组合的搜索方法;二是确定评价函数,是衡量属性组合是否最优的标准。属性子集的选择一般分两步进行:首先,产生属性子集;然后,对子集进行评价,如果满足停止条件则停止,否则重复前述两步直到条件满足为止。2023/5/1694通过该标准,要能够衡量哪组属性子集的分类效果最好,即使得数据类的概率分布尽可能地接近使用所有属性的原分布;或者能够衡量哪组属性子集的分类效果最好,即最能够代表全部的属
24、性集合对样本的划分。2023/5/161、搜索策略按照搜索属性形成属性子集的方式,搜索策略可以分为:穷举法、启发式和随机搜索。启发式搜索即贪心算法。基本的启发式属性选择算法主要有:逐步向前选择(SFS)、逐步向后选择(SBG)以及向前选择和向后删除相结合的方法等。2023/5/16952023/5/16(1)逐步向前选择逐步向前选择方法是一种自下而上的搜索方法,它是由空属性集开始,依次从未入选的属性中选择一个属性,使它与已入选已入选的属性组合在一起时所得的评价函数达到最大值(或最小值,依评价函数选取的不同,取最大或最小值),直到评价函数的值不再增加(或减小)时为止,亦或者达到指定的属性数为止。
25、2023/5/169696能够衡量哪组属性子集的分类效果最好,能够衡量哪组属性子集的分类效果最好,最能够代表全部的属性集合对样本的划最能够代表全部的属性集合对样本的划分。分。这种算法的不足是:在算法中虽然考虑了所选属性与已入选属性之间的相关性,但却未考虑未入选属性之间的统计相关性,并且一旦某个属性已入选,即使由于后加入的属性使它变为多余,也无法再剔除。2023/5/16972023/5/16(2)逐步向后删除逐步向后删除是一种自上而下搜索的方法,它由整个属性集开始,在每一步删除掉在属性集中最坏的属性,评判属性好坏的准则是,如果剔除该属性后,属性集的评价函数达到最大(或最小)值,那么这个属性是最
26、坏的。2023/5/169898(3)逐步向前选择和逐步向后删除相结合向前选择和向后删除结合的方法则是将向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在其剩余的属性中删除掉一个最坏的属性。这两种方法也存在着与逐步向前选择方法相同的缺点。2023/5/16992023/5/16(4)广义逐步向前选择广义逐步向前选择方法是逐步向前选择方法的推广,针对逐步向前选择方法“未能考虑未入选属性之间的统计相关性”的缺点,该方法每次从未入选的属性中挑选的不止是一个属性而是多个属性。广义逐步向前选择方法的缺点是:计算量要比逐步向前选择方法大很多,并且也未解决“一旦某个属性已入选,即使由于后加入的
27、属性使它变为多余,也无法再剔除”的问题。2023/5/161001002023/5/162、属性子集选择中的评价函数在属性子集选择中,找出最具代表性的属性子集需要一个子集优劣的评价标准。通过该标准,使得数据类通过该标准,使得数据类的概率分布尽可能地接近使用所有属性的原分布;如的概率分布尽可能地接近使用所有属性的原分布;如果没有类属性,则能够衡量哪组属性子集的分类效果果没有类属性,则能够衡量哪组属性子集的分类效果最好,最能够代表全部的属性集合对样本的划分。最好,最能够代表全部的属性集合对样本的划分。这种评价标准以函数的形式表示出来就是评价函数。它在模式识别中,也被称为类别可分性判据类别可分性判据
28、。2023/5/161012023/5/16评价函数在属性子集的选择中是非常关键的,不同的评价函数可能会得出不同的结果。评价函数的建立形式是多种多样的:基于距离的评价函数、基于相关性的评价函数(无监督属性子集的选择方法)。基于一致性的评价函数、分类错误率以及基于信息熵的评价函数等(有监督属性子集选择方法)。2023/5/161023、评价函数的要求2023/5/161032023/5/164、模式识别中基于距离的评价函数2023/5/161042023/5/162023/5/161052023/5/16属性子集选择方法的应用主要思路:通过因子分析和相关分析为逐步向前选择算法找到每一次选用子集的
29、最优属性。选用2004年各地区城镇居民家庭人均全年消费性支出样本集对逐步向前的属性子集选择方法进行模拟。具体步骤如下:首先,对这个样本集作KMO(Kaiser-Meyer-Olkin)检验,KMO值为0.87,表明该数据集适合作因子分析。KMO值是用于比较变量间简单相关系数和偏相关系数的指标。KMO值在0.9以上表式非常适合作因子分析,在0.80.9之间表示适合,在0.70.8表示一般,在0.60.7之间表示不太适合,0.6以下表示极不适合。2023/5/161062023/5/161072023/5/16108因子初始解第二列说明提取公因子后,变量可以被因子解释的信息有多少2023/5/162023/5/16109对样本集进行因子分析,因子分析中前2个因子的贡献率分别是74.543%和11.144%,累计贡献率为85.687%。2023/5/162023/5/161102023/5/162023/5/161112023/5/162023/5/161122023/5/162023/5/161132023/5/162023/5/16114
限制150内