商务智能理论与应用8-数据准备34654.pptx
《商务智能理论与应用8-数据准备34654.pptx》由会员分享,可在线阅读,更多相关《商务智能理论与应用8-数据准备34654.pptx(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/3/144.数据预处理数据预处理2023/3/141为什么要进行数据挖掘?现实世界的数据是脏的不完整:缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g.,occupation=“”有噪声:包含错误的数据或异常值e.g.,Salary=“-10”不一致:在代码或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Was rating“1,2,3”,now rating“A,B,C”e.g.,discrepancy between duplicate records2023/3/142为什么数据预处理重要?No quality d
2、ata,no quality mining results!Quality decisions must be based on quality datae.g.,duplicate or missing data may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction,cleaning,and transformation comprises the majority of the work of b
3、uilding a data warehouse2023/3/1432023/3/144数据预处理的主要内容:2023/3/14数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约2023/3/145数据样本是数据挖掘过程的基本组成部分。一、原始数据的表述2023/3/146每个样本都用几个特征来描述,每个特征有不同类型的值。2023/3/142023/3/14常见的数据类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。72023/3/142023/3/14一个有两个值的分类型变量:分类型
4、变量的两个值可以平等或不平等。原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。82023/3/142023/3/14例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 000192023/3/142023/3/14变量的分类:连续型变量和离散型变量。连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。注:一种特殊类型的离散型
5、变量是周期变量,例如:星期、月和年中的日期。102023/3/142023/3/14与时间有关的数据分类:静态数据数据不随时间变化而变化动态数据(时间数据)随时间变化而变化的属性。注:大多数数据挖掘方法更适用于静态数据,在对动态数据进行挖掘时要有特殊的考虑和预处理。112023/3/14二、数据清理缺失值的填补2023/3/14对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例也非常少,这样就面临数据的缺失问题。应用数据挖掘方法之前如何处理这样现象,最简单的办法是减少数据集,去掉所有有缺失值的样本。如果我们不想扔掉这些有缺失值的样本,就必须找到它们的缺失值,用什么方法来实现呢?填补缺
6、失值。122023/3/141、单一填补法(1)均值填补法。均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组,然后分别计算各组目标属性的均值,将各组均值作为组内所有缺失项的填补值。均值填补的优点是操作简便,并且可以有效地降低其点估计的偏差。但它的缺点也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目标属性的分布;其次,也导致在均值和总量估计中对方差的低估。2023/3/1413例:2023/3/1414均值填补:2023/3/14152023/3/14(2)随机填补法。随机填补法是采用某种概率抽样的方式,从有完整信息的元组中抽取缺失数据的填补值的方
7、法。它虽然能够避免均值填补中填补值过于凝集以及容易扭曲目标属性分布的弱点,使得填补值的分布与真值分布更为接近。但它却增大了估计量的方差,并且稳定性不够。2023/3/14162023/3/14(3)热卡填补法。热卡填补法(hot deck imputation)是规定一个或多个排序属性,按其观察值大小对全部观察单位排序,如果选择的是两个以上的属性,排序按属性的入选顺序依次进行。排序属性值完全相同的观察单位称为匹配,缺失值就用与之匹配的观察单位的属性值来填补。如果有多例相匹配,可取第一例或随机取其一。如果没有相匹配的,可以每次减少一个排序属性,再找相匹配的元组。如果直到最后一个排序属性,还没有找
8、到相匹配的,则需要重新规定排序属性。2023/3/1417项目性别年龄学生身分收入办卡1男45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女20是低会2023/3/14Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.6
9、4006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/3/14举例:IRIS样本集的具体步骤 712023/3/14首先,从第一个分割点开始,将属性值分为两部分即4.3,4.4)和4.4,7.9,则分割后新的类别熵为:2023/3/14区间区间d1d2d3合计合计4.3,4.4)10014.4,7.9495050
10、149722023/3/14以此类推,如把属性值分为4.3,5.6)和5.6,7,9两个区间时,产生的新的类别熵为:2023/3/14区间区间d1d2d3合计合计4.3,5.6)47111595.6,7.93394991732023/3/14对所有的分割点将属性值分为两个区间的新类别熵计算出来,有2023/3/14d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.4395
11、46.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90
12、210.337427.70040.473927.9001742023/3/14从上表中可以看到,将属性值分为4.3,5.6)和5.6,7,9两个区间时,类别熵最小,因此首先把属性值分为两大部分。按照上述步骤,分别再找出区间 4.3,5.6)和5.6,7,9的二分点,以此类推,逐渐将区间分割为更小的区间,直到满足某个终止条件为止。2023/3/14752023/3/142023/3/14d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.
13、64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010
14、.457305.81330.330407.60010.460715.90210.337427.70040.473927.9001762023/3/142023/3/144、CHIMERGE算法772023/3/142023/3/1478Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 理论 应用 数据 准备 34654
限制150内