数据挖掘概念与技术 CHAPTER2-数据预处理.ppt
《数据挖掘概念与技术 CHAPTER2-数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术 CHAPTER2-数据预处理.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2章章:数据预处理数据预处理n为什么预处理数据为什么预处理数据?n数据清理数据清理 n数据集成数据集成n数据归约数据归约n离散化和概念分层产生离散化和概念分层产生n小结小结1为什么数据预处理为什么数据预处理?n现实世界中的数据是脏的现实世界中的数据是脏的n不完全不完全:缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚集数据或仅包含聚集数据n例例,occupation=“”n噪音噪音:包含错误或孤立点包含错误或孤立点n例例,Salary=“-10”n不一致不一致:编码或名字存在差异编码或名字存在差异n例例,Age=“42”Birthday=“03/07/2010”n例例
2、,以前的等级以前的等级“1,2,3”,现在的等级现在的等级“A,B,C”n例例,重复记录间的差异重复记录间的差异2数据为什么脏数据为什么脏?n不完全数据源于不完全数据源于n数据收集时未包含数据收集时未包含n数据收集和数据分析时的不同考虑数据收集和数据分析时的不同考虑.n人人/硬件硬件/软件问题软件问题n噪音数据源于噪音数据源于n收集收集n录入录入n变换变换n不一致数据源于不一致数据源于n不同的数据源不同的数据源n违反函数依赖违反函数依赖3为什么数据预处理是重要的为什么数据预处理是重要的?n没有高质量的数据没有高质量的数据,就没有高质量的数据挖掘结果就没有高质量的数据挖掘结果!n高质量的决策必然
3、依赖高质量的数据高质量的决策必然依赖高质量的数据n例如例如,重复或遗漏的数据可能导致不正确或误重复或遗漏的数据可能导致不正确或误导的统计导的统计.n数据仓库需要高质量数据的一致集成数据仓库需要高质量数据的一致集成4数据质量:一个多维视角数据质量:一个多维视角n一种广泛接受的多角度一种广泛接受的多角度:n正确性正确性(Accuracy)n完全性完全性(Completeness)n一致性一致性(Consistency)n合时合时(Timeliness):timely update?n可信性可信性(Believability)n可解释性可解释性(Interpretability)n可存取性可存取性(
4、Accessibility)5数据预处理的主要任务数据预处理的主要任务n数据清理数据清理n填充缺失值填充缺失值,识别识别/去除离群点去除离群点,光滑噪音光滑噪音,并纠正数据中的并纠正数据中的不一致不一致n数据集成数据集成n多个数据库多个数据库,数据立方体数据立方体,或文件的集成或文件的集成n数据变换数据变换n规范化和聚集规范化和聚集n数据归约数据归约n得到数据的归约表示得到数据的归约表示,它小得多它小得多,但产生相同或类似的分析但产生相同或类似的分析结果:维度规约、数值规约、数据压缩结果:维度规约、数值规约、数据压缩n数据离散化和概念分层数据离散化和概念分层6数据预处理的形式数据预处理的形式
5、7第第2章章:数据预处理数据预处理n为什么预处理数据为什么预处理数据?n数据清理数据清理 n数据集成数据集成n数据归约数据归约n离散化和概念分层产生离散化和概念分层产生n小结小结8数据清理数据清理 Data Cleaningn现实世界现实世界de数据是脏:很多潜在的不正确的数据,比如,数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误仪器故障,人为或计算机错误,许多传输错误nincomplete:缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚集数据或仅包含聚集数据ne.g.,职业职业=“”(missing data)nnoisy:包含错误或
6、孤立点包含错误或孤立点ne.g.,Salary=“10”(an error)ninconsistent:编码或名字存在差异编码或名字存在差异,e.g.,nAge=“42”,Birthday=“03/07/2010”n以前的等级以前的等级“1,2,3”,现在等级现在等级“A,B,C”n重复记录间的差异重复记录间的差异n有意的有意的(e.g.,变相丢失的数据变相丢失的数据)nJan.1 as everyones birthday?9如何处理缺失数据如何处理缺失数据?n忽略元组忽略元组:缺少类别标签时常用缺少类别标签时常用(假定涉及分类假定涉及分类不是很有不是很有效,当每个属性的缺失百分比变化大时效
7、,当每个属性的缺失百分比变化大时n手工填写缺失数据手工填写缺失数据:乏味乏味+费时费时+不可行不可行?n自动填充自动填充n一个全局常量一个全局常量:e.g.,“unknown”,a new class?!n使用属性均值使用属性均值n与目标元组同一类的所有样本的属性均值与目标元组同一类的所有样本的属性均值:更巧妙更巧妙n最可能的值最可能的值:基于推理的方法,如基于推理的方法,如贝叶斯公式或决策树贝叶斯公式或决策树10噪音数据噪音数据Noisy DatanNoise:被测量的变量的随机误差或方差被测量的变量的随机误差或方差n不正确的属性值可能由于不正确的属性值可能由于n错误的数据收集工具错误的数据
8、收集工具n数据录入问题数据录入问题 data entry problemsn数据传输问题数据传输问题data transmission problemsn技术限制技术限制 technology limitationn不一致的命名惯例不一致的命名惯例 inconsistency in naming convention n其他需要数据清理的问题其他需要数据清理的问题n重复记录重复记录 duplicate recordsn数据不完整数据不完整 incomplete datan不一致的数据不一致的数据 inconsistent data11如何处理噪音数据如何处理噪音数据?n分箱分箱Binning
9、method:n排序数据,分布到等频排序数据,分布到等频/等宽的箱等宽的箱/桶中桶中n箱均值光滑、箱中位数光滑、箱边界光滑箱均值光滑、箱中位数光滑、箱边界光滑,etc.n聚类聚类Clusteringn检测和去除检测和去除 离群点离群点/孤立点孤立点 outliersn计算机和人工检查相结合计算机和人工检查相结合n人工检查可疑值人工检查可疑值(e.g.,deal with possible outliers)n回归回归 Regressionn回归函数拟合数据回归函数拟合数据12分箱:简单的离散化方法分箱:简单的离散化方法n等宽度等宽度Equal-width(distance)剖分剖分:n分成大小
10、相等的分成大小相等的n个区间个区间:均匀网格均匀网格 uniform gridn若若A和和B是是 属性的最低和最高取值属性的最低和最高取值,区间宽度为区间宽度为:W=(B A)/N.n孤立点可能占据重要影响孤立点可能占据重要影响 may dominate presentationn倾斜的数据处理不好倾斜的数据处理不好.n等频剖分等频剖分(frequency)/等深等深equi-depth:n分成分成n个区间个区间,每一个含近似相同数目的样本每一个含近似相同数目的样本nGood data scalingn类别属性可能会非常棘手类别属性可能会非常棘手.13Binning Methods for D
11、ata Smoothing*Sorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition into(equi-depth)bins:-Bin 1:4,8,9,15 -Bin 2:21,21,24,25 -Bin 3:26,28,29,34*Smoothing by bin means:-Bin 1:9,9,9,9 -Bin 2:23,23,23,23 -Bin 3:29,29,29,29*Smoothing by bin boundaries:-Bin 1:4,4,4,15 -Bin 2:21,21,2
12、5,25 -Bin 3:26,26,26,3414聚类分析聚类分析15Regressionxyy=x+1X1Y1Y116数据清理作为一个过程数据清理作为一个过程n数据偏差检测数据偏差检测 Data discrepancy detectionn使用元数据使用元数据(数据性质的知识数据性质的知识)(e.g.,领域领域,长度范围长度范围,从属从属,分布分布)n检查字段过载检查字段过载 field overloading n检查唯一性规则检查唯一性规则,连续性规则连续性规则,空值规则空值规则n使用商业工具使用商业工具n数据清洗数据清洗Data scrubbing:使用简单的领域知识使用简单的领域知识(
13、e.g.,邮编邮编,拼写检拼写检查查)检查并纠正错误检查并纠正错误n数据审计数据审计 Data auditing:通过分析数据发现规则和联系发现违规通过分析数据发现规则和联系发现违规者者(孤立点孤立点)n数据迁移和集成数据迁移和集成n数据迁移工具数据迁移工具Data migration tools:允许指定转换允许指定转换n提取提取/变换变换/装入工具装入工具ETL(Extraction/Transformation/Loading)tools:允许用户通过图形用户界面指定变换允许用户通过图形用户界面指定变换n整合两个过程整合两个过程n两个过程迭代和交互执行两个过程迭代和交互执行(e.g.,P
14、otters Wheels)17第第2章章:数据预处理数据预处理n为什么预处理数据为什么预处理数据?n数据清理数据清理 n数据集成数据集成n数据归约数据归约n离散化和概念分层产生离散化和概念分层产生n小结小结18数据集成数据集成n数据集成数据集成 Data integration:n合并多个数据源中的数据,存在一个一致的数据存储中合并多个数据源中的数据,存在一个一致的数据存储中n涉及涉及3个主要问题个主要问题:模式集成:模式集成、冗余数据、冲突数据值、冗余数据、冲突数据值n模式集成模式集成 Schema integration n例如例如.,A.cust-id?B.cust-#n实体实体识别问
15、题识别问题 Entity identification problem:n多个数据源的真实世界的实体的识别多个数据源的真实世界的实体的识别,e.g.,Bill Clinton=William Clintonn集成不同来源的元数据集成不同来源的元数据n冲突数据值的检测和解决冲突数据值的检测和解决n对对真实世界的实体,其不同来源的属性值可能不同真实世界的实体,其不同来源的属性值可能不同n原因原因:不同的表示不同的表示,不同尺度不同尺度,公制公制 vs.英制英制19数据集成中冗余数据处理数据集成中冗余数据处理n冗余数据冗余数据Redundant data(集成多个数据库时出(集成多个数据库时出现)现
16、)n目标识别:同一个属性在不同的数据库中有不同的名称目标识别:同一个属性在不同的数据库中有不同的名称n衍生数据:一个属性值可由其他表的属性推导出衍生数据:一个属性值可由其他表的属性推导出,e.g.,年年收入收入n相关分析相关分析 correlation analysis/协方差分析协方差分析covariance analysisn可用于检测冗余数据可用于检测冗余数据n小心的集成多个来源的数据可以帮助降低和避免结果数据小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量集中的冗余和不一致,提高数据挖掘的速度和质量20相关分析相关分析(数值数据数值数据)n
17、Correlation coefficient(also called Pearsons product moment coefficient)n相关系数(皮尔逊相关系数)相关系数(皮尔逊相关系数)n元组个数元组个数,和和 属性属性A和和B上的平均值上的平均值,A and B分别为各自标准差,分别为各自标准差,(aibi)is the AB叉积叉积 cross-product之和之和.nIf rA,B 0,A and B 整相关整相关(As values increase as Bs).值越大相关程度值越大相关程度越高越高.nrA,B=0:不相关不相关;rAB 0,则则A 和和B 同时倾向于大
18、于期望值同时倾向于大于期望值.n负covariance:If CovA,B 0.25相关分析相关分析(名义数据名义数据Nominal Data)n2(chi-square)test 开方开方检验nij是是(ai,bj)的观测频度(实际计数)的观测频度(实际计数)neij是是(ai,bj)的期望频度的期望频度nN数据元组的个数数据元组的个数属属A性性a1a2i acb1Bb2j br(A=ai,B=bj)n2 值越大值越大,相关的可能越大相关的可能越大n对对 2 值贡献最大的项,其值贡献最大的项,其实际值与期望值相差最大的实际值与期望值相差最大的相相n相关不意味着因果关系相关不意味着因果关系26
19、Chi-Square 卡方值计算卡方值计算:例子例子n2(chi-square)计算计算(括号中的值为期望计值,由两个类别的分布数据计括号中的值为期望计值,由两个类别的分布数据计算得到算得到)n结果表明结果表明like_fiction 和和play_chess 关联关联Play chessNot play chessSum(row)看小说看小说250(90)200(360)450不看小说不看小说50(210)1000(840)1050Sum(col.)3001200150027数据变换数据变换Data Transformationn光滑光滑:去掉噪音,技术:分箱、回归、聚类去掉噪音,技术:分箱
20、、回归、聚类n聚集聚集Aggregation:汇总汇总,数据立方体构造数据立方体构造n数据泛化数据泛化Generalization:概念分层概念分层n规范化规范化Normalization:按比例缩放到一个具体区间按比例缩放到一个具体区间n最小最小-最大规范化最大规范化nz-score 规范化规范化n小数定标规范化小数定标规范化n属性属性Attribute/特征特征feature 构造构造n从给定的属性构造新属性从给定的属性构造新属性n机器学习中称为:特征构造机器学习中称为:特征构造数据规约28规范化数据的方法规范化数据的方法n最小最小-最大规范化最大规范化 min-max normaliza
21、tionn新数据可能新数据可能“越界越界”nz-score normalizationnnormalization by decimal scalingn移动属性移动属性A的小数点位置的小数点位置(移动位数依赖于属性移动位数依赖于属性A的最大值的最大值)J为使得 Max(|)最后的集合:A1,A4,A6维度规约维度规约-决策树规约决策树规约3839维度规约维度规约-属性属性/特征产生特征产生nFeature Generation 产生新的属性,其可以比产生新的属性,其可以比原始原始属性属性更有效地更有效地表示数据的重要信息。表示数据的重要信息。n三个一般方法三个一般方法:n属性提取属性提取 A
22、ttribute extractionn特定领域的特定领域的n映射数据到新空间映射数据到新空间nE.g.,傅立叶变换傅立叶变换,wavelet transformation,流形方法流形方法(manifold approaches)n属性构造属性构造n组合特征组合特征n数据离散化数据离散化 Data discretization3940 x2x1e主成分分析主成分分析(PCA)nprincipal component analysis,K-L变换变换n找到一个投影,其能表示数据的最大变化找到一个投影,其能表示数据的最大变化n原始数据投影到一个更小的空间中,导致维度减少原始数据投影到一个更小的空
23、间中,导致维度减少.n发现的协方差矩阵的特征向量,用这些特征向量定义新发现的协方差矩阵的特征向量,用这些特征向量定义新的空间的空间4041n给定给定 p维维空间中的空间中的N各点各点,找到找到 k p 个正交向量个正交向量(principal components)可以很好表示原始数据的可以很好表示原始数据的 n归范化输入数据归范化输入数据:每个属性值位于相同的区间内每个属性值位于相同的区间内n计算计算 k 个标准正交向量个标准正交向量,i.e.,principal componentsn每个输入的点是这每个输入的点是这k 个主成分的线性组合个主成分的线性组合nThe principal co
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘概念与技术 CHAPTER2-数据预处理 数据 挖掘 概念 技术 CHAPTER2 预处理
限制150内