数据预处理答案.ppt
《数据预处理答案.ppt》由会员分享,可在线阅读,更多相关《数据预处理答案.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1数据预处理数据预处理 主要内容主要内容n2.1 为什么要预处理数据n2.2 数据清理n2.3 数据集成n2.4 数据变换n2.5 数据归约232.1 数据预处理的原因数据预处理的原因 现实世界的数据现实世界的数据n不完整的n缺少属性值或某些感兴趣的属性,或仅包含聚集数据。ne.g.,occupation=n含噪声的n包含错误或存在偏离期望的离群值。ne.g.Salary=-10n不一致的n采用的编码或表示不同ne.g.过去的等级:“1,2,3”,现在的等级:“A,B,C”4数据错误的不可避免性数据错误的不可避免性n数据输入和获得过程数据错误n数据传输过程所引入的错误 n据统计有错误的数据占总
2、数据的5%左右 由于现实世界的数据一般是脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。6数据预处理的形式数据预处理的形式n数据清理n补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致n数据集成n集成多个数据库、数据立方或文件n数据变换n规范化和聚集n数据归约n简化数据、但产生同样或相似的结果数据预处理的形式数据预处理的形式2.2 数据清理数据清理n数据清理的任务:n填充缺失的值n光滑噪声并识别离群点n纠正数据中的不一致9n忽略元组忽略元组n人工填写空缺值人工填写空缺值:工作量大,可行性低n使用一个全局常量填充
3、空缺值使用一个全局常量填充空缺值:将空缺的属性值用一个常数替代,比如“unknown”n使用属性的平均值填充空缺值使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平均使用与给定元组属同一类的所有样本的平均值值n使用最可能的值填充空缺值使用最可能的值填充空缺值:使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。2.2.1 如何处理空缺值如何处理空缺值101.分箱分箱2.回归回归:通过让数据适应回归函数来平 滑数据3.聚类聚类:将类似的值聚集为簇,并且去除孤立点4.计算机和人工检查结合计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断2.2.2 噪声数据噪
4、声数据11分箱法光滑数据分箱法光滑数据nprice的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34n划分为(等深的)箱:n箱1:4,8,15n箱2:21,21,24n箱3:25,28,34n用箱平均值平滑:n箱1:9,9,9n箱2:22,22,22n箱3:29,29,29n用箱边界平滑:n箱1:4,4,15n箱2:21,21,24n箱3:25,25,34回归回归xyy=x+1X1Y1Y1聚类聚类 聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点2.3 数据集成数据集成n数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。n源数据可能包括
5、多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。151.1.实体识别实体识别 e.g.A.cust_id=B.customer_no?n元数据可帮助避免错误2.2.冗余问题冗余问题 比如一个属性可以由另一个表推导出。n相关分析3.3.数据值冲突的检测与处理数据值冲突的检测与处理 比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。n表示、比例或编码不同2.3.1 集成需要注意的问题集成需要注意的问题属性的相关性分析属性的相关性分析 属性A、B之间的相关性可用下式度量:其中,n是元组的个数。(1)如果值0,则A、B正相关,意味着A的值随B的值增加而
6、增加 。该值越大,一个属性蕴含另一个的可能性就越 大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。(2)值=0 A和B独立的,不相关 (3)值0 负相关,一个属性阻止另一个属性出现17n平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。n聚集:对数据进行汇总或聚集。n数据概化:使用概念分层,用高层概念替换低层或“原始”数据。n规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。n属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。2.4 数据变换数据变换规范化规范化n
7、1)最小-最大规范化:将原始数据v经线性变换,映射到区间new_minA,new_maxA例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为:(6800-2000)/(9000-2000)*(1-0)+0=0.686规范化规范化n2)z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。n在最大最小值未知适用3)小数定标规范化其中,j是使 Max(|)1的最小整数示例:假设属性 A 的取值范围是从-986 到 917。属性 A 绝对值的最大值为 986。采用十基数变换规格化方法,就是将属性 A的每个值除
8、以1000(即j=3)因此-986映射为-0.986。2.5 数据归约数据归约 Data Reduction n什么是数据归约?什么是数据归约?所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果n为什么需要进行数据归约?为什么需要进行数据归约?1)数据仓库中往往存有海量数据2)在整个数据集上进行复杂的数据分析与挖掘需要很长的时间数据归约策略数据归约策略n(1)数据立方体聚集:对数据立方体做聚集操作n(2)维归约:检测并删除不相关、弱相关或冗余的属性和维。n(3)数据压缩:n(4)数值归约:n用规模较小的数据表示、替换或估计原始数据n(5)离散化
9、和概念分层产生n属性的原始数值用区间值或较高层的概念替换n注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间2.5.1 数据立方体聚集数据立方体聚集n数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。n如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。2.5.2 维归约维归约n通过删除不相关或冗余的属性(或维)减小数据集。n其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。n通常采用压缩搜索空间的启发式算法。n逐步向前选择n逐步向后删除n向前选择和向后删除的结合n决策树归纳2.5.3 数
10、据压缩数据压缩n分为无损和有损两种。n主要方法:n小波变换(DWT):有损n主成分分析(PCA):有损小波变换小波变换n输入数据向量D,小波变换会将它转换为另一个向量Dn虽然两个向量长度相同,但是小波变换后的向量D可以裁减。用户根据实际需要保留其中一部分数据,从而实现了数据的压缩。主要成分分析主要成分分析n假设需要压缩的数据是由 N个数据向量组成,共有k个维度(属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。2.5.4 数值归约数值归约n通过选择替代的、“较小的”数据表示形式来减少数据量。n可以分为参数方法和非参
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 答案
限制150内