《2 数据预处理.ppt》由会员分享,可在线阅读,更多相关《2 数据预处理.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 数据预处理数据预处理主主讲讲教教师师:魏宏喜:魏宏喜(博士,副教授博士,副教授)E-mail:1第二章 数据预处理n为什么对数据进行预处理n数据清理n数据集成和变换n数据归约2第二章 数据预处理n为什么对数据进行预处理为什么对数据进行预处理n数据清理n数据集成和变换n数据归约3为什么进行数据预处理?n现实世界的数据是“脏的”数据多了,什么问题都会出现。q不完整n缺少数据值;缺乏某些重要属性;仅包含汇总数据;ne.g.,occupation=q有噪声n包含错误或者孤立点ne.g.,Salary=-10q数据不一致ne.g.,在编码或者命名上存在差异ne.g.,过去的等级:“1,2,
2、3”,现在的等级:“A,B,C”ne.g.,户籍系统中的身份证号前后不一致ne.g.,Age=“42”Birthday=“03/07/1997”4数据为什么会变“脏”?n数据不完整的成因q数据收集的时候就缺乏合适的值q数据收集时和数据分析时的不同考虑因素q“人为/硬件/软件”的问题n噪声数据(不正确的值)的成因q数据收集工具的问题q数据输入时的“人为/计算机”造成的错误q数据传输中产生的错误n数据不一致性的成因q不同的数据源q违反了某种一致性原则5数据预处理为什么是重要的?n没有高质量的数据,就没有高质量的挖掘结果。没有高质量的数据,就没有高质量的挖掘结果。q高质量的决策必须依赖高质量的数据。
3、ne.g.重复值或者空缺值将会产生不正确的挖掘结果。n数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60%的工作量)6数据质量的多维度量n一个广为认可的多维度量观点:q精确度q完整度q一致性q可信度q附加价值q可解释性7数据预处理的主要任务n数据清理q填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。n数据集成q集成多个数据库或文件。n数据变换q规范化将数据规范化到统一的范围内。n数据归约q得到数据集的压缩表示,它比原始数据集小得多,但可以得到相同或相近的挖掘结果。89第二章 数据预处理n为什么对数据进行预处理n数据清理数据清理n数据集成和变换n数据归约10数据清理n数据清理任
4、务q填写空缺的值填写空缺的值q识别离群点和平滑噪声数据识别离群点和平滑噪声数据q纠正不一致的数据q解决数据集成造成的冗余11空缺值n数据并不总是完整的q例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入n引起空缺值的原因q设备异常q与其他已有数据不一致而被删除q因为误解而没有被输入的数据q在输入时,有些数据应为得不到重视而没有被输入q对数据的改变没有进行日志记载n空缺值要经过推断而补上12如何处理空缺值n可行的方法:q人工填写空缺值:工作量大q使用属性的平均值填充空缺值q使用与给定元组属同一类的所有样本的平均值13噪声数据n引起噪声的原因:q数据收集工具的问题q数据输入错
5、误q数据传输错误q技术限制q命名规则的不一致14如何处理噪声数据 n计算机和人工检查结合q计算机检测可疑数据,然后对它们进行人工判断q效率较低n回归q通过让数据适应回归函数来平滑数据n聚类q监测并且去除孤立点15回归xyy=x+1X1Y1Y116聚类n通过聚类分析检测孤立点,消除噪声q聚类将类似的值聚成簇。q落在簇集合之外的值被视为孤立点。17第二章 数据预处理n为什么对数据进行预处理n数据清理n数据集成和变换数据集成和变换n数据归约18数据集成n数据集成:q将多个数据源中的数据整合到一个一致的存储中的过程;q可能产生数据冗余。19处理数据集成中的冗余数据n集成多个数据库时,经常会出现冗余数据
6、q对象识别:同一属性或对象在不同的数据库中会有不同的字段名(性别:字段名可能是sex或者gender);n结论:如果能够仔细地将多个数据源中的数据集成起来,将减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。20数据变换n数据变换:将数据转换成适合挖掘的统一形式。q规范化:将数据按比例缩放,使之落入一个小的特定区间。n最小最大规范化nz-score规范化21数据变换规范化n最小最大规范化nz-score规范化q当最大、最小值未知时适用22第二章 数据预处理n为什么对数据进行预处理n数据清理n数据集成和变换n数据归约数据归约23数据归约(1)n为什么需要进行数据规约?q数据集中
7、往往存有海量数据;q在整个数据集上进行复杂的数据分析与挖掘需要很长时间。n数据归约q数据归约可以用来得到数据集的归约表示,它能够比原始数据集小得多,但可以产生相同的(或几乎相同的)挖掘结果。24数据归约(2)n常用的数据归约策略q维归约,e.g.移除不重要的属性q数据压缩q数值归约,e.g.使用模型来表示数据n说明:用于数据归约的时间不应当超过或“抵消”在归约后的数据上执行挖掘节省的时间。25维归约n通过删除贡献低的属性或维,用以减少数据量。q常用方法:主成分分析(PCA)降维q例如:裤子(腰围+裤长)26数据压缩n有损压缩 VS.无损压缩原始数据压缩后的数据无损压缩近似的原始数据有损压缩27
8、数值归约n通过选择替代的或者较小的数据表示形式来减少数据量。q有参方法n使用一个参数模型估计数据,最后只存储参数即可,不用存储数据。n常用方法:线性回归方法;多元回归。q无参方法n不使用模型的方法来存储数据;n常用方法:直方图,聚类,选样(采样)。28数值规约回归分析n线性回归:数据被拟合为一条直线Y=w X+bq两个回归系数w和b,由已知数据来进行估算;q通常使用最小二乘法来确定这条直线。n多元回归:线性回归的扩充,允许响应变量Y被建模为两个或多个预测变量的线性函数Y=b0+b1 X1+b2 X2.q多元回归可以拟合多种非线性函数。29数值规约直方图n一种流行的数据归约技术;n将某属性的数据
9、划分为不相交的子集,或桶,桶中放置该值的出现频率。30数值规约聚类n将数据集划分为聚类,然后通过聚类(中心)来表示数据集。n前提:如果数据可以组成各种不同的聚类,则该技术非常有效;反之,如果数据界线模糊,则聚类方法无效。n聚类的定义和算法都有很多选择,将在第五章对聚类分析进行深入探讨。31数值规约选样(采样)n用较少的随机样本(子集)来表示原始数据集。n对数据集D的样本选择:qs个样本无放回简单随机抽样(SRSWOR):从D的N个元组(不一致的样本)中抽取s个样本(sN);qs个样本有放回简单随机抽样(SRSWR):过程同上,只是元组被抽取后,将被回放,可能再次被抽取;q聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的s个聚类上进行简单随机抽样(SRS,sM)。32选样SRSSRSWOR(简单随机选样,无放回)SRSWR原始数据33选样聚类选样原始数据 聚类选样34第二章 数据预处理n为什么对数据进行预处理n数据清理n数据集成和变换n数据归约35
限制150内