《数据挖掘3章节数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘3章节数据预处理.ppt(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘3章节数据预处理 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2022/12/322.1 数据预处理的原因 n正确性(Correctness)n一致性(Consistency)n完整性(Completeness)n可靠性(Reliability)数据质量的含义 2022/12/33数据错误的不可避免性 n数据输入和获得过程数据错误n数据集成所表现出来的错误n数据传输过程所引入的错误 n据统计有错误的数据占总数据的5%左右Redmen,Orr98数据错误的
2、危害性n高昂的操作费用n糟糕的决策制定n组织的不信任n分散管理的注意力2022/12/34数据预处理的形式n数据清理n数据集成n数据变换n数据归约2022/12/352.2描述性数据汇总n均值n分布式度量 sum()count()min()max()n代数度量 average()mean()加权平均 截断平均 减小极端值的影响n整体度量 中位数 众数n中列数 (max+min)/22.2.1 度量数据的中心趋势2022/12/362.2描述性数据汇总n极差、四分位数、离群点和箱形图n方差 标准差2.2.2 度量数据的离散趋势2022/12/372.2描述性数据汇总n直方图、分位数图、分位数-分
3、位数图n散点图、散点图阵、nLoess曲线2.2.3 基本描述数据汇总的图形显示2022/12/382.3 数据清理 n忽略元组n人工填写空缺值n使用一个全局常量填充空缺值 n使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平均值n使用最可能的值填充空缺值2.3.1 缺失值 2022/12/39n分箱:按箱平均值、按箱中值、按箱边界n聚类n计算机和人工检查结合 n回归 2.3.2 躁声数据2.3.32.3.3 数据清理作为一个过程数据清理作为一个过程2022/12/310n实体识别:元数据可帮助避免错误n属性冗余:相关分析n数据重复n数据值冲突的检测与处理:2.4 数据集成和变换
4、2.4.12.4.1 数据集成数据集成2022/12/311n平滑n聚集n数据概化n规范化:最小-最大、Z-Score、按小数定标n属性构造 2.4.22.4.2 数据变换数据变换2022/12/3122.5 数据归约归约数据集小、近似保持原数据的完整性2.5.1 数据立方体聚集:聚集数据立方体 使用与给定任务相关的最小方体2.5.2 属性子集选择 检测、删除不相关 弱相关 冗于的属性和维 方法:逐步向前、逐步向后、向前向后结合 决策树归纳:信息增益法2022/12/3132.5 数据归约归约数据集小、近似保持原数据的完整性2.5.3 数据压缩:编码机制压缩数据 方法:小波变换、主成分分析(P
5、CA)数值压缩:用替代的、较小的数据表示数据 方法:有参方法 回归和对数线性模型 无参方法 直方图 聚类 抽样 2022/12/3142.6 离散化和概念分层 原始值用区间值或较高 层的概念替换 离散化:原始值划分为有限个区间,减少了连续属性值的个数概念分层:原始值用较高层的概念替换 2022/12/3152.6 离散化和概念分层:2.6.1 对数值数据:分箱 直方图分析 聚类分析 基于熵的离散化(entropy)通过信息增益方法确定区间边界 使用类信息,更可能将区间边界定义准确 基于卡方分析的区间合并 通过自然划分分段 3-4-5规则(P58):将数值数据划分成相对一致的区间2022/12/3162.6.2 对分类数据:n分类数据是离散数据。一个分类属性可能有有限个不同的值。n方法 n由用户和专家在模式级显式的说明属性的部分序n通过显式的数据分组说明分层结构的一部分n说明属性集,但不说明他们的偏序n只说明部分的属性集
限制150内