《数据预处理》PPT课件.ppt
《《数据预处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据预处理》PPT课件.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第第2章章 数据预处理数据预处理 主要内容主要内容n2.1 为什么要预处理数据n2.2 描述性数据汇总n2.3 数据清理n2.4 数据集成和变换n2.5 数据归约n2.6 数据离散化和概念分层产生232.1 数据预处理的原因数据预处理的原因 n正确性(Correctness)n一致性(Consistency)n完整性(Completeness)n可靠性(Reliability)数据质量的含义数据质量的含义 现实世界的数据现实世界的数据n不完整的n缺少属性值或某些感兴趣的属性,或仅包含聚集数据。n含噪声的n包含错误或存在偏离期望的离群值。n不一致的n采用的编码或表示不同,如属性名称不同n冗余的
2、n如属性之间可以相互导出5数据错误的不可避免性数据错误的不可避免性n数据输入和获得过程数据错误n数据集成所表现出来的错误n数据传输过程所引入的错误 n据统计有错误的数据占总数据的5%左右Redmen,Orr98数据错误的危害性数据错误的危害性n高昂的操作费用n糟糕的决策制定n组织的不信任n分散管理的注意力7数据预处理的形式数据预处理的形式n数据清理n补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致n数据集成n集成多个数据库、数据立方或文件n数据变换n规范化和聚集n数据归约n简化数据、但产生同样或相似的结果数据预处理的形式数据预处理的形式小结小结n现实世界的数据一般是脏的、不完整的和不一
3、致的。n数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。n高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。n检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。2.2 描述性数据汇总描述性数据汇总n获得数据的总体印象对于成功的数据预处理是至关重要的。n描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。n动机:更好的理解数据。n主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。2.2.1 度量数据的中心趋势度量数据的中心趋势n算数平均值n最常用n分布式度量n可以通过如下方法
4、计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。nsum()、count()、min()、max()2.2.1 度量数据的中心趋势度量数据的中心趋势n代数度量n可以通过应用一个代数函数于一个或多个分布度量计算的度量。nmean()、中列数n整体度量n必须对整个数据集计算的度量。n中位数、众数代数度量代数度量nmean():n加权平均:n截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。n中列数(midrange):(max+min)/2整体度量整体度量n中位数(median):适用于倾斜的数据。近似值计算如下:n设N
5、个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。n例如:1,3,5,7 中位数4n 1,3,5,6,7 中位数5整体度量整体度量n众数(mode):集合中出现频率最高的值。n单峰、多峰(双峰、三峰)、无众数n对于适度倾斜的单峰频率曲线,有如下的经验关系:16中位数、均值和众数中位数、均值和众数17n极差n最大值与最小值之差n四分位数n中位数是第50个百分位数,是第2个四分位数n第1个是第25个百分位数,Q1 n中间四分位数极差 IQR=Q3 Q1 n离群点outliern与数据的一般行为或模型不一致的数据对象n盒图n方差、标准差n反映了每个数与均值相比平
6、均相差的数值2.2.2 度量数据的离散程度度量数据的离散程度度量数据的离散程度度量数据的离散程度n盒图boxplot,也称箱线图n从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值n盒的长度等于IRQn中位数用盒内的横线表示n盒外的两条线(胡须)分别延伸到最小和最大观测值。n盒图的功能n1.直观明了地识别数据集中的离群点 n2.判断数据集的偏态和尾重 n3.比较几批数据的形状 22n直方图、n分位数图、分位数-分位数图(q-q图)n散布图、散布图矩阵n局部回归(Loess)曲线2.2.3 基本描述数据汇总的图形显示基本描述数据汇总的图形显示直方图直方图 Histogr
7、amn概括给定属性分布的图形方法n每个矩形等宽分位数图分位数图 Quantile Plotn观察单变量数据分布的简单有效方法散布图散布图scatter plotn直接观察是否存在簇(cluster),离群点等n每个点对应一个坐标对局部回归(局部回归(Loess)曲线)曲线n添加一条光滑曲线到散布图2.3 数据清理数据清理n现实世界的数据一般是不完整的、有噪声的和不一致的。n数据清理的任务:n填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。28n忽略元组n人工填写空缺值n使用一个全局常量填充空缺值 n使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平均值n使用最可能的值填充
8、空缺值2.3.1 缺失值缺失值 29n分箱:n通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。n回归:n用一个函数(回归函数)拟合数据来光滑数据。n聚类:将类似的值聚集为簇。n其他:如数据归约、离散化和概念分层。噪声数据噪声数据30n分箱:n通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。n划分:等频、等宽n光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)噪声数据噪声数据分箱法光滑数据分箱法光滑数据qSorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据预处理 数据 预处理 PPT 课件
限制150内