欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据预处理分析优秀PPT.ppt

    • 资源ID:56533129       资源大小:218KB        全文页数:47页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据预处理分析优秀PPT.ppt

    1数据预处理数据预处理 主要内容主要内容n2.1 为什么要预处理数据n2.2 数据清理n2.3 数据集成n2.4 数据变换n2.5 数据归约232.1 数据预处理的缘由数据预处理的缘由 现实世界的数据现实世界的数据n不完整的n缺少属性值或某些感爱好的属性,或仅包含聚集数据。ne.g.,occupation=n含噪声的n包含错误或存在偏离期望的离群值。ne.g.Salary=-10n不一样的n接受的编码或表示不同ne.g.过去的等级:“1,2,3”,现在的等级:“A,B,C”4数据错误的不行避开性数据错误的不行避开性n数据输入和获得过程数据错误n数据传输过程所引入的错误 n据统计有错误的数据占总数据的5%左右 由于现实世界的数据一般是脏的、不完整的和不一样的,且一些错误不行避开。因此必需先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。6数据预处理的形式数据预处理的形式n数据清理n补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一样n数据集成n集成多个数据库、数据立方或文件n数据变换n规范化和聚集n数据归约n简化数据、但产生同样或相像的结果数据预处理的形式数据预处理的形式2.2 数据清理数据清理n数据清理的任务:n填充缺失的值n光滑噪声并识别离群点n订正数据中的不一样9n忽视元组忽视元组n人工填写空缺值:工作量大,可行性低人工填写空缺值:工作量大,可行性低n运用一个全局常量填充空缺值:将空缺的属运用一个全局常量填充空缺值:将空缺的属性值用一个常数替代,比如性值用一个常数替代,比如“unknown”“unknown”n运用属性的平均值填充空缺值运用属性的平均值填充空缺值n运用与给定元组属同一类的全部样本的平均运用与给定元组属同一类的全部样本的平均值值n运用最可能的值填充空缺值:运用回来、贝运用最可能的值填充空缺值:运用回来、贝叶斯公式或者判定树推想空缺值。这是最常叶斯公式或者判定树推想空缺值。这是最常用的一种方法。用的一种方法。2.2.1 如何处理空缺值如何处理空缺值101.分箱2.回来:通过让数据适应回来函数来平 滑数据3.聚类:将类似的值聚集为簇,并且去除孤立点4.计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工推断 噪声数据噪声数据11分箱法光滑数据分箱法光滑数据nprice的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34n划分为(等深的)箱:n箱1:4,8,15n箱2:21,21,24n箱3:25,28,34n用箱平均值平滑:n箱1:9,9,9n箱2:22,22,22n箱3:29,29,29n用箱边界平滑:n箱1:4,4,15n箱2:21,21,24n箱3:25,25,34回来回来xyy=x+1X1Y1Y1聚类聚类 聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点2.3 数据集成数据集成n数据集成合并多个数据源中的数据,存放在一个一样的数据库(如数据仓库)中。n源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。151.1.实体识别实体识别 e.g.A.cust_id=B.customer_no?e.g.A.cust_id=B.customer_no?元数据可帮助避开错误元数据可帮助避开错误2.2.冗余问题冗余问题 比如一个属性可以由另一个表推导出。比如一个属性可以由另一个表推导出。相关分析相关分析3.3.数据值冲突的检测与处理数据值冲突的检测与处理 比如重量属性在一个系统中以公制单位存比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。放,在另一个系统中以英制单位存放。表示、比例或编码不同表示、比例或编码不同2.3.1 集成须要留意的问题集成须要留意的问题属性的相关性分析属性的相关性分析 属性A、B之间的相关性可用下式度量:其中,n是元组的个数。(1)假如值0,则A、B正相关,意味着A的值随B的值增加而增加 。该值越大,一个属性蕴含另一个的可能性就越 大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。(2)值=0 A和B独立的,不相关 (3)值0 负相关,一个属性阻挡另一个属性出现17n平滑:去掉数据中的噪声。技术包括分箱、回来、聚类。n聚集:对数据进行汇总或聚集。n数据概化:运用概念分层,用高层概念替换低层或“原始”数据。n规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。n属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高精确率和对高维数据结构的理解。2.4 数据变换数据变换规范化规范化n1)最小-最大规范化:将原始数据v经线性变换,映射到区间new_minA,new_maxA例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为:(6800-2000)/(9000-2000)*(1-0)+0=0.686规范化规范化n2)z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。n在最大最小值未知适用3)小数定标规范化其中,j是使 Max(|)1的最小整数示例:假设属性 A 的取值范围是从-986 到 917。属性 A 确定值的最大值为 986。接受十基数变换规格化方法,就是将属性 A的每个值除以1000(即j=3)因此-986映射为-0.986。2.5 数据归约数据归约 Data Reduction n什么是数据归约?什么是数据归约?n 所谓数据规约,也就是数据消减,目的是所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果(或基本不影响)最终的挖掘结果n为什么须要进行数据归约?为什么须要进行数据归约?n1)数据仓库中往往存有海量数据)数据仓库中往往存有海量数据n2)在整个数据集上进行困难的数据分析与)在整个数据集上进行困难的数据分析与挖掘须要很长的时间挖掘须要很长的时间数据归约策略数据归约策略(1)数据立方体聚集:对数据立方体做聚集操作(2)维归约:检测并删除不相关、弱相关或冗余的属性和维。(3)数据压缩:(4)数值归约:用规模较小的数据表示、替换或估计原始数据(5)离散化和概念分层产生属性的原始数值用区间值或较高层的概念替换留意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节约的时间2.5.1 数据立方体聚集数据立方体聚集n数据立方体存储多维聚集信息,供应对预料算的汇总数据进行快速访问。n如:立方体内存储季度销售额,若对年销售额感爱好,可对数据执行聚集操作,例如sum()等。2.5.2 维归约维归约n通过删除不相关或冗余的属性(或维)减小数据集。n其目标是找出最小属性集,使得数据类的概率分布尽可能地接近运用全部属性得到的原分布。n通常接受压缩搜寻空间的启发式算法。n逐步向前选择n逐步向后删除n向前选择和向后删除的结合n决策树归纳2.5.3 数据压缩数据压缩n分为无损和有损两种。n主要方法:n小波变换(DWT):有损n主成分分析(PCA):有损小波变换小波变换n输入数据向量D,小波变换会将它转换为另一个向量Dn虽然两个向量长度相同,但是小波变换后的向量D可以裁减。用户依据实际须要保留其中一部分数据,从而实现了数据的压缩。主要成分分析主要成分分析n假设须要压缩的数据是由 N个数据向量组成,共有k个维度(属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。2.5.4 数值归约数值归约n通过选择替代的、“较小的”数据表示形式来削减数据量。n可以分为参数方法和非参数方法。n参数方法:是利用一个模型,通过计算获得原来的数据,因此只须要存储模型的参数即可n常用方法:回来(regression)和对数线性模型n非参数方法:不运用模型n常用方法:直方图、聚类、抽样线性回来模型线性回来模型n 线性回来方法是利用一条直线模型对数据进行拟合。例如:利用自变量 X的一个线性函数可以拟合因变量Y的输出,n 其线性函数模型为:n Y=+Xn 此时,我们只须要存储X的数据即可,依据这个模型,就可以预料出Y的取值。聚类聚类1.首先,将数据划分为群或簇,使得在每一个簇中的对象“类似”,但与其他簇中的对象“不类似”。2.其次,为这些簇赋值,全部包含在同一个簇中的对象的值相同。留意:假如数据可以组成各种不同的聚类,则该 技术特别有效,反之假如数据界线模糊,则方法无效。数值频数数值频数数值频数数值频数数值频数4.315105.786.477.114.435.195.876.557.234.515.245.936.627.314.645.31666.787.414.725.466.166.837.614.855.576.246.947.744.965.666.39717.91例:下图显示的150朵鸢尾花花萼长度的相关数据,利用聚类的方式对数据进行处理分组频数赋值4.35.44615.46.03726.06.53236.57.9354现用聚类方法归约数据抽样抽样n用数据的小得多的随机样本(子集)表示大型数据集。n抽样方法ns个样本无放回简洁随机抽样(SRSWOR)ns个样本有放回简洁随机抽样(SRSWR)n聚类抽样n分层抽样2.5.5 数据离散化和概念分层产生数据离散化和概念分层产生1.数据离散化将属性(连续取值)域值范围分为若干区间,每个区间对应一个离散值2.为什么进行离散化?1)在机器学习和数据挖掘中,很多算法如决策树、关联规则及基于粗糙集理论的很多方法,是用来处理离散型数据的,对于连续型数据却不适用;另外,有些算法即使能处理连续型数据,挖掘和学习也没有处理离散型数据有用和有效。2)离散化后可以达到归约数据的目的。n概念分层(concept hierarchy):通过运用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据数值数据的离散化数值数据的离散化n典型方法(全部方法均可递归应用)n1.分箱(binning)n分箱技术递归的用于结果划分,可以产生概念分层n2.直方图分析(histogram)n直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层n3.聚类分析n将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点n4.基于熵的离散化n5.通过自然划分分段通过自然划分分段通过自然划分分段n将数值区域划分为相对一样的、易于阅读的、看上去更直观或自然的区间。n聚类分析产生概念分层可能会将一个工资区间划分为:51263.98,60872.34n通常数据分析人员希望看到划分的形式为50000,60000n自然划分的3-4-5规则常被用来将数值数据划分为相对一样,“更自然”的区间自然划分的自然划分的3-4-5规则规则n规则的划分步骤:n假如一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)n假如一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;n假如一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;n将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;n数据集中可能出现特殊大的正值和特殊小的负值,最高层分段简洁地按最大和最小值可能为了出现结果扭曲。可以在顶层分段时,选用一个能够代表大多数数据的区间。3-4-5规则规则例子例子(-$4000-$5,000)(-$400-0)(-$400-$300)(-$300-$200)(-$200-$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步第一步 -$351-$159profit$1,838$4,700单位(1000美元)Min Low High Maxcount(-$1,000 -$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)分类数据的概念分层生成分类数据的概念分层生成n分类数据是指无序的离散数据,它有有限个值(可能很多个)。n分类数据的概念分层生成方法:n1)由用户或专家在模式级显式地说明属性的部分序n 比如关系数据库的地点location属性可能包含以下属性:street,city,province_or_state和country。可以在模式级说明一个全序如streetcityprovince_or_state country,从而很简洁的构造层次结构。2)通过显示数据分组说明分层结构的一部分 这是概念层次树的一个手工构造方法。在大规模数据库中,想要通过穷举全部值而构造一个完整概层次树是不切实际的,但可以对其中一部分中间层数据,显示的指出分组。例如:在构造了省和国家的层次树后,这时可以手工加入:安徽、江苏、山东华东地区;广东、福建华南地区等“地区”中间层次。3)说明属性集,但不说明它们的偏序 主要是利用系统自动产生属性的序,构造有意义的概念分层。由于一个较高的概念通常包含若干从属的较低层的概念,定义在高概念层的属性与定义在低概念层的属性相比,通常包含较少数目的不同值。分层规则:一个属性的不同值个数越少,它在封层结构中的层越高;越多,越处于最底层。n例:假设用户对于属性location选择了属性集:street(674399)、country(15)、city(3567)和province_or_state(365),但没有指定属性之间的层次。每个属性的不同值数目在括号中。n location的概念分层可以如下步骤自动产生。首先,依据属性不同值个数,降序排列。其次,依照排好的次序,自顶向下产生分层。结果如下图所示:countryprovince_or_ statecitystreet15 distinct values365 distinct values3567 distinct values674,339 distinct values4)只说明部分属性集有时用户仅能够供应概念层次树所涉及的一部分属性。例如:用户仅供应与地点属性有关部分属性:street和city。这种状况可依据数据库模式中的数据语义定义对属性的捆绑信息。例:假设一个数据库系统将以下五个属性捆绑在一起,即number、street、city、country、province_or_state。若用户仅说明location属性只说明白属性city,系统应能自动拖进以上五个属性来构造层次树。

    注意事项

    本文(数据预处理分析优秀PPT.ppt)为本站会员(1398****507)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开