(3.5.1)--3.5数据变换与数据离散化.pdf
《(3.5.1)--3.5数据变换与数据离散化.pdf》由会员分享,可在线阅读,更多相关《(3.5.1)--3.5数据变换与数据离散化.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第3章 数据预处理目录CONTENTS1.523.13.23.33.4数据存在的问题数据清理数据集成数据归约3.5数据变换与数据离散化33.1 数据存在的问题Chapter 3.5数据变换与数据离散化43.1 数据存在的问题43.5 数据变换与数据离散化数据变换:将数据转换成适合数据挖掘的形式-平滑:去掉数据中的噪声,将连续的数据离散化 分箱 回归 聚类-聚集:对数据进行汇总和聚集 avg(),count(),sum(),min(),max(),如,每天销售额(数据)可以进行聚集操作以获得每月或每年的总额 可用来构造数据立方体53.1 数据存在的问题53.5 数据变换与数据离散化数据变换:将数
2、据转换成适合数据挖掘的形式-数据泛化:使用概念分层,用更抽象(更高层次)的概念来取代低层次或数据层的数据对象如:街道属性,可以泛化到更高层次的概念,如城市、国家;同样,对于数值型的属性,如年龄属性,可以映射到更高层次的概念,如年轻、中年和老年。-规范化:把属性数据按比例缩放,使之落入一个特定的小区间-属性构造:通过已知的属性构建出新的属性,然后放入属性集中,有助于挖掘过程。-离散化:数值属性的原始值用区间标签或概念标签替换。63.1 数据存在的问题63.5 数据变换与数据离散化 数据变换:数据泛化概念分层概念分层定义了一组由低层概念到高层概念集的映射。允许在各种抽象级别上处理数据,从而在多个抽
3、象层上发现知识。用较高层概念替换低层次的概念,以此来减少取值个数。概念分层结构可以用树来表示,树的每个节点代表一个概念。73.1 数据存在的问题73.5 数据变换与数据离散化例3.5 根据每个属性的不同值的个数产生概念分层。服装类的级别可以分为男装和女装,然后接下去可以分为上装和下装。服装的概念分层可以自动产生,如图3.3所示。服装类女装女式上装女式下装男装男式上装男式下装图3.3 服装的概念分层83.1 数据存在的问题83.5 数据变换与数据离散化数据变换:规范化将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成的挖掘结果的偏差。如将工资收入属性值映射到-1.0,
4、1.0的范围内 规范化的目的:将一个属性取值范围影射到一个特定范围之内,以消除数值性属性因大小不一而造成挖掘结果的偏差。常用的方法:小数定标规范化;最小-最大规范化;零-均值规范化(z-score规范化)。93.1 数据存在的问题93.5 数据变换与数据离散化10iijvv=103.1 数据存在的问题103.5 数据变换与数据离散化数据规范化:最小最大规范化:假定minA和maxA分别为属性A的最小和最大值,则将A的值映射到区间a,b中的v其中:表示对象i的原属性值,表示规范化的属性值,a为规范化后的最小值,b为规范化后的最大值。例:假定某公司员工的最大年龄为52岁,最小年龄为21岁,请将年龄
5、映射到区间0.0,1.0的范围内:min()maxminiivAvbaaAA=+根据最小-最大值规范化,44岁将变换为:4421(1.00)00.7425221+113.1 数据存在的问题113.5 数据变换与数据离散化数据规范化:z-score规范化(零均值规范化):将属性A的值根据其平均值和标准差进行规范化;常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。其中表示对象 的原属性值,表示规范化的属性值,表示属性A的平均值,表示属性A的标准差。例:某公司员工年龄的平均值和标准差分别为25岁和11岁。请根据z-score规范化,将44岁这个数据规范化。(44-25)/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 3.5 数据 变换 离散
限制150内