(3.5.1)--3.5数据变换与数据离散化.pdf
-
资源ID:57971514
资源大小:868.09KB
全文页数:23页
- 资源格式: PDF
下载积分:8金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
(3.5.1)--3.5数据变换与数据离散化.pdf
第3章 数据预处理目录CONTENTS1.523.13.23.33.4数据存在的问题数据清理数据集成数据归约3.5数据变换与数据离散化33.1 数据存在的问题Chapter 3.5数据变换与数据离散化43.1 数据存在的问题43.5 数据变换与数据离散化数据变换:将数据转换成适合数据挖掘的形式-平滑:去掉数据中的噪声,将连续的数据离散化 分箱 回归 聚类-聚集:对数据进行汇总和聚集 avg(),count(),sum(),min(),max(),如,每天销售额(数据)可以进行聚集操作以获得每月或每年的总额 可用来构造数据立方体53.1 数据存在的问题53.5 数据变换与数据离散化数据变换:将数据转换成适合数据挖掘的形式-数据泛化:使用概念分层,用更抽象(更高层次)的概念来取代低层次或数据层的数据对象如:街道属性,可以泛化到更高层次的概念,如城市、国家;同样,对于数值型的属性,如年龄属性,可以映射到更高层次的概念,如年轻、中年和老年。-规范化:把属性数据按比例缩放,使之落入一个特定的小区间-属性构造:通过已知的属性构建出新的属性,然后放入属性集中,有助于挖掘过程。-离散化:数值属性的原始值用区间标签或概念标签替换。63.1 数据存在的问题63.5 数据变换与数据离散化 数据变换:数据泛化概念分层概念分层定义了一组由低层概念到高层概念集的映射。允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层概念替换低层次的概念,以此来减少取值个数。概念分层结构可以用树来表示,树的每个节点代表一个概念。73.1 数据存在的问题73.5 数据变换与数据离散化例3.5 根据每个属性的不同值的个数产生概念分层。服装类的级别可以分为男装和女装,然后接下去可以分为上装和下装。服装的概念分层可以自动产生,如图3.3所示。服装类女装女式上装女式下装男装男式上装男式下装图3.3 服装的概念分层83.1 数据存在的问题83.5 数据变换与数据离散化数据变换:规范化将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成的挖掘结果的偏差。如将工资收入属性值映射到-1.0,1.0的范围内 规范化的目的:将一个属性取值范围影射到一个特定范围之内,以消除数值性属性因大小不一而造成挖掘结果的偏差。常用的方法:小数定标规范化;最小-最大规范化;零-均值规范化(z-score规范化)。93.1 数据存在的问题93.5 数据变换与数据离散化10iijvv=103.1 数据存在的问题103.5 数据变换与数据离散化数据规范化:最小最大规范化:假定minA和maxA分别为属性A的最小和最大值,则将A的值映射到区间a,b中的v其中:表示对象i的原属性值,表示规范化的属性值,a为规范化后的最小值,b为规范化后的最大值。例:假定某公司员工的最大年龄为52岁,最小年龄为21岁,请将年龄映射到区间0.0,1.0的范围内:min()maxminiivAvbaaAA=+根据最小-最大值规范化,44岁将变换为:4421(1.00)00.7425221+113.1 数据存在的问题113.5 数据变换与数据离散化数据规范化:z-score规范化(零均值规范化):将属性A的值根据其平均值和标准差进行规范化;常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。其中表示对象 的原属性值,表示规范化的属性值,表示属性A的平均值,表示属性A的标准差。例:某公司员工年龄的平均值和标准差分别为25岁和11岁。请根据z-score规范化,将44岁这个数据规范化。(44-25)/111.727iiAvAv=A123.1 数据存在的问题123.5 数据变换与数据离散化注意:规范化将原来的数据改变很多,特别是上述的后两种方法。有必要保留规范化参数(如平均值和标准差,如果使用z-score规范化)以便将来的数据可以用一致的方式规范化。133.1 数据存在的问题133.5 数据变换与数据离散化数据变换:属性构造:利用已有属性集构造出新的属性,并加入到现有属性集中以帮助挖掘更深层次的模式知识,提高挖掘结果的准确性;如,根据宽、高属性,可以构造一个新属性:面积。143.1 数据存在的问题143.5 数据变换与数据离散化 数据变换:离散化连续变量的离散化,就是将具体性的问题抽象为概括性的问题,即是将它取值的连续区间划分为小的区间,再将每个小区间重新定义为一个唯一的取值。数据离散化的基本方法主要有分箱法和直方图分析法。153.1 数据存在的问题153.5 数据变换与数据离散化对连续变量进行离散化处理,一般经过以下步骤:对此变量进行排序。选择某个点作为候选断点,根据给定的要求,判断此断点是否满足要求。若候选断点满足离散化的要求,则对数据集进行分裂或合并,再选择下一个候选断点。重复步骤和,如果满足停止准则,则不再进行离散化过程,从而得到最终的离散结果。163.1 数据存在的问题163.5 数据变换与数据离散化数据离散化分箱分箱的步骤:首先排序数据,并将它们分到等深(等宽)的箱中;然后可以按箱的平均值、或中值或者边界值等进行平滑。按箱的平均值平滑:箱中每一个值被箱中的平均值替换按箱的中值平滑:箱中的每一个值被箱中的中值替换按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换173.1 数据存在的问题173.5 数据变换与数据离散化 等深分箱:按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。183.1 数据存在的问题183.5 数据变换与数据离散化例3.6 分箱法。某公司存储员工信息的数据库里表示收入的字段“income”排序后的值(人民币元):900,1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000,请按照等深分箱法分箱。设定权重(箱子深度)为4,分箱后箱1:900,1000,1300,1600箱2:1600,1900,2000,2400 箱3:2600,2900,3000,3600箱4:4000,4600,4900,5000 用平均值平滑结果为:箱1:1200,1200,1200,1200箱2:1975,1975,1975,1975箱3:3025,3025,3025,3025箱4:4625,4625,4625,4625193.1 数据存在的问题193.5 数据变换与数据离散化等宽分箱(binning):在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。203.1 数据存在的问题203.5 数据变换与数据离散化上例中设定区间范围(箱子宽度)为1000元人民币,按等宽分箱法分箱后箱1:900,1000,1300,1600,1600,1900箱2:2000,2400,2600,2900,3000箱3:3600,4000,4600箱4:4900,5000 用平均值平滑结果为:箱1:1383,1383,1383,1383,1383,1383箱2:2580,2580,2580,2580,2580箱3:4067,4067,4067箱4:4950,4950 213.1 数据存在的问题213.5 数据变换与数据离散化数据离散化直方图分析法:直方图也可以用于数据离散化。它能够递归的用于每一部分,可以自动产生多级概念分层,直到满足用户需求的层次水平后结束。223.1 数据存在的问题223.5 数据变换与数据离散化 例如,图3-8是某数据集的分布直方图,被划分成了范围相等的区间(7999,99119,159179)。这就产生了多级概念分层。数据离散化直方图分析法:051015202579-9999-119119-139139-159159-179直方图直方图图3-8 某数据集的分布直方图233.1 数据存在的问题THANKS FOR YOUR ATTENTION感谢指导!