数据清洗与数据预处理精.ppt
《数据清洗与数据预处理精.ppt》由会员分享,可在线阅读,更多相关《数据清洗与数据预处理精.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据清洗与数据预处理第1页,本讲稿共64页教学目标认识数据挖掘前数据进行适当处理的必要性掌握常用数据预处理的方法。第2页,本讲稿共64页教学要求知识要点能力要求相关知识点数据预处理的原因(1)了解原始数据存在的主要问题(2)明白数据预处理的作用和工作任务(1)数据的一致性问题(2)数据的噪声问题(3)原始数据的不完整和高维度问题数据预处理的方法(1)掌握数据清洗的主要任务与常用方法(2)掌握数据集成的主要内容和常用方法(3)掌握数据变换的主要内容和常用方法(4)掌握数据归约的主要内容和常用方法(1)数据清洗(2)数据集成(3)数据变换(4)数据归约第3页,本讲稿共64页为什么要预处理数据?现实
2、世界的数据是“肮脏的”不完整的含噪声的不一致的没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成第4页,本讲稿共64页原始数据中存在的问题1.不一致数据内涵出现不一致情况2.重复3.不完整感兴趣的属性没有值4.含噪声数据中存在着错误、或异常(偏离期望值)的数据5.高维度 第5页,本讲稿共64页 数据预处理的方法1.数据清洗去掉噪声和无关数据 2.数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式 4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和
3、概念分层等 第6页,本讲稿共64页数据清洗数据选取参考原则:1.尽可能赋予属性名和属性值明确的含义2.统一多数据源的属性值编码3.去除惟一属性4.去除重复属性5.去除可忽略字段6.合理选择关联字段进一步处理:通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据 第7页,本讲稿共64页数据清洗处理空缺值数据并不总是完整的在分析一个商场销售数据时,发现有多个记录中的属性 值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入
4、对数据的改变没有进行日志记载第8页,本讲稿共64页数据清洗处理空缺值空缺值要经过推断而补上1.忽略该记录2.去掉属性 3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值 7.预测最可能的值第9页,本讲稿共64页数据清洗噪声数据的处理噪声:在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误。第10页,本讲稿共64页噪声数据的处理分箱分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间代表的“箱子”里。分箱技术
5、需要确定的主要问题:分箱方法,即如何分箱数据平滑方法,即如何对每个箱子中的数据进行平滑处理第11页,本讲稿共64页噪声数据的处理分箱分箱的方法:分箱前对记录集按目标属性值的大小进行排序。等深分箱法 等宽分箱法 用户自定义区间 最小熵例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000第12页,本讲稿共64页噪声数据的处理分箱等深分箱法(统一权重)按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称箱子的深度。设定权重(箱子深度
6、)为4,上述例子分箱后的结果如下。箱1:800 1000 1200 1500箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500箱4:4000 4500 4800 5000第13页,本讲稿共64页噪声数据的处理分箱等宽分箱法(统一区间)在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。设定区间范围(箱子宽度)为1000元人民币,分箱后箱1:800 1000 1200 1500 1500 1800箱2:2000 2300 2500 2800 3000箱3:3500 4000 4500箱4:4800 5000 第14页,本讲稿共64页噪
7、声数据的处理分箱最小熵使在各区间分组内的记录具有最小的熵。信息是信号、符号或消息所表示的内容,用以消除对客观事物认识的不确定性信息量的直观定义:信息量的大小取决于信息内容消除人们认识的“不确定程度不确定程度”,所消除的不确定程度越大,则所包含的信息量就越大。第15页,本讲稿共64页熵信息的度量(利用概率来度量)A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管理系有100人。他获得的信息是100/10000.1,也就是将可能性空间缩小到原来的1/10.用概率来表示:log(1/10)=log10又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息的确定性又缩小到
8、原来的100/1000*10/100=10/1000,其信息量为-log100/1000+(-log10/1000)=-log10/1000=log100只要可能性范围缩小了,获得的信息量总是正的。如果为只要可能性范围缩小了,获得的信息量总是正的。如果为只要可能性范围缩小了,获得的信息量总是正的。如果为只要可能性范围缩小了,获得的信息量总是正的。如果为0 0,获得的,获得的,获得的,获得的信息为信息为信息为信息为。如果为负,反而扩大了其可能性范围。如果为负,反而扩大了其可能性范围。如果为负,反而扩大了其可能性范围。如果为负,反而扩大了其可能性范围。第16页,本讲稿共64页熵信息的度量信息量大小
9、的单位用比特来衡量。1比特的信息量是指含有两个独立均等概率状态的事件所具有的不确定性能被全部消除所需要的信息。信息量:H(x)=-H(x)=-P(Xi)log2P(Xi)i=1,2,3,P(Xi)log2P(Xi)i=1,2,3,n,n 其中Xi表示第i个状态(共n个状态);P(Xi)代表出现第i个状态时的概率;H(x)为消除不确定性所需的信息量,单位为比特(bit)。例如:币下落可能有正反两种状态,出现这两种状态的概率都是1/2,即:则,H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5)=1比特。同理可得,投掷均匀正六面体骰子的H(X)2.6比特。
10、第17页,本讲稿共64页例子例子硬币下落:硬币下落可能有正反两种状态,出现这两种状态的概率都是1/2。如果需要消除其不确定性,则就需要信息量:H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5)=1比特为1比特的信息。例2:张三到4000人的企业去找李四。当企业人事部门告诉张三:“李四是第四车间的”,而第四车间有1000人,如果第四车间的人告诉张三,李四在第三班,第三班共有125位员工,计算张三所获得的信息量?第18页,本讲稿共64页噪声数据的处理分箱用户自定义区间 用户根据需要自定义区间。用户自定义:如将客户收入划分为1000元以下、10002000
11、、20003000、30004000和4000元以上几组,分箱后箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000 第19页,本讲稿共64页噪声数据的处理平滑处理分箱后对数据进行平滑处理3种进行数据平滑方法:按平均值平滑 对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。按边界值平滑 用距离较小的边界值替代箱中每一数据。按中值平滑 取箱子的中值,用来替代箱子中的所有数据。第20页,本讲稿共64页噪声数据的处理聚类簇:一组数据对象集合。同一簇内的所有对
12、象具有相似性,不同簇间对象具有较大差异性。聚类:将物理的或抽象对象的集合分组为由不同簇,找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。通过聚类分析发现异常数据:相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。特点:直接形成簇并对簇进行描述,不需要任何先验知识。第21页,本讲稿共64页噪声数据的处理聚类第22页,本讲稿共64页噪声数据的处理回归回归:发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。方法:线性回归(简单回归):利用直线建模,将一个变量看作另一个变量的线
13、性函数。如:Y=aX+b,其中a、b称为回归系数,可用最小二乘法求得a、b系数。非线性回归 第23页,本讲稿共64页噪声数据的处理回归xyy=x+1X1Y2Y1第24页,本讲稿共64页数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中1.模式匹配模式匹配2.数据冗余数据冗余3.数据值冲突数据值冲突第25页,本讲稿共64页数据集成模式匹配整合不同数据源中的元数据。实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no。第26页,本讲稿共64页数据集成数据冗余同一属性在不同的数据库中会有不同的字段名。一个属性可以由另外一个表导出。如:一个顾
14、客数据表中的平均月收入属性,它可以根据月收入属性计算出来。有些冗余可以被相关分析检测到第27页,本讲稿共64页数据集成数据值冲突对于一个现实世界实体,其来自不同数据源的属性值或许不同。产生的原因:表示的差异、比例尺度不同、或编码的差异等。例如:重量属性在一个系统中采用公制,而在另一个系统中却采用英制。同样价格属性不同地点采用不同货币单位。第28页,本讲稿共64页数据变换平滑去除噪声,将连续的数据离散化,增加粒度分箱聚类回归第29页,本讲稿共64页数据变换聚集对数据进行汇总avg(),count(),sum(),min(),max()例如:每天销售额(数据)可以进行合计操作以获得每月或每年的总额
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 清洗 预处理
限制150内