数据挖掘概念与技术————.pptx
《数据挖掘概念与技术————.pptx》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术————.pptx(103页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章数据及数据预处第二章数据及数据预处理理滕少华滕少华Tel:E-mail:第1页/共103页内容提要内容提要数据及数据类型数据及数据类型为什么要预处理数据为什么要预处理数据?描述数据的汇总(为数据预处理提供分描述数据的汇总(为数据预处理提供分析的基础)析的基础)数据清理数据清理数据集成和变换数据集成和变换数据归约数据归约相似度计算相似度计算14 二月 20232第2页/共103页数据及数据类型n相关概念相关概念n数据数据n狭义:数字狭义:数字 。n广义:数据对象及其属性的集合,其表现形式可广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码以是数字、符号、文
2、字、图像抑或是计算机代码等等。等等。n属性属性n(也称为特征、维或字段也称为特征、维或字段),是指一个对象的某方,是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。面性质或特性。一个对象通过若干属性来刻画。n数据集数据集n数据对象的集合数据对象的集合14 二月 20233第3页/共103页4属性属性包含电信客户信息的样本数据包含电信客户信息的样本数据集集案例客户编号客户类别行业大类通话级别通话总费用N22011002518大客户采矿业和一般制造业市话16352C14004839358商业客户批发和零售业市话国内长途(含国内IP)27891N22004895555商业客户批发和零售业市
3、话国际长途(含国际IP)631243221026196大客户科学教育和文化卫生市话国际长途(含国际IP)53057D14004737444大客户房地产和建筑业市话国际长途(含国际IP)80827对象对象14 二月 2023第4页/共103页属性类型描述例子分类的(定性的)标称其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。如三个对象可以用A,B,C区分,也可以用甲,乙.丙区分颜色、性别、产品编号。序数其属性值提供足够的信息以区分对象的序。成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)数值的(定量的)区间其属性值之间的差是有意义的。日历日期、摄氏温度比率
4、其属性值之间的差和比率都是有意义的。长度、时间和速度不同的属性类型14 二月 20235第5页/共103页6数据集的特性数据集的特性维度维度指数据集中的对象具有的属性个数总和。因为在高维度数据集中经常会遇到维度灾难,因此数 据预处理的一个重要技术是维归约维归约稀疏性稀疏性指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。文本数据集分辨率分辨率(粒度粒度)不同分辨率或粒度下数据的性质不同14 二月 2023第6页/共103页7数据集的类型数据集的类型记录数据记录数据事务数据或购物篮数据数据矩阵文本数据基于图形的数据基于图形的数据万维网化合物结构有序数据有序数据时
5、序数据(时态数据)序列数据时间序列数据空间数据流数据14 二月 2023第7页/共103页8记录数据记录数据事事务务数数据据(Transaction(Transaction Data)Data)是是一一种种特特殊殊类类型型的的记记录录数数据据,其其中中每每个个记记录录涉涉及及一一个个项项的的集合。集合。事务ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据,因为记录中的每一项都是一位顾客“购物篮”中购买的商品。14 二月 20
6、23第8页/共103页9数据矩阵数据矩阵如果一个数据集簇中的所有数据对象都具有相同的数如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。中每个维代表描述对象的一个不同属性。数据集可以用一个数据集可以用一个mnmn的矩阵表示,其中的矩阵表示,其中m m行,一个对行,一个对象一行;象一行;n n列,一个属性一列。列,一个属性一列。14 二月 2023第9页/共103页10文本数据文本数据文档用词向量表示文档用词向量表示每个词是向量的一个分量每个词是向量的一个分量(属性属性)每
7、个分量的值是对应词在文档中出现的次数每个分量的值是对应词在文档中出现的次数14 二月 2023第10页/共103页11图形数据图形数据网页链接化合物结构14 二月 2023第11页/共103页有序数据有序数据时序数据(时态数据如工资,职称等)序列数据(序列数据库S是元组的集合,其中SID是序列ID,s是一个序列)时间序列数据(由不同时间重复测量得到的值。).事物时间顾客ID购买商品t1110,20t2240,60,90t3140t4310,20顾客ID购买商品12314 二月 202312第12页/共103页内容提要内容提要数据及数据类型数据及数据类型为什么要预处理数据为什么要预处理数据?描述
8、数据的汇总(为数据预处理提供分描述数据的汇总(为数据预处理提供分析的基础)析的基础)数据清理数据清理数据集成和变换数据集成和变换数据归约数据归约相似度计算相似度计算14 二月 202313第13页/共103页为什么进行数据预处理?现实中的数据都是杂乱无章的不完整的不完整的:有些感兴趣的属性缺少属性值,或仅包有些感兴趣的属性缺少属性值,或仅包含聚集数据含聚集数据含噪声的含噪声的:包含错误或孤立点值包含错误或孤立点值不一致的不一致的:在代码或名称上存在差异在代码或名称上存在差异例例1 1:过去的等级:过去的等级:“1,2,31,2,3”,现在的等级:现在的等级:“A,A,B,CB,C”例例2 2:
9、Age=Age=“4848”Birthday=Birthday=“03/07/196303/07/196314 二月 202314第14页/共103页n不完整数据的成因n数据收集的时候就缺乏合适的值n数据收集时和数据分析时的不同考虑因素n人为/硬件/软件 问题n噪声数据(不正确的值)的成因n数据收集工具的问题n数据输入时的人为/计算机 错误n数据传输中产生的错误n数据不一致性的成因n不同的数据源n违反了函数依赖性数据为什么会变脏数据为什么会变脏14 二月 202315第15页/共103页数据预处理为什么重要?没有高质量的数据,就没有高质量的挖掘结果没有高质量的数据,就没有高质量的挖掘结果有质量
10、的决定必须建立在有质量的数据上有质量的决定必须建立在有质量的数据上例:重复值或者空缺值将会产生不正确的或者令人误导的统计数据仓库需要对高质量的数据进行一致地集成数据仓库需要对高质量的数据进行一致地集成数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤个步骤14 二月 202316第16页/共103页数据质量的多方位度量数据质量的多方位度量一个广为认可的数据质量多维度量观点:一个广为认可的数据质量多维度量观点:精确度完整度一致性合乎时机可信度附加价值可解释性跟数据本身的含义相关的跟数据本身的含义相关的内在的、
11、上下文的、表象的以及可访问性14 二月 202317第17页/共103页数据预处理的主要任务数据预处理的主要任务数据清理数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致致数据集成数据集成合并多个数据源中的数据,即将多数据库,数据立方体或文件的合并多个数据源中的数据,即将多数据库,数据立方体或文件的数据集成到一个数据仓库中数据集成到一个数据仓库中数据变换数据变换规格化规格化(将数据按比率映射到一个特定的区间)和(将数据按比率映射到一个特定的区间)和聚集聚集(如由季(如由季销售额聚集得到年销售额)销售额聚集得到年销售额)数据
12、归约数据归约得到数据集的压缩表示,它小的多,但能够产生相同或相似的分得到数据集的压缩表示,它小的多,但能够产生相同或相似的分析结果析结果数据离散化数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要对数字型数据特别重要14 二月 202318第18页/共103页数据预处理的形式数据集的压缩表示,它小的多,但能够产生相同或相似的分析结果数据清理数据集成数据变换数据归约脏数据“干净”数据-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2T2000A1A2A3A126T1T
13、3T1456A1A3A115填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致将多数据库,数据立方体或文件的数据集成到一个数据仓库中将数据按比率映射到一个特定的区间14 二月 202319第19页/共103页内容提要内容提要数据及数据类型数据及数据类型为什么要预处理数据为什么要预处理数据?描述数据的汇总(为数据预处理提供分描述数据的汇总(为数据预处理提供分析的基础)析的基础)数据清理数据清理数据集成和变换数据集成和变换数据归约数据归约相似度计算相似度计算14 二月 202320第20页/共103页数据汇总数据汇总(为数据预处理提供分析的基础)(为数据预处理提供分析的基础)动机:为了更好
14、的理解数据动机:为了更好的理解数据获得数据的总体印像识别数据的典型特征凸显噪声或离群点对于数据挖掘任务,用户经常关心的数据特对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征征包括数据的中心趋势和离散特征度量数据的中心趋势度量数据的中心趋势均值(mean)、中位数(median)、众数(模mode)、中列数(midrange)度量数据的离散程度度量数据的离散程度极差、方差、四分位数极差等14 二月 202321第21页/共103页度量数据的中心趋势(1)n算术平均值n加权算术平均14 二月 202322第22页/共103页截断均值截断均值 尽管均值是描述数据集的最有用的单个量
15、,但不总尽管均值是描述数据集的最有用的单个量,但不总是度量数据中心的最好方法。是度量数据中心的最好方法。均值的主要问题是对均值的主要问题是对于极端值(如离群值)很敏感。即使少量极端值也于极端值(如离群值)很敏感。即使少量极端值也可能影响均值。可能影响均值。例如,公司的平均工资可能被少数高报酬的老总的例如,公司的平均工资可能被少数高报酬的老总的工资显著抬高。类似地,班级的考试平均成绩可能工资显著抬高。类似地,班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多。因为少数几个非常低的成绩而降低相当多。为了抵销少数极端值的影响,我们可以使用截断均为了抵销少数极端值的影响,我们可以使用截断均值(
16、值(trimmed meantrimmed mean)。)。度量数据的中心趋势(2)14 二月 202323第23页/共103页截断均值截断均值:是去掉高、低极端值得到的均值。是去掉高、低极端值得到的均值。指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。例:计算1,2,3,4,5,90值集的均值,中位数和p=40%的截断均值.解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.5 度量数据的中心趋势(3)14 二月 202324第24页/共103页度量数据的中心趋势(4)中位数中位数:对于倾斜的(非对称的)数据,数据
17、中心的一个对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。设给定的较好度量是中位数。设给定的N N个不同值的数据个不同值的数据集按数值序排序。如果集按数值序排序。如果N N是奇数,则中位数是有是奇数,则中位数是有序集的中间值;否则(即,如果序集的中间值;否则(即,如果N N是偶数),中是偶数),中位数是中间两个值的平均值位数是中间两个值的平均值。14 二月 202325第25页/共103页度量数据的中心趋势(度量数据的中心趋势(5 5)众数(众数(ModeMode,也叫,也叫模模):集合中出现频率最):集合中出现频率最高的值高的值单峰的(单峰的(unimodalunimodal,也
18、叫单模态)、双峰的,也叫单模态)、双峰的(bimodalbimodal)、三峰的()、三峰的(trimodaltrimodal);多峰的);多峰的(multimodalmultimodal)对于适度倾斜(非对称的)的单峰频率曲线,可以对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数使用以下经验公式计算众数中列数(中列数(midrange):midrange):是数据集的最大和最小是数据集的最大和最小值的平均值。值的平均值。均值均值 众数众数 中位数中位数 14 二月 202326第26页/共103页n对称与正倾斜、负倾斜数据的中位数、均值和众数14 二月 202327第27
19、页/共103页对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。对于完全对称的数据分布中,均值、中位数具有相同的值。14 二月 202328第28页/共103页度量数据的离散度-1极差和方差是值集的散布度量,表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近最简单的散布度量是极差,即最大值和最小值之差假设属性x具有m个值 ,其极差定义为:range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定义如下:14 二月 202329第29页/共103页30数据离散度度量-2因为方差用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。更加稳
20、健的值集散布估计方法:四分位数极差(IQR)14 二月 202330第30页/共103页14 二月 202331第31页/共103页n盒图:数据分布的一种直观表示,在典型情况下,在盒图中:n端点在四分位数上,使得盒图的长度是IQRIQRn中位数M M 用盒内的线标记n胡须延伸到最大最小观测值 当处理数量适中的观测值时,值得个别地绘出潜在的离群点。在盒图中这样做:仅当这些值超过四分位数不到1.5IQR 1.5IQR 时,胡须扩展到最高和最低观测值。否则,胡须出现在四分 位数的1.5IQR1.5IQR之内的最极端的观测值处终止。剩下的情况 个别地绘出。盒图分析盒图分析-1-114 二月 20233
21、2第32页/共103页n图中出在给定的时间段,AllElectronicsAllElectronics的4 4个分店销售的商品单价数据的盒图。n对于分店1 1,n中位数是8080美元,nQ1Q1是6060美元,nQ3Q3是100100美元。n两个边远的观测值个别 地绘制,因为它们的 值175175和202202超过 IQRIQR的1.51.5倍,这里1.5IQR=1.5*40=601.5IQR=1.5*40=60。盒图分析盒图分析-2-214 二月 202333第33页/共103页内容提要内容提要数据及数据类型数据及数据类型为什么要预处理数据为什么要预处理数据?描述数据的汇总(为数据预处理提供
22、分描述数据的汇总(为数据预处理提供分析的基础)析的基础)数据清理数据清理数据集成和变换数据集成和变换数据归约数据归约相似度计算相似度计算14 二月 202334第34页/共103页 数据清理数据清理的任务填写空缺值识别孤立点和平滑噪声数据纠正不一致数据14 二月 202335第35页/共103页空缺值数据出现空缺值的原因数据出现空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载14 二月 202336第36页/共103页怎样处理空缺数据?忽略元组:忽略元组:当属性值缺少的元组数不多时可用这种方法,否
23、当属性值缺少的元组数不多时可用这种方法,否则该方法不是很有效,则该方法不是很有效,因为如果这样的元组数很多的话,就因为如果这样的元组数很多的话,就会删除很多的记录。会删除很多的记录。人工填写空缺值:该方法很繁琐,可能行不通人工填写空缺值:该方法很繁琐,可能行不通使用一个全局常量填写空缺值:例如:每个空缺值都用使用一个全局常量填写空缺值:例如:每个空缺值都用“unknownunknown”替代替代!如果缺失值都用如果缺失值都用“unknownunknown”替代替代,则挖掘则挖掘程序可能误认为形成了一个有趣的概念,因此该方法不十分程序可能误认为形成了一个有趣的概念,因此该方法不十分可靠。可靠。使
24、用属性的平均值填写空缺值,使用属性的平均值填写空缺值,如:假定顾客的平均收入为如:假定顾客的平均收入为5600056000美元,则使用该平均值替换美元,则使用该平均值替换incomeincome的缺失值的缺失值使用与给定元组属同一类的所有样本的平均值使用与给定元组属同一类的所有样本的平均值,例如:将顾客例如:将顾客按按credit_riskcredit_risk分类,则用具有相同信用度给定元组的平均收分类,则用具有相同信用度给定元组的平均收入替换入替换incomeincome的缺失值的缺失值使用最有可能的值填充空缺值使用最有可能的值填充空缺值:使用贝叶斯形式化方法和决策使用贝叶斯形式化方法和决
25、策树等树等.14 二月 202337第37页/共103页噪声数据噪声:一个测量变量中的随机错误和偏差噪声:一个测量变量中的随机错误和偏差造成错误属性值的原因:造成错误属性值的原因:错误的数据收集手段错误的数据收集手段数据输入问题数据输入问题数据传输问题数据传输问题技术限制技术限制命名习惯的不一致命名习惯的不一致14 二月 202338第38页/共103页怎样处理噪声数据?分箱方法分箱方法:首先把数据排序,把排序后数据分到等深的箱中首先把数据排序,把排序后数据分到等深的箱中接着,用接着,用按箱中值平滑、按箱平均值平滑、按箱边界平滑等平滑技术平滑数据按箱中值平滑、按箱平均值平滑、按箱边界平滑等平滑
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术
限制150内