《数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据预处理.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据数据预处预处理理现在学习的是第1页,共54页第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结2现在学习的是第2页,共54页3数据质量:为什么要对数据预处理数据质量:为什么要对数据预处理?n数据质量的评价数据质量的评价:多维角度多维角度n准确性准确性:correct or wrong,accurate or notn完整性完整性:not recorded,unavailable,n一致性一致性:some modified but some not,dangling,n
2、时效性时效性:及时更新的及时更新的?n可信性可信性:反映有多少数据是用户信赖的反映有多少数据是用户信赖的?n可解释性可解释性:反映数据是否容易理解反映数据是否容易理解?现在学习的是第3页,共54页4数据预处理的主要任务数据预处理的主要任务n数据清理数据清理n填充缺失值填充缺失值,识别识别/去除离群点去除离群点,光滑噪音光滑噪音,并纠正数据不一致并纠正数据不一致n数据集成数据集成n多个数据库多个数据库,数据立方体数据立方体,或文件的集成或文件的集成n数据归约数据归约n得到数据集的简化,它小得多,但能够产生同样的分析结果得到数据集的简化,它小得多,但能够产生同样的分析结果n数据变换数据变换n规范化
3、规范化 n数据离散化和概念分层产生数据离散化和概念分层产生现在学习的是第4页,共54页5第第2章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结现在学习的是第5页,共54页数据清理数据清理n现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误人为或计算机错误,许多传输错误n数据缺失数据缺失:缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚或仅包含聚集数据集数据
4、ne.g.,职业职业=“”(missing data)n噪声噪声:包含错误或孤立点包含错误或孤立点ne.g.,Salary=“10”(an error)n不一致不一致:编码或名字存在差异编码或名字存在差异,e.g.,nAge=“42”,Birthday=“03/07/2010”n以前的等级以前的等级“1,2,3”,现在等级现在等级“A,B,C”n重复记录间的差异重复记录间的差异n人为有意的人为有意的(e.g.,默认值默认值)nJan.1 as everyones birthday?6现在学习的是第6页,共54页如何处理缺失数据如何处理缺失数据?n忽忽略略元元组组:缺缺少少类类别别标标签签时时常
5、常用用(假假定定涉涉及及分分类类不不是是很很有效,当每个属性的缺失百分比变化大时有效,当每个属性的缺失百分比变化大时n手工填写缺失数据手工填写缺失数据:乏味乏味+费时费时+不可行不可行?n自动填充(采用一些规则)自动填充(采用一些规则)n一个全局常量一个全局常量:e.g.,“unknown”,a new class?!n使用属性的中心度量(如均值或中位数)使用属性的中心度量(如均值或中位数)n与给定元组同一类的所有样本的属性均值与给定元组同一类的所有样本的属性均值:更巧妙更巧妙n最最可可能能的的值值:基基于于推推理理的的方方法法,如如回回归归、贝贝叶叶斯斯公公式式或或决策树决策树7现在学习的是
6、第7页,共54页噪声数据噪声数据n噪声噪声:被测量的变量的随机误差被测量的变量的随机误差n不正确的属性值可能由于不正确的属性值可能由于n错误的数据收集工具错误的数据收集工具n数据录入问题数据录入问题n数据传输问题数据传输问题n技术限制技术限制n不一致的命名惯例不一致的命名惯例n其他需要数据清理的问题其他需要数据清理的问题n重复记录重复记录n数据不完整数据不完整n不一致的数据不一致的数据8现在学习的是第8页,共54页如何处理噪音数据如何处理噪音数据?n分箱分箱:n排序数据,分布到等频排序数据,分布到等频/等宽的箱等宽的箱/桶中桶中n箱均值光滑、箱中位数光滑、箱边界光滑箱均值光滑、箱中位数光滑、箱
7、边界光滑,etc.n聚类聚类n检测和去除检测和去除 离群点离群点/孤立点孤立点n计算机和人工检查相结合计算机和人工检查相结合n人工检查可疑值人工检查可疑值(e.g.,deal with possible outliers)n回归回归n回归函数拟合数据回归函数拟合数据9现在学习的是第9页,共54页分箱:简单的离散化方法分箱:简单的离散化方法n等宽度等宽度剖分剖分:n分成大小相等的分成大小相等的n个区间个区间:均匀网格均匀网格n若若A和和B是是 属性的最低和最高取值属性的最低和最高取值,区间宽度为区间宽度为:W=(B A)/N.n孤立点可能占据重要影响孤立点可能占据重要影响n倾斜的数据处理不好倾斜
8、的数据处理不好n等频剖分等频剖分/等深等深:n分成分成n个区间个区间,每一个含近似相同数目的样本每一个含近似相同数目的样本nGood data scalingn类别属性可能会非常棘手类别属性可能会非常棘手.10现在学习的是第10页,共54页Binning Methods for Data Smoothing*Sorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition into(equi-depth)bins:-Bin 1:4,8,9,15 -Bin 2:21,21,24,25 -Bin 3:26,28
9、,29,34*Smoothing by bin means:-Bin 1:9,9,9,9 -Bin 2:23,23,23,23 -Bin 3:29,29,29,29*Smoothing by bin boundaries:-Bin 1:4,4,4,15 -Bin 2:21,21,25,25 -Bin 3:26,26,26,3411现在学习的是第11页,共54页聚类分析聚类分析12现在学习的是第12页,共54页Regressionxyy=x+1X1Y1Y113现在学习的是第13页,共54页数据清理作为一个过程数据清理作为一个过程n数据偏差检测数据偏差检测n使用元数据使用元数据(数据性质的知识数据
10、性质的知识)(e.g.,定义域定义域,每个属性可接受每个属性可接受值值,统计分布,统计分布,IQR等等)n检查字段过载检查字段过载:新属性的定义挤进已经定义的属性的未使:新属性的定义挤进已经定义的属性的未使用部分用部分 n检查唯一性规则检查唯一性规则,连续性规则连续性规则,空值规则空值规则n使用商业工具使用商业工具n数据清洗数据清洗:使用简单的领域知识使用简单的领域知识(e.g.,邮编邮编,拼写检查拼写检查)检查纠正错误检查纠正错误n数据审计数据审计:通过分析数据发现规则和联系发现违规者通过分析数据发现规则和联系发现违规者(孤立点孤立点)n数据迁移和集成数据迁移和集成n数据迁移工具数据迁移工具
11、Data migration tools:允许指定转换允许指定转换n提取提取/变换变换/装入工具装入工具:允许用户通过图形用户界面指定变换允许用户通过图形用户界面指定变换n整合两个过程整合两个过程n两个过程迭代和交互执行两个过程迭代和交互执行(e.g.,Potters Wheels)14现在学习的是第14页,共54页15第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结现在学习的是第15页,共54页数据集成数据集成n数据集成数据集成:n合并多个数据源中的数据,存在一个一致
12、的数据存储中合并多个数据源中的数据,存在一个一致的数据存储中n涉及涉及3个主要问题:模式集成、冗余数据、冲突数据值个主要问题:模式集成、冗余数据、冲突数据值n模式集成模式集成n例如例如.,A.cust-id?B.cust-#n实体识别问题实体识别问题:n多多个个数数据据源源的的真真实实世世界界的的实实体体的的识识别别,e.g.,Bill Clinton=William Clintonn集成不同来源的元数据集成不同来源的元数据n冲突数据值的检测和解决冲突数据值的检测和解决n对真实世界的实体,其不同来源的属性值可能不同对真实世界的实体,其不同来源的属性值可能不同n原因原因:不同的表示不同的表示,不
13、同尺度不同尺度,公制公制 vs.英制英制16现在学习的是第16页,共54页数据集成中冗余数据处理数据集成中冗余数据处理n冗余数据(集成多个数据库时出现)冗余数据(集成多个数据库时出现)n目标识别:同一个属性在不同的数据库中有不同的名称目标识别:同一个属性在不同的数据库中有不同的名称n衍衍生生数数据据:一一个个属属性性值值可可由由其其他他表表的的属属性性推推导导出出,e.g.,年年收入收入n相关分析相关分析/协方差分析协方差分析n可用于检测冗余数据可用于检测冗余数据n小小心心的的集集成成多多个个来来源源的的数数据据可可以以帮帮助助降降低低和和避避免免结结果果数数据据集集中中的冗余和不一致,提高数
14、据挖掘的速度和质量的冗余和不一致,提高数据挖掘的速度和质量17现在学习的是第17页,共54页相关分析相关分析(数值数据数值数据)nCorrelation coefficient(also called Pearsons product moment coefficient)n相关系数(皮尔逊相关系数)相关系数(皮尔逊相关系数)n元组个数元组个数,和和 属性属性A和和B上的平均值上的平均值,A 和和B分别为各分别为各自标准差,自标准差,(aibi)是是 AB叉积叉积(cross-product)之和之和.nrA,B 0,A和和B正相关正相关(值越大相关程度越高值越大相关程度越高)nrA,B=0:
15、不相关不相关;nrAB 0,A 和和B 同时倾向于大于期望值。同时倾向于大于期望值。n负协方差:负协方差:CovA,B 0.Co-Variance:An Example21现在学习的是第21页,共54页标称数据的标称数据的X2相关检验相关检验n2(chi-square)卡方检验卡方检验nij是是(ai,bj)的观测频度(实际计数)的观测频度(实际计数)neij是是(ai,bj)的期望频度的期望频度nN数据元组的个数数据元组的个数A属性a1a2iacb1Bb2jbr(A=ai,B=bj)n2 值越大值越大,相关的可能越大相关的可能越大n对对 2 值值贡贡献献最最大大的的项项,其其实实际际值与期望
16、值相差最大的相值与期望值相差最大的相n相关不意味着因果关系相关不意味着因果关系现在学习的是第22页,共54页卡方分布卡方分布23现在学习的是第23页,共54页Chi-Square 卡方值计算卡方值计算:例子例子n2(卡方)(卡方)计算(括号中的值为期望计值,由两个类别的分布数计算(括号中的值为期望计值,由两个类别的分布数据计算得到)据计算得到)n结果表明结果表明like_fiction 和和play_chess 关联关联Play chessNot play chessSum(row)看小说看小说250(90)200(360)450不看小说不看小说50(210)1000(840)1050Sum(
17、col.)3001200150024现在学习的是第24页,共54页25第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结现在学习的是第25页,共54页26数据规约策略数据规约策略n数据归约数据归约:获得数据集的一个获得数据集的一个规约规约表示,小很多,接近保持原数据的表示,小很多,接近保持原数据的完整性,使得可完整性,使得可得到相同得到相同/几乎相同的分析结果几乎相同的分析结果n为什么需要数据归约为什么需要数据归约?数据库和数据仓库可能存储数据库和数据仓库可能存储兆兆字节
18、兆兆字节大小数大小数据,在完整的数据库进行复杂数据分析需要花费大量时间据,在完整的数据库进行复杂数据分析需要花费大量时间.n数据归约策略数据归约策略n维归约维归约,e.g.,e.g.,减少不重要的属性减少不重要的属性n小波变换小波变换n主成分分析主成分分析n特征子集选择特征子集选择n数量归约:数量归约:用较小的数据形式替代原始数据用较小的数据形式替代原始数据n回归和对数回归和对数-线性模型线性模型n直方图直方图,聚类聚类,抽样抽样n数据立方体聚集数据立方体聚集n数据压缩数据压缩现在学习的是第26页,共54页27维归约维归约n维数灾难:维数增加,数据变得稀疏维数灾难:维数增加,数据变得稀疏n稀疏
19、数据使得点之间的距离变得不太有意义稀疏数据使得点之间的距离变得不太有意义n计算复杂度增加:子空间的可能的组合将成倍增长计算复杂度增加:子空间的可能的组合将成倍增长n维数归约:降低维度,避免维数灾难维数归约:降低维度,避免维数灾难n有助去掉不相关的属性和减少噪声有助去掉不相关的属性和减少噪声n减少数据挖掘的计算时间和空间减少数据挖掘的计算时间和空间n更容易可视化更容易可视化n维数归约技术维数归约技术n小波变换小波变换n主成分分析主成分分析n有监督和非线性有监督和非线性 (例如:例如:特征选择特征选择)现在学习的是第27页,共54页28维归约维归约小波变换小波变换n离散傅里叶变换离散傅里叶变换 通
20、常只关注某一频段,减少数据量通常只关注某一频段,减少数据量n小波变换:将数据变换到新的空间小波变换:将数据变换到新的空间 n离散小波变换离散小波变换 a是时间偏移,是时间偏移,b是尺度是尺度将将a、b离散化取值离散化取值现在学习的是第28页,共54页FFT vs waveletnLinear chirp and waveletnTake a linear chirp and its FFT现在学习的是第29页,共54页3030 x2x1e维归约维归约主成分分析主成分分析(PCA)nPrincipal Component Analysis,K-L变换变换n找到一个投影,其能表示数据的最大变化找到
21、一个投影,其能表示数据的最大变化n原始数据投影到一个更小的空间中,导致维度减少原始数据投影到一个更小的空间中,导致维度减少现在学习的是第30页,共54页3131n给给定定p维维空空间间中中的的N各各点点,找找到到 k p 个个正正交交向向量量(principal components)可以很好表示原始数据的可以很好表示原始数据的 n归范化输入数据归范化输入数据:每个属性值位于相同的区间内每个属性值位于相同的区间内n计算计算 k 个标准正交向量个标准正交向量,i.e.,principal componentsn每个输入的点是这每个输入的点是这k 个主成分的线性组合个主成分的线性组合n对主成分按对
22、主成分按“重要性重要性”或强度降序排列。或强度降序排列。n既既然然主主城城按按照照“重重要要性性”降降序序排排列列,因因此此可可以以通通过过去去掉掉较较弱的成分来归约数据。弱的成分来归约数据。n可以用来处理有序和无序的属性,处理稀疏和倾斜数据可以用来处理有序和无序的属性,处理稀疏和倾斜数据维归约维归约主成分分析主成分分析(PCA)现在学习的是第31页,共54页32X1X2Y1Y2维归约维归约主成分分析主成分分析(PCA)现在学习的是第32页,共54页维归约维归约特征选择特征选择n特征选择特征选择Feature selection(i.e.,属性子集选择属性子集选择):n删除不相关删除不相关/冗
23、余属性,减少数据集冗余属性,减少数据集n找出最小属性集,类别的数据分布尽可能接近找出最小属性集,类别的数据分布尽可能接近 使用全部属性使用全部属性值的原分布值的原分布n减少了发现的模式数目减少了发现的模式数目,容易理解容易理解nd个属性,有个属性,有2d 个可能的属性子集个可能的属性子集n启发式方法启发式方法Heuristic methods(因为指数级的可能性因为指数级的可能性):n局部最优选择,期望获得全局最优解局部最优选择,期望获得全局最优解n逐步向前选择逐步向前选择n逐步向后删除逐步向后删除 step-wise backward eliminationn向前选择和向后删除结合向前选择和
24、向后删除结合n决策树归纳决策树归纳 decision-tree induction33现在学习的是第33页,共54页出现在决策树中的属性构成最后出现在决策树中的属性构成最后的属性子集的属性子集最初的属性集合:最初的属性集合:A1,A2,A3,A4,A5,A6A4?A1?A6?Class 1Class 2Class 1Class 2最后的集合:A1,A4,A6维归约维归约决策树规约决策树规约34现在学习的是第34页,共54页数值规约数值规约n选择替代的、选择替代的、“较小的较小的”数据表示形式数据表示形式n参数方法参数方法n假假设设数数据据适适合合某某个个模模型型,估估计计模模型型参参数数,仅仅
25、存存储储的的参参数,并丢弃数据(孤立点除外)数,并丢弃数据(孤立点除外)n对数线性模型对数线性模型:n基基于于一一个个较较小小的的维维组组合合的的子子集集来来估估计计 离离散散属属性性的的多多维维空空间间中中每每个点的概率个点的概率n非参数方法非参数方法n不假定模型不假定模型nhistograms,clustering,sampling 35现在学习的是第35页,共54页数值规约数值规约回归分析回归分析n线性回归线性回归:数据拟合到一条直线上数据拟合到一条直线上n通常使用最小二乘法拟合通常使用最小二乘法拟合n多元线性回归多元线性回归n允许响应变量允许响应变量Y表示为多个预测变量的函数表示为多个
26、预测变量的函数n对数线性模型对数线性模型:n近似离散的多维概率分布近似离散的多维概率分布36现在学习的是第36页,共54页37数值规约数值规约回归分析回归分析n研研 究究 因因 变变 量量/响响 应应 变变 量量 Y(dependent variable/response variable)对对个个或或多多个个自自变变量量/解解释释变变量量(independent variable/explanatory variable)的相依关系的方法的统称的相依关系的方法的统称n参数需要估计以最好拟合给定数据参数需要估计以最好拟合给定数据n绝绝大大多多数数情情况况“最最好好的的拟拟合合”是是由由最最小小
27、二二乘乘法法(least squares method)实现实现,其他的方法也有其他的方法也有n用用于于预预测测(包包括括时时间间序序列列数数据据的的预预测测)、推推断断,假假设检验和因果关系的建模设检验和因果关系的建模yxy=x+1X1Y1Y137现在学习的是第37页,共54页数值规约数值规约直方图直方图Histogramsn把数据划分成不相交把数据划分成不相交的子集或桶的子集或桶n一维时可用动态规划一维时可用动态规划优化构建优化构建n涉及量化问题涉及量化问题38现在学习的是第38页,共54页39数值规约数值规约聚类聚类n将将对对象象划划分分成成集集/簇簇,用用簇簇的的表示替换实际数据表示替
28、换实际数据n技技术术的的有有效效性性依依赖赖于于数数据的质量据的质量n使使用用层层次次聚聚类类,并并多多维维索索引引树结构存放树结构存放n非常多的聚类算法和定义非常多的聚类算法和定义现在学习的是第39页,共54页数值规约数值规约抽样抽样n抽样抽样:获得一个小的样本集获得一个小的样本集s来表示整个数据集来表示整个数据集 Nn允许一个挖据算法运行复杂度子线性于样本大小允许一个挖据算法运行复杂度子线性于样本大小n关键原则关键原则:选择一个有代表性的数据子集选择一个有代表性的数据子集n数据偏斜时简单随机抽样的性能很差数据偏斜时简单随机抽样的性能很差n发展适应抽样方法:分层抽样发展适应抽样方法:分层抽样
29、 nNote:Sampling may not reduce database I/Os(page at a time)40现在学习的是第40页,共54页抽样类型抽样类型n简单随机抽样简单随机抽样 Simple random samplingn相同的概率选择任何特定项目相同的概率选择任何特定项目n无放回抽样无放回抽样 Sampling without replacementnOnce an object is selected,it is removed from the populationn放回抽样放回抽样Sampling with replacementn一个被抽中的目标不从总体中去除一
30、个被抽中的目标不从总体中去除n分层抽样分层抽样 Stratified sampling:n把把数数据据分分成成不不相相交交部部分分(层层),然然后后从从每每个个层层抽抽样样(按按比比例例/大大约相同比例的数据约相同比例的数据)n偏斜数据偏斜数据41现在学习的是第41页,共54页4242数据压缩数据压缩 Data Compressionn字符串压缩字符串压缩n有丰富的理论和调优的算法有丰富的理论和调优的算法n典型的是有损压缩;典型的是有损压缩;n但只有有限的操作是可行的但只有有限的操作是可行的n音频音频/视频压缩视频压缩n通常有损压缩,逐步细化通常有损压缩,逐步细化n有时小片段的信号可重构,而不
31、需要重建整个信号有时小片段的信号可重构,而不需要重建整个信号n维度和数值规约可以被看成是数据压缩的一种形式维度和数值规约可以被看成是数据压缩的一种形式现在学习的是第42页,共54页4343数据压缩数据压缩Original DataCompressed DatalosslessOriginal DataApproximated lossy现在学习的是第43页,共54页44数据立方体聚集数据立方体聚集n数据立方体存储多维聚集信息数据立方体存储多维聚集信息n某抽象层上建的数据立方体称为方体某抽象层上建的数据立方体称为方体(cuboid)n最底层建的方体称为基本方体最底层建的方体称为基本方体(base
32、 cuboid)n最高层的立方体称为最高层的立方体称为 顶点方体顶点方体(apex cuboid)n每个更高层的抽象将减少数据的规模每个更高层的抽象将减少数据的规模n使用合适的抽象层上的数据使用合适的抽象层上的数据n对数据立方体聚集得到与任务相关的最小立方体对数据立方体聚集得到与任务相关的最小立方体现在学习的是第44页,共54页45第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结现在学习的是第45页,共54页数据变换数据变换Data Transformationn数据变
33、换:把数据变换或统一成适合挖掘的形式数据变换:把数据变换或统一成适合挖掘的形式n光滑光滑:去掉噪音,技术:分箱、回归、聚类去掉噪音,技术:分箱、回归、聚类n聚集聚集:汇总:汇总,数据立方体构造数据立方体构造n属性属性/特征构造:特征构造:从给定的属性构造新属性从给定的属性构造新属性(机器学习中称为:特征构造)(机器学习中称为:特征构造)n规范化规范化:按比例缩放到一个具体区间:按比例缩放到一个具体区间n离散化:离散化:原始值用区间标签或概念标签替换原始值用区间标签或概念标签替换n概念分层:概念分层:泛化到较高概念层泛化到较高概念层现在学习的是第46页,共54页规范化数据的方法规范化数据的方法n
34、最小最小-最大规范化最大规范化n新数据可能新数据可能“越界越界”nz-分数规范化分数规范化n小数定标:移动属性小数定标:移动属性A的小数点位置的小数点位置(移动位数依赖于属性移动位数依赖于属性A的最大的最大值值)J为使为使 Max(|)1的最小整数的最小整数现在学习的是第47页,共54页离散化和概念分层离散化和概念分层n离散化:离散化:根据属性值把属性分成若干个较大区间根据属性值把属性分成若干个较大区间n区间标号可以代替实际数据值区间标号可以代替实际数据值 n利用离散化减少数据量利用离散化减少数据量n是否使用类的信息,离散化方法可分为是否使用类的信息,离散化方法可分为有监督有监督和和无监督无监
35、督n可以通过递归的方式离散化可以通过递归的方式离散化n分裂分裂 split(top-down)、合并、合并merge(bottom-up)n自顶向下:由一个自顶向下:由一个/几个点开始递归划分整个属性区间几个点开始递归划分整个属性区间n概念分层:概念分层:递归离散化属性,产生属性值分层递归离散化属性,产生属性值分层/多分辨率划分多分辨率划分48现在学习的是第48页,共54页n分箱分箱 Binning(Top-down split,unsupervised)n直方图(直方图(Top-down split,unsupervised)n聚类聚类(unsupervised,top-down split
36、 or bottom-up merge)n基于基于 2分析的区间合并分析的区间合并(supervised,bottom-up merge)n基于熵基于熵 Entropy-based(supervised,Top-down split)n根据自然划分根据自然划分离散化和概念分层离散化和概念分层49现在学习的是第49页,共54页基于熵基于熵Entropy的离散化的离散化50现在学习的是第50页,共54页 Chi-merge离散化离散化nChi-merge:2-based discretizationn有监督有监督:use class informationn自自低低向向上上:find the be
37、st neighboring intervals(具具有有相相似似的的类别分布类别分布,i.e.,low 2 values)to mergen递归地合并递归地合并,until a predefined stopping condition算法具体步骤参考(完成习题算法具体步骤参考(完成习题3.12):):https:/www.aaai.org/Papers/AAAI/1992/AAAI92-019.pdf51现在学习的是第51页,共54页由自然划分离散化由自然划分离散化n3-4-5 规则规则n如果最高有效位包含如果最高有效位包含 3,6,7 or 9 个不同的值个不同的值,partition
38、the range into 3 个等宽区间(个等宽区间(7:2-3-2分成分成3个区间)个区间)n2,4,or 8 不同的值不同的值,区域分成区域分成 4 个等宽区间个等宽区间n1,5,or 10 不同的值不同的值,区域分成区域分成5 个等宽区间个等宽区间n类似地,逐层使用此规则类似地,逐层使用此规则52现在学习的是第52页,共54页标称数据的概念分层标称数据的概念分层n用户用户/专家在模式级显式地指定属性的偏序专家在模式级显式地指定属性的偏序nstreetcitystatecountryn通过显式数据分组说明分层通过显式数据分组说明分层n厄巴纳,香槟,芝加哥厄巴纳,香槟,芝加哥Illino
39、isn只说明属性集但不说明它们的偏序只说明属性集但不说明它们的偏序 n系统自动产生属性偏序,根据系统自动产生属性偏序,根据 每个属性下不同值的数据每个属性下不同值的数据n启发式规则:相比低层,高层概念的属性通常有较少取值启发式规则:相比低层,高层概念的属性通常有较少取值nE.g.,street city state countryn只说明部分属性值只说明部分属性值53现在学习的是第53页,共54页自动产生概念分层自动产生概念分层nSome concept hierarchies can be automatically generated based on the analysis of the number of distinct values per attribute in the given data set n含不同值最多的属性放在层次的最低层含不同值最多的属性放在层次的最低层nNote:Exceptionweekday,month,quarter,yearcountryprovince_or_ statecitystreet15 distinct values365 distinct values3567 distinct values674,339 distinct values现在学习的是第54页,共54页
限制150内