第三讲数据预处理PPT讲稿.ppt
《第三讲数据预处理PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第三讲数据预处理PPT讲稿.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三讲数据预处理第1页,共69页,编辑于2022年,星期二2数据预处理(Data Preprocessing)l为什么要预处理数据?l数据清理l数据集成与转换l数据简约(归约)l离散化与概念分层生成l用SSIS对数据进行ETL操作第2页,共69页,编辑于2022年,星期二3为什么进行数据预处理?l现实世界中的数据是“脏”的l不完整:缺少属性值,缺少某些属性,或者仅包含聚集类数据l噪音:包含错误、异常数据或存在偏离期望的孤立点值。l不一致:包含编码或名称的差异。例如,用于商品分类的部门编码存在差异。l没有质量保证的数据,就没有高质量的挖掘结果!l高质量的决策必须以高质量的数据为基础l数据仓库需要
2、一致集成的高质量数据第3页,共69页,编辑于2022年,星期二5数据预处理的主要任务l数据清理(Data cleaning)lFill in missing values,smooth noisy data,identify or remove outliers,and resolve inconsistenciesl数据集成(Data integration)lIntegration of multiple databases,data cubes,or filesl数据转换(Data transformation)lNormalization and aggregationl数据归约/约简
3、(Data reduction)lObtains reduced representation in volume but produces the same or similar analytical results第5页,共69页,编辑于2022年,星期二6数据预处理的形式第6页,共69页,编辑于2022年,星期二7为什么要预处理数据?l现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程中的重要步骤。第7页,共69页,编辑于2022年,星期二8数据预处
4、理l为什么要预处理数据?l数据清理l数据集成与转换l数据简约(归约)l离散化与概念分层生成l用SSIS对数据进行ETL操作第8页,共69页,编辑于2022年,星期二9数据清理l数据清理任务l补充缺失值l识别异常并平滑噪音数据l修正不一致的数据第9页,共69页,编辑于2022年,星期二10Missing Data(缺失数据)l数据并非总是可得到的l例如:许多元组在某些属性上没有记录值,比如销售数据中的客户收入l导致缺失数据的原因 l设备出错l和其他记录数据不一致,进而被删除了l由于误解导致数据没有录入l在录入的时候某些数据可能被认为是不重要的l缺失数据可能需要被推知第10页,共69页,编辑于20
5、22年,星期二11如何处理缺失数据l忽略该元组:通常类标志缺失时(假设在分类任务中)l手工填入缺失值:繁琐+不可能?l用一个全局常量来填充缺失值:例如,用“unknown”来替换空缺值。可能挖掘出一个有趣的概念,因为这些数据都具有相同的值“unknown”。该方法虽然简单,却并不十分可靠。l利用该属性的均值来填充缺失值:例如用顾客的平均收入替换收入(income)的空值。l利用与给定元组属于同一类的所有样本的均值:例如,如果将顾客按信用等级(credit_risk)分类,则用具有相同信用度的顾客的平均收入替换收入的空缺值。smarterl利用最可能的值来填充缺失值:决策树。例如利用数据集中其他
6、顾客的属性,可以构造一棵决策树,来预测income的空缺值。第11页,共69页,编辑于2022年,星期二12如何处理缺失数据l方法3-6使数据倾斜,填入的值可能不正确。然而,方法6是最常用的方法。与其他方法相比,它使用现存数据的多数信息来预测空缺值。通过考虑其他属性的值,有更大机会保持空值属性和其他属性之间的联系。第12页,共69页,编辑于2022年,星期二13噪音数据(Noisy Data)lNoise:(具有不正确的属性值)在可测度变量中的随机错误或偏差l导致不正确属性值的原因l错误的数据收集手段l数据输入问题l数据传送问题l技术限制第13页,共69页,编辑于2022年,星期二14如何处理
7、噪音数据?给定一个数值属性,例如price,怎样才能平滑数据,去掉噪音?常用的数据平滑技术:l分箱(Binning method):分箱方法通过考察“邻居”(即周围的值)来平滑存储数据的值。l首先将数据排序并将其分割到一些相等深度的“桶”(bucket or bin)中l然后可根据桶均值,桶中间值,桶边界值等进行平滑第14页,共69页,编辑于2022年,星期二15Sorted data:4,8,15,21,21,24,25,28,34Partition into(equidepth)bins:Bin1:4,8,15Bin2:21,21,24Bin3:25,28,34Smoothing by b
8、in means:Bin1:9,9,9Bin2:22,22,22Bin3:29,29,29Smoothing by boundaries:Bin1:4,4,15Bin2:21,21,24Bin3:25,25,34Binning Method第15页,共69页,编辑于2022年,星期二16数据平滑的Binning 方法*Sorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition into(equi-depth)bins:-Bin 1:4,8,9,15 -Bin 2:21,21,24,25 -Bin 3:
9、26,28,29,34*Smoothing by bin means:-Bin 1:9,9,9,9 -Bin 2:23,23,23,23 -Bin 3:29,29,29,29*Smoothing by bin boundaries:-Bin 1:4,4,15,15 -Bin 2:21,21,25,25 -Bin 3:26,26,34,34第16页,共69页,编辑于2022年,星期二17简单的离散化方法:Binningl等宽(距)划分:l将范围分为等大小的N个区间l如果 A和 B是该属性的最低或最高值,则区间的宽度为:W=(B-A)/N.l最直接易懂l但是异常值可能会主导其展现l不能很好的处理偏
10、离数据(Skewed data)l等深(频)划分:l将范围划分为N个区间,每个区间包含近似相等数量的样本l较好的数据比例第17页,共69页,编辑于2022年,星期二18如何处理噪音数据?l聚类(Clustering)l孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地看,落在聚类集合之外的值被视为孤立点。l回归l通过让数据适合一个函数(如线性回归函数)来平滑数据。l线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。第18页,共69页,编辑于2022年,星期二19聚类分析第19页,共69页,编辑于2022年,星期二20回归xyy=x+1X1Y1Y1第20页,共6
11、9页,编辑于2022年,星期二21数据预处理l为什么要预处理数据?l数据清理l数据集成与转换l数据简约(归约)l离散化与概念分层生成l用SSIS对数据进行ETL操作第21页,共69页,编辑于2022年,星期二22数据集成l数据集成(Data integration):将多个数据源中的数据组合到一个一致的数据存储中。需要考虑的问题:l实体识别问题l从多种数据源中识别真实世界中的实体 e.g.,A.cust-id B.cust-#l通过元数据解决l侦测并解决数据值的冲突l对于真实世界中的同一实体,来自不同数据源的属性值可能是不同的l可能的原因:不同的表示,不同比率,e.g.,公制 vs.英制单位l
12、属于语义的异种性第22页,共69页,编辑于2022年,星期二23数据集成中的冗余数据处理l在集成多种数据库时经常会出现冗余数据l同一属性值在不同的数据库中可能有不同的名字l一个属性可能是另外一个表中的一个“衍生”属性,e.g.,年薪l冗余数据可能通过相关性分析而被发现l仔细集成来自不同源的数据有助于减少或避免冗余和不一致性从而改善挖掘速度和质量其中,是A的标准差第23页,共69页,编辑于2022年,星期二24数据转换l数据转换:将数据转换成适合于挖掘的形式。涉及以下内容:l平滑:从数据中去掉噪音。这种技术包括分箱、聚类和回归。l聚集:对数据进行汇总和聚集。l数据泛化:使用概念分层,用高层次概念
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 数据 预处理 PPT 讲稿
限制150内