数据及数据预处理讲稿.ppt
《数据及数据预处理讲稿.ppt》由会员分享,可在线阅读,更多相关《数据及数据预处理讲稿.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于数据及数据预处理第一页,讲稿共九十页哦n记录数据关系记录数据矩阵,例如,数值矩阵,交叉文档数据:文本文件:词频向量交易数据n图形和网络万维网社会或信息网络分子结构有序时间数据:时间序列顺序数据:交易序列基因序列数据n视频数据的图像序列空间,图像和多媒体:空间数据:地图2.1数据类型第二页,讲稿共九十页哦数据对象n数据集由数据对象组成n一个数据对象代表一个实体n例子销售数据库:客户,商店物品,销售额医疗数据库:患者,治疗信息大学数据库:学生,教授,课程信息n称为样品,示例,实例,数据点,对象,元组(tuple)。n数据对象所描述的属性。数据库中的行-数据对象;列-“属性”。第三页,讲稿共九十
2、页哦属性n属性(或尺寸,特征,变量):一个数据字段,代表一个数据对象的特征或功能。例如,客户_ID,姓名,地址n类型:标称二进制数字:定量规模区间缩放比率第四页,讲稿共九十页哦属性类型n标称:类别,状态,或“名字的东西”Hair_color=黑色,棕色,金色,红色,红褐色,灰色,白色婚姻状况,职业,身份证号码,邮政编码n二进制只有2个状态(0和1)的属性对称二进制两种结果重要n例如,性别不对称的二进制结果同样重要。n例如,医疗测试(正面与负面)公约:将1至最重要的成果(例如,HIV阳性)n序数词价值观有一个有意义的顺序(排名),但不知道连续值之间的大小。大小=小,中,大,等级,军队排名第五页,
3、讲稿共九十页哦2.2数据质量n被广泛接受的数据质量测量标准准确性完整性一致性合时性可信度解释性第六页,讲稿共九十页哦2.3数据预处理n数据预处理:概述数据预处理主要任务n数据清洗n数据集成n数据缩减n数据转换和数据离散化n总结第七页,讲稿共九十页哦2.3数据预处理主要任务n数据清理填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题n数据集成整合多个数据库,多维数据集或文件n数据缩减降维Numerosityreduction数据压缩n数据转换和数据离散化正常化生成概念层次结构第八页,讲稿共九十页哦数据清洗n在现实世界中的数据是“脏”的:不完整的:缺少属性值,缺乏某些属性值,或只包含总数据
4、n例如,职业=“”(丢失的数据)n含嘈杂的噪音,错误或离群例如,工资=“-10”(错误)n不一致的代码或不符的名称年龄=“42”生日=“03/07/1997”曾经评级“1,2,3”,现在评级“A,B,C”重复的记录之间的差异第九页,讲稿共九十页哦不完整(缺少)数据n数据并不总是可用的例如,许多元组没有属性,如客户收入、销售数据的记录值n丢失的数据,可能是由于设备故障与其他记录的数据不一致,从而删除因误会而未读入在读入的时候,某些数据可能不会被认为是重要的不是历史或更改的数据注册n丢失的数据可能需要被推断第十页,讲稿共九十页哦如何处理丢失数据?n忽略元组:通常是类标签丢失时(这样做分类),每个属
5、性的缺失值有很大的差别n手动填写遗漏值n自动填写全局常量属性含义属性意味着所有样本属于同一类最有可能的值:基于诸如贝叶斯公式或决策树推理第十一页,讲稿共九十页哦噪声数据n噪声:一个测量变量中的随机错误或方差n原因收集工具故障数据录入问题数据传输问题技术限制命名约定不一致n其他数据问题需要数据清理如重复记录数据不完整不一致的数据第十二页,讲稿共九十页哦如何处理噪声数据?n回归数据拟合n聚类检测和删除离群n结合计算机和人工检查检测可疑的数据(例如人工处理可能的异常值)第十三页,讲稿共九十页哦数据清洗n数据的误差检测使用元数据(例如,领域,范围,依赖,分销)检查是否溢出检查唯一性规则,连续统治和空的
6、规则使用商业工具n数据清理:使用领域知识(例如,邮政编码,拼写检查),检测错误并改正n数据审计:通过分析数据检测违规者(例如,关联和聚类规则和关系,寻找离群)n数据迁移和整合数据迁移工具:允许指定的转换ETL(提取/转换/加载)工具:通过图形用户界面允许用户指定转换n两个过程的集成迭代和交互第十四页,讲稿共九十页哦数据集成n数据集成将来自多个数据源的数据组合成一个连贯的数据源n模式集成:例如,A.cust-idB.cust-#整合来自不同来源的元数据n实体识别问题:识别来自多个数据源的真实世界的实体,例如,BillClinton=WilliamClintonn数据冲突检测和解决对于同一个真实世
7、界的实体,来自不同源的属性值可能的原因:不同的表述,不同的尺度,例如,公制与英制单位第十五页,讲稿共九十页哦数据集成中的冗余信息的处理n整合多个数据库经常发生数据冗余Object identification:相同的属性或对象可能有不同的名字在不同的数据库中Derivable data:一个属性可能是“派生”的另一个表中的属性,例如,年收入n通过相关性分析和协方差分析可以检测到冗余的属性n仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量第十六页,讲稿共九十页哦相关分析n2(chi-square)testn2值越大,越有可能变量是相关的nThecellstha
8、tcontributethemosttothe2valuearethosewhoseactualcountisverydifferentfromtheexpectedcountn相关性并不意味着因果关系#ofhospitalsand#ofcar-theftinacity是相关的两者都因果联系的第三个变量为人口第十七页,讲稿共九十页哦2(chi-square)test举例举例n2(卡方)计算(括号中的数字是预计计数基于两个类别中的数据分布计算)n这表明,组中的like_science_fiction和play_chess相关第十八页,讲稿共九十页哦相关分析数据(数字数据)n相关系数(也称为皮尔逊
9、积矩系数)n其中n是元组的数目,而p和q是各自的具体值,p和q是各自的标准偏差,n如果R(p,q)0,p和q是正相关的(p的值增加为q的),较高的相关性。nR(p,q)=0:独立;R(p,q)0,则p和q都倾向于是大于它们的预期值。n负的协方差:如果在COV(p,q)0。第二十三页,讲稿共九十页哦数据缩减策略n数据还原:还原面积更小、体积减少的数据集,但尚未产生相同(或几乎相同)的分析结果n为什么数据缩减?-由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间n数据缩减战略降维,例如,删除不重要的属性n小波变换n主成分分析(PCA)n特征选择,特
10、征创建nNumerosityreduction回归和对数线性模型直方图,聚类,取样数据立方体聚集n数据压缩第二十四页,讲稿共九十页哦降维n原因原因随着维数的增加,数据变得越来越稀疏对孤立点分析使得密度和距离变得意义不大子空间的可能的组合将成倍增长n降维作用避免维数灾难帮助消除无关紧要的属性,并降低噪音减少数据挖掘所需的时间和空间更容易的可视化n降维技术小波变换主成分分析监督和非线性技术(例如,特征选择)第二十五页,讲稿共九十页哦将数据映射到一个新的空间n傅里叶变换n小波变换Two Sine WavesTwo Sine Waves+NoiseFrequency第二十六页,讲稿共九十页哦小波变换是
11、什么?n分解成不同的频率子带的信号适用于n维信号n转化的数据是在不同级别的分辨率中保存n用于图像压缩第二十七页,讲稿共九十页哦小波变换n离散小波变换(DWT)的线性信号处理n压缩近似:只有一小部分的小波系数最强n离散傅里叶变换(DFT)类似,但在空间中有更好的压缩效果n方法:长度L,必须是2的整数次幂(0填充,必要时)每个变换具有2个功能:平滑,差异适用于双数据,在两个集得到的长度为L/2的数据施加两个递归函数,直到达到所需要的长度第二十八页,讲稿共九十页哦小波变换n小波:空间高效分解的数学工具n2,2,0,2,3,5,4,4可转化为S=S=23/4,-11/4,1/2,0,0,-1,0n压缩
12、:许多小细节系数可以替换为0的,只有显示的系数被保留第二十九页,讲稿共九十页哦为什么小波变换?n使用hat-shape滤波器强调区域点聚集的地方在边界禁止较弱的信息n有效去除离群值对噪声不敏感n多分辨率在不同尺度检测任意形状的集群n高效复杂度为O(N)n只适用于低维数据第三十页,讲稿共九十页哦主成分分析(PCA)n原始数据投影到一个更小的空间,从而查找投影来捕获最大的变化量数据的,从而维数降低。n发现协方差矩阵的特征向量,用这些特征向量定义新的空间x2x1e第三十一页,讲稿共九十页哦主成分分析(步骤)n从n维向量中的N个数据中,求kN个正交向量(主成分)能用来表示数据归一输入数据:每个属性落在
13、相同的范围内(单元)计算K:正交向量,即,主成分每个输入的数据(矢量)是k个主分量矢量的线性组合通过排序减少“意义”或强度的组成部分由于这些组件的排序方式,消除了弱的元件,即具有低方差(即,使用最强的主成分,也能够重建原始数据的一个很好的近似,可以减少数据的大小)第三十二页,讲稿共九十页哦属性子集选择n通过属性子集选择以减少数据的维n多余的属性复制所有的信息中包含一个或多个其他属性例如,购买一个产品的价格和支付额两个属性相同,是多余的属性n不相关的属性不包含任何信息的属性例如,学生的ID往往在预测学生的GPA是不相关的第三十三页,讲稿共九十页哦启发式搜索属性选择nd的属性有可能是2d属性组合n
14、典型的启发式属性选择方法:Bestsingleattribute属性独立性假设:选择进行检验分步进行的功能选择:分步进行属性消除:n反复淘汰不需要的属性n最佳组合的属性选择和淘汰n优化分支和绑定:使用属性消除和回溯第三十四页,讲稿共九十页哦创建属性(特征生成)n创建新的属性(特征),可以更有效地比原来的数据捕捉重要的信息三个一般方法属性提取ndomain-specific将数据映射到新的空间(见:数据缩减)n例如,傅立叶变换,小波变换,歧管的方法(未覆盖)Attributeconstructionn数据离散化第三十五页,讲稿共九十页哦NumerosityReductionn通过选择更小的数据来
15、替代从而减少数据量n参数方法(例如,回归)假设数据适合一些模型,估计模型参数,只存储参数,并丢弃数据(可能的异常值除外)例如:对数线性模型在一个点在MD的空间作为产品上获得价值,适当的边际子空间n非参数方法不要假设模型主要方法:直方图,聚类,取样,.第三十六页,讲稿共九十页哦参数数据还原:回归和对数线性模型n线性回归:一次函数通常使用最小二乘法来拟合线n多元回归:允许多维特征向量的线性函数建模为变量Yn对数线性模型:近似离散的多维概率分布第三十七页,讲稿共九十页哦回归分析n回归分析:组成的一个因变量(也称为响应变量)和一个或多个独立变量(亦称解释变量或预测变量的值的数值数据建模和分析技术的统称
16、)n参数估计,以便使数据“最适合”n最常用的是通过使用最小二乘法来进行评估,但也被用于其他标准n用于时间序列数据预测等的预测,推断,假设检验,因果关系的建模xy=x+1X1Y1Y1第三十八页,讲稿共九十页哦回归分析和对数线性模型n线性回归:Y=WX+B两个回归系数,w和b,指定行,并且要使用手工的数据估计使用最小二乘准则已知的值,Y1,Y2,.,X1,X2,.n多元回归:Y=b0+b1 X1+b2 X2.。许多非线性函数,可转化为上述n线性模型:多路表的联合概率近似为低阶表概率:p(a,b,c,d)=ab acad bcd第三十九页,讲稿共九十页哦直方图分析n将数据划分为buckets,然后存
17、储buckets的均值n分区规则:等宽:等于buckets范围相等的频率(或等于深度第四十页,讲稿共九十页哦聚类n分区数据基于相似性进行存储,只能设置成集群(例如,质心和直径)n如果数据是集群则非常有效,否则效果较差n可以在多维索引树结构有层次聚类和存储n聚类定义和聚类算法有很多选择n聚类分析在后续将进行深入研究第四十一页,讲稿共九十页哦采样n采样:获得一个小样本代表整个数据Nn主要原则:选择有代表性的数据子集简单随机抽样开发的自适应采样方法,例如分层抽样n注:采样不得减少数据库I/O(第一次)第四十二页,讲稿共九十页哦采样类型n简单随机抽样相等的概率选择n不放回抽样一旦对象被选中,则将其删除
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 讲稿
限制150内