统计数据预处理.ppt
《统计数据预处理.ppt》由会员分享,可在线阅读,更多相关《统计数据预处理.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计数据的预处理数据预处理 把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来,有助于推断统计得出正确分析结论。1:异常数据取舍2:未检出值和/或缺失值估算 采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视。异常数据 单个异常值:是指单个样本观测数据组内隐含的个别异常数据。同义词有:可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值 异常均数:三个以上(k3)样本多均数要作统计分析比较时,无疑也要检查其中是否隐含可疑均数。研究者对7例糖尿病患者给某种药物后,测量其血中胰岛素(/ml,X1)和血糖(mg%,X2)作者采用直线相关分析 结
2、论:血液中胰岛素与血糖两者含量之间无直线相关患者编号1 2 3 4 5 6 7胰岛素(X1)24 17 18 12 15 121 10血 糖(X2)142 170 194 213 214 238 249 剔出第6 对数据前后的Pearson相关系数,前者是0.314,后者是-0.936,显示有相关性!异常数据的判别法 物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除 能用物理判别法判定异常数据有时不
3、易做到,此时只能用统计判别法统计判别法 拉依达准则 肖维勒准则 格拉布斯准则 狄克逊准则 t 检验(罗马诺夫斯基准则)极差法统计判断对异常数据的区分 异常数据有两种情况:1.异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;2.异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3 的数据,出现的概率很小。犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。-去真 犯错误2:不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。-存伪统计判
4、别法之一:拉依达准则 如果实验数据的总体x是服从正态分布的,则 根据上式对于大于+3 或小于-3 的实验数据作为异常数据,予以剔除。剔除后,对余下的各测量值重新计算偏差和标准偏差,并继续审查,直到各个偏差均小于3 为止。无需查表,使用简便对某一长度L 测量10次,其数据如下:试用拉依达准则剔除坏值。解:20.33不 能 用 拉 依 达准则剔除次数1 2 3 4 5 6 7 8 9 10L(cm)10.35 10.38 10.3 10.32 10.35 10.33 10.37 10.31 10.34 20.33对某一长度L 测量10次,其数据如下:试用拉依达准则剔除坏值。解:20.33用 拉 依
5、 达 准 则剔除次数1 2 3 4 5 6 7 8 9 10 11L(cm)10.35 10.38 10.3 10.32 10.35 10.33 10.37 10.31 10.34 20.33 10.37 对于服从正态分布的测量结果,其偏差出现在3 附近的概率已经很小,如果测量次数不多,偏差超过3 几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。另外,仅仅根据少量的测量值来计算,这本身就存在不小的误差。因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1 时,n 必须大于10)统计判别法之二:肖维勒准则 肖维勒准则又称为等概率原则,以正态分布为前提,假设多次重复
6、测量所得n个测量值中,某个测量值的残余误差|vi|=Zc,则剔除此数据。实用中Zc3,所以在一定程度上弥补了3 准则的不足,另外考虑了测量次数的因素,在一定程度上比拉依达准则更合理。Zc 是一个与测量次数相关的系数,可以查表获取。肖维勒准则可用于n10 时粗大误差的判定。Zc 系数表n Zc n Zc n Zc3 1.38 11 2.00 25 2.334 1.54 12 2.03 30 2.395 1.65 13 2.07 40 2.496 1.73 14 2.10 50 2.587 1.80 15 2.13 100 2.808 1.86 16 2.159 1.92 18 2.2010 1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据 预处理
限制150内