E计与数据处理3-第一章第五节和第二章.ppt
《E计与数据处理3-第一章第五节和第二章.ppt》由会员分享,可在线阅读,更多相关《E计与数据处理3-第一章第五节和第二章.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五节第五节 异常数据的处理异常数据的处理物理判别剔除法物理判别剔除法人们在实验过程中根人们在实验过程中根据常识或经验判断;据常识或经验判断;统计判别剔除法统计判别剔除法根据概率的原理确定根据概率的原理确定一个置信限,凡超出这个置信限的误差即一个置信限,凡超出这个置信限的误差即不属于随机误差,可判别为异常数据不属于随机误差,可判别为异常数据。常用的异常数据剔除方法常用的异常数据剔除方法1、拉衣达拉衣达(pata)准则准则2、肖维勒肖维勒(Chauvenl)准则准则3、狄克逊狄克逊(Dixon)准则准则4、格拉布斯格拉布斯(Grubbs)准则准则1、拉衣达拉衣达(pata)准则准则 只要某数据的
2、离差绝对值满足上式,就只要某数据的离差绝对值满足上式,就可以认为此数据是异常数据,应当剔除。可以认为此数据是异常数据,应当剔除。适用条件:适用条件:实验数据的总体属于正态分布;实验数据的总体属于正态分布;适用于大样本适用于大样本原理:原理:、分别代表正态总体的平均值和分别代表正态总体的平均值和标准差,标准差,3称为极限误差。称为极限误差。由公式可见实验数据中出现大于由公式可见实验数据中出现大于3或小于或小于3的数据点的概率很小。的数据点的概率很小。2 2、肖维勒(、肖维勒(ChauvenlChauvenl)准则)准则 只要某数据的离差绝对值满足上式,只要某数据的离差绝对值满足上式,就可以认为此
3、数据是异常数据,应当剔就可以认为此数据是异常数据,应当剔 除。除。适用条件:适用条件:适用于小样本适用于小样本nWnnWnnWnnWn31.38101.96172.17242.3141.53112.00182.20252.3351.65122.03192.22302.3961.73132.07202.24502.4971.80142.10212.26752.5881.86152.13222.281002.7191.92162.15232.302002.80Wn值表值表3 3、狄克逊(、狄克逊(DixonDixon)准则)准则 将将数数据据按按照照从从小小到到大大的的顺顺序序依依次次排排列列,若
4、若怀怀疑疑两两个个极极端端值值 x1或或xn时时,用用 P35页页 的的 表表 29中中的的公公式式计计算算 r值值,一一般般取取置置信信度度为为 95,查查出出 r临临界界值值,当当 r计计算算值值大大于于r临临界界值值时时,则则认认为为该该值值应应予予剔剔除除,否否则,应予保留。则,应予保留。4 4、格拉布斯(、格拉布斯(GrubbsGrubbs)准则)准则 将数据按照从小到大的顺序依次排列,将数据按照从小到大的顺序依次排列,若某一数据的离差的绝对值符合:若某一数据的离差的绝对值符合:时时,则则认认为为该该值值为为异异常常数数据据,应应予予剔剔除除,否否 则则,应应 予予 保保 留留。临临
5、 界界 值值 T(n,)在在 P37页的表页的表210查取。查取。注意:注意:1、格格拉拉布布斯斯(Grubbs)准准则则的的检检出出率率最最高高,效效果果最最好好,因因此此,若若同同一一资资料料用用两两种种方方法法 检检 验验 结结 果果 不不 同同 时时,一一 般般 以以 格格 拉拉 布布 斯斯 (Grubbs)准准则则为为准准。若若资资料料太太多多,n值值 极极大大时时,可可采采用用狄狄克克逊逊(Dixon)准准则则,以以 减少工作量。减少工作量。2、舍弃一个数值时,应三思而后行。即使所舍、舍弃一个数值时,应三思而后行。即使所舍 弃的数值确属异常值,也应追查其出现的原弃的数值确属异常值,
6、也应追查其出现的原 因。因。例题:例题:一组数据一组数据32个:个:1.355,1.368,1.340,1.040,1.290,1.362,1.356,1.412,1.355,1.365,1.348,1.358,1.311,1.354,1.376,1.407,1.352,1.344,1.358,1.322,1.296,1.354,1.354,1.402,1.356,1.323,1.345,1.307,1.292,1.343,1.358,1.387判定数据中的异常数据判定数据中的异常数据第二章第二章 理论分布与抽样分布理论分布与抽样分布第一节第一节 理论分布理论分布一、随机变量一、随机变量1、随
7、随机机变变量量的的定定义义 设设随随机机实实验验 E的的样样本本 空空间间为为,如如果果对对于于每每一一个个可可能能的的实实验验结结 果果,都都存存在在唯唯一一的的实实数数值值()与与 之之 对对 应应,则则 称称()为为一一个个一一维维随随机机变变 量,简记为量,简记为。取有限个或者可数个值的随机变量称取有限个或者可数个值的随机变量称 为为离散型随机变量离散型随机变量,其余的统称为,其余的统称为非离散非离散 型随机变量型随机变量,在非离散型随机变量中,有,在非离散型随机变量中,有 一类最重要的也是实际工作中经常遇到的一类最重要的也是实际工作中经常遇到的 随机变量,即随机变量,即连续型随机变量
8、连续型随机变量。2、设、设是随机变量,是随机变量,x是任意实数,函数是任意实数,函数 F(x)=P(x)(x),称为,称为 的的分布函数分布函数。如果把如果把看成是数轴上随机点的看成是数轴上随机点的 坐标,那么坐标,那么分布函数分布函数F(x)在在x处的函数处的函数 值就表示点值就表示点落入区间落入区间(,x)内的内的 概率。概率。二、随机变量的数字特征二、随机变量的数字特征(一)随机变量的数学期望(一)随机变量的数学期望1、离离 散散 型型 随随 机机 变变 量量 的的 数数 学学 期期 望望:定定义义:设设离离散散型型随随机机变变量量的的概概率率分分布布 为为:P(=xi)=pi(i=0,
9、1,n,),若若级级数数 绝绝对对收收敛敛,则则 称称E()=(i=0,1,n)为为 随机变量随机变量的的数学期望数学期望,简称,简称期望期望。2、连续型随机变量的数学期望:、连续型随机变量的数学期望:定义:定义:设连续型随机变量设连续型随机变量的概率密的概率密度为度为p(x),若积分,若积分 绝对收绝对收敛,则称敛,则称E()=为随机变为随机变量量的的数学期望数学期望,简称,简称期望期望或或均值均值。3、数学期望的性质、数学期望的性质:性质性质1:E(C)=C;性质性质2:E(k)=kE();性质性质3:E(1+2)=E(1)+E(2);性质性质4:若若1与与2相互独立,则相互独立,则 E(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 第一章 五节 第二
限制150内