非参数第三章优秀PPT.ppt
非参数第三章第一页,本课件共有37页 可以假定这个样本是从世界许多大城市中随机抽样可以假定这个样本是从世界许多大城市中随机抽样得到的,所有大城市的指数组成了总体得到的,所有大城市的指数组成了总体.有人说有人说64应应该是这种大城市花费指数的中位数(该是这种大城市花费指数的中位数(median);而另而另外有人说,外有人说,64顶多是下四分位数(顶多是下四分位数(first quantile).这里看上去有两个关于位置参数的不同检验问题这里看上去有两个关于位置参数的不同检验问题.(1)样本中位数)样本中位数M是否大于是否大于64.(2)样本下四分位点)样本下四分位点Q0.25是否小于是否小于64.由于中位数也是分位点(由于中位数也是分位点(0.5分位点)分位点).这两个问题实际这两个问题实际上是一个问题,即关于分位点的检验问题上是一个问题,即关于分位点的检验问题.当然也出现当然也出现了求了求 分位点分位点 的的 置信区间问题置信区间问题.第二页,本课件共有37页第三页,本课件共有37页3.1.1 广义符号检验:对分位点进行的检验广义符号检验:对分位点进行的检验所谓的广义符号检验是对连续变量所谓的广义符号检验是对连续变量 分位点分位点 进行进行的检验;而狭义的符号检验则是仅针对中位数的检验;而狭义的符号检验则是仅针对中位数 进行的检验进行的检验.假定检验的零假设是假定检验的零假设是 ,而备择假设则可能为而备择假设则可能为记样本中记样本中小于小于 的点数为的点数为 ,而大于,而大于 的点数为的点数为并且用小写的并且用小写的 和和 分别代表分别代表 和和 的实现值的实现值.记记 第四页,本课件共有37页在零假设在零假设 下,下,应该服从二项分布应该服从二项分布 对对 的检验,下面变量的检验,下面变量K 的分布为的分布为 ,为样本为样本 分位点分位点备择假设备择假设值值使检验有意义的条件使检验有意义的条件第五页,本课件共有37页而对于而对于 的特例,这时的特例,这时 为中位数,通为中位数,通常记为常记为M,则有下面的表,则有下面的表.对对 的检验,变量的检验,变量 的分布为的分布为备择假设 值第六页,本课件共有37页例例3.1(续)下面讨论例(续)下面讨论例3.1的样本下四分位点的样本下四分位点 是否是否小于小于64的检验的检验.则检验问题是则检验问题是第七页,本课件共有37页再看关于再看关于64是否为中位数的检验,是否为中位数的检验,大样本正态近似大样本正态近似第八页,本课件共有37页3.1.2 基于符号检验的中位数及分位点的置信区间基于符号检验的中位数及分位点的置信区间中位数中位数 的对称置信区间的对称置信区间.首先我们考虑关于中位数首先我们考虑关于中位数 的基于符号检验的的基于符号检验的 置信区间置信区间.它定义它定义为:为:对于显著性水平为对于显著性水平为 的中位数的双边符号检验的中位数的双边符号检验,不会使不会使 被拒绝的那些零假设点被拒绝的那些零假设点 的集合的集合.第九页,本课件共有37页例例3.2(数据:(数据:tax.txt)下面是随机抽取的)下面是随机抽取的22个企业的个企业的纳税额纳税额.数据已经按照升幂排列数据已经按照升幂排列.1.00 1.35 1.99 2.05 2.06 2.10 2.30 2.61 2.86 2.95 2.98 3.23 3.73 4.03 4.82 5.24 6.10 6.64 6.81 6.86 7.11 9.00实际置信度实际置信度置信区间置信区间0.9999995(1,9)0.999989(1.35,7.11)0.9998789(1.99,6.86)0.9991446(2.05,6.81)0.9830995(2.10,6.10)0.9475212(2.30,5.24)第十页,本课件共有37页 3.2 Wilcoxon符号秩检验,点估计和区间估计符号秩检验,点估计和区间估计Wilcoxon符号秩检验:把观测值和零假设的中心位置符号秩检验:把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检之差的绝对值的秩分别按照不同的符号相加作为其检验统计量验统计量.注意注意,该检验需要假定样本点,该检验需要假定样本点 来来自连续对称总体分布自连续对称总体分布.例例3.3 (数据:(数据:EuroAlc.txt)下面是)下面是10个欧洲城个欧洲城镇每人每年平均消费的酒类相当于纯酒精数(单位:镇每人每年平均消费的酒类相当于纯酒精数(单位:升),数据已经按照升幂排列升),数据已经按照升幂排列.4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45 检验问题是:检验问题是:第十一页,本课件共有37页Wilcoxon符号秩检验步骤如下:符号秩检验步骤如下:(1)计算)计算3.88 2.19 0.37 1.74 2.39 3.92 4.32 4.89 5.54 6.45(2)把上面的)把上面的n个绝对值排序,并找出它们的个绝对值排序,并找出它们的n个秩,个秩,如果有相同的样本点,每个点取平均秩如果有相同的样本点,每个点取平均秩.5 3 1 2 4 6 7 8 9 10(3)令)令 等于等于 的的 的秩的和的秩的和.而而 等等于于 的的 的秩的和的秩的和.注意:注意:第十二页,本课件共有37页(4)对双边检验)对双边检验 ,在,在零假设下,零假设下,和和 应该差不多应该差不多.因而,当其中之一因而,当其中之一很小时,应怀疑零假设很小时,应怀疑零假设.取检验统计量取检验统计量 类似的,对类似的,对 的单边检验取的单边检验取对对 的单边检验取的单边检验取 第十三页,本课件共有37页(5)根据得到的)根据得到的W值,利用统计软件或查值,利用统计软件或查Wilcoxon符号符号秩检验的分布表以得到在零假设下的秩检验的分布表以得到在零假设下的p值值.Psignrank(w,10)得到得到p=0.032(6)如果)如果p值较小,则可以拒绝零假设值较小,则可以拒绝零假设.如果如果p值较大值较大则没有充分证据来拒绝零假设,但不意味着接受零假则没有充分证据来拒绝零假设,但不意味着接受零假设设.wilcox.test(x-8,alt=greater)Wilcoxon signed rank testdata:x-8 V=46,p-value=0.03223alternative hypothesis:true location is greater than 0 第十四页,本课件共有37页W+在零假设下的分布在零假设下的分布.秩秩符号的8种组合123-+-+-+-+-+-+-+-+W+0 1 2 3 3 4 5 6概率概率注意注意 W+和和 W-Wilcoxon分布的关系分布的关系第十五页,本课件共有37页3.2.2 基于基于Wilcoxon符号秩检验的点估计和区间估计符号秩检验的点估计和区间估计.首先求每两个数的平均首先求每两个数的平均 (一共有(一共有 个)来扩大样本数目个)来扩大样本数目.这样的平均称为这样的平均称为Walsh平均平均.可可以证明前面的统计量以证明前面的统计量 W+等于大于零的等于大于零的Walsh平均的个数平均的个数.即即 如果考虑移位如果考虑移位 ,即,即 ,同样可以用,同样可以用第十六页,本课件共有37页 对称中心对称中心 可由可由Walsh平均的中位数来估计,称为平均的中位数来估计,称为Hodge-Lehmann估计量:估计量:利用利用Walsh平均还可以得到平均还可以得到 的置信区间,先按照升幂排的置信区间,先按照升幂排列列Walsh平均,记为平均,记为 ,则,则 的的 置信区间为置信区间为这里整数这里整数k由由 来决定来决定.第十七页,本课件共有37页在大样本时,用类似于在大样本时,用类似于Wilcoxon检验的近似得到检验的近似得到例例3.3欧洲酒精人均消费的例子欧洲酒精人均消费的例子.Walsh平均有平均有55个值(按照升个值(按照升幂排列)幂排列)4.120 4.965 5.810 5.875 6.720 6.930 7.255 7.630 7.775 8.020 8.100 8.220 8.505 8.685 8.830 8.865 9.010 9.065 9.285 9.350 9.675 9.740 9.775 9.975 10.065 10.130 10.260 10.390 10.585 10.830 11.030 11.040 11.155 11.315 11.355 11.640 11.640 11.920 11.965 12.095 12.120 12.320 12.405 12.420 12.605 12.730 12.890 12.930 13.185 13.215 13.385 13.540 13.670 13.995 14.450第十八页,本课件共有37页3.3 正态记分检验正态记分检验考虑线性秩统计量考虑线性秩统计量 ,要,要按照正态分布来定义记分函数,为了使按照正态分布来定义记分函数,为了使 ,不,不用用 作为这里的记分,而稍微改变一下记分函作为这里的记分,而稍微改变一下记分函数使其为数使其为经过相应的替换后经过相应的替换后第十九页,本课件共有37页把把 标准化,就得到这里的对单样本位置的所谓正态记分标准化,就得到这里的对单样本位置的所谓正态记分检验统计量检验统计量如果观测值的总体分布接近于正态,或者在大样本情况下,如果观测值的总体分布接近于正态,或者在大样本情况下,可以认为可以认为T近似的有标准正态分布近似的有标准正态分布.实际上,对于很小的样本实际上,对于很小的样本也适用也适用.如果记如果记 ,则有,则有 大约等于大约等于 ,也就是说,它和期望正态记分相近,也就是说,它和期望正态记分相近.第二十页,本课件共有37页4.125.187.639.7410.3911.9212.3212.8913.5414.453.882.190.371.742.393.924.324.985.546.4553124678910-0.6045-0.3487-0.11410.22980.47270.74780.90841.09681.33511.69064.125.187.639.7410.3911.9212.3212.8913.5414.458.386.694.872.762.110.580.180.391.041.9510987631245-1.6906-1.3351-1.0968-0.9084-0.7478-0.3487-0.11410.22980.47270.6045Sn=5.41406,T=1.9135,p=0.02783Sn=-4.9346 T=-1.74409 p=0.0405结论结论:拒绝零假设拒绝零假设结论:拒绝零假设结论:拒绝零假设例例3.3 的正态记分检验的正态记分检验第二十一页,本课件共有37页正态记分(正态记分(NS+)相对于)相对于Wilcoxon符号秩检验(符号秩检验(W+)对)对于不同总体分布的于不同总体分布的ARE总体分布总体分布均匀均匀 正态正态 Logistic 重指数重指数 CauchyARE(NS+,W+)+1.047 0.955 0.847 0.708第二十二页,本课件共有37页3.4 Cox-Stuart趋势检验趋势检验例例3.4(数据:(数据:TJAir.txt)天津机场从)天津机场从1995年年1月到月到2003年年12月的月的108个月旅客吞吐量(人次)个月旅客吞吐量(人次)54379 45461 55408 59712 60776 57635 63335 71296 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590 58935 58161 64057 63051 58807 63663 57367 70854 79949 66992 80140 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 88268 85183 87909 79976 27687 50178 100878 131788 116293 120770 104958 109603第二十三页,本课件共有37页 plot(x,xlab=Month,ylab=Number of Passenger)lines(x)第二十四页,本课件共有37页主要有三种检验:主要有三种检验:(1)H0:无增长趋势;:无增长趋势;H1:有增长趋势:有增长趋势.(2)H0:无减少趋势;:无减少趋势;H1:有减少趋势:有减少趋势.(3)H0:无趋势;:无趋势;H1:有增长或减少趋势:有增长或减少趋势.形式上,该检验问题可以重新叙述为:假定独立观形式上,该检验问题可以重新叙述为:假定独立观测值测值 分别来自分布为分别来自分布为 的总体,这里的总体,这里 对称于零点对称于零点.上面第一个单边检验为上面第一个单边检验为 ,对,对 (至少一个不等式是严格的)(至少一个不等式是严格的).第二十五页,本课件共有37页可以把每个观测值和相隔大约可以把每个观测值和相隔大约 的另一个观测值的另一个观测值配对比较,因此大约有配对比较,因此大约有 个对子个对子.然后看增长的对子然后看增长的对子和减少的对子各有多少来判断总的趋势和减少的对子各有多少来判断总的趋势.具体做法为,具体做法为,取取 和和 组成一对组成一对 ,这里,这里用每一对的两元素差用每一对的两元素差 的符号来衡量增减的符号来衡量增减.令令 为正的为正的 的数目,而令的数目,而令 为负的为负的 的数目的数目.显然当正号显然当正号太多时,即太多时,即 很大时,有下降趋势很大时,有下降趋势,反之,则有增长趋反之,则有增长趋势势.第二十六页,本课件共有37页类似于符号检验,对于上面类似于符号检验,对于上面1,2,3三种检验,分别取三种检验,分别取检验统计量检验统计量 .这里这里在例在例3.4中,由于中,由于 ,表明可能有增长的,表明可能有增长的趋势,考虑检验:趋势,考虑检验:H0:无增长趋势;:无增长趋势;H1:有增长趋势:有增长趋势.第二十七页,本课件共有37页Cox-Stuart趋势检验的过程总结如下:趋势检验的过程总结如下:零假设:零假设:H0备择假设:备择假设:H1检验统计量检验统计量(K)p值值H0:无增长趋势:无增长趋势H1:有增长趋势有增长趋势H0:无减少趋势:无减少趋势H1:有减少趋势有减少趋势H0:无趋势:无趋势H1:有增长或减有增长或减少趋势少趋势大样本时,用近似的正态统计量大样本时,用近似的正态统计量 作出结论作出结论第二十八页,本课件共有37页关于随机性的游程检验(关于随机性的游程检验(run testrun test)游程检验方法是检验一个取两个值的变量的这两游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的个值的出现是否是随机的.例例1:假定下面是由:假定下面是由0和和1组成的一个这种变量的组成的一个这种变量的样本(数据样本(数据run1.sav):):0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的其中相同的0(或相同的(或相同的1)在一起称为一个游程)在一起称为一个游程(单独的(单独的0或或1也算)也算).这个数据中有这个数据中有4个个0组成的游程和组成的游程和3个个1组成的游程。组成的游程。一共是一共是R=7个游程。其中个游程。其中0的个数为的个数为m=15,而,而1的个数为的个数为n=10.第二十九页,本课件共有37页例例2(数据:(数据:run01.txt)假定我们掷一个硬币,)假定我们掷一个硬币,以概率以概率p出现正面(记为出现正面(记为1),以概率),以概率1-p出现出现反面(记为反面(记为0);这是一个);这是一个Bernoulli试验,如试验,如果这个试验是随机的,则不大可能出现许多果这个试验是随机的,则不大可能出现许多1或或许多许多0连在一起,也不可能连在一起,也不可能0和和1交替出现的太交替出现的太频繁频繁.例如,下面为一例这样的结果例如,下面为一例这样的结果0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 则上面这组数中有则上面这组数中有3个个0游程,游程,2个个1游程,一共游程,一共5个游程个游程.0的总个数为的总个数为m=13,1的总个数的总个数n=10,总的试验次数总的试验次数N=m+n=23.第三十页,本课件共有37页出现出现0和和1的的这样一个过程可以看成是参数的的这样一个过程可以看成是参数为某未知为某未知p的的Bernoulli试验。但在给定了试验。但在给定了m和和n之后,在之后,在0和和1的出现是随机的零假设之下,的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等的条件分布就和这个参数无关了。根据初等概率论,概率论,R的分布可以写成(令的分布可以写成(令N=m+n)第三十一页,本课件共有37页关于随机性的游程检验(关于随机性的游程检验(run testrun test)于是就可以算出在零假设下有关于是就可以算出在零假设下有关R的概率,以的概率,以及进行有关的检验了。利用上面公式可进及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分行精确检验;也可以利用大样本的渐近分布和利用布和利用Monte Carlo方法进行检验。利用上方法进行检验。利用上面数据的结果是面数据的结果是 第三十二页,本课件共有37页关于随机性的游程检验(关于随机性的游程检验(run testrun test)当然,游程检验并不仅仅用于只取两个值的变当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于个值及大于该值的个数(类似于0和和1的个数)的个数)是否随机的问题。看下面例子。是否随机的问题。看下面例子。例例(run2.sav):从某装瓶机出来的从某装瓶机出来的30盒化妆品盒化妆品的重量如下(单位克)的重量如下(单位克)71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9为了看该装瓶机是否工作正常,首先需要验证为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。(零假设为这种个数的出现是随机的)。第三十三页,本课件共有37页关于随机性的游程检验(关于随机性的游程检验(run testrun test)如果把小于中位数的记为如果把小于中位数的记为0 0,否则记为,否则记为1 1,上面数据变成下面的,上面数据变成下面的0 01 1序列序列1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进行这这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这用不着这种变换,计算机会自动处理这个问题的。个问题的。直接利用这个数据,通过直接利用这个数据,通过SPSSSPSS,得到下,得到下面游程检验结果的输出。面游程检验结果的输出。第三十四页,本课件共有37页 source(ns.R)x=read.table(E:/data/EuroAlc.txt)x V11 4.122 5.813 7.634 9.745 10.396 11.927 12.328 12.899 13.5410 14.45 y=x1:10,第三十五页,本课件共有37页 n=length(y)ns(x,8)$p1 0.02783824$T1 1.913559$s 1-0.6045853-0.3487557-0.1141853 0.2298841 0.4727891 0.7478586 0.9084579 1.0968036 1.3351777 1.6906216第三十六页,本课件共有37页ns=function(x,m0)x1=y-m0;r=rank(abs(x1);s=qnorm(0.5*(1+r/(n+1)*sign(x1);tt=sum(s)/sqrt(sum(s2);list(p=pnorm(tt,low=F),T=tt,s=s)第三十七页,本课件共有37页