《第二章非参数统计分析(研究)课件.ppt》由会员分享,可在线阅读,更多相关《第二章非参数统计分析(研究)课件.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章单样本非参数检验2.1 2.1 符号检验和分位数推断符号检验和分位数推断2.2 2.2 Cox-StuartCox-Stuart趋势检验趋势检验 2.3 2.3 游程检验游程检验2.4 2.4 WilcoxonWilcoxon符号秩检验符号秩检验2.5 2.5 正态记分检验正态记分检验2.6 2.6 分布的一致性检验分布的一致性检验2.7 2.7 相对效率比较相对效率比较2.1符号检验符号检验的统计量为 符号检验符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题检验的统计量可以取 在原假设为真的条件下,有服从参数为n和的二项
2、分布b(n,0.5)。由于原假设为时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。对于显著性,求c1和c2,有拒绝区域为:精确的符号检验是指检验的p值是有精确的概率给出的。我我们们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99)。2.1.1.精确中位数的符号检验精确中位数的符号检验66757880818182838383838485858686868687878888888888898989899090919191919293939696
3、969799100101102103103104104104105106109109110110110111113115116117118155192这个总体的中间水平是多少?北京使在该水平之上还是之下?(北京为99)通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于M的的概率应该与取小于M的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。成功:X-M大于零,即大于中位数M,记为“+”;失败:X-M
4、小于零,即小于中位数M,记为“-”。令 S+=得正符号的数目S=得负符号得数目可以知道S+或S 均服从二项分布B(65,0.5)。则和可以用来作检验的统计量。其假设为:对于左左侧侧检检验验,当零假设为真的下,应该不大不小。当过小,即只有少数的观测值大于假定值,则可能假 定 值 太 大,目 前 总 体 真 实 中 位 数 可 能 要 小 一 些。如 果 ,则拒绝原假设。对于右侧检验右侧检验,当零假设为真的下,应该不大不小。当过大,即有多数的观测值大于,则可能假定值太小,目前总体的真实中位数可能要大一些。如果,则拒绝原假设。检验统计量S+=23S+=23P-值=0.01242=0.0248检验的结
5、果拒绝零假设拒绝零假设结论中位数小于99中位数不等于992.大样本的情形 当样本容量足够大,我们可以利用二项分布的近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为 当Bn/2,-0.5。这个加或减一个常数的原因是使得其估计出的p值更接近近似值。举例如下。假设x服从b(20,0.7),用二项分布和其正态近似求其x大于12的概率比较其结果。精确概率近似概率1近似概率22.2 Cox-Stuart2.2 Cox-Stuart趋势检验趋势检验 人们经常要看某项发展的趋势但是从图表上很难看出是递增,递减,还是大致持平请看下
6、面例子我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)149.0 119.7 37.7 77.5 66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2 从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验三种假设:怎么进行这些检验呢?可以把每一个观察值和相隔大约n2的另一个观察值配对比较;因此大约有n2个对子然后看增长的对子和减少的对子各有多少来判断总的趋势具体做法为取 和 。这里 在
7、这个例子中n=12,因而c6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)该检验在某种意义上是符号检验的一个特例 类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)在本例
8、中,这6个数据对的符号为 5负1正,所以我们不能拒绝原假设。假设统计量 P值K=min(S+,S-)P(Kk)K=min(S+,S-)P(Kk)K=min(S+,S-)2P(Kk)游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中出现次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的,模型的随机干扰项是否是白噪声等都可以通过游程检验来确定。2.3 游程检验 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般情
9、况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现有瑕疵的产品是成群出现随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择假设组为 H0:序列是随机的序列是随机的 H1:序列不是随机的序列不是随机的如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为 H0:序列是随机的序列是随机的
10、H1:序列具有混合的倾向序列具有混合的倾向H0:序列是随机的序列是随机的 H1:序列具有成群的倾向序列具有成群的倾向游程:连续出现的具有相同特征的样本点为一个游程。游程:连续出现的具有相同特征的样本点为一个游程。检验统计量。在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。选择的检验统计量为R游程的总数目游程R的分布为:可以做如下的考虑:先在m+n个抽屉里随机
11、选择m个,抽出的抽屉里放入“1”,没有的放入“0”,所有可能基本的基本事件数为:有种。或先在m+n个抽屉里随机选择n个,抽出的抽屉里放入“0”,没有的放入“1”,所有可能基本的基本事件数为:有种。1、必定有k+1个“1”构成的游程和k个“0”构成的游程;2、或必定有k+1个“0”构成的游程和k个“1”构成的游程。如果游程数为奇数R=2K1,这意味着:这就必须在m1个位置中插入K个“隔离元”,使有“1”有k+1个游程,可以有种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有种。共有有利基本事件数。在第二种情形下,有故:同理备择假设P值序列具有混合的倾向右尾概率序列具有聚类的倾
12、向左尾概率序列是非随机的较小的左尾概率的两倍 n1是0的个数,n2是1的个数。质量检查人员对某车间生产的螺栓进行抽样检查,依次检查了50个。以“0”代表不合格,“1”代表合格。检查结果如下:1111110111011111111101011110111111111110111101110.问不合格品的分布是否是随机的?a=0.05。在实际问题中,不一定都遇到只有0或1的二元数据。但可以转化为二元数据。工厂全面质量管理中,按规定其中位数为9.865生产出的20个生产工件的某一尺寸按顺序为,问尺寸的变化是随机的吗?12.279.9210.8111.7911.871111110.9011.2210.
13、8010.339.30111109.818.859.328.679.32000009.539.588.947.8910.7700001NEXT例如,在我国的工业和商业企业随机抽出22家进行资产负债率行业间的差异比较。有如下资料:这两个行业的负债水平是否相等。首先,设“1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:1111121111222111222222工业64 76 55 82 59 82 70 75 61 64 73 83商业77 80 80 65 93 91 84 91 84 86 86人工模拟的白噪声序列的游程检验人工模拟的随机游走序列的游程检验人工模拟的ar(1
14、)序列的游程检验上上证证指数指数xtLn(xt)Ln(xt-1)收益率收益率919.446.82.899.616.806.82-.021803876.506.786.80-.026025898.176.806.78.024423896.416.806.80-.001961906.986.816.80.011723918.406.826.81.012513929.526.836.82.012035907.856.816.83-.023589916.726.826.81.009723915.016.826.82-.001867942.446.856.83.014245收益率是随机序列收益率是随机序
15、列2.4单样本的Wilcoxon符号秩检验Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设:检验的步骤检验的步骤:1.计算 ,它们代表这些样本点到 的距离;2.把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4);4.双边检验,在零假设下,和应差不多因而,当其中之一非常小时,应怀疑零假设;取检验统计量T=min(,);关于非参数统计分析,对统计量选择的说明:关于非参数统计分析,对统计量选择的说明:对于左侧检验,统计量值很小时,拒绝原假设。如果左对于左侧检验,统计量值很小时,拒绝原
16、假设。如果左侧检验的备择假设被接受,侧检验的备择假设被接受,T-大大,而而T小,故取小,故取T为统计量为统计量。对于右侧检验,统计量的值很大时,拒绝原假设。如果对于右侧检验,统计量的值很大时,拒绝原假设。如果右侧检验的备择假设被接受,右侧检验的备择假设被接受,T 大大,而而T-小,故取小,故取T-为统为统计量计量 5.根据得到的T值,查Wilcoxon符号秩检验的分布表以得到在零假设下P值如果n很大要用正态近似:得到一个与T有关的正态随机变量Z的值,再查表得P值或直接用计算机得到P值。Wilcoxon符号秩检验表符号秩检验表假设检验的统计量P值检验统计量Z=-2.5725Z=-2.5725P-
17、值=0.0052=0.01检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于99 打打结结的的情情况况在许多情况下,数据中有相同的数字,称为结(tie)结中数字的秩为它们按升幂排列后位置的平均值比如2.5,3.1,3.1,6.3,10.4这五个数的秩为1,2.5,2.5,4,5。也就是说,处于第二和第三位置的两个3.1得到秩(2十3)22.5这样的秩称为中间秩。如果结多了,零分布的大样本公式就不准了。因此,在公式中往往要作修正。其中用i表示第i个结的性同观测值的个数。用g表示结的个数。观测值观测值2 22 24 47 7 77 7 78 89 9 9 99 9 9 91010秩秩1.
18、5 1.51.5 1.53 35 5 55 5 57 79.5 9.5 9.5 9.59.5 9.5 9.5 9.51212结统计结统计量量i i2 23 34 42.5正态得分检验 (一)思想 在各种各样的秩检验中,检验的统计量为秩的函数,而秩本身在没有结时是有限个自然数的排列,它的分布是均匀分布。人们自然会用其他分布的样本。自然我们会想到正态分布。正态记分检验的基本思想就是把升幂排列的秩Ri用升幂排列的正态分位点来替代。我们在Wilcoxon符号检验的基础上,建立线性符号秩统计量在Wilcoxon符号检验的基础上,建立线性符号秩统计量 正态记分检验的基本思想就是:把升幂排列的秩用升幂排列的
19、正态分位点来替代。首先将按升幂排列,记秩为例如Wilcoxon统计量为统计量为Wilcoxon记分函数记分函数1n-1n累积概率1/(n+1)(n-1)/(n+1)n/(n+1)正态记分记分函数函数正态积分检验的统计量为:(二)检验 检验的假设为:则检验的统计量为例、下面的数据是亚洲10个国家的新生儿死亡率()33363115964657788秩符号秩平方3311 0.090909-1.33518-1.335181.7827013622 0.181818-0.90846-0.908460.8252953133 0.272727-0.60459-0.604590.36552315194 0.363636-0.34876-0.348760.1216319255 0.454545-0.11419-0.114190.0130386286 0.5454550.1141850.1141850.0130384307 0.6363640.3487560.3487560.12163165318 0.7272730.6045850.6045850.36552377439 0.8181820.9084580.9084580.825295885410 0.9090911.3351781.3351781.782701合计6.216376接受原假设。接受原假设。
限制150内