第二章非参数统计分析(研究)课件.ppt
《第二章非参数统计分析(研究)课件.ppt》由会员分享,可在线阅读,更多相关《第二章非参数统计分析(研究)课件.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章单样本非参数检验2.1 2.1 符号检验和分位数推断符号检验和分位数推断2.2 2.2 Cox-StuartCox-Stuart趋势检验趋势检验 2.3 2.3 游程检验游程检验2.4 2.4 WilcoxonWilcoxon符号秩检验符号秩检验2.5 2.5 正态记分检验正态记分检验2.6 2.6 相对效率比较相对效率比较2.1符号检验符号检验的统计量为 符号检验符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题检验的统计量可以取 在原假设为真的条件下,有服从参数为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B
2、应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。对于显著性,求c1和c2,有拒绝区域为:精确的符号检验是指检验的p值是由精确的概率给出的。我我们们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。【例】联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99)。2.1.1.精确中位数的符号检验精确中位数的符号检验6675788081818283838383848585868686868787888888888889898989909091919191929393969696979910010110210
3、3103104104104105106109109110110110111113115116117118155192这个总体的中间水平是多少?北京使在该水平之上还是之下?(北京为99)通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于M的的概率应该与取小于M的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中
4、位数M,记为“-”。令 S+=得正符号的数目S=得负符号得数目可以知道S+或S 均服从二项分布B(65,0.5)。则可以用来作检验的统计量。其假设为:关于非参数检验统计量需要说明的问题在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S+S-=N。那么我们在检验时应该用那个呢?对于左左侧侧检检验验,当零假设为真的下,S+应该不大不小。当过小,即只有少数的观测值大于假定值,则可能假 定 值 太 大,目 前 总 体 真 实 中 位 数 可 能 要 小 一 些。如 果 ,则拒绝原假设。所以我们选择统计量对于右侧检验右侧检验,当零假设为真的
5、下,S+应该不大不小。当过大,即有多数的观测值大于假定值,则可能假定值太小,目前总体的真实中位数可能要大一些。如果,则拒绝原假设。我们选择统计量对于双侧检验双侧检验,当零假设为真的下,S+应该不大不小。当其中之一很小,即有观测值大于或小于假定值,假定值或太小或太大。如果,则拒绝原假设。我们选择统计量检验统计量S+=23S+=23P-值=0.01242=0.0248检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于992.1.2.大样本的情形 当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差
6、为0.25n。则检验的统计量为 当Bn/2,-0.5。这个加或减一个常数的原因是使得其估计出的p值更接近近似值。举例如下。假设x服从b(20,0.7),用二项分布和其正态近似求x小于12的概率比较其结果。精确概率近似概率计算一:近似概率计算二:2.1.3置信区间1.小样本的置信区间中位数M的点估计是样本的中位数,因而用顺序统计量来构造中位数的置信区间是很自然的。对于固定的n,前面的符号检验表示,大于或小于中位数M的样本点的个数服从二项分布b(n,0.5),置信度为1-的可以满足注意到,我们现在关键是确定Xi-1和Xj+1的位置。根据上面的公式,可以知道区间作为中位数M的置信区间其置信度为只要n
7、7,则置信度大于99,然而这并非是最好的,区间估计中有两个需要考虑的问题:一个是精度,另一个是置信度。这个估计虽然置信度十分高,但是精度很低。注意到,任取i和j,下面选择最优的区间,即置信度足够大,区间足够小。例表是16名学生的体能测试的成绩82,53,70,73,103,71,69,80,54,38,87,91,62,75,65,77求其95的置信区间。将这16个数按顺序排列,得到16个顺序统计量,两两搭配可以有120个区间,留下大于0.95的区间如下:下限下限序号序号上限上限序号序号区间区间区间长区间长置信度置信度11138,77390.96157836911238,80420.98934
8、936511338,82440.99789428711438,87490.99972534211538,90520.99996948211638,103650.99998474121153,77240.96133422921253,80270.98910522521353,82290.99765014621453,87340.99948120121553,90370.99972534221653,103500.999740601下限下限序号序号上限上限序号序号区区间间区区间长间长置信度置信度31154,77230.95950317431254,80260.9872741731354,82280
9、.99581909231454,87230.99765014631554,90360.99789428731654,103490.99790954641162,77150.95095825241262,80180.97872924841362,82200.9872741741462,87250.98910522541562,90280.98934936541662,103410.98936462451265,80150.95095825251365,82170.95950317451465,87220.96133422951565,90250.96157836951665,103380.961
10、593628精确度较优的区间为62,770.95095825265,800.95095825265,820.959503174综合起来看,65,80(0.950958252)更合理。更合理。2.大样本下的置信区间因为在样本容量足够大的场合。二项分布近似正态分布,则置信区间为一个对称区间,假设区间为是第k个顺序统计量。置信度为95。2.2 Cox-Stuart2.2 Cox-Stuart趋势检验趋势检验 人们经常要看某项发展的趋势但是从图表上很难看出是递增,递减,还是大致持平例我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)149.0 119.7 37.7 77
11、.5 66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2 从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验三种假设:怎么进行这些检验呢?可以把每一个观察值和相隔大约n2的另一个观察值配对比较;因此大约有n2个对子然后看增长的对子和减少的对子各有多少来判断总的趋势具体做法为取 和 。这里 在这个例子中n=12,因而c6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),
12、(x6,x12)用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)该检验在某种意义上是符号检验的一个特例 类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)在本例中,这6个数据对的符号为 5负1正,所以我们不能拒绝原假设。假设统计量 P值K=min(S+,S-)P(Kk)K=min(S+
13、,S-)P(Kk)K=min(S+,S-)2P(Kk)游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中出现次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的,模型的随机干扰项是否是白噪声等都可以通过游程检验来确定。2.3 游程检验 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样
14、本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现有瑕疵的产品是成群出现随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择假设组为 H0:序列是随机的序列是随机的 H1:序列不是随机的(双侧检验)序列不是随机的(双侧检验)如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为 H0:序列是随机的序列是随机的 H1:序列具有混合的倾向(右侧检验)序列具有混合的倾向(右侧检验)H0:序列是随机的序列是随机的 H1
15、:序列具有成群的倾向(左侧检验)序列具有成群的倾向(左侧检验)游程:连续出现的具有相同特征的样本点为一个游程。游程:连续出现的具有相同特征的样本点为一个游程。检验统计量。在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。选择的检验统计量为R游程的总数目游程R的分布为:可以做如下的考虑:先在m+n个抽屉里随机选择m个,抽出的抽屉里放入“1”,没有的放入“0”,所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 参数 统计分析 研究 课件
限制150内