非参数统计方法简介讲解优秀PPT.ppt
非参数统计方法简介廖海仁提 纲n统计的稳健性n参数统计vs非参数统计n单总体位置参数的检验n1)中位数的符号检验n2)符号秩和检验n分布的一样性检验:2检验n两总体的比较与检验n多总体的比较与检验统计之都论坛的一个帖子n标题:心理统计求教,方差分析还是T检验呢?n内容:n问题是这样的:对我校4个年级的高校生适应心理进行分析,每个年级得出50组数据,现在要比较不同年级之间适应性的差异性,究竟要用什么检验,用spss这样操作呢?小妹在此求教求真理,感谢各位大哥了!n回答一:n一般与人的行为相关的数据都是偏态的分布,方差分析和t-test就不适用了吧统计的稳健性n指统计的一种性质:当真实模型与理论模型有不大的偏离时,统计方法仍能维持较为良好的性质,至少不致变得太坏。n实际应用中总体的分布的假定的分布常略有偏离;大量的观测数据中常存在部分异样数据。n(1)对总体分布的稳健性n若性能与总体的正态性有较强的依靠关系者,如F检验,其稳健性较差;而与总体均值相关的统计方法,如t检验之类,其稳健性相对较好。n(2)对异样数据的稳健性n典型例子:样本均值估计总体均值,受异样数据影响较大,相对中位数与截断均值更不稳健。n获得对异样数据稳健性的途径:a)设计有效的方法发觉并剔除异样值;b)设计对个别异样数据不敏感的统计方法参数统计 vs 非参数统计n参数统计n假设总体分布函数已知(大多数基于正态假设)或只带有一些未知参数n非参数统计n假如在一个统计问题中,假如其总体分布不能用有限个实数来刻画,只能对它做一些分布连续、有密度、具有某些矩等一般性的假定,则称为非参数统计问题。非参数方法的特点n方法的适用面广而效率可能较低n大样本理论占重要位置n所谓大样本统计方法是指依据统计量的极限性质而得出的统计方法n大样本理论依靠于概率论的极限理论n从数据本身获得信息n具有良好的稳健性基本概念n秩(Rank):n把样本X1,X2,Xn按大小排列为X(1)=X(2)=X(n),若Xi=X(Ri),则称Ri为Xi的秩,n全部n个秩构成秩统计量。秩统计量是非参数统计的一个主要工具。nStatisticalMethodsBasedonRankE.L.LehmannnOrderStatisticsH.A.Davidn中位数(Median)均值(Mean)n优点:(1)有时比数学期望更有代表性;n(2)受少数异样值的影响很小n(3)理论上总是存在n性质:设X有概率密度函数f(x),另h(a)=E|X-a|,当a为X的中位数m时,h(a)达到最小值。n缺点:(1)X1+X2的中位数与X1,X2的中位数缺乏简洁联系,数学上处理困难且不便利n(2)中位数可能不唯一,对于离散型,定义可能不志向n(3)实际计算的困难度远大于均值计算的困难度样本数据分析的一般步骤n数据探查nR:plot,hist,boxplotn分布的检验n运用QQ图nR:qqnorm,qqlinenShapiro-WilkNormalitytest(正态分布检验)(适合小样本N0,i=1,2,3,nn将其转化为二项分布检验:S+binom(n,)nR实现:无干脆函数,自己借用binom.test(s,n,p=0.5,)符号秩和检验n符号检验不足:不考察值的大小,不能检验出偏度特别大的分布(实例中的值明显偏大于6064,却没有检验出来)。n符号秩和检验(又称Wilcoxon符号秩检验)基本思想:考察|xi-M0|的秩,假定总体是连续的,且对其中位数是对称的,则nW+=Ri(+)听从中点为n(n+1)/4的对称分布。n符号秩和检验一般比符号检验更有效(强势)nR:wilcox.test()可用来进行符号秩和检验nwilcox.test(x,y=NULL,alternative=c(two.sided,less,greater),mu=0,paired=FALSE,exact=NULL,correct=TRUE,conf.int=FALSE,conf.level=0.95,.)分布的一样性检验:2检验n用来检验数据分布是否与假设分布是否一样(拟合优度检验)nH0:X具有分布FH1:X不具有分布Fn理论(Pearson定理):若F(x)完全已知,则nK=m(ni-npi)2/npi2(m-1)n其中n=ni,pi是第i个区间的理论概率,m为区间数。n(区间的选择:不宜太大,也不宜太小,每个区间一般至少要有5个数据,总区间数可选5-10个)nR:chisq.testnchisq.test(x,y=NULL,correct=TRUE,p=rep(1/length(x),length(x),rescale.p=FALSE,simulate.p.value=FALSE,B=2000)r x c 列联表n一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,Ar;B有个等级B1,B2,Bc,从总体中抽取大小为n的样本设其中有nij个属于等级Ai和Bj,nij称为频数,将r个nij(i=1,2,r;j=1,2,)排列为一个r行列的二维列联表(表2),简称r 表。两总体独立性的2检验n统计量n的渐近分布是自由度为(r1)(1)的2分布,式中Eijninj/n称为期望频数。n假设:nH0(零假设):对随意的i,j,事务“一个观测值在行i”与事务”同样的观测在列j”是独立性。nH1(备择假设):行与列不独立nR:wilcox.testFisher精确检验n2检验只允许20%以下的个子的期望频数小于5,假如不满足此条件,则应当运用Fisher精确检验n基本思想:固定各边缘和的条件下,依据超几何分布,可以计算观测频数出现任一种特定排列的条件概率。把实际出现的观测频数排列以及比它呈现更多关联迹象的全部可能排列的条件概率算出来并相加,若所得结果小于给定的显著水平,则判定所考虑的两个属性存在关联,从而拒绝H0。nfisher.test(x,y=NULL,workspace=200000,hybrid=FALSE,control=list(),or=1,alternative=two.sided,conf.int=TRUE,conf.level=0.95,simulate.p.value=FALSE,B=2000)两样本Wilcoxon秩和检验n在正态总体的假定下,两样本的均值检验通常运用t检验,但t检验并不稳健n基本思想:将样本X1,X2,Xm和Y1,Y2,Yn混合起来,并把N=(m+n)个观测值从小到大排列起来每一个视察在混合排列中都有自己的秩。计算X与Y样本的秩和Wx与Wy.n假设检验(检验两样本中值是否相等):H0:Mx=MyH1:MxMynR:wilcox.test两样本尺度参数的Mood检验n两独立样本方差之比的F检验对于总体非正态或数据有严峻污染时不确定适用。n设两连续总体X与Y独立,样本X1,X2,XmF(x-1/1)nY1,Y2,YmF(x-2/2),而且F(0)=1/2,1=2(若不相等,可以通过平移来使它们相等)n假设检验:H0:1=2H1:12n构造统计量:记R11,R12,R1m为X的视察值在混合样本中的秩,M=m(R1i-(N+1)/2)2nR:mood.test(x,y,alternative=c(two.sided,less,greater),.)n留意:做检验时必需保证两样本中值相等!两样本尺度参数的Ansari-Bradley检验n检验两样本方差是否相等(相当于F检验)nR:ansari.test(x,y,alternative=c(two.sided,less,greater),exact=NULL,conf.int=FALSE,conf.level=0.95,.)多样本位置参数的Kruskal-Wallis秩和检验n基本思想:将k个样本混合起来,算出全部数据在混合样本中的秩,对每一个样本的视察值的秩求和后得到它们在每组中的平均值Ri。假如这些值很不一样,就可以怀疑原假设。nR:kruskal.test(x,g,.)多样本尺度参数的Fligner-Killeen检验n多样本方差相同的检验nR:fligner.test(x,g,.)Thanks!