统计显著性检验问题与思考.pdf
《统计显著性检验问题与思考.pdf》由会员分享,可在线阅读,更多相关《统计显著性检验问题与思考.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1 0 卷第4 期2 0 1 0 年1 2 月南京工程学院学报(社会科学版)J o u r n a lo fN a n j i n gI n s t i t u t eo fT e c h n o l o g y(S o c i a lS c i e n c eE d i t i o n)V 0 1 1 0 N o 4D e c,2 0 1 0文章编号:1 6 7 1 3 7 5 3(2 0 1 0)0 4 0 0 2 7 0 6统计显著性检验:问题与思鲍贵,席雁(南京工业大学英语系,江苏南京,2 1 0 0 0 9)考摘要:统计显著性检验是统计推理中普遍使用的手段。但是,长期以来,对统计显
2、著性检验热情过度,认识上夸大其在研究中的作用,造成该手段被滥用和误用的现象相当普遍,削弱了其本身应有的有效性。在定义统计显著性检验中关于样本与总体等几对基本概念的基础上认为,基于统计显著性和无显著性进行统计推理存在认识误区、重复性谬误以及统计显著性与重要性的混同现象,应使用效应量检验、统计效力检验、置信区间估计或重复性研究等手段弥补统计显著性检验之不足。关键词:统计显著性检验;效应量;置信区间;统计效力中图分类号:0 2 1 2 1统计显著性检验(s t a t i s t i c a ls i g n i f i c a n c et e s t i n g,S S T)又称零假设显著性检验
3、(n u l lh y p o t h e s i ss i g n i f i c a n c et e s t i n g,N H S T)或假设检验(h y p o t h e s i st e s t i n g)。J o h nA r b u t h n o t1 7 1 0 年首次使用零假设显著性检验尝试证明上帝的存在,迄今为止已历时3 0 0年。在此期间,零假设显著性检验一直是科学家们使用的重要工具。2 0 世纪初,F i s h e r、N e y m a n 和P e a r s o n 等现代统计学的开创者论证了如何在各种各样的环境中使用这一工具。F i s h e r 研
4、究方法是判定试验发现是否由于随机或取样误差。F i s h e r 对这一问题的处理方法是检验零假设。N e y m a n P e a r s o n 研究方法对显著性的解释面更宽研究者可以在零假设和备择假设(a h e m a t i v eh y p o t h e s i s)之间做选择,并注意第一类错误(t y p eIe r r o r)和第二类错误(t y p eI Ie r r o r)拉J 猢。在后来的统计学发展中,这两种方法逐渐融合到一起。但是,随着统计显著性检验的广泛使用,对统计显著性检验的滥用和误用也随之出现。不少研究者未能正确理解统计显著性检验,在本不需要该检验的研究
5、中也生搬硬套或赋予该检验以它并不具备的特质,为统计而统计。在很多场合,统计显著性检验不是为了研究本身的需要,而是为了形式的需要,是表面上的迫不得已。N e s t e r 推测,这种“形式”上的需要有以下原因:(1)统计显著性检验似乎很客观、很准确;(2)使用统计软件进行检验,操作起来容易;(3)大家都在使用该检验,“我”也要入流;(4)学生、统计学家和科学家使用这种检验是教育使然;(5)有些期刊的编辑和论文指导教师要求使用统计显著性检验。为形式而形式的统计显著性检验只不过是为研究的所谓科学性披上一件伪装,不仅没有必要,而且还抹杀了统计显著性检验的真正价值J。学者们对误用和滥用统计显著性检验这
6、一现象的批评不仅有利于我们还原该检验的本来面目,为正确使用提供指引,而且还有助于我们去探索更好、更合理的统计分析方法。关于统计显著性检验问题的探讨有一点值得注意:统计学、心理学和社会学等学科中对这一问题开展了激烈的讨论,并提出了一些合理的建议,但在应用语言学领域,统计显著性检验似乎已不是一个问题,而是一个科学的例行程序。对这一问题不开展讨论,不形成正确的认识,不利于研究的开展和深入也必然会给研究的结论打上一个大大的问号。在决定使用统计显著性检验之前,需要了解该检验的使用条件和局限性。针对统计显著性检验结果,要尽说其能事,避免妄加解释,而且有必要采取其他手段弥补统计显著性检验本身之不足。这便是研
7、究者应该采取的科学态度。一、统计显著性检验的本质统计显著性检验是一个系统的程序,用于判定基于样本(s a m p l e)的某项研究的结果是否支持针对总体(p o p u l a t i o n)的某个理论或实践创新4 1 5。这是比较笼统的解释。更为准确的理解是,统计显收稿日期:2 0 1 0 一1 2 0 3。基金项目:教育部人文社会科学研究基金项目(0 9 Y J A Z H 0 4 4);江苏省社会科学基金项日(0 9 Y Y B O I O);江苏省高校哲学社会科学研究基金项目(0 9 S J B 7 4 0 0 0 9);江苏省高校“青蓝【程”中青年学术带头人培养对象 苏教师(2
8、0 1 0)2 7 号。作者简介:鲍贵,博上,教授,研究方向为语言学及应用语言学。E m a i l:b o 蜊2 0 0 8 1 2 6 万方数据南京工程学院学报(社会科学版)2 0 1 0 年1 2 月著性检验指以随机化(包括随机取样和随机分配)为前提、在零假设为真的情况下,根据给定的样本确定出现某个结果的概率的程序 J 秘。该定义涉及以下要素:(1)统计显著性检验结果是概率描述,时常根据概率是否大于或小于某个水平而表现为二元对立;(2)检验的基础是假定零假设为真;(3)随机化(r a n d o m i z a t i o n)是使用显著性检验的基本前提;(4)样本容量是关键因素,因为研
9、究结果的统计显著性取决于它所依据的个案数吲2 9 4 一挪。在最简单的意义上。统计显著性检验用于检验在零假设为真的情况下出现某个结果或更极端结果的概率。显著性检验中要用到4 对基本的概念:样本与总体,零假设与备择假设,显著性水平(水平)与显著性概率(P 值),第一类错误与第二类错误。1 样本与总体统计显著性检验的必要条件(a s s u m p t i o n,又译假设)是样本的随机性。随机性是比较研究结果所参照的取样分布的基础”删。如果样本不是从总体中随机取样,显著性检验也许会夸大结果的精确性,因为它没有考虑到由非随机误差(即样本选择不恰当)引起的估计偏差(b i a s)。当然,统计显著性
10、检验不能用来评价样本对总体的代表性:样本代表性的唯一估计方法是合理选择样本。统计显著性检验只能回答:如果样本代表总体,所获结果的可能性有多大J。2 零假设与备择假设关于统计,有两大类别:一是描述性统计(d e s e r i p t i v es t a t i s t i c s),二是推理统计(i n f e r e n t i a ls t a t i s t i e s)。描述性统计对数据本身进行描述,其目的是概括样本数据本身的特征,主要分析样本数据分布的集中与离散趋势,因而它不需要任何假设。描述性统计的一个主要局限在于它不能提供样本来自的总体的信息,而研究者所关心的往往是总体的特征。
11、基于样本对总体特征进行推断是推理统计的范畴。推理统计利用描述性统计推算概率(p 值),将之向前推进了一步 J。在推理统计中,通常要确立两类假设:零假设与备择假设。零假设又称虚无假设,意为两个或多个总体之间在某个(些)变量上没有差异或在总体中两个或多个变量之间没有关系。如果样本平均数之间有差异或变量之间有关系,那只是由于取样误差(s a m p l i n ge l l O F)或随机误差。取样误差意味着,由于我们不能检查总体中的每个对象,因而我们不能十分确信选取的个体有典型性【_ 7 1。与零假设对立的是备择假设,也称研究假设(r e s e a r c hh y p o t h e s i
12、s)。如果样本平均数差异或变量之间的关系不仅仅是由取样误差引起的,那么在其他变量和实验条件严格控制的情况下研究假设可能成立。3 显著性水平和显著性概率数a 称为显著性水平(s i g n i f i c a n c el e v e l);p 值是显著性概率(s i g n i f i c a n c ep r o b a b i l i t y)。从历史上看,O t 与N e y m a n P e a r s o n 的假设检验理论相关联,P与F i s h e r 的显著性检验理论相联系I S 。o 水平是事先确定的、错误地拒绝零假设所承担的风险。P 值是在零假设为真的情况下,得到本研究
13、之值或更极端之值的概率。S i g n i f i c a n t 一词的常见意思是“有意义的”(m e a n i n g f u l)和“重要的”(i m p o r t a n t),但是在统计学中,s i g n i f i c a n t 常译为“显著性的”或“有显著意义的”,意为“可能为真”、“非随机的”。统计量的显著性仅仅表明你对某个差异或关系的把握性程度。显著性差异可大可小,显著性关系可强可弱。它取决于样本容量的大小等因素。在研究报告中,a 和P 通常是并用的。假定(I t=0 0 5,P=0 0 4,常用的标准表述形式是,在0 0 5 的显著性水平上,零假设被拒绝,或是P=0
14、 0 4 0 0 5。请注意,a 和P 的主要区别在于,O t 是一个固定值,而P值是随机变量的取值,因样本而异。因此,比较两个不同试验的P 值大小,或比较同一个试验中两个变量检验的P 值大小,依此判定一个结果比另一个结果更有显著意义,这是不适当的一J。以独立样本t 检验为例。两项研究的P 值差异只是表明,通过测量可以得出一项研究在某对样本中发现的差异性(P 值小)比另一项研究在另一对样本中发现的差异性(p 值大)更极端。4 第一类错误和第二类错误通常情况下,a 水平就是第一类错误。第一类错误是零假设为真却被错误拒绝的概率。第二类错误(口)是零假设为误却被错误接受的概率或是研究假设为真却被拒绝
15、的概率。如果P 值小于某个事先确定的O t 水平,理论上则拒绝零假设,反之,如果P 值大于某个事先确定的水平,理论上则不拒绝零假设。常用的显著性水平是0 0 5,0 0 1 和0 0 0 1。不同的水平各有优缺点。O t 水平越小,判定显著性的证据就越充分,但是不拒绝错误零假设的风险犯第二类错误的可能性就越大,统计效力(s t a t i s t i c a lp o w e r)就越低。选择O t 水平不可避免地要在第一类错误和第二类错误之间做出权衡。如果犯第一类错误造成的后果不严重,比如在试探性研究中,我们可以将a 水平定得高一些,如0 0 5 或0 1。如果研究样本很小,为了提高统计效力
16、,我们在某万方数据第1 0 卷第4 期鲍贵,等:统计显著性检验:问题与思考些研究中也不妨提高口水平。但是,如果犯第一类错误造成的后果很严重,比如我们要基于某项研究发现决定是否在全国推行某项教学改革,我们则需要将a 水平定得低一些,如0 0 1 或0 0 0 1。二、统计显著性检验的认识误区1 统计显著性与假设判断在统计显著性检验中,我们假定零假设为真,并以之为前提得出出现研究之值或更极端之值的概率(p),再根据概率值的大小对零假设进行反推。如果P 值小于显著性水平(a),我们就有足够的证据拒绝零假设。P 值反映拒绝或不拒绝零假设证据的充分程度。在统计显著性检验中,P 值是反对零假设的归纳性证据
17、(i n d u c t i v ee v i d e n c e)。小的值表示研究发现不可能是随机性的结果,表示有证据拒绝零假设。举例:假设你用一个实验组和一个对照组做一次教改试验,各组人数均为3 0 人。经过一段时间后,你对两个组的成绩进行独立样本检验,得到以下结果:t=2 5,d f:5 8,P=0 0 1 5。如果以a=0 0 5 为统计显著性水平,你是不能得出以下结论的:(1)你证明了零假设(即总体平均数之间没有差异)为误。(2)你证明了备择假设(即总体平均数之间有差异)。(3)你发现了零假设为真的概率是0 0 1 5。(4)你可以推断出备择假设为真的概率为0 9 8 5(1-0 0
18、 1 5)。(1)和(2)的错误在于显著性检验只提供统计量检验的概率信息,不能证明某个假设为真或为误。零假设要么为真,要么不为真。它不是随机的,不存在概率【1 0】1 2。对于研究假设也一样。从本质上讲,显著性检验只是表示在零假设为真的情况下,通过无数次取样某研究证据出现的可能性心m 2 3 6 3,不能给任何假设提供成立的概率,所以(3)和(4)都是错误的。H a i l e r&K r a u s s 认为对显著性检验的误解可能有两个来源:一是统计学教材;二是统计学教师 1 I】3。以上错误实际上是将显著性检验(F i s h e r 范式)与贝叶斯(B a y e s)统计混淆了。在F
19、i s h e r 范式中,D 表示当前数据或更极端的数据,日代表零假设。根据条件概率的定义,显著性检验的结果表示为P(D I 风)。该表达式表明,所指概率为数据出现的概率,是给定前提,是判定有无显著性结果必须参照的条件1 1 0。只有在贝叶斯统计学中才能对假设的概率做出陈述,概率公式为P(H ID),即以数据为条件,假设的概率是结果。上面提到的4 个结论违背了显著性检验的前提条件零假设为真。针对本例,可以认为,鉴于在零假设为真的情况下,出现本研究结果或更极端结果的概率很低(P=0 0 1 5 0 0 5),因而有充分的证据拒绝零假设。即便如此,我们仍有约0 0 5(O t=0 0 5)的概率
20、错误地拒绝零假设。2 统计无显著性与假设判断如果P 值大于设定的显著性水平(仅),我们就没有足够的证据拒绝零假设。这里有两个认识上的误区。第一个误区是,没有足够的证据拒绝零假设等于接受零假设。其实,没有足够的证据拒绝零假设只表明零假设中的参数具有存在的合理性,不排除其他参数存在的可能性。“一次检验仅仅表明某个参数值是否合理。置信区间(c o n f i d e n c ei n t e r-v a l)显示有一系列合理之值,而不仅仅是一个”1 2 M。比较妥当的说法是本研究“没有拒绝零假设”。第二个误区是,没有足够的证据拒绝零假设必然表现为对备择假设的拒绝。没有证据不是没有的证据(A b s
21、e n c eo fe v i d e n c ei sn o te v i d e n c eo fa b s e n c e)。在拒绝备择假设之前,需要考虑第二类错误。如果第二类错误很严重,即使备择假设实际为真,也有可能由于样本量小等原因导致基于样本的统计证据没有发现它。如果是这样,那么就不能轻易地认为零假设是合理的。3 重复谬误在“统计显著性与假设判断”节所举的例子中,如果该试验多次重复(r e p l i c a t i o n),认为在0 9 8 5(I 一0 0 1 5)的场合都会得到统计显著性的结果,那就犯了重复谬误(r e p l i c a t i o nf a l l a
22、c y)。持重复谬误观点的人认为,如果某项研究重复,那么在1 一P 的场合会得到统计显著性的结果,或者说,研究者有l p的自信可以断定,如果研究重复,该结果有显著性意义。产生重复谬误的根源是把P 当作零假设为真的概率。上面已经提到,P 值只表示在零假设为真的条件下得到某个值或更极端值的概率,是有条件的概率。在一项研究中拒绝虚无假设的结果并不能使我们对另一项重复性研究也会得出拒绝虚无假设的结果做出任何概率推断。4 显著性与重要性的混淆显著性检验的一个认识误区是统计上显著性的结果总是有实际意义(i m p o r t a n c e)或在总体中有很大的效应。对于一个非常大的样本量而言,很小的差异也
23、可能有统计上的显著意义,但是统计上的显著意义不能等同于实际意义。统计意义和实际万方数据南京工程学院学报(社会科学版)2 0 1 0 年1 2 月意义是两个不同的概念。下面举例说明n 2 M 一4 4 8。2 0 0 6 年美国开展了一项社会普查。调查的问题是:美国人的政治立场总体上倾向于开放还是倾向于保守?调查采用问卷形式,为7 点式量表:非常开放(1 分),开放(2 分),有些开放(3 分),折中(4分),有些保守(5 分),保守(6 分)和非常保守(7分),多郸乏集问卷43 3 3 份。描述性统计量为:x=4 1 2,s=1 4 l。本研究的零假设是美国人持中间立场(均分为4 分),即凰:
24、I X=4。备择假设是:也:I X 4。总体参数值p 4 表示美国人倾向于保守。根据公式=业I -,求s 4 n得t=5 6。该统计量的双侧P 值为0 0 0 0 0 0 0 0 2,构成拒绝零假设的有力证据。如以此判断,便可得出美国人倾向于保守的结论。但是,鉴于样本平均数与零假设中的平均数差异很小,我们实际上会把平均数4 1 2 看作是“折中的”【1 2 4 4 81三、统计显著性检验的不足及补充手段统计显著性检验仅用于发现在零假设前提下出现某个统计值或更极端值的概率,并以此为证据做出拒绝或不拒绝零假设的判断。它不能回答研究发现的实际意义等其他问题。因此,在研究中,仅仅依靠显著性检验结果做出
25、决策是有危险的。本节在指出显著性检验不足的同时,建议研究中利用效应量(e f f e c ts i z e)检验、统计效力检验、置信区间估计或重复试验等补充手段。1 效应量检验以t 检验为例。统计显著性只能说明真正的参数值与零假设中的参数值有差异,却不能明示差异的实际意义。一个小的P 值,比如0 0 1,构成拒绝零假设的有力证据(a=0 0 5)。但是,它绝不意味着在实际意义上有一个重要的发现。尤其在样本容量很大的情况下,即便点估计值(p o i n te s t i m a t e)接近零假设中的参数值,也有可能达到小的P 值。从“显著性与重要性的混淆”节t 检验的计算公式中可以看出,即使样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 显著 检验 问题 思考
限制150内