研究生统计学讲义第3讲总体均数估计和假设检验.ppt
-
资源ID:80424623
资源大小:293.50KB
全文页数:47页
- 资源格式: PPT
下载积分:11.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
研究生统计学讲义第3讲总体均数估计和假设检验.ppt
第四章第四章 第一节第一节 总体均数的估计总体均数的估计一一.样本均数的分布和样本均数的分布和 t 分布分布(P49P49)在抽样研究中,即使是严格遵守随机抽样原则,从在抽样研究中,即使是严格遵守随机抽样原则,从同一总体中每次抽取样本含量相等同一总体中每次抽取样本含量相等(都为都为n n)的样本,计的样本,计算每一个样本的样本均数,由于变异存在,样本均数算每一个样本的样本均数,由于变异存在,样本均数有大有小,不尽相同,是随机变量,其分布称为样本有大有小,不尽相同,是随机变量,其分布称为样本均数的分布。这里介绍样本均数的两条常用性质:均数的分布。这里介绍样本均数的两条常用性质:情形情形当抽样来自均数为当抽样来自均数为,方差为,方差为的的正态分布正态分布总体总体时,样本均数的分布(抽样分布)有下面的性质时,样本均数的分布(抽样分布)有下面的性质1.的分布是正态的的分布是正态的2.设设分布的均数是分布的均数是,则则=3.设设的方差是的方差是,则则=,是总体是总体标准误标准误.情形情形 当抽样来自均数为当抽样来自均数为 ,方差为,方差为 的的非正态非正态分布分布总体时,样本均数的分布(抽样分布)有下面总体时,样本均数的分布(抽样分布)有下面的性质:的性质:1的分布是近似正态的,随样本容量的增加,靠的分布是近似正态的,随样本容量的增加,靠近正态的程度就越好近正态的程度就越好一般地,一般地,的抽样分布靠近正的抽样分布靠近正态分布所需要的样本容量取决于最初分布的外形态分布所需要的样本容量取决于最初分布的外形在几乎所有的情形里面,对在几乎所有的情形里面,对的抽样分布,样本容的抽样分布,样本容量在量在30或以上就可以得到很好的正态近似或以上就可以得到很好的正态近似(均数(均数的这个性质就是众所周知的的这个性质就是众所周知的中心极限定理中心极限定理CentralLimitTheorem)2.设设分布的均数是分布的均数是,则则=3.设设的方差是的方差是,则则=,是总体标是总体标准误准误.由第由第1条(均数抽样分布的正态或近似正态)将在后面条(均数抽样分布的正态或近似正态)将在后面推出强有力的统计推论推出强有力的统计推论两种情形中的第两种情形中的第3条表明,与条表明,与个体观测值相比较,样本均数是变化较小的变量,那个体观测值相比较,样本均数是变化较小的变量,那是因为标准误总是比标准差小的缘故是因为标准误总是比标准差小的缘故二、二、t 分布分布在公式在公式中用中用 代替代替得到:得到:用用S 替换替换产生了一个不同的样本分布产生了一个不同的样本分布如果如果值未值未知又必须估计它,用估计值替换知又必须估计它,用估计值替换所得变量的分布称所得变量的分布称为为t分布这个分布是分布这个分布是19世纪在英国世纪在英国Guinness啤酒啤酒厂工作的发现,在厂工作的发现,在1908年以笔名年以笔名“Student”发表发表因此有时称为因此有时称为Studentst分布,这个分布族取决于参分布,这个分布族取决于参数数n1(4-4)是具有是具有=0,=1的标准正态分布,而的标准正态分布,而是是具有具有=0,取决于样本容量的取决于样本容量的t 分布分布随随样本容量的增加,样本容量的增加,t 分布渐近标准正态分分布渐近标准正态分布布见图,见图,t 分布的准确外形取决于被称为自由度(分布的准确外形取决于被称为自由度(degreesoffreedom)的数量)的数量像正态分布一样,像正态分布一样,t 分布是对称的分布是对称的钟形曲线,但是有点平坦,例如,它们有大的标准差钟形曲线,但是有点平坦,例如,它们有大的标准差对任何对任何t 分布,自由度恰好是样本容量减分布,自由度恰好是样本容量减1:df=n1作为为多个作为为多个t 分布的部分累积分布函数的比较已经列分布的部分累积分布函数的比较已经列在附表在附表5里里因为因为t 分布是概率密度函数,任何分布是概率密度函数,任何t 分布曲线下的面积分布曲线下的面积为为1在某些情形,我们必须使用固定概率(一个在某些情形,我们必须使用固定概率(一个t 分分布下的面积),留心并找出区间端点到中心布下的面积),留心并找出区间端点到中心0的这个的这个概率,设这个概率是概率,设这个概率是1,常常很小,规定为常常很小,规定为0.05或或0.01,于是,于是1=0.95或或0.99那么为寻找这个那么为寻找这个t0,使得使得 t 分布里,定位在中间的面积分布里,定位在中间的面积1t分布有两条重要性质:分布有两条重要性质:(1)从从正正态态总总体体中中每每次次随随机机抽抽取取例例数数为为n的的样样本本,按按(式式4-4)计计算算的的统统计计量量服服从从自自由由度度为为df=n-1的的t分分布布(即即样样本本均均数数与与总总体体均均数数相相差差多多少少个个标标准准误误服服从从自自由度为由度为n-1的的t分布)。分布)。(2)从相互独立,总体均数分别为)从相互独立,总体均数分别为1,2,而标准,而标准差都为差都为的两个正态总体中,随机抽取样本含量分别为的两个正态总体中,随机抽取样本含量分别为n1,n2的两个样本,分别算出样本均数和标准差为的两个样本,分别算出样本均数和标准差为X1和和S1,X2和和S2,按,按(式(式4-5)计算的统计量服从自由度)计算的统计量服从自由度为为df=n1+n22的的t分布。分布。t=自由度自由度df=n1+n22(式(式4-5)S =(式(式4-6)2T 分分布布的的规规律律如如附附表表3的的t 界界值值表表(表表中中只只列列出出正正的的t值值),表表中中横横标标目目为为自自由由度度df,纵纵标标目目为为概概率率P,表表中中数数字字表表示示自自由由度度为为df时时t分分布布的的界界值值(criticalvalue)。t界界值值有有单单侧侧和和双双侧侧两两种种情情况况:自自由由度度为为df时时,t分分布布的的双双侧侧界界值值记记为为t/2,df,P(|t|t/2,df)=;t分分布布的的单单侧侧界界值值记记为为t,df,P(tt,df)=。例例如如,自自由由度度df9时时,由由附附表表3的的t界界值值表表查查出出0.05的的单单侧侧界界值值t0.05,91.833,双侧界值,双侧界值t0.05/2,92.262,则有:,则有:P(t1.833)0.05;P(t 1.833)P(t1.833)0.95。P(t2.262)0.025;P(t 2.262)P(-2.262 t 2.262)1-20.0250.95。从从t分布的界值与标准正态分布的界值可发现,同样分布的界值与标准正态分布的界值可发现,同样的尾部面积,的尾部面积,t分布的界值要大于标准正态分布的界值,分布的界值要大于标准正态分布的界值,当自由度当自由度df时,时,t分布的界值逼近标准正态分布界分布的界值逼近标准正态分布界值。值。三三.总体均数的估计总体均数的估计(P51)1 1点点估估计计和和区区间间估估计计总总体体参参数数的的估估计计有有点点估估计计和和区间估计。区间估计。由由样样本本观观察察值值算算出出总总体体参参数数的的一一个个估估计计值值(为为统统计计量量)称称为为该该参参数数的的一一个个点点估估计计(pointestimation)。点点估估计计给给出出未未知知参参数数的的一一个个近近似似值值,但但没没考考虑虑试试验验误误差差影影响响,也也未未指指出出这这种种估估计计的的可可靠靠程程度度。因因为为估估计计量量是是来来自自一一个个随随机机抽抽取取的的样样本本,每每一一次次取取值值都都有有随随机机性性,刚刚好好等等于于待待估估计计参参数数的的可可能能性性极极小小,而而在在参参数数值值左左右右的情况较多。的情况较多。统计学上更合理的估计是在一定概率(统计学上更合理的估计是在一定概率(1-)下,由)下,由含有未知参数及其点估计值所构成的统计量的分布规含有未知参数及其点估计值所构成的统计量的分布规律估计出参数可能存在的范围,称为区间估计律估计出参数可能存在的范围,称为区间估计(intervalestimation),所给出的范围称为该参数的),所给出的范围称为该参数的(1-)可信区间或置信区间()可信区间或置信区间(confidenceinterval,简记为简记为CI)。这个范围包含参数值的可靠程度为()。这个范围包含参数值的可靠程度为(1-),称为可信度或置信度(),称为可信度或置信度(confidencedegree)或可)或可信概率。信概率。2 2可信区间的意义可信区间的意义现以总体均数的现以总体均数的95%可信区间为可信区间为例,总体参数例,总体参数95%可信区间的意义是:考虑总体参数可信区间的意义是:考虑总体参数的可信区间取决于所抽取的样本,在同样条件下,进的可信区间取决于所抽取的样本,在同样条件下,进行许多重复的抽样,每抽取一个样本可得到待估计参行许多重复的抽样,每抽取一个样本可得到待估计参数的一个可信区间,在这些区间中,有的包含待估计数的一个可信区间,在这些区间中,有的包含待估计的参数,有的不包含,平均说来每的参数,有的不包含,平均说来每100个中有个中有95个正个正确。确。实践中一般不会去抽取许多个样本,通常只抽取一个实践中一般不会去抽取许多个样本,通常只抽取一个样本,计算出一个区间,虽然无法确认这个区间是否样本,计算出一个区间,虽然无法确认这个区间是否包含了待估计的参数,但可知这种估计可信的程度为包含了待估计的参数,但可知这种估计可信的程度为95,会冒,会冒5%犯错误的风险。因犯错误的风险。因5%是小概率,在实是小概率,在实际应用中就认为待估计的总体参数在算得的区间内。际应用中就认为待估计的总体参数在算得的区间内。3可信区间有两要素:一是准确度,反映在可信度(可信区间有两要素:一是准确度,反映在可信度(1-)的)的大小,即区间包含总体参数的可能性(概率)的大小,准确大小,即区间包含总体参数的可能性(概率)的大小,准确度越接近度越接近1越好,例如,可信度越好,例如,可信度99%比比95%犯错误的风险小;犯错误的风险小;二是精密度,反映在区间的长度,区间的长度愈小愈精密。二是精密度,反映在区间的长度,区间的长度愈小愈精密。在可信度确定的情况下,增大样本含量,相应的界值(如在可信度确定的情况下,增大样本含量,相应的界值(如t界界值)减少,标准误也减小,可减小区间长度,提高精密度。值)减少,标准误也减小,可减小区间长度,提高精密度。在样本含量确定的情况下,可信度(在样本含量确定的情况下,可信度(1-)愈大,总体参数估)愈大,总体参数估计的准确度愈高,但精密度愈差。二者是矛盾的,为兼顾准计的准确度愈高,但精密度愈差。二者是矛盾的,为兼顾准确度和精密度,常用确度和精密度,常用95%可信区间。可信区间。4.4.单个总体均数的估计单个总体均数的估计 样本均数是总体均数样本均数是总体均数的一的一个点估计。个点估计。已知时,按(式已知时,按(式4-34-3)计算的统计量服从)计算的统计量服从标准正态分布,根据标准正态分布的规律标准正态分布,根据标准正态分布的规律 P(-u/2u u/2)=1-,有,有 已已知知时时,正正态态总总体体均均数数的的双双侧侧(1 1)可可信区间计算公式为(信区间计算公式为(4-74-7)未知时,按(式未知时,按(式4-4)计算的统计量服从)计算的统计量服从t 分布,由分布,由t分布的规律分布的规律P(-t/2t72次次/分分对于这两种可能,统计上通过检验前一种可能来对于这两种可能,统计上通过检验前一种可能来作出判断,假设检验的目的是排除差异完全由抽样误作出判断,假设检验的目的是排除差异完全由抽样误差所致的可能性。方法是:先假设差异完全由抽样误差所致的可能性。方法是:先假设差异完全由抽样误差所致,在这个假设下,计算检验统计量差所致,在这个假设下,计算检验统计量(如如t值、值、u值等值等),按样本统计量的概率分布规律,求出获得现,按样本统计量的概率分布规律,求出获得现有样本检验统计量值的概率有样本检验统计量值的概率如果出现了小概率事件,就拒绝这个假设;如果如果出现了小概率事件,就拒绝这个假设;如果没有出现小概率事件,则没有理由怀疑这个假设,所没有出现小概率事件,则没有理由怀疑这个假设,所以不拒绝这个假设。这种推断方法的特点是依据小概以不拒绝这个假设。这种推断方法的特点是依据小概率原理,采用类似于数学中逻辑论证的反证法,但又率原理,采用类似于数学中逻辑论证的反证法,但又区别于纯数学中逻辑推理的反证法。因为这里并不是区别于纯数学中逻辑推理的反证法。因为这里并不是形式逻辑中的绝对矛盾,而是基于人们在实践中广泛形式逻辑中的绝对矛盾,而是基于人们在实践中广泛应用的小概率原理。所以,可以说假设检验的基本思应用的小概率原理。所以,可以说假设检验的基本思想是某种带有概率性质的反证法。想是某种带有概率性质的反证法。假假设设检检验验有有两两种种类类型型:(1)参参数数检检验验(nparametric):在在许许多多问问题题中中,总总体体分分布布的的类类型型为为已已知知,只只是是一一个个或或几几个个参参数数未未知知,只只对对未未知知参参数数作作出出假假设设,然然后后根根据据随随机机样样本本提提供供的的信信息息,选选取取检检验验统统计计量量,按按检检验验统统计计量量的分布规律,用的分布规律,用“小概率原理小概率原理”推断假设是否成立。推断假设是否成立。绍的绍的t 检验、检验、u 检验,第五章介绍的方差分析等。检验,第五章介绍的方差分析等。(2)非参数检验非参数检验(nonparametric):是一种与总体分布):是一种与总体分布无关的统计检验方法,它不比较参数,而是比较分布的无关的统计检验方法,它不比较参数,而是比较分布的位置。当不知道样本来自的总体分布类型或已知总体分位置。当不知道样本来自的总体分布类型或已知总体分布与检验所要求的条件不符,可用非参数检验。详见第布与检验所要求的条件不符,可用非参数检验。详见第十一章。十一章。二、假设检验的一般步骤二、假设检验的一般步骤1.1.建立假设并确定检验水准建立假设并确定检验水准 (1)(1)建立假设:建立假设:假设需根据研究的目的对总体的特征而提出。假假设需根据研究的目的对总体的特征而提出。假设有两种:一种是检验假设设有两种:一种是检验假设(hypothesistobetested),假设差异完全由抽样误差造成,常称无效假设,假设差异完全由抽样误差造成,常称无效假设(hullhypothesis),用,用H0表示。表示。另一种是和另一种是和H0相对立的备择假设相对立的备择假设(alternativehypothesis),用,用H1表示,表示,H1通常是希望证实的情况。假通常是希望证实的情况。假设检验是针对设检验是针对H0进行的,希望用样本数据推断进行的,希望用样本数据推断H0是假的,是假的,从而证实从而证实H1是真的。假设检验的结果是在零假设是真的。假设检验的结果是在零假设H0和对和对立假设立假设H1之间作出抉择。当拒绝之间作出抉择。当拒绝H0时,接受时,接受H1,认为差,认为差异有统计意义;当不拒绝异有统计意义;当不拒绝H0时,认为差异无统计意义,时,认为差异无统计意义,则不接受则不接受H1。建立假设涉及检验方向:以建立假设涉及检验方向:以H0为准,如果根据专业为准,如果根据专业知识或研究目的,知识或研究目的,H1不能肯定方向,则假设检验的方不能肯定方向,则假设检验的方向是双侧的,称为双侧检验向是双侧的,称为双侧检验(twosidedtest)。如果根据。如果根据专业知识或研究目的,专业知识或研究目的,H1肯定方向,则假设检验方向肯定方向,则假设检验方向是单侧的,称为有单侧检验是单侧的,称为有单侧检验(onesidedtest)。也就是说,。也就是说,单侧指实验结果向一个方向变化的。单侧指实验结果向一个方向变化的。以样本均数以样本均数(其总体均数为其总体均数为)与已知的总体均数与已知的总体均数(已已知的总体均数用知的总体均数用0表示表示)比较为例,如例比较为例,如例4.2,如果根据,如果根据专业知识已知此类脾虚病人的脉博不会低于健康人,或专业知识已知此类脾虚病人的脉博不会低于健康人,或是研究者只关心此类脾虚病人的脉博是否快于正常人,是研究者只关心此类脾虚病人的脉博是否快于正常人,不关心是否慢于正常人,可用单侧检验。如果如果没有不关心是否慢于正常人,可用单侧检验。如果如果没有专业知识,不知此类脾虚病人的脉博快于或慢于健康人,专业知识,不知此类脾虚病人的脉博快于或慢于健康人,两种可能性都存在,或是研究者只关心此类脾虚病人的两种可能性都存在,或是研究者只关心此类脾虚病人的脉博是否不同于正常人,目的只是推断两总体均数有无脉博是否不同于正常人,目的只是推断两总体均数有无差别,不管是此类脾虚病人的脉博快于正常人还是慢于差别,不管是此类脾虚病人的脉博快于正常人还是慢于正常人,研究者都同等关心,应当用双侧检验。正常人,研究者都同等关心,应当用双侧检验。例例4.2的目的是推断此类脾虚病人的脉博是否快于的目的是推断此类脾虚病人的脉博是否快于正常人正常人(正常人的脉博总体均数为正常人的脉博总体均数为0=72次次/分分),H0为此类脾虚病对脉博数无影响,即此类脾虚病人的为此类脾虚病对脉博数无影响,即此类脾虚病人的脉博总体均数脉博总体均数 等于正常人等于正常人,用符号表示为用符号表示为:H0:=72次次/分分,即,即=0与之对应的备择假设为该类脾虚病的脉博数快于正常与之对应的备择假设为该类脾虚病的脉博数快于正常人人,用符号表示为:用符号表示为:H1:72次次/分,即分,即0(2)确定检验水准:检验水准确定检验水准:检验水准(sizeofatest)亦称显亦称显著性水平著性水平(significancelevel),常用符号,常用符号表示。表示。是假设检验时预先确定的,用以作为判断多小的概率是假设检验时预先确定的,用以作为判断多小的概率可以认为是小概率的水准,故称为检验水准。可以认为是小概率的水准,故称为检验水准。的大的大小视具体情况而定,一般小视具体情况而定,一般取取0.05或或0.01,若按,若按=0.05拒绝拒绝H0,接受,接受H1,作出这样的判断要冒,作出这样的判断要冒5%错误的风错误的风险。险。从图从图4-2可以看出,同一资料、同一检验水准可以看出,同一资料、同一检验水准时,时,因单侧检验的界值因单侧检验的界值t0.025相当于双侧检验的界值相当于双侧检验的界值t0.05,双,双侧侧P 为单侧为单侧P 的两倍,所以单侧检验比双侧检验更易的两倍,所以单侧检验比双侧检验更易拒绝拒绝H0。一般认为双侧检验较为稳妥,故较为常用。一般认为双侧检验较为稳妥,故较为常用。强调指出,检验水准强调指出,检验水准的确定,以及选择单侧检验的确定,以及选择单侧检验还是双侧检验,都应结合专业知识和研究目的,在实还是双侧检验,都应结合专业知识和研究目的,在实验设计时决定,不能等到样本结果计算完后再根据主验设计时决定,不能等到样本结果计算完后再根据主观愿望选定。观愿望选定。2选取检验统计量,明确其分布,并由样本计算检选取检验统计量,明确其分布,并由样本计算检验统计量值验统计量值检验统计量是指建立在无效假设检验统计量是指建立在无效假设H0基础上基础上的,用于抉择是否拒绝的,用于抉择是否拒绝H0而选定的样本函数。参数检而选定的样本函数。参数检验的检验统计量要求满足以下条件:验的检验统计量要求满足以下条件:在在H0成立的条成立的条件下,它的分布函数是已知的;件下,它的分布函数是已知的;它必须包含要检验它必须包含要检验的总体参数;的总体参数;对于给定的样本数据,能计算出该检对于给定的样本数据,能计算出该检验统计量的数值。验统计量的数值。假设检验通常是以选定的检验统计量来命名的,假设检验通常是以选定的检验统计量来命名的,例如,以例如,以u值为检验统计量的假设检验称为值为检验统计量的假设检验称为u检验,以检验,以t值为检验统计量的假设检验称为值为检验统计量的假设检验称为t检验。检验统计量的检验。检验统计量的选取,因资料不同而不同。如例选取,因资料不同而不同。如例4.2,样本均数与总体,样本均数与总体均数比较,如果均数比较,如果H0(=0)成立,成立,(0)的绝对的绝对值应比较小,一旦很大,就认为值应比较小,一旦很大,就认为H0不成立。不成立。检验统计量可用公式检验统计量可用公式根据自由度为根据自由度为df=n-1的的t 分布规律作推断,称为分布规律作推断,称为t 检检验。验。t 检验适用于小样本研究。若样本含量在检验适用于小样本研究。若样本含量在50以上,以上,可选用可选用u 值作检验统计量,称为值作检验统计量,称为u 检验。检验。3确定确定P 值和作出推断结论值和作出推断结论P 值是在值是在H0成立时大于成立时大于等于用样本计算出的统计量值出现的概率,可以根据等于用样本计算出的统计量值出现的概率,可以根据检验统计量的分布规律估计。用检验统计量的分布规律估计。用P 值与检验水准值与检验水准进进行比较,根据比较的结果作出统计推断。行比较,根据比较的结果作出统计推断。实际工作中,已将多种检验统计量的分布规律编实际工作中,已将多种检验统计量的分布规律编制出相应的界值表,只需用样本检验统计量的绝对制出相应的界值表,只需用样本检验统计量的绝对值查相应的界值表,将检验统计量的绝对值与界值值查相应的界值表,将检验统计量的绝对值与界值比较,即能得出比较,即能得出P 值值三、假设检验的两类错误三、假设检验的两类错误 当当H0为真,则为真,则Ha是假的是假的如果我们接受如果我们接受H0,我们就做对了,我们就做对了如果我们拒绝如果我们拒绝H0,我们就犯了错误,我们就犯了错误(型错误型错误)定义定义P(型错误型错误)=拒绝一个真实的零假设的概率拒绝一个真实的零假设的概率这个概率用这个概率用表示,在第表示,在第3步选择显著性水平时就确步选择显著性水平时就确定了显著性水平是指在零假设为真的情况下,作为定了显著性水平是指在零假设为真的情况下,作为拒绝拒绝H0的稀有结果的度量使用的稀有结果的度量使用0.05,在脆玉米片例,在脆玉米片例子中意思就是说:当零假设为真时,收集子中意思就是说:当零假设为真时,收集20个样本里,个样本里,有有1个特别极端,因此我们怀疑个特别极端,因此我们怀疑H0的准确性并且拒绝的准确性并且拒绝它,导致犯了一个它,导致犯了一个型错误型错误.当当H0为假,则为假,则Ha是真的是真的如果我们接受如果我们接受H0,我们就犯了错误,我们就犯了错误如果我们拒绝如果我们拒绝H0,我们就做对了,我们就做对了犯这种类型的错误称为犯这种类型的错误称为型错误(型错误(Typeerror)定义定义5.1P(型错误型错误)=拒绝一个虚假的零假设的概率拒绝一个虚假的零假设的概率这个概率用这个概率用表示,评价它困难多,因为它取决于下表示,评价它困难多,因为它取决于下面讨论的一些因素面讨论的一些因素事实上当事实上当H0为假的时候,拒绝为假的时候,拒绝H0的概率就是的概率就是1,称它为检验效率(,称它为检验效率(powerofthetest)见表)见表5.1表表4.5检验检验H0的可能结果的可能结果检验结果检验结果真实情形未知真实情形未知 H0为真为真H0为假为假接受接受H0拒绝拒绝H0决定正确决定正确型错误型错误1型错误型错误决定正确决定正确1因为显著水平因为显著水平是通过实验选择的,是通过实验选择的,是受实验控是受实验控制并且已知制并且已知因此,当你拒绝因此,当你拒绝H0时,你知道犯时,你知道犯型型错误的概率错误的概率如果接受如果接受H0,确定,确定型错误就更困难型错误就更困难这是因为确定这是因为确定型错误取决于很多因素,其中一型错误取决于很多因素,其中一些在试验中未知些在试验中未知于是拒绝于是拒绝H0更安全,因为犯错误更安全,因为犯错误的概率容易计算的概率容易计算如果显著性水平是如果显著性水平是犯犯型错误的概率型错误的概率且在控制之下,为且在控制之下,为什么不定一个更小什么不定一个更小的显著性水平(的显著性水平(水水平)来消除或减少平)来消除或减少型错误呢?例型错误呢?例4.2中为什么不用中为什么不用1/10或或1/1000代替代替1/20呢?呢?有时我们希望做得有时我们希望做得严密,但是减少严密,但是减少水水平(平(型错误)始终型错误)始终要增大犯要增大犯型错误型错误的概率的概率小结小结:在我们控制下,显著性水平:在我们控制下,显著性水平通常取通常取0.05、0.01或或0.001按照按照0.05拒绝拒绝H0,我们就说结果有显,我们就说结果有显著性,也就是与我们期望著性,也就是与我们期望H0为真有显著差异;按照为真有显著差异;按照0.01拒绝拒绝H0,我们就说结果有高度显著性;按照,我们就说结果有高度显著性;按照0.001拒绝拒绝H0,我们就说结果有非常高度显著性,我们就说结果有非常高度显著性在在一次假设检验里面,我们要么接受、要么拒绝零假一次假设检验里面,我们要么接受、要么拒绝零假设设如果我们拒绝如果我们拒绝H0,我们可能犯,我们可能犯型错误(拒绝型错误(拒绝一个真实的一个真实的H0),而如果我们接受),而如果我们接受H0,我们可能犯,我们可能犯型错误(接受一个假的型错误(接受一个假的H0)因为有两类错误,因为有两类错误,在任何决定里面都有犯这种错误的潜在可能,我们在任何决定里面都有犯这种错误的潜在可能,我们绝不能够说我们绝不能够说我们“证明证明”H0是真的或是真的或H0是假的是假的证证明暗指不可能有错误明暗指不可能有错误当我们接受当我们接受H0或拒绝或拒绝H0的时的时候,正确的说法应该是:资料支持零假设,或资料候,正确的说法应该是:资料支持零假设,或资料支持备择假设支持备择假设四、可信度和检验效能四、可信度和检验效能1可信度可信度(confidencedegree)(1)称可信度。)称可信度。若总体间确无差别,按若总体间确无差别,按水准能作出正确推断的概率水准能作出正确推断的概率为(为(1),或者说),或者说H0为真时,阴性结论的可信程度,为真时,阴性结论的可信程度,即不发生即不发生型错误的概率。型错误的概率。2检检验验效效能能(poweroftest)(1)称称为为检检验验效效能能或或检检出出能能力力。若若总总体体间间确确有有差差别别,按按检检验验水水准准能能将将真真实实存存在在的的差差异异检检验验出出来来的的概概率率,也也就就是是不不犯犯假假阴阴性性错错误误的的概概率率为为(1),或或者者说说H0为为假假(H1为为真真)时时,阳阳性性结结论论的的可可靠靠程程度度,即即除除去去假假阴阴性性率率有有(1)的的把把握握得得出出差差别有显著性意义的结论,故别有显著性意义的结论,故(1)又称为把握度又称为把握度通常取通常取0.1或或0.2,此时检验效能为,此时检验效能为0.9或或0.8。一般检验效能不宜低于一般检验效能不宜低于0.75,否则可能出现非真实的,否则可能出现非真实的阴性结果。阴性结果。检验效能检验效能(1)的大小与总体间的差别、检验水准、的大小与总体间的差别、检验水准、标准差和样本含量有关:标准差和样本含量有关:(1)(1)被试因素的效应越大,被试因素的效应越大,H H0 0和和H H1 1涉及的不同总体间涉及的不同总体间差别越大,两者在分布上的重叠面积就越小。差别越大,两者在分布上的重叠面积就越小。(2)由图由图4-2可见,在分布的重叠面积固定时,可见,在分布的重叠面积固定时,与与 呈呈反向变化,反向变化,增大,增大,减小,则减小,则(1)增大,故增大增大,故增大可提高检验效能可提高检验效能(1)。然而,假设检验的目的大多。然而,假设检验的目的大多数是希望提示被试因素的有效性高,应当要求数是希望提示被试因素的有效性高,应当要求越小越小越好。因此,实验设计时,必须兼顾越好。因此,实验设计时,必须兼顾与与。(3)标准差愈大,变量的分布愈矮胖,比较组在分布标准差愈大,变量的分布愈矮胖,比较组在分布上的重叠面积愈大,上的重叠面积愈大,(1)就越小,因此,应严格控就越小,因此,应严格控制实验条件,减小个体差异,使标准差减小到合理水制实验条件,减小个体差异,使标准差减小到合理水平。平。(4)样本含量样本含量n增大,标准误增大,标准误=s/减小,均数的抽样误减小,均数的抽样误差减小,分布趋于集中,差减小,分布趋于集中,与与 都减小。由于适当增大都减小。由于适当增大样本可使样本可使型错误型错误与与型错误型错误 均减少,所以样本含均减少,所以样本含量应适当大些。量应适当大些。第五节第五节 假设检验应注意的问题(假设检验应注意的问题(P67P67页)页)1 1要有严密的抽样研究设计要有严密的抽样研究设计 这是假设检验的前提,这是假设检验的前提,应保证样本是从同质总体中随机抽取的。组间的均衡应保证样本是从同质总体中随机抽取的。组间的均衡性和可比性特别重要性和可比性特别重要2选用的检验方法应符合应用条件。如正态分布两选用的检验方法应符合应用条件。如正态分布两均数比较(见第五章),不同条件下采用的检验方法、均数比较(见第五章),不同条件下采用的检验方法、检验统计量公式、统计软件采用的分析模型是不同的,检验统计量公式、统计软件采用的分析模型是不同的,见表见表4-4。3假设检验所作出的推断结论是概率性的,不是绝假设检验所作出的推断结论是概率性的,不是绝对的肯定或否定,拒绝对的肯定或否定,拒绝H0,不能认为,不能认为H0肯定不成立,肯定不成立,因为在因为在H0成立的条件下,出现有检验统计值及更极端成立的条件下,出现有检验统计值及更极端情况的概率虽小,但仍有存在的可能出现,只是可能情况的概率虽小,但仍有存在的可能出现,只是可能性很小而已;同理,不拒绝性很小而已;同理,不拒绝H0,不能认为,不能认为H0肯定成立,肯定成立,所比较的总体可能确有差别,只是由于样本的含量太所比较的总体可能确有差别,只是由于样本的含量太少,未能检出这种差别。而且,拒绝少,未能检出这种差别。而且,拒绝H0可产生第一类可产生第一类错误,不拒绝错误,不拒绝H0可产生第二类错误。可产生第二类错误。4P0.01比比P0.05更有理由拒绝更有理由拒绝H0(假阳性率较小假阳性率较小),而并不表示而并不表示P0.01时比时比P0.05时实际差别更大。例如时实际差别更大。例如表表4-5资料,可见在判断被试因素的有效性时,要求在资料,可见在判断被试因素的有效性时,要求在统计上和专业上都有意义,二者必须兼而有之。统计上和专业上都有意义,二者必须兼而有之。表表4-5两降压试验结果两降压试验结果(mmHg)组组别别A试验试验组组别别B试验试验nst值值P值值nst值值P值值对对照照组组10154.53.62.9140.01对对照照组组10151.620.02.2970.05时,要注意差值时,要注意差值D 与标准差与标准差s 的比值的比值D/s,D/s可提示研究的价值,不同研究对可提示研究的价值,不同研究对D/s要求不同。例要求不同。例如完全随机设计的两样本均数比较,临床疗效研究一如完全随机设计的两样本均数比较,临床疗效研究一般要求般要求D/s大于大于0.5以上;动物实验大多要求以上;动物实验大多要求D/s大于大于0.7以上。若样本含量足够时,以上。若样本含量足够时,D/s 低于一般要求,低于一般要求,P0.05就应当作为阴性结果无须进一步增大样本含量就应当作为阴性结果无须进一步增大样本含量研究;若样本含量并不大,而研究;若样本含量并不大,而D/s又高于一般要求,则又高于一般要求,则可适当增大样本含量研究。可适当增大样本含量研究。7P只表明假阳性率超过只表明假阳性率超过,并未涉及假阴性率,并未涉及假阴性率的的大小,如果事先未考虑适当的样本含量,假设检验出大小,如果事先未考虑适当的样本含量,假设检验出现现P 时,应考虑是否检验效能偏低,检验效能(时,应考虑是否检验效能偏低,检验效能(1-)一般不能低于)一般不能低于0.8。第六节第六节P 时假阴性率时假阴性率的估算(的估算(P69页)页)根根据据P推推断断差差异异无无统统计计意意义义,实实际际上上包包含含了了真真阴阴性性与与假假阴阴性性两两种种可可能能性性,究究竟竟属属于于真真阴阴性性还还是是假假阴阴性性,需需要要估计假阴性率估计假阴性率,才能比较合理地判断。,才能比较合理地判断。在正态分布的条件下,可以通过在正态分布的条件下,可以通过u1值查标准正态曲线值查标准正态曲线下的面积表,来估算假阴性率下的面积表,来估算假阴性率。即先按式。即先按式(4.20)计算计算u1值;以值;以u1值查标准正态曲线下的面积表值查标准正态曲线下的面积表(见附表见附表1),从附表,从附表1中查出标准正态曲线下,中查出标准正态曲线下,u1所对应的面积所对应的面积数值;再用数值;再用1减减u1所对应的面积数值,即得假阴性率所对应的面积数值,即得假阴性率 的估算值。的估算值。u1=检验统计量检验统计量t 值或值或u 值的绝对值值的绝对值u(4.20)检验统计量为检验统计量为F 值或值或 2值时,可利用值时,可利用t 2=F、u2=2(1)的关系转化为的关系转化为t 值或值或u 值后再估算值后再估算1 1配对试验的假阴性率估算配对试验的假阴性率估算例例4.3用用10对大鼠观察两种药物对股骨长度的影响,对大鼠观察两种药物对股骨长度的影响,结果两组平均差值为结果两组平均差值为4.5mm,差值的标准差为,差值的标准差为7.8mm,配对,配对t 检验的检验的t 值值=1.824,P 0.05,按,按=0.05水准水准不能拒绝不能拒绝H0,结论为两组差异无统计意义。判断此结,结论为两组差异无统计意义。判断此结论的可靠性。论的可靠性。为判断结论的可靠性,计算其配对为判断结论的可靠性,计算其配对t 检验的假阴性率检验的假阴性率值,步骤如下:值,步骤如下:(1)从附表从附表3(标准正态曲线下的面积表标准正态曲线下的面积表)中查出双侧中查出双侧u0.05=1.96,(2)按式按式(4.20)计算计算u1:u1=检验统计量检验统计量t值值u0.05=1.8421.96=0.136(3)以以0.136查附表查附表3,从附表,从附表3中查出标准正态曲线下,中查出标准正态曲线下,u值值0.136所对应的面积数值为所对应的面积数值为0.444,估计假阴性率,估计假阴性率=10.444=0.555。故尚不能接受差异无统计意义的结论,。故尚不能接受差异无统计意义的结论,根据样本差值根据样本差值D=4.5,标准差,标准差s=7.8,比值,比值D/s=0.5770.50,提示有研究的价值,所以建议增大样本含量,提示有研究的价值,所以建议增大样本含量研究。根据差值研究。根据差值D=4.5,若要求,若要求=0.05,=0.10,利用查,利用查表法或计算法,估计约需表法或计算法,估计约需34对。对。2 2两样本均数比较的假阴性率估算两样本均数比较的假阴性率估算例例4.4临床研究某药的疗效,用药组为临床研究某药的疗效,用药组为n=20,均数,均数标准标准差差=1.8741.000;对照组为;对照组为n=20,均数,均数标准差标准差=1.2001.067,成组,成组t检验的统计量检验的统计量t值值=2.061,P 0.05,按,按=0.05水准不能拒绝水准不能拒绝H0,结论为两组差异无统计意,结论为两组差异无统计意义。判断此结论的可靠性。义。判断此结论的可靠性。双双侧侧u0.05=1.96,按按式式(4.20):u1=检检验验统统计计量量t值值u0.05=2.0611.96=0.101以以u=0.101查附表查附表3,从附表,从附表3中查出标准正态曲线下,中查出标准正态曲线下,u值值=0.101所对应的面积数值为所对应的面积数值为0.540,估计假阴性率,估计假阴性率=10.540=0.460,故尚不能接受该药无效的结论。根据样本差,故尚不能接受该药无效的结论。根据样本差值值D=0.674,合并标准差,合并标准差sc=1.034,比值,比值D/sc=0.6520.50,提示有研究的价值,所以建议增大样本含量研究。