研究生统计学第三章总体均数估计与假设检验.ppt
Gui Lihui第三章第三章总体均数估计与假设检验总体均数估计与假设检验桂立辉桂立辉新乡医学院公共卫生学院新乡医学院公共卫生学院研究生医学统计学(第三版)Gui Lihui第三章第三章总体均数估计与假设检验总体均数估计与假设检验均数的抽样误差与标准误均数的抽样误差与标准误t 分布分布总体均数的估计总体均数的估计假设检验的基本原理和步骤假设检验的基本原理和步骤t 检验检验假设检验的注意事项假设检验的注意事项正态性检验和两样本方差比较的正态性检验和两样本方差比较的F检验检验Gui Lihui参数估计基础参数估计基础 统计学研究的目的通常是要了解总体的情况。如果要统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法:了解总体情况,有两种方法:全面研究全面研究全面研究全面研究 抽样研究抽样研究抽样研究抽样研究 全面研究在许多情况下难以办到,因此,常用的方法全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机抽取一部分观察单位作是抽样研究,即从同质总体中随机抽取一部分观察单位作为样本,并由样本信息为样本,并由样本信息(包括样本变量值的分布及其用于包括样本变量值的分布及其用于描述的统计量描述的统计量)来推断总体情况,即来推断总体情况,即统计推断统计推断(statistical inference)。Gui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误 由于所研究变量在总体中各观察单位(个由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致体)间存在变异,抽样研究必然会导致抽样误抽样误差差(sampling error)。抽样误差是不可避免的,但我们可以探究抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的范围抽样误差的规律,控制抽样误差在允许的范围内。内。Gui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误 为探讨抽样误差的规律,我们做一个放回式随机抽为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地样实验。假设某年某地13岁女学生身高(岁女学生身高(X)服从总体)服从总体均数均数=155.4cm,总体标准差,总体标准差=5.3cm的正态分布的正态分布N(155.4,5.32)。每次抽取的)。每次抽取的30例构成一个样本,并例构成一个样本,并计算出样本均数。计算出样本均数。如此共抽取如此共抽取100个样本,计算得到个样本,计算得到100个样本均数。个样本均数。Gui Lihui总体总体=155.4cm=5.3 cm放回式随机抽样实验Gui Lihui表表5-1 从正态总体从正态总体N(155.4,5.32)随机抽取随机抽取100份样本份样本(n=30)的算术均数的算术均数156.7156.9156.1156.3155.1155.7153.6155.8154.9155.1158.1154.0155.0155.2155.3153.7155.6153.9154.6156.6155.6154.4154.7156.0156.3154.8155.2156.2154.6156.0155.2156.5154.5155.6156.6155.6156.7156.0157.5155.8155.0155.9155.2156.5155.4154.8154.7154.2155.9156.1156.4155.5154.6155.3155.9155.6155.1155.4156.5152.7154.9156.9156.1155.2155.3158.2155.7156.6156.4155.1156.5156.9155.7155.5154.6154.9156.4155.6154.7155.3155.0153.4155.1155.0156.1153.4155.1156.8156.2154.6155.9154.8156.1155.5154.7156.4154.9155.3154.6156.6Gui Lihui对对100100个样本均个样本均数组成的数据资数组成的数据资料进行统计描述料进行统计描述,结果:,结果:Gui Lihui图图5-1 100个样本均数的频数分布图个样本均数的频数分布图Gui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误 从一个总体均数为从一个总体均数为,标准差为,标准差为 的总体中,随机抽的总体中,随机抽取若干个含量为取若干个含量为n 的样本。那么,这若干个样本的均数不会的样本。那么,这若干个样本的均数不会完全相同,其频数分布是以总体均数完全相同,其频数分布是以总体均数为中心的正态分布,为中心的正态分布,其变异程度可用这若干个样本均数的标准差表示,称样本均其变异程度可用这若干个样本均数的标准差表示,称样本均数的数的标准误标准误(standard error)。Gui Lihui样本均数的分布样本均数的分布 Gui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误 在前述放回式随机抽样实验中,已知总体标准在前述放回式随机抽样实验中,已知总体标准差差=5.3cm,每次抽样的样本含量,每次抽样的样本含量n=30,代入公式得:,代入公式得:按实际抽取的按实际抽取的100个样本均数计算,标准误为个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。与上述公式计算结果基本一致。Gui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误实际工作中,往往不知道实际工作中,往往不知道,因此,通常用样本标准差,因此,通常用样本标准差s 来来代替代替,得到均数标准误的估计值:,得到均数标准误的估计值:例例 调查某地调查某地120名正常成人的血糖值的均数为名正常成人的血糖值的均数为4.92mmol/L,标准差为,标准差为0.48mmol/L,试计算标准,试计算标准误。误。Gui LihuiGui LihuiGui LihuiGui Lihui第一节第一节 均数的抽样误差和标准误均数的抽样误差和标准误均数标准误的用途:均数标准误的用途:v 衡量样本均数的可靠性;衡量样本均数的可靠性;标准误愈小,说明样本均数与总体均数越接标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均数近,即抽样误差越小,用样本均数推论总体均数的真实性越好。反之,标准误越大,抽样误差越的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。大,样本均数对总体均数的代表性越差。v 估计总体均数的置信区间;估计总体均数的置信区间;v 用于均数的假设检验。用于均数的假设检验。Gui Lihui第二节第二节 t 分布分布一、一、t 分布的概念分布的概念 对于任一正态分布对于任一正态分布XN(,2),经,经u变换后都可以变变换后都可以变成标准正态分布成标准正态分布N(0,1)。随机抽取若干个含量为随机抽取若干个含量为n 的样本,这些样本均数的的样本,这些样本均数的频数分布是以总体均数频数分布是以总体均数为中心的正态分布,其标准差为中心的正态分布,其标准差为为 。如果进行。如果进行u变换,同样可以变成标准正态分布变换,同样可以变成标准正态分布N(0,1)。Gui Lihui第二节第二节 t 分布分布 实际上实际上 往往未知,故用往往未知,故用 作为作为 的估计值,这时的估计值,这时可以对样本均数作可以对样本均数作 t 变换:变换:则则t 值的分布是以值的分布是以0为中心的正态分布,即为中心的正态分布,即t 分布分布(students t distribution)。1908年年W S Gosset以笔名以笔名student发表了他的研究论文,开创了小样发表了他的研究论文,开创了小样本统计推断之先河。本统计推断之先河。Gui Lihui第二节第二节 t 分布分布二、二、t 分布的图形和分布的图形和t 分布表分布表 对前述对前述13岁女学生身高总体,分别做岁女学生身高总体,分别做n=3和和n=50的随机的随机抽样,各抽取抽样,各抽取1000个样本,并分别计算得到个样本,并分别计算得到1000个样本均数个样本均数和标准误。然后,分别做和标准误。然后,分别做t变换,将变换,将t值绘直方图如图值绘直方图如图5-2。Gui Lihui第二节第二节 t 分布分布二、二、t 分布的图形和分布的图形和t 分布表分布表 t 分布与分布与u 分布一样,都是以分布一样,都是以0为中心,但为中心,但t分布分布不是不是1条曲线,而是无数条曲线。条曲线,而是无数条曲线。t 分布的形态分布的形态(峰度)随抽样样本量(严格地说是自由度(峰度)随抽样样本量(严格地说是自由度n-1)而变化,自由度越小,曲线越低平,随着自由度而变化,自由度越小,曲线越低平,随着自由度增大,增大,t 分布逐渐接近于标准正态分布,当自由度分布逐渐接近于标准正态分布,当自由度为无穷大时,为无穷大时,t 分布与分布与 u 分布完全重合。分布完全重合。Gui Lihui图图5-3 不同自由度的不同自由度的t 分布曲线分布曲线 Gui Lihui第二节第二节 t 分布分布 t 分布与分布与u分布一样,曲线下的面积分布有一定规律:分布一样,曲线下的面积分布有一定规律:从双侧从双侧-t/2,到到t/2,所对应的曲线下的面积占曲线下总面积所对应的曲线下的面积占曲线下总面积的的100(1-)%。或者,从单侧。或者,从单侧t,到到-所对应的曲线下的面所对应的曲线下的面积占曲线下总面积的积占曲线下总面积的100(1-)%。Gui Lihui第二节第二节 t 分布分布 由于由于t 分布的形态随自由度而变化,分布的形态随自由度而变化,t也随也随自由度而变化。不同自由度时的自由度而变化。不同自由度时的t值可查附表值可查附表2 t 界值表得到。界值表得到。Gui LihuiGui Lihui一、一、t 分布分布Gui Lihui第三节第三节 总体均数的估计总体均数的估计 一、一、可信区间的概念可信区间的概念点值估计点值估计(point estimation)区间估计区间估计(interval estimation)总体均数(总体均数()的)的100(1-)%置信区间置信区间(confidential interval,简记为,简记为 CI)。区间估计属于概率估计,总体参数并非一定在区间估计属于概率估计,总体参数并非一定在该置信区间内,只需要把总体参数不在该置信区间该置信区间内,只需要把总体参数不在该置信区间内的概率内的概率()控制在一定水平就可以了。控制在一定水平就可以了。Gui Lihui二、置信区间的计算二、置信区间的计算二、总体均数的置信区间的计算二、总体均数的置信区间的计算 的的100(1-)%置信区间置信区间(CI):v已知总体标准差已知总体标准差,按正态分布原理按正态分布原理,计算公式为计算公式为v未知,未知,n较小,按较小,按t 分布原理计算:分布原理计算:v未知未知,但但n足够大足够大(如如n100),按正态分布原理计算:按正态分布原理计算:Gui Lihui总体均数置信区间的计算总体均数置信区间的计算 例例 测得某地健康男子测得某地健康男子20人收缩压的均数为人收缩压的均数为118.4mmHg,标准差为,标准差为10.8mmHg,试估计该地健,试估计该地健康男子收缩压总体均数的康男子收缩压总体均数的95%可信区间。可信区间。本例本例v=20-1=19,查,查t 值表得值表得 t0.05,19=2.093。代入公式得:代入公式得:该地健康男子收缩压总体均数的该地健康男子收缩压总体均数的95%可信区间可信区间为为113.3123.5mmHg。Gui Lihui总体均数置信区间的计算总体均数置信区间的计算 例例 测得某地测得某地150名正常人脉搏的均数为名正常人脉搏的均数为73.53次次/分,分,标准差为标准差为11.30次次/分,试估计该地正常人脉搏总体均数的分,试估计该地正常人脉搏总体均数的95%可信区间。可信区间。本例本例n100,可按正态分布原理近似计算:,可按正态分布原理近似计算:该地正常人脉搏总体均数的该地正常人脉搏总体均数的95%可信区间为可信区间为71.7475.36次次/分。分。Gui Lihui三、总体均数置信区间的解释三、总体均数置信区间的解释总体均数可信区间的计算和解释有两种理论依据,一是总体均数可信区间的计算和解释有两种理论依据,一是是是Pearson、Fisher、Neyman等人的经典理论,另一个等人的经典理论,另一个是是Bayes理论。理论。经典理论假定样本经典理论假定样本x1、x2、xn来自正态分布来自正态分布N(,2),其中其中2已知已知,是一个客观存在的是一个客观存在的常数常数常数常数。对置信区间的解。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信区间包括总体均数区间,该置信区间包括总体均数(估计正确估计正确)的概率是的概率是1-。BayesBayes理论则认为参数理论则认为参数是是随机变量随机变量随机变量随机变量。对置信区间的解释。对置信区间的解释是:是:有有1-的可能性落在该区间,或者说的可能性落在该区间,或者说在这个区间内在这个区间内的概率是的概率是1-。Gui Lihui总体均数总体均数置信区间置信区间的估计的估计 参数估计时,一方面要控制发生错误的概率(参数估计时,一方面要控制发生错误的概率(),),越小,估计的正确率就越高。另一方面,所定区间范围不能越小,估计的正确率就越高。另一方面,所定区间范围不能过宽,否则就失去了实际意义,也就是估计的精确程度要高,过宽,否则就失去了实际意义,也就是估计的精确程度要高,估计的区间范围越小,精密度就越高。估计的区间范围越小,精密度就越高。正确性和精密性是相互矛盾的,提高了准确度,则精密正确性和精密性是相互矛盾的,提高了准确度,则精密度必然下降;如果提高精密度,则准确度又将随之降低。因度必然下降;如果提高精密度,则准确度又将随之降低。因此,通常把发生错误的概率(此,通常把发生错误的概率()定在适当的水平,如)定在适当的水平,如=0.05,即总体参数不在该范围的概率不超过,即总体参数不在该范围的概率不超过5%,即,即95%置信区间。置信区间。增大样本量可以在不影响正确性的情况下提高参数估计增大样本量可以在不影响正确性的情况下提高参数估计的精密度。但并非样本量越大越好。的精密度。但并非样本量越大越好。Gui Lihui总体均数的估计总体均数的估计 例例9.2 某医师随机抽查了某地某医师随机抽查了某地20名正常成人,测得血糖值名正常成人,测得血糖值的均数为的均数为4.92mmol/L,标准差为,标准差为0.48mmol/L,试估计该地,试估计该地正常成人血糖值总体均数的正常成人血糖值总体均数的95%和和99%可信区间。可信区间。本例:本例:今今v=20-1=19,查查t值表得值表得t0.05,19=2.093,t0.01,19=2.861。95%95%可信区间为:可信区间为:99%99%可信区间为:可信区间为:Gui Lihui总体均数的估计总体均数的估计 例例9.3 随机抽查了某地随机抽查了某地120名正常成人,测得血糖值的均数名正常成人,测得血糖值的均数为为4.92mmol/L,标准差为,标准差为0.48mmol/L,试估计该地正常成,试估计该地正常成人血糖值总体均数的人血糖值总体均数的95%和和99%可信区间。可信区间。本例:本例:按正态分布原理近似计算:按正态分布原理近似计算:95%95%可信区间为:可信区间为:99%99%可信区间为:可信区间为:Gui Lihui正确性和精密性的关系正确性和精密性的关系样本量对参数估计正确性和精密性的影响样本量对参数估计正确性和精密性的影响(正常人血糖总体均数的估计)(正常人血糖总体均数的估计)n95%可信区间可信区间99%可信区间可信区间204.70 5.14 4.61 5.23 1204.83 5.014.81 5.03 Gui Lihui四、正常值范围与可信区间四、正常值范围与可信区间 总体均数的可信区间:总体均数的可信区间:正常参考值范围:正常参考值范围:可信区间是总体均数的可能范围,其大小受抽可信区间是总体均数的可能范围,其大小受抽样误差的影响;正常参考值范围则是样误差的影响;正常参考值范围则是“正常正常”个体个体观察值的可能范围,其大小主要与个体间的变异大观察值的可能范围,其大小主要与个体间的变异大小有关。前者是推断性的,后者是描述性的,切不小有关。前者是推断性的,后者是描述性的,切不可混淆。可混淆。Gui Lihui正常值范围与总体均数置信区间比较正常值范围与总体均数置信区间比较