第四章--研参数估计基础课件.ppt
医用统计方法及其医用统计方法及其SPSS软件应用软件应用公共卫生学院公共卫生学院流行病与卫生统计学系流行病与卫生统计学系第四章第四章 抽样误差与参数估计抽样误差与参数估计QuestionQuestion某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男岁健康男大学生的身高,其均数为大学生的身高,其均数为172.2cm172.2cm,标准,标准差为差为4.5cm,4.5cm,,试估计该地,试估计该地1919岁健康男大岁健康男大学生的身高可能的范围。学生的身高可能的范围。讲课提纲抽样分布和抽样误差抽样分布和抽样误差t t分布分布总体均数和概率的估计总体均数和概率的估计 第一节第一节 抽样分布与抽样误差抽样分布与抽样误差 用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为统计推断统计推断统计推断统计推断。统计推断包括两方面的内容:统计推断包括两方面的内容:参数估计参数估计和和假设检验假设检验抽样误差抽样误差:由:由个体变异个体变异个体变异个体变异产生的、由于产生的、由于抽样抽样抽样抽样而造成的而造成的样本统计量与样本统计量及样本统计量与总体参数之间样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。的差异称为抽样误差。无倾向性,不可避免。一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差 均数的抽样误差:均数的抽样误差:由由个体变异个体变异产生的、由于产生的、由于抽样抽样而造成的样而造成的样本均数与样本均数及样本均数与总体均数之间的差异本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称叫样本均数的标准差,也称样本均数的标准误样本均数的标准误。抽样实验一:抽样实验一:假定从假定从1313岁女学生身高总体均数岁女学生身高总体均数标准差标准差 的的正态总体正态总体中进行随机抽样。中进行随机抽样。v样本均数的抽样分布特点样本均数的抽样分布特点:1 1 各样本均数未必等于总体均数各样本均数未必等于总体均数 2 2 样本均数之间存在差异样本均数之间存在差异 3 3 样本均数的分布很有规律,围绕着总体均数,中样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称,也服从正态分布间多,两边少,左右基本对称,也服从正态分布 4 4 样本均数的变异较之原变量变异大大缩小样本均数的变异较之原变量变异大大缩小抽样实验二:非正态总体样本均数的抽样实验(实验5-2)图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图 N=5N=10N=30N=50 1 1)从正态总体)从正态总体N(,N(,2 2)中,随机抽取例数为中,随机抽取例数为n n的多的多个样本,样本均数个样本,样本均数 服从正态分布;即使是从偏态服从正态分布;即使是从偏态总体中随机抽样,当总体中随机抽样,当n n足够大时足够大时(如如n n50)50),也近也近似正态分布。似正态分布。2)从均数为从均数为,标准差为标准差为的正态或偏态总体中抽的正态或偏态总体中抽取例数为取例数为n n的样本,样本均数的标准差即的样本,样本均数的标准差即标准误标准误为为 。标准误的大小与标准误的大小与的大小成正比,与的大小成正比,与n n成反比,而成反比,而为定值,说明可以通过为定值,说明可以通过增加样本例数增加样本例数来减少标准误,来减少标准误,以降低抽样误差。以降低抽样误差。未知,用样本标准差未知,用样本标准差S S来估计总体标准差来估计总体标准差。用 来表示均数抽样误差的大小。(标准误的理论值)(标准误的理论值)(标准误的估计值)(标准误的估计值)例例5-1 20005-1 2000年某研究所随机调查某地健康年某研究所随机调查某地健康成年男子成年男子2727人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L125g/L,标准差为标准差为15g/L 15g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽样误差。二二 、样本频率的抽样分布与抽样误差、样本频率的抽样分布与抽样误差从同一总体中随机抽出观察单位相等的多个样本,从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为异是由于抽样引起的,称为频率的抽样误差频率的抽样误差频率的抽样误差频率的抽样误差。表示频率的抽样误差大小的指标叫表示频率的抽样误差大小的指标叫频率的标准误。频率的标准误。频率的标准误。频率的标准误。样本频率的抽样分布与抽样误差样本频率的抽样分布与抽样误差 实验4.2:某班近视眼患病率20%(总体概率=20%),随机抽出35人(n=35),观察近视眼患病率(样本频率p i)。重复这样的实验100次,每次得到患病率分别为14.4%,19.8%,20.2%,22.5%,等,将其频数分布列于表5-3。表表5-3总体概率为总体概率为20%时的随机抽样结果(时的随机抽样结果(ni=35)黑球比例%样本频数%5.0 3 3.0 8.0 7 7.011.0 5 5.014.0 8 8.017.0 1616.020.0 2222.022.0 1515.025.0 7 7.028.0 7 7.031.0 5 5.034.0 3 3.040.0 2 2.0合计100 100.0:总体率,总体率,n:样本例数。样本例数。当当未知时,未知时,p p (为样本含量足够大,为样本含量足够大,且且p p和和1-p1-p不太小)不太小)公式为公式为::率的标准误的估计值,:率的标准误的估计值,p p:样本率。样本率。据数理统计的原理,率的标准误用据数理统计的原理,率的标准误用 表示表示例例5-2 5-2 某市随机调查了某市随机调查了5050岁以上的中老年岁以上的中老年妇女妇女776776人,其中患有骨质疏松症者人,其中患有骨质疏松症者322322人,患病率人,患病率为为41.5%41.5%,试计算该样本频率的抽样误差。,试计算该样本频率的抽样误差。一、一、t t分布的概念分布的概念在统计应用中,可以把任何一个均数为在统计应用中,可以把任何一个均数为,标准差为,标准差为的正态分布的正态分布N(,2)转变为转变为=0,=1的标准正态分布,的标准正态分布,即将正态变量值即将正态变量值X用用来代替。来代替。第二节第二节 t 分布分布也服从正态分布,也服从正态分布,服从标准正态分布服从标准正态分布N(0,1)服从服从=n-1的的t分布分布N=3N=50t分布曲线特点:分布曲线特点:1)t分布曲线是单峰分布,它以分布曲线是单峰分布,它以0为中心,左为中心,左右对称。右对称。2)t分布的形状与样本例数分布的形状与样本例数n有关。自由度越小,有关。自由度越小,则则越大,越大,t 值越分散,曲线的峰部越矮,尾部翘的值越分散,曲线的峰部越矮,尾部翘的越高。越高。3)当当n时,则时,则S逼近逼近,t分布逼近标准分布逼近标准正态分布。正态分布。t分布不是一条曲线,而是一簇曲线。分布不是一条曲线,而是一簇曲线。二、二、t 分布的图形和分布的图形和t分布表分布表=(标准正态分布)=5=1012345-1-2-3-4-5f(t)0.10.20.3图5-3 不同自由度下的t分布图t分布分布 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。t界值表:横标目为自由度,纵标目为概率P。t临界值:表中数字表示当 和P 确定时,对应的值。单侧概率(one-tailed probability):用t,表示 双侧概率(two-tailed probability):用t/2,表示t分布分布例如,当=16,单侧概率P=0.05时,由表中查得单侧t0.05,16=1.746;而当=16,双侧概率P=0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.05 双侧:P(t t0.05/2,16)P(t t0.05/2,16)=0.05 t分布分布更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:单侧:P(t t,)=和 P(t t,)=双侧:P(t t/2,)P(t t/2,)=t分布分布从t界值表中或表的右上角图列亦可看出:在相同自由度时,t值越大,概率P越小;而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16=t0.05,16=1.746。一、参数估计的概念一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。用样本指标(统计量)来估计总体指标(参数)。第三节第三节第三节第三节 总体均数及总体概率的估计总体均数及总体概率的估计总体均数及总体概率的估计总体均数及总体概率的估计参数估计参数估计点估计点估计(point estimation)区间估计区间估计(interval estimation)二、二、置信区间的计算置信区间的计算1.点估计点估计:用样本统计量直接作为总体参数的估计值用样本统计量直接作为总体参数的估计值。例如例如于于2000年测得某地年测得某地27例健康成年男性血红蛋白量例健康成年男性血红蛋白量的样本均数为的样本均数为125g/L,试估计其总体均数。试估计其总体均数。同理,例同理,例5-2中中776名名50岁以上的中老年妇女骨质疏岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即松症的样本患病率作为总体患病率的点值估计值,即认为该市所有认为该市所有50岁以上的中老年妇女骨质疏松症的总岁以上的中老年妇女骨质疏松症的总体患病率约为体患病率约为41.5%。(一)总体均数的置信区间一)总体均数的置信区间一)总体均数的置信区间一)总体均数的置信区间2.区间估计区间估计:按预先给定的概率:按预先给定的概率(1)估计总体参数估计总体参数的可能范围的可能范围,该范围就称为该范围就称为总体参数的总体参数的总体参数的总体参数的1 1 置信区间置信区间置信区间置信区间(confidence interval,CI)(confidence interval,CI)。预先给定的概率(1)称为置信度置信度置信度置信度,常取95%或99%。如无特别说明,一般取双侧95%。可信区间由两个数值即可信区间由两个数值即置信限置信限置信限置信限构成,其中最小值构成,其中最小值称为下限,最大值称为上限。称为下限,最大值称为上限。严格讲,可信区间不包严格讲,可信区间不包括上下限两个端点值。括上下限两个端点值。通式:通式:(双侧)(双侧)置信区间的计算置信区间的计算 (1 1)已知,按标准正态分布原理计算已知,按标准正态分布原理计算已知,按标准正态分布原理计算已知,按标准正态分布原理计算由由z分布,分布,标准正态曲线下有标准正态曲线下有95%的的z值在值在1.96之间。之间。95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:Z/2为标准正态变量,为标准正态变量,Z/2相当于按相当于按=时及时及P取取,由附表由附表2查的的查的的t界值。界值。通式:通式:(双侧)(双侧)(2 2)未知但样本例数未知但样本例数未知但样本例数未知但样本例数n n足够大(足够大(足够大(足够大(n n5050)时时时时由由t分布可知,自由度越大,分布可知,自由度越大,t分布越逼近标准正态分分布越逼近标准正态分布,此时布,此时t曲线下有曲线下有95%的的t值约在值约在1.96之间,即95%的双侧置信区间:99%的双侧置信区间:例例5-4某市某市2000年随机测量了年随机测量了90名名19岁健康男大学生岁健康男大学生的身高,其均数为的身高,其均数为172.2cm,标准差为标准差为4.5cm,,试估计试估计该地该地19岁健康男大学生的身高的岁健康男大学生的身高的95%置信区间。置信区间。该市该市19岁健康男大学生的身高的岁健康男大学生的身高的95%置信区间置信区间(171.3,173.1)cm(3 3)未知且样本例数未知且样本例数未知且样本例数未知且样本例数n n较小时,按较小时,按较小时,按较小时,按t t分布原理分布原理分布原理分布原理,此时此时某自由度的某自由度的t曲线下有曲线下有95%的的t值约在值约在t0.05()之间,通式:95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间的双侧置信区间:t t/2,/2,是按自由度是按自由度=n-1=n-1,由附表由附表2 2查查得的得的t t值值。例例5-3已知某地已知某地27例健康成年男性血红蛋白量的均数为例健康成年男性血红蛋白量的均数为,标准差,标准差S=15g/L,试问该地健康成年男性血红蛋白量试问该地健康成年男性血红蛋白量的的95%和和99%置信区间。置信区间。本例本例n=27,S=1595%CI:99%CI:置信区间的两个要素置信区间的两个要素1.准确度准确度:反映置信度:反映置信度1-的大小,即区间包的大小,即区间包含总体均数的概率大小。含总体均数的概率大小。2.精度精度:反映区间的长度。:反映区间的长度。3.在置信区间确定的情况下,增加样本例在置信区间确定的情况下,增加样本例数,会减小数,会减小t,和和,可减少区间长度,提,可减少区间长度,提高精度。高精度。总总体体概概率率的的置置信信区区间间与与样样本本含含量量n,阳阳性性频频率率p的的大大小有关,可根据小有关,可根据n和和p的大小选择以下两种方法。的大小选择以下两种方法。1.1.正态近似法正态近似法正态近似法正态近似法当样本含量足够大,且当样本含量足够大,且p和和1-p不太小,则样本率不太小,则样本率的分布近似正态分布。的分布近似正态分布。公式为:公式为:P为样本率,为样本率,为率的标准误的估计值,为率的标准误的估计值,(二)总体概率的置信区间二)总体概率的置信区间例例5-7用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者94例,检出率为例,检出率为78.3%。估计该仪器乳腺癌总体检出。估计该仪器乳腺癌总体检出率的率的95%置信区间。置信区间。分析:本例样本例数较大,且样本率分析:本例样本例数较大,且样本率p不太小,可用不太小,可用正态近似法:正态近似法:2.2.查表法查表法 当n较小,如n50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。例例5-5某医院对某医院对39名前列腺癌患者实施开放手术治名前列腺癌患者实施开放手术治疗,术后有合并症者疗,术后有合并症者2人,试估计该手术合并症发生人,试估计该手术合并症发生概率的概率的95%置信区间。置信区间。例例5-6 5-6 某医生用某药物治疗某医生用某药物治疗3131例脑血管梗塞患者,例脑血管梗塞患者,其中其中2525例患者治疗有效,试求该药物治疗脑血管梗例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的塞有效概率的95%95%置信区间。置信区间。注意注意注意注意:附表:附表6 6仅列出仅列出Xn/2 Xn/2 的的95%95%置信区间。置信区间。Xn/2,以,以n-X查表,再以查表,再以100-查的值查的值小小结结掌握掌握:参数估计的概念,均数、率的标参数估计的概念,均数、率的标准误的计算方法,总体均数和总体率的准误的计算方法,总体均数和总体率的可信区间计算方法。可信区间计算方法。熟悉熟悉:t分布的特征,分布的特征,t界值的使用界值的使用。了解了解:均数和率抽样误差的概念,样本均数和率抽样误差的概念,样本统计量的分布规律,标准误的意义及应统计量的分布规律,标准误的意义及应用用。参考值范围与均数置信区间的区别参考值范围与均数置信区间的区别意义意义意义意义:前者为绝大多数人某项指标的数值范围,后者为按前者为绝大多数人某项指标的数值范围,后者为按 一定的概率估计总体参数所在的范围一定的概率估计总体参数所在的范围 计算计算计算计算:置信区间用标准误,参考值范围用标准差置信区间用标准误,参考值范围用标准差应用应用应用应用:前者供判断观察对象某项指标是否正常时参考,后者:前者供判断观察对象某项指标是否正常时参考,后者估计未知总体均数所在范围估计未知总体均数所在范围思考!思考!标准差与均数的标准误的标准差与均数的标准误的区别与联系区别与联系区别区别区别区别:1 1)概念(意义)不同)概念(意义)不同)概念(意义)不同)概念(意义)不同:标准差是描述样本中个体值:标准差是描述样本中个体值间的变异程度;标准误是描述样本均数抽样误差大小的指标间的变异程度;标准误是描述样本均数抽样误差大小的指标2)2)记法和计算不同记法和计算不同记法和计算不同记法和计算不同:略:略3)3)用途不同用途不同用途不同用途不同:标准差常用于估计正常值范围,计算变异:标准差常用于估计正常值范围,计算变异系数等;标准误常用于估计参数的可信区间,进行假设检验系数等;标准误常用于估计参数的可信区间,进行假设检验4 4)控制方法不同)控制方法不同)控制方法不同)控制方法不同:标准差趋向稳定,不能用统计方法控:标准差趋向稳定,不能用统计方法控制。而标准误随例数的增大而减小制。而标准误随例数的增大而减小思考!思考!联系联系联系联系:1 1)二者均为变异指标,如果把总体中各样本均数看成一个变二者均为变异指标,如果把总体中各样本均数看成一个变 量,则标准误可称为样本均数的标准差量,则标准误可称为样本均数的标准差 2 2)当样本含量不变时,均数的标准误与标准差成正比当样本含量不变时,均数的标准误与标准差成正比 3 3)两者均可与均数结合运用,但描述的内容各不相同两者均可与均数结合运用,但描述的内容各不相同 案例辨析案例辨析 P89P89思考!思考!1.某地某地1992年随机抽取年随机抽取100名健康女性,算得其血清总蛋名健康女性,算得其血清总蛋白含量的均数为白含量的均数为74g/L,标准差为,标准差为4g/L,则其,则其95%的参的参考值范围为(考值范围为()。)。A.74 4 4B.74 1.96 4C.74 2.58 4D.74 2.58 4 10E.74 1.96 4 102.关于以关于以0为中心的为中心的t分布,错误的是(分布,错误的是()。)。A.t分布图是一簇曲线分布图是一簇曲线B.t分布图是单峰分布分布图是单峰分布C.当当时,时,tuD.t分布图以分布图以0为中心,左右对称为中心,左右对称E.相同相同 时,时,|t|越大,越大,P越大越大3以下关于参数点估计的说法正确的是以下关于参数点估计的说法正确的是ACV越小,表示用该样本估计总体均数越可靠越小,表示用该样本估计总体均数越可靠B标准误越小,表示用该样本估计总体均数越准确标准误越小,表示用该样本估计总体均数越准确C标准误越大,表示用该样本估计总体均数的可靠性标准误越大,表示用该样本估计总体均数的可靠性越差越差DS越小,表示用该样本估计总体均数越可靠越小,表示用该样本估计总体均数越可靠习题习题某研究者欲了解某地某研究者欲了解某地1995年小学五年级学生年小学五年级学生智商(智商(IQ)的平均水平,随机抽取了)的平均水平,随机抽取了200名名五年级小学生进行测试,算得五年级小学生进行测试,算得IQ的平均水平的平均水平为为108.5分,标准差为分,标准差为5.06分。以此研究解答分。以此研究解答以下问题:以下问题:问题问题1:为何要进行抽样研究?抽样研究的目:为何要进行抽样研究?抽样研究的目的是什么?的是什么?问题问题2:什么是抽样误差?抽样误差形成的原:什么是抽样误差?抽样误差形成的原因是什么?因是什么?问题问题3:什么是均数的抽样误差?描述均数的:什么是均数的抽样误差?描述均数的抽样误差大小的指标是什么?抽样误差大小的指标是什么?问题问题4:标准误和标准差的联系和区别是什么:标准误和标准差的联系和区别是什么?小学五年级学生的智商水平服从总体均小学五年级学生的智商水平服从总体均数为数为、总体标准差为、总体标准差为 的正态分布,若的正态分布,若从正态分布的总体中随机抽取例数为从正态分布的总体中随机抽取例数为n的的样本并算得多个样本均数样本并算得多个样本均数 X,它们服从,它们服从总体均数为总体均数为、总体标准差为、总体标准差为X的正态的正态分布;以此研究解答以下问题:分布;以此研究解答以下问题:问题问题1:t分布是怎样演变成的?分布是怎样演变成的?问题问题2:对于一个正态总体,有多少条:对于一个正态总体,有多少条t分布曲分布曲线?什么情况下对应一条线?什么情况下对应一条t分布曲线?分布曲线?问题问题3:与:与u分布相比较,分布相比较,t分布曲线的峰度和尾分布曲线的峰度和尾部是怎样的?部是怎样的?问题问题4:自由度:自由度 增大,增大,t分布曲线的峰度和尾部分布曲线的峰度和尾部是如何变化的?是如何变化的?问题问题5:什么情况下,:什么情况下,t分布逼近分布逼近u分布?分布?问题问题6:什么是双侧:什么是双侧t界值?什么是单侧界值?什么是单侧t界值?界值?问题问题7:对于一条:对于一条t分布曲线,什么情况下双侧分布曲线,什么情况下双侧t界值与单侧界值与单侧t界值相等?界值相等?问题问题8:在一条:在一条t分布曲线中,横轴上的分布曲线中,横轴上的t值越大,它所对应的曲线两侧尾部面积值越大,它所对应的曲线两侧尾部面积P是怎样变化的?是怎样变化的?问题问题9、若有两条、若有两条t分布曲线,自由度分别分布曲线,自由度分别为为 1、2,1 2,横轴上同一个,横轴上同一个t值对值对应这两条应这两条t分布曲线的外尾面积分别为分布曲线的外尾面积分别为P1和和P2,则,则P1和和P2的大小关系如何?的大小关系如何?随机测量某地初中生男女婴儿胸围随机测量某地初中生男女婴儿胸围(cm),数据如下。男婴:,数据如下。男婴:n1=250,S1=1.80cm1=33.0cm,女婴:,女婴:n2=250,S2=1.65cm,2=32.0cm,试问:试问:(1)该地一男婴胸围该地一男婴胸围1.60cm,是否异常?,是否异常?(2)该地女婴胸围的可能范围为多少?该地女婴胸围的可能范围为多少?(3)有人认为该地男婴的胸围比女婴高,有人认为该地男婴的胸围比女婴高,你同意这种说法吗?你同意这种说法吗?书山有路勤为径书山有路勤为径