《参数估计基础》PPT课件.ppt
第五章第五章 参数估计基础参数估计基础 第五章第五章 由抽由抽样造成的造成的样本均数与本均数与总体均数及体均数及样本均数本均数之之间的差的差别称称为均数的抽均数的抽样误差。差。第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误一、均数的抽样误差一、均数的抽样误差抽样误差抽样误差:抽抽样研究中,研究中,样本本统计量与量与总体参数体参数间的差的差别及及统计量与量与统计量量间的差的差别称称为抽抽样误差。差。均数的抽样误差均数的抽样误差:二、标准误的计算二、标准误的计算【例【例5-1】假设已知假设已知100名(总体)正常成年男性红名(总体)正常成年男性红细胞数的均值为细胞数的均值为 1012/L,标准差为,标准差为0.43 1012/L,现从该总体中进行随机抽样,每次抽取现从该总体中进行随机抽样,每次抽取10名正常成名正常成年男子,并测得他们的红细胞数,最终共抽取年男子,并测得他们的红细胞数,最终共抽取100份样本,并计算出每份样本的均数。份样本,并计算出每份样本的均数。将一百个样本均数看成一批资料或为一个新样本,我们可以计算其均数与标准差,均数值为4.9097,标准差为。将样本均数的“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的变异程度,而标准误则说明样本均数的变异程度,两者不能混淆。将第将第1号样本的标准差及例数代入式(号样本的标准差及例数代入式(5-2),得),得 (5-2)(5-1)100 100个个样本均数的本均数的频数分布数分布图标准误标准误统计量的量的标准差称准差称为标准准误(如均数(如均数标准准误、率的、率的标准准误);均数的);均数的标准准误是描述均数是描述均数抽抽样误差大小的差大小的统计指指标。标准误的用途:标准误的用途:1.衡量衡量样本均数的可靠性。本均数的可靠性。2.结合合样本均数和正本均数和正态分布曲分布曲线下的面下的面积 分布分布规律,估律,估计总体均数的置信区体均数的置信区间。3.用于均数的假用于均数的假设检验。思考思考题:标准准误和和标准差的区准差的区别?则 zN(0,1)第二节第二节 t t 分布分布 则 zN(0,1););(,),作),作 z 转换xN(,),作),作 转换,一、一、t t 分布分布 的概念的概念t 变量量为用用以以推推断断总体体均均数数的的样本本检验统计量。量。t 分布只有分布只有1个参数自由度个参数自由度n1。1.当当 已知已知时,可作,可作 z 转换,推断,推断总体均体均数的数的样本本检验统计量量为z。2.当当 未知未知时,可作正,可作正态变量量 的的 t 转换,二、二、t 分布的特征与分布的特征与t界界值表表 图图5-1 不同自由度不同自由度t分布的概率密度曲线分布的概率密度曲线3.当当 时,时,t 分布逼近分布逼近z 分布;分布;特征:特征:1.单峰分布,以单峰分布,以0为中心,左右对称;为中心,左右对称;2.越小,越小,t 值越分散,值越分散,t 分布的峰部越矮分布的峰部越矮而尾部翘得越高;而尾部翘得越高;4.t 分布曲线下的面积有一定规律。分布曲线下的面积有一定规律。双侧:双侧:单侧:单侧:图图5-2 =9时单侧(时单侧(a)与双侧()与双侧(b)分布曲线下尾部面积)分布曲线下尾部面积第三节 总体均数的估计【例【例5-2】随机抽取某地随机抽取某地100名名16岁男孩,岁男孩,测得其体重均数为,标准差为,试估计该地测得其体重均数为,标准差为,试估计该地16岁男孩体重的总体均数。岁男孩体重的总体均数。一、点估一、点估计(point estimation)(point estimation)用用样本本统计量作量作为总体参数的点体参数的点值估估计二、区间估计(二、区间估计(interval estimation)结合合样本本统计量和抽量和抽样误差在一定差在一定的可信度的可信度100(1-)%下估下估计总体参体参数所在的范数所在的范围,称,称为总体参数的置信体参数的置信区区间(confidence interval,CI)。)。置信区间的概念置信区间的概念分布法分布法正正态分布原理分布原理计算算总体均数的体均数的1-1-可信区可信区间为:/2/21-z/2z/2(1)已知(小已知(小样本要求本要求资料服从正料服从正态)均数置信区间的计算均数置信区间的计算(2)未知,但样本例数未知,但样本例数n足够大时(足够大时(50)注意注意:若总体不服从正态分布时,一般是若总体不服从正态分布时,一般是很难确定其总体中的未知参数,但当样本很难确定其总体中的未知参数,但当样本量量n很大时,我们可利用中心极限定理按很大时,我们可利用中心极限定理按上式对其总计均数作出近似的区间估计。上式对其总计均数作出近似的区间估计。2.t分布法(分布法(未知)未知)根据根据t分布原理,分布原理,P(-t/2,t t/2,)=1-0/2/21-t/2t/2总体均数(体均数(1-1-)可信区)可信区间计算公式如下:算公式如下:对于例对于例5-2,因为总体标准差未知,所以采用,因为总体标准差未知,所以采用公式公式(5-6)计算总体均数的计算总体均数的95%置信区间为:置信区间为:,)kg 95可信区可信区间 可可以以认为是是每每抽抽100个个由由样本本含含量量相相等等的的样本本算算得得的的置置信信区区间,平平均均有有95个个置置信信区区间会会包包括括总体体均均数,只有数,只有5个置信区个置信区间不会包括不会包括总体均数。体均数。置信区间的涵义置信区间的涵义(1)置置信信区区间 包包括括总体体均均数数的的可可能性能性为95;(2)总体均数落在置信区体均数落在置信区间 范范围内的可能性内的可能性为95;(3)通通过样本本资料料计算算出出的的95置置信信区区间包包括括总体均数的可能性体均数的可能性为95。判断:判断:置信区间的两个要素:置信区间的两个要素:1.准确度准确度2.精密度精密度反映在可信度反映在可信度1-的大小上,从准确度的角度,的大小上,从准确度的角度,愈接近愈接近1越好,如越好,如99%可信区可信区间比比95%的好;的好;它反映在区它反映在区间的的宽度上,即区度上,即区间越窄越好越窄越好 均数可信区间与参考值范围的区别均数可信区间与参考值范围的区别1.含含义:均数可信区均数可信区间用于估用于估计总体参数,而参考体参数,而参考值范范围用于估用于估计变量量值的分布范的分布范围。2.计算公式:算公式:均数可信区均数可信区间的的计算公式是基于算公式是基于统计量的量的抽抽样分布,而参考分布,而参考值范范围的的计算基于算基于变量量值的分布。的分布。Bernoulli试验试验以以A表示所感表示所感兴趣的事件,趣的事件,A事件事件发生称生称为“成功成功”,不,不发生称生称为“失失败”。相。相应的的这类试验称作称作为“成成败型型”试验或或Bernoulli试验。一、一、二项分布二项分布第四节第四节 二项分布和二项分布和Poisson分布分布 必必须满足下列三条件足下列三条件:(1)每次)每次试验结果只能是两个互斥果只能是两个互斥结果之果之 一(一(A或非或非A)。)。(2)每次)每次试验的条件不的条件不变,每次,每次试验结果果 A事件事件发生的概率生的概率为常数常数。(3)各次)各次试验独立,即每次独立,即每次试验出出现事件事件 A的概率与前面各次的概率与前面各次试验出出现的的结果无关。果无关。概率的运算法则概率的运算法则 乘法法乘法法则:几个相互独立事件的乘几个相互独立事件的乘积(同(同时发生)生)的概率等于各独立事件概率之的概率等于各独立事件概率之积:P(A1A2An)=P(A1)P(A2)P(An)可加性:可加性:互不相容互不相容事件事件 A1、A2、An(任一次(任一次试验至多一个出至多一个出现)的和(至少一个的和(至少一个发生)的概生)的概率等于各事件率等于各事件发生的概率之和:生的概率之和:P(A1+A2+An)=P(A1)+P(A2)+P(An)二项分布二项分布成功次数的概率分布成功次数的概率分布 某某实验中小白鼠染毒后中小白鼠染毒后死亡概率死亡概率:为0.7,则生存概率生存概率为:1-,故故对一只一只小白鼠小白鼠进行行实验的的结果果为:死死(概率(概率为 )或)或 生生(概率(概率为1-););对二只二只小白鼠(甲乙)小白鼠(甲乙)进行行实验的的结果果为:甲乙均死甲乙均死概率概率为 2甲死乙生甲死乙生概率概率为(1-)乙死甲生乙死甲生概率概率为(1-)甲乙均生甲乙均生概率概率为(1-)2概率相加得概率相加得:2+(1-)+(1-)+(1-)2=+(1-)2 对三只三只小白鼠(甲乙丙)小白鼠(甲乙丙)进行行实验的的结果果为:表表 3只白鼠各种只白鼠各种实验结果及其果及其发生概率生概率概率相加得概率相加得:+(1-)3 对n只只小白鼠小白鼠进行行实验,所有可能,所有可能结果的概率相果的概率相加得加得:n+Cn1 (1-)n-1+Cnx x(1-)n-x+(1-)n=+(1-)nn次次试验中事件中事件A出出现的次数的次数为x的概率是:的概率是:,k=0,1,2,n 记为 x B(n,)表表5-3 接种接种3 人可能出人可能出现不适反不适反应的人数及其概率的人数及其概率二项分布的性质:二项分布的性质:(1)二二项分布的概率之和等于分布的概率之和等于1,即,即(2)单侧累累积概率概率至少有至少有m例阳性的概率(上例阳性的概率(上侧累累积概率)概率)至多有至多有m例阳性的概率(下例阳性的概率(下侧累累积概率)概率)(3)二二项分布的均数和分布的均数和标准差准差若若xB(n,),则x 的的总体均数体均数 =n,x的的总体方差体方差 2 n (1 )x的的标准差准差(4)二二项分布的正分布的正态近似性近似性 二二项分布分布图形的形状取决于形的形状取决于 和和n 的大的大小;小;二二项分布的分布的图形有如下特征:形有如下特征:当当 时,无,无论n的大小,均的大小,均为对称分称分布;布;当当 0.5,n较小小时为偏偏态分布分布,n较大大时逼近正逼近正态分布。分布。n=5 n=10 n=20 当当 不接近于不接近于0或或1,n不是很小,不是很小,n 5且且n(1)5时,二,二项分布近似正分布近似正态分布,有分布,有因此因此,二二项分布的正分布的正态近似拓近似拓宽了二了二项分布的分布的应用范用范围,应用十分方便。用十分方便。样本率本率p的的总体均数体均数:当当样本含量本含量较大,大,总体阳性率体阳性率 不接近与不接近与0 0,也不接近于也不接近于1 1时,样本中的阳性数近似正本中的阳性数近似正态分分布布N(nN(n,),),样本阳性率也近似正本阳性率也近似正态分布分布N(N(,p p),),故有故有样本率本率p的的标准差准差:样本率的分布和正态近似样本率的分布和正态近似例补例补1:根据以往经验,新生儿染色体异常率一般为:根据以往经验,新生儿染色体异常率一般为1,某医院观察了当地,某医院观察了当地400名新生儿,只有名新生儿,只有l例染例染色体异常,问该地新生儿染色体异常率是否低于色体异常,问该地新生儿染色体异常率是否低于一般一般?H0:H1:(1/400,故不拒绝,故不拒绝H0,即不能认为该溶液在,即不能认为该溶液在5冰箱中放置冰箱中放置3天,会引起溶液中的细菌数增长。天,会引起溶液中的细菌数增长。第五节第五节 总体率的估计总体率的估计【例【例5-5】某市疾控中心某市疾控中心对该市郊区市郊区200名小学生名小学生进行行贫血的血的检测,结果果发现有有80名小学生名小学生贫血,血,检出率出率为40.0%,则认为该市郊区小学生市郊区小学生贫血率血率为40.0%。【问题】(1)这是什么是什么资料?料?(2)该研究属于何种研究属于何种设计方案?方案?(3)以此次抽)以此次抽样得到小学生得到小学生贫血率血率40.0%来代表来代表该市郊区小学生市郊区小学生贫血率是否合适?血率是否合适?(4)怎)怎样估估计该市郊区小学生市郊区小学生贫血率?血率?一、率的抽样误差与标准误一、率的抽样误差与标准误由于抽由于抽样而引起的而引起的样本率与本率与总体率及体率及样本率本率间的差异的差异称称为率的抽率的抽样误差差,与均数的抽与均数的抽样误差可以用均数的差可以用均数的标准准误度量一度量一样,率的抽,率的抽样误差的大小亦可以用率的差的大小亦可以用率的标准准误来度量。来度量。率的率的标准准误由下式由下式计算算例例6-6,n200,p=0.40,代入公式得代入公式得sp。二、总体率的估计二、总体率的估计当当样本例数本例数较小(小(n 50),特),特别是是p接近于接近于0或或1时,根据二,根据二项分布的原理确定分布的原理确定总体率的可信区体率的可信区间。1970年,年,Miettinen根据二根据二项分布和分布和F分布的关系,分布的关系,导出了出了总体率的可信区体率的可信区间算法。算法。精确概率法或查表法精确概率法或查表法 【例【例5-6】2003年年46月某医院重症监护月某医院重症监护病房收治重症病房收治重症SARS患者患者38人,其中死亡人,其中死亡12人,求人,求SARS病死概率的置信区间。病死概率的置信区间。查附表3,n=38,x=12,在x与n的纵横交叉处,得到SARS病死概率的95%置信区间为18%49%。正态近似法正态近似法当当样本例数本例数n较大,大,p和和1p均不太小,如均不太小,如np和和n(1p)均大于均大于5。总体率的体率的1 的可信区的可信区间为(pz/2 Sp,pz/2Sp)即即该乡镇小学生小学生贫血率的血率的95置信区置信区间为,)。例例5-5,n=200比比较大,大,p=0.4,np=80,n(1-p)=120,均大于均大于5,最佳选择题最佳选择题1.描述均数抽样误差大小的统计指标是()。A.标准差 B.方差 C.均数的标准误 D.变异系数 E.离均差平方和2.减少均数的抽样误差的可行方法之一是():A.严格执行随机抽样 B.增大样本含量 C.设立对照 D.选一些处于中间状态的个体E.选一些处于极端状态的个体3.在标准差与标准误的关系中,说法正确的是在标准差与标准误的关系中,说法正确的是():A.样本例数增大时,标准差减小,标准误不变样本例数增大时,标准差减小,标准误不变B.可信区间大小与标准差有关,而正常值范围与可信区间大小与标准差有关,而正常值范围与 标准误有关标准误有关C.样本例数增大时,标准差增大,标准误也增大样本例数增大时,标准差增大,标准误也增大D.样本的例数增大时,标准差与标准误均减小样本的例数增大时,标准差与标准误均减小E.总体标准差一定时,增大样本例数会减小标准误总体标准差一定时,增大样本例数会减小标准误4.关于关于t分布的图形,下述哪项是错误的分布的图形,下述哪项是错误的()。A.当自由度当自由度 趋于无穷大趋于无穷大 时,时,t分布趋于标准正态分布分布趋于标准正态分布 B.无论自由度为多少无论自由度为多少,t分布曲线下的面积都为分布曲线下的面积都为1C.自由度越小,则自由度越小,则t分布的尾部越高分布的尾部越高 D.t分布是一条以分布是一条以 为中心左右对称的曲线为中心左右对称的曲线E.t分布是一簇曲线,故临界值因自由度的不同而不同分布是一簇曲线,故临界值因自由度的不同而不同5.用正态近似法进行总体率的区间估计时,应满足()。A.n足够大 B.p或1-p不太小 C.np或n(1-p)均大于5 D.以上均要求 E.以上均不要求6.总体率95%可信区间的意义是()A.95%的正常值在此范围内 B.95%的样本率在此范围内 C.95%的总体率在此范围内 D.总体率在此范围内的可能性为95%E.样本率在此范围内的可能性为95%7()的均数等于方差。A.正态分布 B.二项分布 C.对称分布 D.Poisson分布 E.以上均不对8.某地成年男子红细胞数普查结果为:均数为4.801012/L,标准差为0.411012/L,那么标准差反映的是():A.抽样误差 B.总体均数不同C.随机误差 D.个体差异E.以上均不正确9.测定某地测定某地100名正常成年男子的血红蛋白量,名正常成年男子的血红蛋白量,要估计该地正常男子血红蛋白均数,要估计该地正常男子血红蛋白均数,95%可信可信限范围为限范围为():10某地成年男子红细胞普查结果为:均数为某地成年男子红细胞普查结果为:均数为4.801012/L,标准差为标准差为0.411012/L,随机抽取,随机抽取10名男名男子,测得红细胞均数为子,测得红细胞均数为4.001012/L,标准误,标准误0.501012/L,那么标准误反映的是,那么标准误反映的是():A.抽样误差抽样误差 B.总体均数不同总体均数不同 C.随机误差随机误差 D.个体差异个体差异 E.以上均不正确以上均不正确