总体均数与总体率的估计.ppt
《总体均数与总体率的估计.ppt》由会员分享,可在线阅读,更多相关《总体均数与总体率的估计.ppt(87页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Chapter 6Chapter 6总体均数与总体率的估计总体均数与总体率的估计随机抽样随机抽样统计推断统计推断【例例6-16-1】欲了解某地正常成年男性血清胆固醇的平欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性均水平,某研究者在该地随机抽取正常成年男性120120名,得其血清胆固醇的均数为名,得其血清胆固醇的均数为3.86mmol/L3.86mmol/L,标准差,标准差为为1.73 mmol/L1.73 mmol/L,据此认为该地正常成年男性血清胆,据此认为该地正常成年男性血清胆固醇的平均水平为固醇的平均水平为3.86 mmol/L3.86 mmol/L。以
2、样本均数以样本均数3.86mmol3.86mmol/L L来代表该地区正常成年男性血清胆固醇来代表该地区正常成年男性血清胆固醇的平均水平是否合适,为什么?的平均水平是否合适,为什么?第一节第一节 抽样误差与标准误抽样误差与标准误【例例6-26-2】假设已知某地正常成年男性红细假设已知某地正常成年男性红细胞数的均值为胞数的均值为5.00105.00101212/L/L,标准差为,标准差为0.43100.43101212/L/L。现从该总体中进行随机抽样,。现从该总体中进行随机抽样,每次抽取每次抽取1010名正常成年男子,并测得他们名正常成年男子,并测得他们的红细胞数,抽取的红细胞数,抽取1001
3、00份样本,计算出每份份样本,计算出每份样本的均数。样本的均数。每个样本均数是否都恰好等每个样本均数是否都恰好等于总体均数,各样本均数是否相等?于总体均数,各样本均数是否相等?均数的抽样误差均数的抽样误差(sampling error)sampling error)抽样误差抽样误差:由于个体变异的存在,由于个体变异的存在,在抽样研在抽样研究中产生的究中产生的样本统计量和总体参数样本统计量和总体参数之间的之间的差异差异各种参数都有抽样误差,这里我们以均数各种参数都有抽样误差,这里我们以均数为研究对象为研究对象原因:个体变异抽样原因:个体变异抽样表现:表现:样本均数和总体均数间样本均数和总体均数间
4、的差别、的差别、样本均数和样本均数间样本均数和样本均数间的差别的差别抽样误差是抽样误差是不可避免不可避免的,但抽样误差有的,但抽样误差有自己的规律自己的规律样本均数的分布和标准误样本均数的分布和标准误当固定样本含量当固定样本含量n n从同一总体中随机抽取多从同一总体中随机抽取多个样本时,样本均数间存在差异,那么这个样本时,样本均数间存在差异,那么这些样本均数的分布是怎样的呢?些样本均数的分布是怎样的呢?能否用某个指标来描述它们之间的变异?能否用某个指标来描述它们之间的变异?图图6-1 1006-1 100个样本均数的频数分布图个样本均数的频数分布图样本统计量的标准差称为标准误样本统计量的标准差
5、称为标准误(standard (standard error)error)样本均数的样本均数的标准差标准差称为称为均数的标准误均数的标准误(SEM),(SEM),用用 表示表示 说明样本均数围绕总体均数的离散程度,说明样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差大小可用来反映样本均数的抽样误差大小中心极限定理中心极限定理从正态总体从正态总体 N N(,2 2)中,随机抽取例数中,随机抽取例数为为 n n 的样本,的样本,样本均数也服从正态分布样本均数也服从正态分布;即使从偏态总体随机抽样,当即使从偏态总体随机抽样,当 n n 足够大时足够大时(n n 50)50),样本均数近似
6、正态分布,样本均数近似正态分布从均数为从均数为,标准差为,标准差为 的正态或偏态总体的正态或偏态总体中,抽取例数为中,抽取例数为 n n 的样本,的样本,样本均数的总样本均数的总体均数也为体均数也为 ,标准差与原标准差成正比,标准差与原标准差成正比,与样本例数的平方根成反比与样本例数的平方根成反比 常未知,用常未知,用 s s 估计,因此均数标准误的估估计,因此均数标准误的估计值为计值为实际应用中,若标准差固定不变,实际应用中,若标准差固定不变,可通过可通过增加样本含量增加样本含量n n来减少抽样误差来减少抽样误差4.标准误的计算标准误的计算【例例】随机抽取某市随机抽取某市200200名名7
7、7岁男童的身岁男童的身高均数为高均数为124.0cm124.0cm,标准差为,标准差为4.6cm4.6cm,估,估计抽样误差的大小计抽样误差的大小 意义不同:意义不同:标准差:表示观测值的变异程度标准差:表示观测值的变异程度 标准误:反映抽样误差的大小标准误:反映抽样误差的大小 用途不同:用途不同:标准差:确定医学参考值范围标准差:确定医学参考值范围 标准误:用于统计推断(参数估计、假设检验)标准误:用于统计推断(参数估计、假设检验)公式不同:公式不同:标准差与标准误的区别标准差与标准误的区别第二节第二节 t t 分布分布t 分布的演化 常未知,若用常未知,若用 ,这时对样本均,这时对样本均数
8、进行的不是数进行的不是 z z 变换而是变换而是 t t 变换变换 统计量统计量 t t 不再服从不再服从NN(0,1)(0,1)标准正态分布标准正态分布英国统计学家 William William Sealey GossetSealey Gosset 于1908年以“StudentStudent”笔名发表论文,证明统计量 t 服从v=n-1的t分布又称为Student t分布(Students t-distribution)t 分布的图形及特征分布的图形及特征t 分布的特征为:以0为中心,左右对称的单峰分布 越小,t值越分散,峰越矮,尾越高 增大,t分布逐渐逼近z分布,时,t分布即为z分布t
9、 界值表界值表横标目:自由度横标目:自由度 纵标目:概率纵标目:概率 P P(曲线下面积曲线下面积)表中数字:自由度为表中数字:自由度为 ,概率,概率P P 为为 时,时,所对应的所对应的 t t 界值,记为界值,记为t t,单侧:单侧:或或双侧:双侧:即即在相同自由度时,在相同自由度时,t t 的绝对值的绝对值越大,越大,P P 越小越小在相同在相同 P P 值时,自由度越大所对应的值时,自由度越大所对应的 t t 界界值越小值越小在相同在相同 t t 值时,双侧概率值时,双侧概率 P P 为单侧概率为单侧概率 P P 的两倍的两倍 时,时,t t界值即为界值即为z z界值界值第三节第三节
10、总体均数的估计总体均数的估计 统计推断统计推断(statistical inference)(statistical inference)统计推断是指如何抽样,以及如何用样本统计推断是指如何抽样,以及如何用样本性质推断总体特征性质推断总体特征参数估计参数估计(parameter estimation)(parameter estimation)假设检验假设检验(hypothesis testing)(hypothesis testing)参数估计参数估计点估计(点估计(Point Estimation)Point Estimation)To use a number to estimate t
11、he parameter.To use a number to estimate the parameter.区间估计区间估计(Interval Estimation)(Interval Estimation)To obtain a range so as to include the parameter.To obtain a range so as to include the parameter.点估计的缺陷点估计的缺陷区间估计的实质区间估计的实质假设某个总体的均数为假设某个总体的均数为,需要找到两个,需要找到两个量量A A和和B B,使得在一个比,使得在一个比较高的可信度下高的可信度下
12、 (如如95%)95%),区,区间(A,B)(A,B)能包含能包含 。即。即P P(A(A B)=0.9550)50)例6-3中,因n=120,试求该地正常成年男性 血清胆固醇平均水平的95可信区间。即(即(3.553.55,4.174.17)mmol/L mmol/L 3.3.当当未知未知n n 较小较小-t/2,v 0 t/2,v 单侧可信区间和双侧可信区间应用条件应用条件双侧双侧100(1-100(1-)%)%可信区间可信区间上侧上侧100(1-100(1-)%)%可信区间可信区间下侧下侧100(1-100(1-)%)%可信区间可信区间已知已知未知,未知,n n足够大足够大未知,未知,n
13、 n较小较小单侧可信区间的计算单侧可信区间的计算例例 随机抽取罐装牛肉随机抽取罐装牛肉1010听,亚硝酸盐含量均数为听,亚硝酸盐含量均数为17.6mg/kg17.6mg/kg,标准差,标准差1.64mg/kg1.64mg/kg,估计这批罐头的,估计这批罐头的平均亚硝酸盐含量平均亚硝酸盐含量单侧可信区间!(仅有上限有意义,不高于某一单侧可信区间!(仅有上限有意义,不高于某一个数值)个数值)上限为上限为故故95%CI95%CI为低于为低于18.55mg/kg18.55mg/kg可信区间的涵义可信区间的涵义从总体中作随机抽样,每个样本可以算得一个可从总体中作随机抽样,每个样本可以算得一个可信区间。如
14、信区间。如95%95%可信区间意味着做可信区间意味着做100100次抽样,次抽样,算得算得100100个可信区间,平均有个可信区间,平均有9595个估计正确。在个估计正确。在实际研究中,一般只进行一次抽样,算得一个可实际研究中,一般只进行一次抽样,算得一个可信区间,对于这个可信区间来说,我们有信区间,对于这个可信区间来说,我们有95%95%把把握认为其包括了总体均数握认为其包括了总体均数图图6-5 6-5 从从NN(0,10,1)中随机抽样算得的)中随机抽样算得的100100个个9595可信区间(可信区间(n n=10=10)下列说法正确吗?下列说法正确吗?算得某算得某95%95%的可信区间,
15、则:的可信区间,则:总体参数有总体参数有95%95%的可能落在该区间的可能落在该区间 有有95%95%的总体参数在该区间内的总体参数在该区间内 该区间包含该区间包含95%95%的总体参数的总体参数 该区间有该区间有95%95%的可能包含总体参数的可能包含总体参数 该区间包含总体参数,可信度为该区间包含总体参数,可信度为95%95%可信区间的两个要素可信区间的两个要素可信度(可信度(ConfidenceConfidence):可靠性,即:可靠性,即1-1-。一般取一般取90%,9590%,95,可人可人为控制控制精确性精确性(PrecisionPrecision):区间的大小(区间的:区间的大小
16、(区间的长度),越小越好长度),越小越好必须二者兼顾必须二者兼顾均数的可信区间与参考值范围的区别均数的可信区间与参考值范围的区别区别点区别点均数的可信区间均数的可信区间参考值范围参考值范围意义意义按预先给定的概率,确定按预先给定的概率,确定的未知参数的可能范围的未知参数的可能范围“正常人正常人”的解剖、生理、的解剖、生理、生化、某项指标的波动范围生化、某项指标的波动范围计算计算公式公式已知或已知或未知但未知但 n n 较大较大未知:未知:正态分布:正态分布:偏态分布:偏态分布:P PX X P P100-100-X X用途用途估计总体均数估计总体均数判断观察对象的某项指标正判断观察对象的某项指
17、标正常与否常与否第四节第四节 二项分布与二项分布与PoissonPoisson分布分布一、二项分布一、二项分布看来只好替你打看来只好替你打扫卫生了!扫卫生了!对于对于n n次独立的试验次独立的试验 ,如果每次试验结果,如果每次试验结果出现且只出现对立事件出现且只出现对立事件A A与与 之一,在每之一,在每次试验中出现次试验中出现A A的概率是常数的概率是常数(0(0 1)1),因而出现对立事件,因而出现对立事件 的概率是的概率是1-1-,则,则称这一串重复的独立试验为称这一串重复的独立试验为n n重贝努利试重贝努利试验,简称验,简称贝努利试验贝努利试验(Bernoulli trial)(Ber
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计
限制150内