《5-参数估计基础.ppt》由会员分享,可在线阅读,更多相关《5-参数估计基础.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学医学统计学参数估计基础参数估计基础 王友洁王友洁 email email 统计推断的过程样样本本总体总体总体总体样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量如:样本均值、如:样本均值、如:样本均值、比率、方差比率、方差比率、方差总体均值、比总体均值、比率、方差等率、方差等抽样研究的目的是用样本信息抽样研究的目的是用样本信息推断总体特征,即用样本资料推断总体特征,即用样本资料计算的统计指标推断总体参数计算的统计指标推断总体参数抽样误差抽样误差(sampling error)从总体均数为155.4cm,标准差 为5.3cm的正态分布总体中随机抽样。样本大小为30n=30
2、.从正态总体从正态总体 N(155.4,5.3)抽样得到的抽样得到的1000个个样本均数的频数分布表样本均数的频数分布表Mean=155.426 Std=0.966抽样误差抽样误差l结果结果:l各样本均数不一定等于总体均数各样本均数不一定等于总体均数l样本均数间存在差异样本均数间存在差异l样本均数的分布规律:围绕总体均数上下波动样本均数的分布规律:围绕总体均数上下波动l样本均数的变异:由样本均数的标准差描述。样本均数的变异:由样本均数的标准差描述。抽样误差抽样误差l抽样误差抽样误差 l由抽样引起的样本统计量与总体参数间的差异由抽样引起的样本统计量与总体参数间的差异l来源来源:l个体变异个体变异
3、l抽样抽样l表现表现l样本统计量与总体参数间的差异样本统计量与总体参数间的差异l样本统计量间的差异样本统计量间的差异l样本均数的规律性l随机的l在概率意义下是有规律的-抽样分布l通过大量重复抽样,借助频数表描述l样本均数的变异规律(抽样分布)与个体观察值变异规律有关l即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律抽样分布抽样分布正态总体样本均数的分布正态总体样本均数的分布l已知某地高三男生的平均身高为 ,标准差为 ,将其视为一个总体。l从该总体中随机抽样l样本含量为nl每次抽取10000个样本并计算各自的样本均数l以10000个样本均数作为一个新的样本制作
4、频数图抽样抽样1样本含量n=4 的平均数=168.19 的标准差=2.9670 抽样抽样2样本含量 n=16 的平均数=168.158 的标准差=1.4884 抽样抽样3样本含量 n=36 的平均数=168.1493 的标准差=0.9997 l从正态分布的总体 中随机抽取样本含量为n的样本X1,X2,Xn,其样本均数 l服从正态分布,总体均数为 ;l样本均数的总体标准差l若 ,则其中任意一个随机样本Xn的均数正态总体样本均数的分布正态总体样本均数的分布l样本均数的标准差 ,称为样本均数的标准误(standard error of mean,SE),简称均数标准误l它反映样本均数之间的离散程度,
5、也反映样本均数抽样误差的大小。l误差大小 ,实质是要估计 的分布特征 正态总体样本均数的分布正态总体样本均数的分布l由于实际 往往未知,需要用样本 来估计 ,样本均数标准误的估计式为l注意区别:正态总体样本均数的分布正态总体样本均数的分布中心极限定理及其应用中心极限定理及其应用l样本均数 总体标准差是个体资料X的总体标准差的 ;即理论标准误l理论标准误的样本估计值为l样本均数 与 个体资料X的集中位置相同,即样本均数 的总体均数与 个体资料X的总体均数 相同中心极限定理及其应用中心极限定理及其应用l若个体资料X服从正态总体 ,则样本均数 也服从正态分布 ;l个体资料X服从偏态分布,当样本量n较
6、大时,样本均数 近似服从正态分布l例已知在某地7岁正常发育男孩的身高服从正态分布N(121,52)l正常发育7岁男孩身高的95%范围为 (111.2,130.8)l若在该地正常7岁男孩中随机抽一个样本,样本含量为100,则样本均数的95范围为 =(120.2,121.98),t分布分布 t分布的概念分布的概念 从正态分布N(,2)抽得样本的均数也服从 正态分布,记为N(,。对正态变量作变换 实际工作中,当,未知时,常用 来代替 对正态变量 采用的不是z变换,而是t变换 l如在正态总体N(168.18,62)中随机抽样,样本量分别取n=5,n=100,均抽10000个样本,分别计算t值和U值并作
7、相应t的频数图 t分布分布 t分布分布样本含量n=5样本含量n=100 t统计量的频数图 l结果l小样本时,t统计量和U统计量的分布有明显差别l大样本时,t统计量和U统计量的分布非常接近。l频数图l当样本量较大时,统计量t的频数图与标准正态分布曲线非常接近l样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大 t分布分布l英国统计学家W.S.Gosset(1908)设 并给出了统计量t的分布规律,并称统计量t的分布规律为t分布,自由度为v,记为t(v)分布。l每个自由度v对应一个分布,因此t分布是一簇分布 t分布分布l三条t分布密度曲线 t分布分布v=1v=
8、5v=t分布的图形特征分布的图形特征l分布特征 lt分布曲线是单峰的l关于t=0对称l自由度越大,t值越小l t分布与正态分布的关系 l自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积l当自由度 时,t分布逼近于标准正态分布。t分布的界值分布的界值 l给定自由度v,t分布曲线的双侧尾部面积为时对应的t值,记为并称 为t的双侧界值 l单侧界值:一侧尾部面积为时对应的t值l对称性得:单侧曲线下面积=2双侧曲线下面积l同样的尾部面积,t分布的界值要大于标准正态分布的界值 t分布界值示意图,表示阴影的面积 t分布l英国统计学家W.S.Gosset于1
9、908年以“Student”笔名发表论文,证明它服从自由度=n 1的t分布,即 t分布,=n 1)l又称Student t分布(Students t-distribution)。实际上,t分布十分有用,它是总体均数的区间估计和假设检验的理论基础。t分布lt值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。=(标准正态分布)=5=1012345-1-2-3-4-5f(t)0.10.20.3图5-3 不同自由度下的t分布图t分布 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。t界值表:横标目为自由度,
10、纵标目为概率P。t临界值:表中数字表示当 和P 确定时,对应的值。单侧概率(one-tailed probability):用t,表示 双侧概率(two-tailed probability):用t/2,表示t分布l例如,当=16,单侧概率P=0.05时,由表中查得单侧t 0.05,16=1.746;而当=16,双侧概率P=0.05时,由表中查得双侧t0.05/2,16=2.120。t分布更一般的表示方法如图中阴影部分所示为:单侧:P(t t,)=和 P(t t,)=双侧:P(t t/2,)P(t t/2,)=t分布从t界值表中或表的右上角图列亦可看出:在相同自由度时,t值越大,概率P越小;而
11、在相同t值时,双侧概率P为单侧概率P的两倍,即t 0.10/2,16=t0.05,16=1.746。总体均数的估计总体均数的估计参数估计的概念参数估计的概念参数估计:指用样本指标(统计量)估计总体指标参数估计:指用样本指标(统计量)估计总体指标(参数)。(参数)。参数估计有参数估计有 点估计点估计(point estimation)区间估计区间估计(interval estimation)点估计点估计1.用样本的估计量直接作为总体参数的估计值l例如:用样本均值直接作为总体均值的估计l例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息点估计完全正确的概率通
12、常为点估计完全正确的概率通常为0。因此,我们更多的是考虑用。因此,我们更多的是考虑用样本统计量去估计总体参数的范围样本统计量去估计总体参数的范围 区间估计。区间估计。区间估计区间估计l含义:在点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。l是区间估计的显著性水平;l常用的置信水平值有 99%,95%,90%l相应的相应的 为0.01,0.05,0.10注意对上式的理解:注意对上式的理解:例如抽取了例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,个样本,根据每一个样本均构造了一个置信区间,这样,由这样,由1000个样本构造的总体参数的个样本构造的总体参数的10
13、00个置信区间中,有个置信区间中,有95%的区间包含了总体参数的真值,而的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。这个值被称为置信水平(或置信度)。一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平的次数所占的比例称为置信水平。样本统计量样本统计量样本统计量样本统计量 (点估计点估计点估计点估计)置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限l由样本统计量所
14、构造的总体参数的估计区间称为置信区间l统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 l用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值l我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间置信区间我们用我们用95%的置信水平得到某班学生考试成绩的置信区间为的置信水平得到某班学生考试成绩的置信区间为60-80分,如分,如何理解?何理解?错误的理解:错误的理解:60-80区间以区间以95%的概率包含全班同学平均成绩的真值;或的概率包含全班同学平均成绩的
15、真值;或以以95%的概率保证全班同学平均成绩的真值落在的概率保证全班同学平均成绩的真值落在60-80分之间。分之间。正确的理解:如果做了多次抽样(如正确的理解:如果做了多次抽样(如100次),大概有次),大概有95次找到的区间包次找到的区间包含真值,有含真值,有5次找到的区间不包括真值。次找到的区间不包括真值。真值只有一个,一个特定的区间真值只有一个,一个特定的区间“总是包含总是包含”或或“绝对不包含绝对不包含”该真值。但该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。的真值。如果大家还是不能
16、理解,那你们最好这样回答有关区间估计的结果:如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是该班同学平均成绩的置信区间是60-80分,置信度为分,置信度为95%。置信区间与置信水平置信区间与置信水平 样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布(1-(1-)%)%区间包含了区间包含了区间包含了区间包含了%的区间未包含的区间未包含的区间未包含的区间未包含 1 1 /2 2 /2 2区间估计的图示区间估计的图示 x95%95%的样本的样本的样本的样本 -1.96-1.96 x x +1.96+1.96 x x99%99%的样本的样
17、本的样本的样本 -2.58-2.58 x x +2.58+2.58 x x90%90%的样本的样本的样本的样本 -1.65-1.65 x x +1.65+1.65 x x总体均数的估计置信区间的计算置信区间的计算总体均数的置信区间总体均数的置信区间 根据总体标准差 是否已知及样本含量n的大小,总体均数置信区间的计算有t分布和Z分布(标准正态分布)两种方法。t分布方法 当总体标准差未知时,正态总体N(,2)的样本均数的t变换结果 总体均数的估计服从 t分布,若“砍去”t分布双侧尾部面积=0.05=5%,故有95%的t值满足不等式:t0.05/2,t0.05/2,t0.05/2,t,或 +t,总体
18、均数的估计 当 未知但n足够大时(n 50),t分布的极限分布是标准正态分布,可用z/2代替公式中的t/2,,则总体均数的双侧置信区间为 z/2 总体均数估计例:某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2 cm,标准差为4.5 cm,试估计该市2000年19岁健康男大学生平均身高的95%置信区间。1.96 =172.2 1.96 =(171.3,173.1)该市2000年19岁健康男大学生平均身高的95%置信区间为(171.3,173.1)cm。review:均数的标准误与标准差的区别均数的标准误与标准差的区别2、t分布概念和性质随机变量随机变量X XN N(m
19、 m,2 2)标准正态分布标准正态分布N N(0 0,1 12 2)u变换标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度:自由度:n n-1-1均数均数t分布曲线 t t 分布分布有如下性质:有如下性质:单峰分布,曲线在单峰分布,曲线在t t0 0 处最高,并以处最高,并以t t0 0为中心为中心左右对称左右对称与正态分布相比,曲线与正态分布相比,曲线最高处较矮,两最高处较矮,两尾部翘得尾部翘得高高(见绿线)(见绿线)随自由度增大,曲线逐随自由度增大,曲线逐渐接近正态分布;分布的渐接近正态分布;分布的极限为标准正态分布。极限为标准正态分布。练习题练习题1.已知正态总体的=100,=10,试计算样本含量分别为4,9,16,25时样本均数的标准误。样本含量增加时,样本均数的标准误发生何种变化?2.测得某地90 名正常成年女性红细胞数(104/mm3)的均值418、标准差为29。试求:(1)该地95%的正常成年女性红细胞数所在的范围;(2)该地正常成年女性红细胞数总体均数的95%可信区间。90的开方为9.48
限制150内