抽样分布与参数估计-研.ppt
1几个重要概念的回顾:几个重要概念的回顾:总体:总体:样本:样本:统计量:统计量:参数:参数:统计分析:统计分析:统计描述统计描述 统计推断统计推断:参数估计、假设检验参数估计、假设检验2 欲了解某地欲了解某地20002000年年正常成年男性血清总正常成年男性血清总胆固醇胆固醇的平均水平,随机抽取该地的平均水平,随机抽取该地200200名正常名正常成年男性作为成年男性作为样本样本。由于存在个体差异,抽得的样本均数不太由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。可能恰好等于总体均数。3 第一节第一节 抽样研究与抽样误差抽样研究与抽样误差 一、抽样研究一、抽样研究 用样本信息推断总体特征的研究方法称为用样本信息推断总体特征的研究方法称为抽样研究。抽样研究。样样样样本本本本总体总体总体总体4统计推断统计推断:用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计:运用统计学原理,用样本统计运用统计学原理,用样本统计量对总体参数进行估计。量对总体参数进行估计。假设检验:假设检验:是指由样本间存在的差别对样是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断本所代表的总体间是否存在着差别做出判断。方法:方法:均数的参数估计、均数均数的参数估计、均数u 检验检验 、均数、均数t 检验检验5二、抽样误差二、抽样误差(一)抽样误差:(一)抽样误差:由于个体差异和抽样引由于个体差异和抽样引起的样本统计量与总体参数之间的差异起的样本统计量与总体参数之间的差异或各样本统计量之间的差异。或各样本统计量之间的差异。均数的抽样误差:均数的抽样误差:X X 率的抽样误差:率的抽样误差:p 6例题例题 某市某市1616岁女中学生身高分布服从均数岁女中学生身高分布服从均数 =168.15cm=168.15cm、标准差、标准差 =15.6cm=15.6cm的的正态分布,从正态分布,从该该N(168.15,15.6N(168.15,15.62 2)总体中随机抽样。总体中随机抽样。样本含量分别为样本含量分别为4 4、1616、3636人,分别随机抽取样人,分别随机抽取样本本g=10000g=10000个,得到个,得到1000010000个样本均数个样本均数 及标准及标准差差S Sj j 。将上述将上述1000010000个样本均数看成新变量值,这个样本均数看成新变量值,这1000010000个样本均数构成一新分布。个样本均数构成一新分布。(二)均数的抽样误差(二)均数的抽样误差7 的平均数168.198 的标准差3.0样本含量n=4 样本含量n=16 的平均数168.198 的标准差1.5样本含量n=36 的平均数168.198 的标准差1.0 若 服从正态分布:8 的平均数0.9903 的标准差0.4891 的中位数0.9087 样本含量n=4 样本含量n=9 的平均数1.0068 的标准差0.3313 的中位数0.9696 样本含量n=100 的平均数0.9995 的标准差0.1002 的中位数0.9976 若若 不服从正态分布:不服从正态分布:(从总体均数为(从总体均数为1 1的指数分布总体中抽样)的指数分布总体中抽样)9正态总体中样本均数抽样分布具有如下特点:正态总体中样本均数抽样分布具有如下特点:各样本均数未必等于总体均数;各样本均数未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样本均数围绕总体均数呈正态分布;样本均数围绕总体均数呈正态分布;样本均数变异范围较原变量变异范围大大缩样本均数变异范围较原变量变异范围大大缩小。小。在非正态分布总体中可进行类似抽样。在非正态分布总体中可进行类似抽样。10 根据数理统计推理和中心极限定理可得到如下结论:若 服从正态分布 则 服从正态分布 若 不服从正态分布 n大:则 近似服从正态分布 n小:则 为非正态分布111 1、从正态总体、从正态总体N N(,2 2)中,随机抽取例)中,随机抽取例数为数为n n的样本,样本均数的样本,样本均数 X X也服从正态分布;也服从正态分布;即使从偏态总体抽样,当即使从偏态总体抽样,当n n足够大时足够大时 X X也近也近似正态分布。似正态分布。2 2、从均数为、从均数为,标准差为标准差为 的正态或偏态总的正态或偏态总体中抽取例数为体中抽取例数为n n的样本,样本均数的样本,样本均数 X X的总的总体均数也为体均数也为,标准差为标准差为 X X 12样本均数的标准差称为样本均数的标准差称为均数的标准误均数的标准误(standard error of mean,SEM)计算:计算:(标准误的估计值)(标准误的估计值)注意:注意:X X、S S X X均为样本均数的标准误均为样本均数的标准误13标准误标准误意义:意义:反映抽样误差的大小。标准误越小,抽反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可样误差越小,用样本均数估计总体均数的可靠性越大。靠性越大。与样本量的关系:与样本量的关系:S 一定,一定,n,标准误,标准误14标准误标准误用途:用途:衡量抽样误差大小衡量抽样误差大小估计总体均数可信区间估计总体均数可信区间用于假设检验用于假设检验15(三)率的抽样误差(三)率的抽样误差率的抽样误差:由抽样造成的样本率率的抽样误差:由抽样造成的样本率(p)(p)与总与总体率体率()()的差异。的差异。率的标准误率的标准误(p p):表明率的抽样误差的大小:表明率的抽样误差的大小例例3.13.1:P31P3116第二节第二节 t t 分布与总体均数的估计分布与总体均数的估计 当样本量较大时,其统计量的抽样分布近似当样本量较大时,其统计量的抽样分布近似为正态分布。随着为正态分布。随着N的增大,越来越接近于的增大,越来越接近于正态正态分布分布(样本均数的分布)。(样本均数的分布)。但当样本量较小时,抽样分布不能再用正但当样本量较小时,抽样分布不能再用正态分布来近似,随着态分布来近似,随着N的减小,与正态分布的差的减小,与正态分布的差别越来越大,需要用别越来越大,需要用小样本理论小样本理论来解释(样本来解释(样本均数的分布)均数的分布)。大样本、小样本概念:大样本、小样本概念:30、50、100。17若某一随机变量X服从总体均数为、总体标准差为 的正态分布N(,2)由于样本均数服从总体均数为、总体标准差为 的正态分布N(,)一一、t t 分布分布18对正态变量样本均数对正态变量样本均数 X X做正态变换(做正态变换(u u变换变换):X X 常未知而用常未知而用S S X X估计估计,则为则为t t变换变换:19t分布最早由英国统计学家W.S.Gosset于1908年以“Student”笔名发表,故又称Students t-distribution。它的发现,开创了小样本统计推断的新纪元。t t值的分布即为值的分布即为t t分布分布20t 分布的曲线:与分布的曲线:与有关有关2122t分布的图形与特征t分布是一簇曲线。不同,曲线形状不同。单峰分布,以0为中心,左右对称越小,t值越分散,t分布的峰部越矮而尾部翘得越高;当逼近,逼近 ,t分布逼近u分布。23t t 界值表(界值表(P P269269附表附表2 2)t t/2/2,:表示自由度为:表示自由度为,双侧概率,双侧概率P P为为 时时t t的界值的界值24t分布曲线下面积(概率P或)与横轴t值间的关系:在相同自由度时,t值增大,P减小;在相同t值时,双尾P为单尾P的两倍。如双尾 =单尾 =1.812。在在t界值表中,一侧尾部面积称单侧概率,界值表中,一侧尾部面积称单侧概率,两侧尾部面积之和称双侧概率。两侧尾部面积之和称双侧概率。25t t分布曲线下面积的规律:分布曲线下面积的规律:中间中间95%95%的的t t值:值:-t-t0.05/20.05/2,t t0.05/20.05/2,中间中间99%99%的的t t值:值:-t-t0.01/20.01/2,t t0.01/20.01/2,(1)(1)自由度(自由度()一定时,)一定时,p p与与tt成反比成反比;(2)(2)概率(概率(p p)一定时,)一定时,与与t成反比成反比;26t t分布与分布与标准正态分布的比较标准正态分布的比较1 1、二者都是单峰分布,以、二者都是单峰分布,以0 0为中心左右对称为中心左右对称2 2、t t分布的峰部较矮而尾部翘得较高说明远侧分布的峰部较矮而尾部翘得较高说明远侧的的t t值个数相对较多即尾部面积(概率值个数相对较多即尾部面积(概率P P值)较值)较大。当大。当逐渐增大时,逐渐增大时,t t分布逐渐逼近分布逐渐逼近标准正标准正态分布,态分布,当当 时,时,t t分布完全成为分布完全成为标准正标准正态分布态分布27二、总体均数的估计二、总体均数的估计统计推断:用样本信息推论总体特征。统计推断:用样本信息推论总体特征。包括参数估计和假设检验包括参数估计和假设检验参数估计:参数估计:用样本统计量估计总体参数。用样本统计量估计总体参数。1 1、点(值)估计:用样本统计量作为对点(值)估计:用样本统计量作为对总体参数的估计值总体参数的估计值282 2、区间估计:根据选定的置信度(或可区间估计:根据选定的置信度(或可信度,用概率表示)估计总体参数所在信度,用概率表示)估计总体参数所在的范围的范围可信度:估计正确的概率。可信度:估计正确的概率。1-1-可信区间可信区间(confidence level,CI)(confidence level,CI):29总体均数的可信区间总体均数的可信区间 按一定的按一定的可信度可信度由样本均数计算的总体由样本均数计算的总体均数可能所在的均数可能所在的范围范围,这个范围称为总体均,这个范围称为总体均数的可信区间。数的可信区间。方法:方法:(1)u(1)u 分布法分布法(2)t(2)t 分布法分布法30总体均数的总体均数的9595可信区间可信区间总体均数的总体均数的9595可信区间可信区间:从总体中作随机:从总体中作随机抽样,作抽样,作100100次抽样,每个样本可算得一个次抽样,每个样本可算得一个可信区间,得可信区间,得100100个可信区间,平均有个可信区间,平均有9595个个可信区间包括总体均数可信区间包括总体均数(估计正确估计正确),只有,只有5 5个可信区间不包括总体均数个可信区间不包括总体均数(估计错误估计错误)31(1)t分布分布 法法 未知、未知、n小时按小时按t分布原理分布原理总体均数的总体均数的100(1-)%CI:例3.2:P3332(2)u 分布分布 法法 未知但未知但n足够大时按正态分布原理足够大时按正态分布原理总体均数总体均数100(1-)%CI:33(3 3)u u 分布法分布法 已知时按正态分布原理已知时按正态分布原理100(1-)%CI:9595的的CICI:34区间估计的准确度:区间估计的准确度:说对的可能性大小,说对的可能性大小,用用(1-(1-)来衡量。来衡量。99%99%的可信区间好于的可信区间好于95%95%的的可信区间可信区间(n,S n,S 一定时)一定时)。区间估计的精确度:区间估计的精确度:指区间范围的宽窄,范指区间范围的宽窄,范围越宽精确度越差。围越宽精确度越差。99%99%的可信区间的可信区间差于差于95%95%的的可信区间可信区间(n,S n,S 一定时)。一定时)。准确度与精确度的关系:准确度与精确度的关系:35标准差标准差标准误标准误意义意义描述观察值的变异程度。其值越描述观察值的变异程度。其值越小,观察值的变异程度越小,均小,观察值的变异程度越小,均数的代表性越好数的代表性越好描述样本均数的变异程度,说明抽样描述样本均数的变异程度,说明抽样误差的大小。其值越小,估计总体均误差的大小。其值越小,估计总体均数的可靠性越大数的可靠性越大计算计算用途用途描述资料的频数分布状况,可用描述资料的频数分布状况,可用于制定医学参考值范围于制定医学参考值范围用于表示抽样误差大小、总体均数的用于表示抽样误差大小、总体均数的区间估计和均数的假设检验等区间估计和均数的假设检验等均数的标准差和标准误的区别均数的标准差和标准误的区别 36总体均数的可信区间总体均数的可信区间参考值范围参考值范围含义含义按预先给定的概率确定的未知参数按预先给定的概率确定的未知参数的可能范围的可能范围总体均数的可能范围总体均数的可能范围“正常人正常人”的解剖、生理、生化某的解剖、生理、生化某项指标的波动范围项指标的波动范围个体值的波动范围个体值的波动范围计算计算方法方法U U分布法或分布法或t t分布法分布法正态分布法或正态分布法或百分位数法百分位数法用途用途总体均数的区间估计总体均数的区间估计绝大多数观察对象某项指标的分布绝大多数观察对象某项指标的分布范围范围总体均数可信区间与参考值范围的区别总体均数可信区间与参考值范围的区别 37练习题练习题是非判断:是非判断:1 1标准误是一种特殊的标准差,其表示抽标准误是一种特殊的标准差,其表示抽样误差的大小。样误差的大小。2 2N N一定时,测量值的离散程度越小,用样一定时,测量值的离散程度越小,用样本均数估计总体均数的抽样误差就越小。本均数估计总体均数的抽样误差就越小。38选择题:选择题:某地正常成年男子红细胞的普查结果,均数某地正常成年男子红细胞的普查结果,均数为为480480万万/mm3/mm3,标准差为,标准差为41.041.0万万/mm3/mm3,后者,后者反映(反映()A A个体变异个体变异 B B抽样误差抽样误差 C C总体均数不同总体均数不同 D D均数间变异均数间变异39