《预防医学抽样误差与假设检验.pptx》由会员分享,可在线阅读,更多相关《预防医学抽样误差与假设检验.pptx(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本章结构均数的抽样误差与标准误t分布总体均数的估计假设检验的意义和步骤第1页/共46页均数的抽样误差与标准误Standard error第2页/共46页统计推断统计推断(statistical inference)总体总体样本 sampling sampling 统计量统计量统计量统计量 参参参参 数数数数 inference第3页/共46页抽样误差的概念l l定义:由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差别。l l原因:个体变异随机抽样l l表现:样本统计量与总体参数间的差别样本统计量与总体参数间的差别不同样本统计量间的差别不同样本统计量间的差别第4页/共46页
2、假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律抽样分布规律。抽样分布规律。考察:l l不同的分布不同的分布l l不同的样本含量不同的样本含量抽样试验抽样试验第5页/共46页 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每次)中,每次随机抽取样本含量随机抽取样本含量n n5 5,并计算其均数与标准,并计算其均数与标准差;重复抽取差;重复抽取10001000次,获得次,获得10001000份样本;计算份样本;计算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对10001000份样本份样
3、本的均数作直方图。的均数作直方图。按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含、样本含量量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。第6页/共46页抽样试验(抽样试验(n n=5=5)第7页/共46页抽样试验(抽样试验(n n=10=10)第8页/共46页抽样试验(抽样试验(n n=30=30)第9页/共46页第10页/共46页3 3个抽样实验结果图示个抽样实验结果图示第11页/共46页样本均数的抽样分布特点各样本均数未必等于总体均数;各样本均数未必等于总体均数;样本均数之间存在差异;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数,样
4、本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态中间多、两边少,左右基本对称,也服从正态分布;分布;样本均数的变异较原变量的变异大大缩小。样本均数的变异较原变量的变异大大缩小。随着样本含量的增加,样本均数的变异范围逐随着样本含量的增加,样本均数的变异范围逐渐缩小。渐缩小。第12页/共46页标准误的概念标准误的概念(standard error)样本均数的样本均数的标准差称为均数的标准误。标准差称为均数的标准误。均数的标准误表示样本均数的变异度。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本方差代替,当总体标准差未知时,用样本方差代替,第13页/共46
5、页标准误的概念标准误的概念 抽样的样本量越大,抽样的样本量越大,抽样的样本量越大,抽样的样本量越大,标准误标准误标准误标准误就越小;就越小;就越小;就越小;原来总体变异度小,原来总体变异度小,原来总体变异度小,原来总体变异度小,标准误标准误标准误标准误就越小。就越小。就越小。就越小。标准误反映了样本均数间的离散程度,也反映了样本均标准误反映了样本均数间的离散程度,也反映了样本均标准误反映了样本均数间的离散程度,也反映了样本均标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数数与总体均数之间的差异。当标准误大时,用样本均数数与总体均数之间的差异。当标
6、准误大时,用样本均数数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。对总体均数的估计的可靠程度就小;反之亦然。对总体均数的估计的可靠程度就小;反之亦然。对总体均数的估计的可靠程度就小;反之亦然。第14页/共46页标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值间的离散度,标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。用途:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。关系:随着样本含量增加,都
7、减小。联系:都是表示变异度的指标,当样本量一定时,两者成正比。第15页/共46页中心极限定理中心极限定理(central limit theorem)第16页/共46页中心极限定理中心极限定理(central limit theorem)第17页/共46页t-分布t-distribution第18页/共46页第19页/共46页t 分布的概念用样本方差代替总体方差,此时不再服从正态分布。而服从 t 分布。记为:第20页/共46页t t分布曲线分布曲线 t t 分布分布有如下性质:有如下性质:单峰分布,曲线在单峰分布,曲线在t t0 0 处最高,并以处最高,并以t t0 0为中心为中心左右对称左右
8、对称与正态分布相比,曲线与正态分布相比,曲线最高处较矮,两最高处较矮,两尾部翘得尾部翘得高高(见绿线)(见绿线)随自由度增大,曲线逐随自由度增大,曲线逐渐接近正态分布;分布的渐接近正态分布;分布的极限为标准正态分布。极限为标准正态分布。第21页/共46页第22页/共46页t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9
9、 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.64第23页/共46页总体均数的估计Parameter estimation第24页/共46页总体均数估计方法总体均数估计方法第25页/共46页区间估计(interval estimation)interval estimation)也称置信区间。利用样本信息给出一个区间,并同时给出按预先给定的概率估计该区间包含总体均数的可能范围。可信度:给定的概率称为可信度。用 表示。通常取99%、95%。第2
10、6页/共46页t分布方法应用条件:总体方差未知,样本量小第27页/共46页例4.2 某医师侧的40名老年性慢性支气管炎病人尿中17-酮类固醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该种病人尿17-酮类固醇排出量总体均数的95%可信区间。分析条件:总体方差未知,样本量小第28页/共46页正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知,而样本量较大时(n50)0-11-1.961.96-2.582.5868.27%95.00%99.00%第29页/共46页例4.3 某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm。计算该地1
11、2岁男孩身高均数的95%的可信区间。分析条件:总体方差未知,但样本量大,用正态分布法第30页/共46页9595可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100100次抽样,每个样本可算得一个可信区间,得次抽样,每个样本可算得一个可信区间,得100100个可信区间,平均有个可信区间,平均有9595个可信区间包括个可信区间包括(估计正确估计正确),只有,只有5 5个可信区间不包括个可信区间不包括(估计估计错误错误)。可信区间的涵义第31页/共46页可信度实验可信度实验第32页/共46页可信区间的两个基本要素准确度:可信区间包含总体均数的概率。精密度:反映区间的长度。第33页/
12、共46页假设检验Hypothesis test第34页/共46页让我们先看一个例子.例4.4 根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分。能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?第35页/共46页对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉搏均数相等,差异是由抽样误差引起的提示山区男子是一般男子总体的一部分(研究总体)。山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等,差异可能是由地域等因素引起的提示山区男子与一般男子是两个不同的总体。第36页/共46页
13、假设检验通过对假设作出取舍抉择来达到解决问题的目的通过对假设作出取舍抉择来达到解决问题的目的A.A.山区男子脉搏的总体均数与一般成年男子的脉搏均数山区男子脉搏的总体均数与一般成年男子的脉搏均数相等相等 无差异假设、零假设无差异假设、零假设 H0H0(null hypothesisnull hypothesis)B.B.山区男子脉搏的总体均数与一般成年男子的脉搏均数山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等不相等 对立假设、备择假设对立假设、备择假设H1H1(alternative alternative hypothesishypothesis)第37页/共46页证明A还是证明B?在
14、H0 0成立的条件下,均数之间的差异是由抽样误差引起的,有规律可循;在H1 1成立的条件下,均数间的不同包含种种未知情形,无规律可循。故从H0 0成立的角度出发,寻求其成立的概率。第38页/共46页 变量值(脉搏)变量值(脉搏)X X服从正态分布,且为小样本,服从正态分布,且为小样本,假定假定H H0 0成立,样本均数服从成立,样本均数服从t-t-分布,则分布,则在在H H0 0成立的前提下,当前成立的前提下,当前t t值出现的概率有多大值出现的概率有多大?第39页/共46页如何给出这个量的界限?小概率事件在一次试验中基本上不会发生!从附表2中查出在显著性水平=0.05(双侧),自由度为所对应
15、的t界值,即为拒绝域与接受域的界限。如果计算出的t统计量大于相应的t界值,则落在拒绝域中,该统计量出现的概率小于5%,为小概率事件。第40页/共46页常取 的选择要根据实际情况而定通常取0.05检验水准的概念在假设检验中,称预先规定的小概率值为检验水准,也称为显著性水准,用表示。第41页/共46页这里所依据的逻辑是:如果H0 是成立的,那么衡量差异大小的某个统计量落入区域 拒绝域 是个小概率事件。如果该统计量的实测值落入拒绝域,也就是说,H0 成立下的小概率事件发生了,那么就认为H0不可信而否定它。否则我们就不能否定H0(只好接受它).第42页/共46页1.1.建立检验假设,确定检验水准;H H0 0:零假设、无效假设。是与研究假设有关的、被推断特征某种确定的关系;H H1 1:备择假设、对立假设。是被推断总体特征的另一种关系或状况,与H0H0既有联系又互相对立。检验水准,将小概率事件具体化,即规定概率不超过 就是小概率。2.2.根据试验设计、资料类型、统计方法的条件选择检验方法,计算相应的统计量;3.3.确定P P值,下结论。假设检验的基本步骤:第43页/共46页P 值的概念指从H0规定的总体中随机抽样抽得等于或大于(或等于或小于)现有样本统计量的概率。第44页/共46页本章总结conclusion第45页/共46页感谢您的观看!第46页/共46页
限制150内