医学统计学总体均数估计和假设检验.ppt
《医学统计学总体均数估计和假设检验.ppt》由会员分享,可在线阅读,更多相关《医学统计学总体均数估计和假设检验.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学总体均数估计和假设检验总体均数的估计总体均数的估计普查普查overall survey是了解总体特征的最是了解总体特征的最好方法。好方法。抽样研究抽样研究sampling study的目的就是要的目的就是要用样本信息来推断相应总体的特征,这一过用样本信息来推断相应总体的特征,这一过程称为统计推断程称为统计推断statistical inference。统计推断包括两方面的内容:总体参数的估统计推断包括两方面的内容:总体参数的估计和假设检验显著性检验。计和假设检验显著性检验。三类误差系统误差系统误差systematic error:由于受试对象、研究者、:由于受试对象、研究者、仪器设备
2、、研究方法、非实验因素影响等确定性原因造成,仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差。可以防止。有一定倾向性或规律性的误差。可以防止。随机误差随机误差random error:由于多种无法控制的偶然因:由于多种无法控制的偶然因素引起,对同一样品屡次测量数据的不一致。无倾向性,素引起,对同一样品屡次测量数据的不一致。无倾向性,不可防止。不可防止。抽样误差抽样误差sampling error:由个体变异产生的、由于抽:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽
3、样误差。间的差异称为均数的抽样误差。抽样误差的概念抽样误差的概念 总体总体样本样本统计推断统计推断抽样抽样抽样误差抽样误差 抽样误差产生的根本原因是个体变异、产生的直接原因是抽样。只要有抽样,抽样误差就不可防止。抽样抽样误差。Normal distribution样本均数的分布特点样本均数的分布特点各样本均数未必等于总体均数;各样本均数间存在各样本均数未必等于总体均数;各样本均数间存在差异。差异。样本均数分布很有规律,在正态总体中随机抽取例样本均数分布很有规律,在正态总体中随机抽取例数为数为n的样本,样本均数服从正态分布。的样本,样本均数服从正态分布。样本均数间相差较小,其变异范围较原变量值的
4、变样本均数间相差较小,其变异范围较原变量值的变异范围缩小。异范围缩小。在偏态总体中随机抽样,当在偏态总体中随机抽样,当n足够大时足够大时n60,也近似正态分布。也近似正态分布。l该资料是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。原始数据原始数据 (b)n=5(c)n=10 (d)n=30 (e)n=50 1从正态总体从正态总体N(,2)中,随机抽取例数为中,随机抽取例数为n的多个的多个样本,样本均数样本,样本均数 服从正态分布;即使是从偏态总体服从正态分布;即使是从偏态总体中随机抽样,当中随机抽样,当n足够大时足够大
5、时(如如n30),也近似正态也近似正态分布。分布。数理统计推理和中心极限定理说明:数理统计推理和中心极限定理说明:2从均数为从均数为,标准差为,标准差为的正态或偏态总体中抽取的正态或偏态总体中抽取例数为例数为n的样本,样本均数的标准差即标准误为的样本,样本均数的标准差即标准误为 。标准误的概念标准误的概念 用于表示均数抽样误差的指标叫样本用于表示均数抽样误差的指标叫样本均数的标准差,根据其实际意义,常称作均数的标准差,根据其实际意义,常称作样本均数的标准误样本均数的标准误standard error。标标准准误误的大小与的大小与的大小成正比,与的大小成正比,与n的平方根成反的平方根成反比,而比
6、,而为为定定值值,说说明可以通明可以通过过增加增加样样本例数来减少本例数来减少标标准准误误,以降低抽,以降低抽样误样误差。差。未知,用未知,用样样本本标标准差准差S来估来估计计总体标准差总体标准差。用用 来表示均数抽来表示均数抽样误样误差的大小。差的大小。(标准误的理论值)(标准误的理论值)(标准误的估计值)(标准误的估计值)随着随着 n S 稳定稳定 Sx 0均数的标准误与标准差成正比,与样本例均数的标准误与标准差成正比,与样本例数数n n的平方根成反比。的平方根成反比。因此,减少抽样误差最有效的方法:因此,减少抽样误差最有效的方法:增加样本例增加样本例数数例例 1 2000年某研究所随机调
7、查某地安康成年男年某研究所随机调查某地安康成年男子子27人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L,标准差,标准差为为15g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽样误差。标准误的应用标准误的应用反映抽样误差大小:标准误越大,抽样误差越大;反映抽样误差大小:标准误越大,抽样误差越大;反映均数的可靠性:越大,样本均数的抽样误差越反映均数的可靠性:越大,样本均数的抽样误差越大,用样本均数推算总体均数的可靠性差;反大,用样本均数推算总体均数的可靠性差;反之,越小,均数抽样误差越小,用样本均数推算之,越小,均数抽样误差越小,用样本均数推算总体均数的可靠性好。总体均数的可
8、靠性好。用于进展假设检验。用于进展假设检验。标准差和标准误的区别和联系标准差和标准误的区别和联系区别:区别:概念不同:标准差是描述观察值概念不同:标准差是描述观察值(个体值个体值)之间的变之间的变异程度,异程度,S越小,均数的代表性越好;标准误是描述越小,均数的代表性越好;标准误是描述样本均数的抽样误差,样本均数的抽样误差,Sx越小,均数的可靠性越高;越小,均数的可靠性越高;用途不同:标准差与均数结合估计参考值范围,计用途不同:标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数算变异系数,计算标准误等。标准误用于估计参数的可信区间,进展假设检验等。的可信区间,进展假
9、设检验等。与样本含量的关系不同与样本含量的关系不同:当样本含量当样本含量 n 足够大时,足够大时,标准差趋向稳定;而标准误随标准差趋向稳定;而标准误随n的增大而减小,甚至的增大而减小,甚至趋于趋于0。联系:标准差、标准误均为变异指标,当样本含量联系:标准差、标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。不变时,标准误与标准差成正比。t 分布分布 在统计应用中,可以把任何一个均数为在统计应用中,可以把任何一个均数为,标准差为标准差为的正态分布的正态分布N(,2)转变为转变为=0,=1的的标准正态分布,即将正态变量值标准正态分布,即将正态变量值X用用 来代替。来代替。由于由于 服从正
10、态分布,故服从正态分布,故服从标准正态分布服从标准正态分布N(0,1)。实际资料的分析中,由于实际资料的分析中,由于 往往未往往未知,故标准化转换演变为:知,故标准化转换演变为:服从服从=n-1的的t分布,即:分布,即:t-分布(f)-degree of freedom自由自由度度=n-1 t 分布曲线下面积规律:分布曲线下面积规律:t 分布曲线下总面积仍为分布曲线下总面积仍为1或或100%t 分布曲线下面积以分布曲线下面积以0为中心左右对称。为中心左右对称。t 分布是一簇曲线,故分布是一簇曲线,故t分布曲线下固定面分布曲线下固定面积积(如如95%或或99%)的界值不是一个常量,而的界值不是一
11、个常量,而是随自由度的大小而变化是随自由度的大小而变化。t 分布曲线特点:分布曲线特点:1)t 分布曲线是单峰分布,它以分布曲线是单峰分布,它以0为中心,左为中心,左右对称。右对称。2)t 分布的形状与样本例数分布的形状与样本例数n有关。自由度越有关。自由度越小,则小,则 越大,越大,t 值越分散,曲线的峰部越矮,尾部值越分散,曲线的峰部越矮,尾部则偏高。则偏高。3)当当 n时,则时,则S逼近逼近,t 分布逼近标准分布逼近标准正态分布。正态分布。t 分布不是一条曲线,而是一簇曲线。分布不是一条曲线,而是一簇曲线。t 分布的图形和分布的图形和 t 分布表分布表总体参数估计总体参数估计统计推断包括
12、参数估计和假设检验。参数估计就是统计推断包括参数估计和假设检验。参数估计就是用样本指标统计量来估计总体指标参数。用样本指标统计量来估计总体指标参数。参数估计参数估计:点估计点估计(point estimation):用相应样本统计量直接作:用相应样本统计量直接作为其总体参数的估计值。如用为其总体参数的估计值。如用 估计估计、S估计估计等。等。其方法虽简单,但未考虑抽样误差的大小。其方法虽简单,但未考虑抽样误差的大小。区间估计区间估计(interval estimation):按一定的概率:按一定的概率1估计总体均数所在范围置信区间。估计总体均数所在范围置信区间。,即认为,即认为2000年该地所
13、有安康成年男性血红年该地所有安康成年男性血红蛋白量的总体均数为蛋白量的总体均数为125g/L。1.点估计:点估计:用样本统计量直接作为总体参数的估计值。用样本统计量直接作为总体参数的估计值。例例 2 2000年某研究所测得某地年某研究所测得某地27例安康成年男例安康成年男性血红蛋白量的样本均数为性血红蛋白量的样本均数为125g/L,试估计其,试估计其总体均数。总体均数。2.区间估计区间估计:按预先给定的置信水平按预先给定的置信水平(1)估计总估计总体参数的可能位置体参数的可能位置,该范围就称为该范围就称为总体参数的总体参数的总体参数的总体参数的1 1 置置置置信区间信区间信区间信区间(conf
14、idence interval CI)(confidence interval CI)。预先给定的概率预先给定的概率(1)称为称为置信度置信度置信度置信度,常取,常取95%或或99%。如无特别说明,一般取双侧。如无特别说明,一般取双侧95%。置信区间由两个数值即置信限下限和上限构置信区间由两个数值即置信限下限和上限构成。成。通式:通式:双侧双侧 1 1,按标准正态分布原理计算,按标准正态分布原理计算由由z z分布,标准正态曲线下有分布,标准正态曲线下有95%95%的的z z值在值在1.961.96之间。之间。95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:总体均数总
15、体均数可信区间的计算可信区间的计算 0 0 2.52.5-t-t0.050.05t t0.050.05通式:通式:双侧双侧2 2 2 2未知但样本例数未知但样本例数未知但样本例数未知但样本例数n n n n足够大足够大足够大足够大n n n n50505050时时时时 由由由由t t t t分布可知,自由度越大,分布可知,自由度越大,分布可知,自由度越大,分布可知,自由度越大,t t t t分布越逼近标准正态分布越逼近标准正态分布越逼近标准正态分布越逼近标准正态分布,此时分布,此时分布,此时分布,此时t t t t曲线下约有曲线下约有曲线下约有曲线下约有95%95%95%95%的的的的t t
16、t t值在值在值在值在1.961.961.961.96之间,即之间,即之间,即之间,即95%的双侧置信区间:99%的双侧置信区间:例例 3 某市某市2000年随机年随机测测量了量了90名名19岁岁安康男大安康男大学生的身高,其均数学生的身高,其均数为为172.2cm,标标准差准差为为4.5cm,,试试估估计该计该地地19岁岁安康男大学生的身高安康男大学生的身高的的95%置信区置信区间间。该市该市1919岁健康男大学生的身高的岁健康男大学生的身高的95%95%置信区间置信区间(171.3,173.1)cm(171.3,173.1)cm3 3 3 3未知且样本例数未知且样本例数未知且样本例数未知且
17、样本例数n n n n 较小时,按较小时,按较小时,按较小时,按t t t t 分布原理,此时分布原理,此时分布原理,此时分布原理,此时 某自由度的某自由度的某自由度的某自由度的t t t t曲线下约有曲线下约有曲线下约有曲线下约有95%95%95%95%的的的的t t t t值在值在值在值在t0.05/2()t0.05/2()t0.05/2()t0.05/2()之间,之间,之间,之间,通式:95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间的双侧置信区间:t t/2,/2,是按自由度是按自由度=n-1=n-1,由附表,由附表2 2查查得的得的t t值值。例例 4 某地某地27例安康成
18、年男性血例安康成年男性血红红蛋白量的均数蛋白量的均数为为 ,标标准差准差S=15g/L,试问该试问该地安康成年男地安康成年男性血性血红红蛋白量的蛋白量的95%和和99%置信区置信区间间。本例本例n=27,S=1595%CI:99%CI:可信区间确实切涵义可信区间确实切涵义 从总体中作随机抽样,进展重复抽样的试验中,平均有1a的可信区间包含了总体参数,有a的可信区间不包括总体均数。即犯错误的概率为a,而a是小概率事件,对一次试验的可能性小,因此,实际应用中就认为总体均数在算得的可信区间内。95%95%的可信区间的理解的可信区间的理解1所要估计的总体参数有95%的可能在我们所估计的可信区间内。2从
19、正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。3但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。可信区间的两个要素可信区间的两个要素准确度准确度accuracy:反映在可信度:反映在可信度(1)的大小。的大小。1越接近越接近1,就越准确。如可信度,就越准确。如可信度99%比比95%准准确。确。准确度准确度precision:反映在区间的长度。长度:反映在区间的长度。长度越小越好越小越好,在例数在例数n确定的情况下,二者呈反比关确定的情况下,二者呈反比关系:准确度系:准确度,
20、准确度准确度(范围变宽范围变宽)。要兼顾准确度和准确度,一般取要兼顾准确度和准确度,一般取95%可信区间。可信区间。可信区间与参考值范围区别可信区间与参考值范围区别意义不同意义不同正常值范围是指绝大多数观察值在某个范围正常值范围是指绝大多数观察值在某个范围可信区间是指按一定的可信度估计总体均数参数可信区间是指按一定的可信度估计总体均数参数的所在范围的所在范围计算公式不同计算公式不同可信区间可信区间参考值范围参考值范围应用不同应用不同可信区间:估计总体均数可信区间:估计总体均数参考值范围:判断某项指标是否正常参考值范围:判断某项指标是否正常假设检验假设检验 假设检验hypothesis test
21、)也称显著性检验significance test),是用来判断样本与样本,样本与总体的差异是由抽样误差引起的?还是本质差异造成的?由于存在抽样误差,从总体中随机抽样所得的样本均数与总体均数之间存在误差,从同一总体中抽取的样本均数之间也有误差。假设检验原理假设检验原理例例 5 某医生测量了某医生测量了3636名从事铅作业的血红蛋名从事铅作业的血红蛋白含量,算得其均数为白含量,算得其均数为130.83g/L130.83g/L,标准差为,标准差为25.74g/L25.74g/L。问从事铅作业工人的血红蛋白是否。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值不同于正常成年男性平均值140g/
22、L140g/L?例例 50=140g/L总体总体未知总体未知总体=完全由抽样误差引起,比较的均数完全由抽样误差引起,比较的均数来源于同一总体;来源于同一总体;的原因的原因假设检验计算假设检验计算 的概率判断。的概率判断。来自于不同的总体,均数之间存在本来自于不同的总体,均数之间存在本质差异。质差异。0X差异完全由抽样误差引起差异完全由抽样误差引起0X差异完全由抽样误差引起差异完全由抽样误差引起0X来自于不同的总体来自于不同的总体0X来自于不同的总体来自于不同的总体假设检验的根本思想u小概率思想:小概率思想:u小概率事件:在一次试验中认为根本上不可小概率事件:在一次试验中认为根本上不可能发生。小
23、概率事件的概率是相对的,统计能发生。小概率事件的概率是相对的,统计分析时就是预先规定检验水准分析时就是预先规定检验水准size of a test,用,用 表示,表示,u反证法思想:反证法思想:u当检验假设当检验假设H0成立时,用适宜的统计方法成立时,用适宜的统计方法获得现在样本的概率大小获得现在样本的概率大小P值。如果是值。如果是小概率事件,那么推断假设是假的,因此拒小概率事件,那么推断假设是假的,因此拒绝它;如果不是小概率事件,那么不能认为绝它;如果不是小概率事件,那么不能认为假设是假的,也因此不能拒绝它。假设是假的,也因此不能拒绝它。假设检验的根本步骤假设检验的根本步骤 1 1、建立假设
24、和确定检验水准、建立假设和确定检验水准 2 2、选定检验方法和计算检验统计量、选定检验方法和计算检验统计量 3 3、确定、确定P P值和作出推断结论值和作出推断结论 1、建立假设和确定检验水准、建立假设和确定检验水准 1两个假设两个假设 无效假设:无效假设:H0:u=u0 备择假设:备择假设:H1:uu0对于假设检验,对于假设检验,须注意:须注意:检验的假设是针对总体而言,而不是针对样本;检验的假设是针对总体而言,而不是针对样本;H H0 0和和H H1 1是相互联系、对立的假设,后面的结论是是相互联系、对立的假设,后面的结论是根据根据H H0 0和和H H1 1作出的,因此,两者不是可有可无
25、,而作出的,因此,两者不是可有可无,而是缺一不可;是缺一不可;H H0 0是无效假设,其假设通常是:某两个总体参数是无效假设,其假设通常是:某两个总体参数相等,或两个总体参数之差等于相等,或两个总体参数之差等于0 0等等。等等。H H1 1的内容反映了检验的单双侧。的内容反映了检验的单双侧。单侧检验:在比较两种药物的疗效时,根据专业知单侧检验:在比较两种药物的疗效时,根据专业知识可认为新药不会比旧药差,只关心新药是否比旧识可认为新药不会比旧药差,只关心新药是否比旧药好至多一样,绝对排除出现相反的可能性,药好至多一样,绝对排除出现相反的可能性,可用单侧检验。可用单侧检验。(2)确定单侧或双侧检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 总体 估计 假设检验
限制150内