[精选]总体均数的估计与假设检验综述39835.pptx
《[精选]总体均数的估计与假设检验综述39835.pptx》由会员分享,可在线阅读,更多相关《[精选]总体均数的估计与假设检验综述39835.pptx(98页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本资料来源 第三章第三章 总体均数的估计和假设检验总体均数的估计和假设检验第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 1.均数的抽样误差与样本均数的分布:均数的抽样误差与样本均数的分布:(1)均数的抽样误差均数的抽样误差是指样本均数与总体均数是指样本均数与总体均数之间的差异以及来自同一总体的样本均数之之间的差异以及来自同一总体的样本均数之间的差异。间的差异。例例3-1 若某市若某市1999年年18岁男生身高服从均数为岁男生身高服从均数为167.7cm,标准差为,标准差为5.3cm的正态分布。从该正态的正态分布。从该正态分布分布N(167.7,5.32)cm总体中随机抽样总体中随
2、机抽样100次即共抽次即共抽取样本取样本g=100个,每次样本含量个,每次样本含量=10人,得到每人,得到每个样本均数及标准差如图个样本均数及标准差如图3-1和表和表3-1所示。所示。167.41 2.74165.56 6.57168.20 5.36165.69 5.09100个个n10图图31 1999年某市年某市18岁男生身高岁男生身高X XN N(167.7,5.32)抽样示意图抽样示意图表表3-1资料资料 组段组段 频数频数 频率()频率()累计频数累计频数 累计频率()累计频率()163 1 1 1 1 164 3 3 4 4 165 13 13 17 17 166 19 19 36
3、 36 167 22 22 58 58 168 20 20 78 78 169 14 14 92 92 170 4 4 96 96 172 3 3 99 99 172173 1 1 100 100 合合 计计 100 100 随机随机抽样所得抽样所得100个样本均数的频数分布个样本均数的频数分布图图32 从正态分布总体从正态分布总体X XN N(167.7,5.32)随机随机抽样所得样本均数分布抽样所得样本均数分布平均身高平均身高(cm)cm)163 164 165 166 167 168 169 170 171 172 17325 20 15 10 5 0 样本数样本数(2)样本均数的分布:
4、样本均数的分布:如果总体中的观察值的分布为正态分布,如果总体中的观察值的分布为正态分布,则样本均数的分布也是正态分布。则样本均数的分布也是正态分布。如果总体中的观察值的分布为非正态分如果总体中的观察值的分布为非正态分布,只要样本例数足够大(布,只要样本例数足够大(n60),则均数的),则均数的分布仍近似正态分布。分布仍近似正态分布。2.均数的标准误均数的标准误(standard error of mean):(1)意义意义:均数的标准误均数的标准误简称标准误简称标准误,是指样本均数的标准差,是指样本均数的标准差,衡量样本均数的离散程度。衡量样本均数的离散程度。(2)标准误的计算:标准误的计算:
5、或或 (3)标准误与标准差及标准误与标准差及n的关系的关系:n大大 小;小;S小小 小。小。思考:如何降低均数的抽样误差?思考:如何降低均数的抽样误差?(4)标准误的应用标准误的应用:衡量均数的抽样误差衡量均数的抽样误差 衡量样本均数的可靠性衡量样本均数的可靠性 估计总体均数的可信区间估计总体均数的可信区间 均数的假设检验。均数的假设检验。思考:如何区别标准差和标准误?思考:如何区别标准差和标准误?3.标准误与标准差之间的区别与联系:标准误与标准差之间的区别与联系:标准误标准误 标准差标准差 说明说明 的离散度,的离散度,说明说明x 的离散度的离散度,衡量抽样误差衡量抽样误差,衡量个体差异,衡
6、量个体差异,表示表示 的可靠性的可靠性,表示表示 的代表性,的代表性,n大,大,小,小,n大,大,s 趋于稳定,趋于稳定,估计估计的可信区间,的可信区间,估计参考值范围,估计参考值范围,均数的假设检验。均数的假设检验。计算计算CV 和和 。联系联系 n不变时,不变时,s 越大,越大,越大。越大。区别区别第二节第二节 t 分布分布一、一、t 分布的概念分布的概念 t 值的公式为值的公式为:从同一总体中抽取若干从同一总体中抽取若干n 相同的样本,并求出相同的样本,并求出样本均数,再代入样本均数,再代入t 值公式求得若干个值公式求得若干个 t 值值,将将 t 值值看成观察值,其分布称为看成观察值,其
7、分布称为 t 分布。分布。u 分布分布:t 分布:分布:t 值为样本均数与总体均数之差与样本标准误的比值值为样本均数与总体均数之差与样本标准误的比值重要概念:重要概念:自由度用自由度用 表示,指计算某一统计量时变量表示,指计算某一统计量时变量取值不受限制的个数。取值不受限制的个数。一般情况下:一般情况下:n mn为计算某一统计量时用到的数据个数,为计算某一统计量时用到的数据个数,m为计算该统计量时用到的其他独立统计量个数,为计算该统计量时用到的其他独立统计量个数,或者计算该统计量时受到限制的条件数。或者计算该统计量时受到限制的条件数。“”为小写希腊字母读作为小写希腊字母读作 nju:自由度自由
8、度 t 分布的用途分布的用途1.小样本时总体均数的估计,小样本时总体均数的估计,2.均数比较时的假设检验,均数比较时的假设检验,3.相关系数的假设检验。相关系数的假设检验。二、二、t 分布的特征分布的特征:(1)单峰;单峰;(2)t 值有正有负,均数为值有正有负,均数为0;(3)以以0为中心左右对称;为中心左右对称;(4)一簇曲线,每个自由度为一条曲线;一簇曲线,每个自由度为一条曲线;(5)自由度越小,峰越矮,尾越翘,随着自由度增自由度越小,峰越矮,尾越翘,随着自由度增加,加,t 分布曲线逐渐逼近标准正态分布曲线;分布曲线逐渐逼近标准正态分布曲线;(6)当自由度为无穷大时,当自由度为无穷大时,
9、t 分布曲线和标准正态分布曲线和标准正态分布曲线完全吻合。分布曲线完全吻合。f(t)=(标准正态曲线标准正态曲线)=5=10.10.2-4-3-2-1012340.3 自由度分别为自由度分别为1、5、时的时的 t 分布分布三、三、t 分布的图形分布的图形(四、四、t 分布曲线下的面积分布分布曲线下的面积分布 t 界值表:见附表界值表:见附表2(804页)。页)。左侧为自由度,从左侧为自由度,从1;上方为概率,指曲线下尾部面积,分为单侧和双侧上方为概率,指曲线下尾部面积,分为单侧和双侧(单尾和双尾);(单尾和双尾);中间为中间为 t 值的绝对值,即图形中横坐标的位置。值的绝对值,即图形中横坐标的
10、位置。单侧单侧t 界值的表示方法:界值的表示方法:双侧双侧t 界值的表示方法:界值的表示方法:t 0 tt 值表示意图值表示意图同一自由度时,同一自由度时,P P 值越小值越小 t 值越大;值越大;同一同一P P 值时,自由度越大值时,自由度越大 t 值越小;值越小;自由度自由度 时,时,t 值值u 值;值;当自由度当自由度10,单侧曲线下面积概率为,单侧曲线下面积概率为0.05时,时,t 值在横坐标上的位置是值在横坐标上的位置是1.812。或者理解为:在上述条件下进行抽样研究,或者理解为:在上述条件下进行抽样研究,95的的 t 值应小于值应小于1.812,大于和等于,大于和等于1.812者仅
11、有者仅有5。的含义为:的含义为:的含义?的含义?01.812502.2282.51.8122.22812第三节第三节 总体均数总体均数()的估计的估计 一、可信区间的概念可信区间的概念 用样本指标估计总体指标称为参数估计,用样本指标估计总体指标称为参数估计,方法有点值估计和区间估计两种。方法有点值估计和区间估计两种。的点值估计:的点值估计:将样本均数作为将样本均数作为的估计值,由于抽样误差的估计值,由于抽样误差的存在,所以的存在,所以的点值估计准确度较低。的点值估计准确度较低。的的区间估计区间估计:考虑抽样误差并按一定的可信度计算包含考虑抽样误差并按一定的可信度计算包含在内的一个范围,称为在内
12、的一个范围,称为区间估计区间估计,该范围称为,该范围称为可信区间可信区间,常用双侧,常用双侧95。可信限是指两个界值可信限是指两个界值二、总体均数可信区间的计算二、总体均数可信区间的计算1.单一总体均数的可信区间单一总体均数的可信区间(1)未知,未知,n 60,按,按 t 分布。分布。双侧双侧1可信区间可信区间(95%,)单侧单侧1可信区间可信区间 或或 例例3-2 在例在例3-1中抽得第中抽得第15号样本的均数号样本的均数 (cm),标准差,标准差 (cm),试求,试求 其总体均数的其总体均数的95%可信区间。可信区间。故该地故该地18岁男生身高均数的岁男生身高均数的95 可信区间为(可信区
13、间为(164.35,169.55)(cm)。例:随机检查了例:随机检查了20名慢性胃炎脾虚男病人,其脉搏名慢性胃炎脾虚男病人,其脉搏均数为均数为74.3次次/分分,标准差为标准差为6.4次次/分,试估计该类病分,试估计该类病人脉搏总体均数的人脉搏总体均数的95可信区间。可信区间。本例本例n=20,=19,t0.05/2,19=2.093,95%可信区为:可信区为:(74.3-2.0936.4/,74.32.0936.4/)即即(71.3次次/分分,77.3次次/分分)。(2)未知,未知,n 60,按,按u分布。分布。双侧双侧1可信区间可信区间单侧单侧1可信区间可信区间 或或例例:随机检查随机检
14、查140例成年男子的红细胞数得:例成年男子的红细胞数得:试估计该地成年男子红细胞数试估计该地成年男子红细胞数95可信区间。可信区间。(4.79 1.960.42/,4.79+1.960.42/)=(4.72 ,4.86 )例例3-3 某地抽得正常成人某地抽得正常成人200名,测得其血清胆固名,测得其血清胆固醇的均数为醇的均数为3.64 mmol/L,标准差为,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的试估计该地正常成人血清胆固醇均数的95%可信可信区间。区间。故该地正常成人血清胆固醇均数的故该地正常成人血清胆固醇均数的95%可信可信区间为(区间为(3.47,3.91)mm
15、ol/L。(3)已知,按已知,按 u 分布分布双侧双侧1可信区间可信区间单侧单侧1可信区间可信区间 或或2.2.两总体均数之差的可信区间两总体均数之差的可信区间双侧双侧1可信区间可信区间单侧单侧1可信区间可信区间 或或 为两均数之差标准误,计算公式:为两均数之差标准误,计算公式:为合并方差为合并方差 当两样本含量均大于当两样本含量均大于60,可用可用 u值代替值代替t值进行值进行估计,估计,也可用以下公式计算:也可用以下公式计算:例例3-4 为了解甲氨蝶呤为了解甲氨蝶呤(MTX)对外周血对外周血IL-2水水平的影响,某医生将平的影响,某医生将61名哮喘患者随机分为两组。名哮喘患者随机分为两组。
16、其中对照组其中对照组29例例(),采用安慰剂;试验组,采用安慰剂;试验组32例例(),采用小剂量甲氨蝶呤,采用小剂量甲氨蝶呤(MTX)进行治疗。进行治疗。测得对照组治疗前测得对照组治疗前IL-2的均数为的均数为20.10 IU/ml(),标准差为标准差为7.02 IU/ml();试验组治疗前;试验组治疗前IL-2的的均数为均数为16.89 IU/ml(),标准差为,标准差为8.46 IU/ml()。问两组治疗前基线的。问两组治疗前基线的IL-2总体均数相差总体均数相差有多大?有多大?故两组治疗前基线的故两组治疗前基线的IL-2总体均数之差的总体均数之差的95可信区间为(可信区间为(0.79,7
17、.21)IU/ml。三、可信区间的确切含义和两个要素三、可信区间的确切含义和两个要素 如果能够进行重复抽样试验,平均有如果能够进行重复抽样试验,平均有1的可信区间包含了总体参数,而不是总体参数落的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为在该范围的可能性为1。可信区间的可信区间的两个要素两个要素:(1)准确度:包含总体参数的概率大小;准确度:包含总体参数的概率大小;(2)精密度:可信区间的长度。精密度:可信区间的长度。注意准确度和精密度的关系注意准确度和精密度的关系增加样本含量可提高精密度增加样本含量可提高精密度四、总体均数可信区间与参考值范围的区别;四、总体均数可信区间与参考
18、值范围的区别;可信区间可信区间 参考值范围参考值范围 含义含义计算计算用途用途(双侧大样本)(双侧大样本)(95)估计总体均数估计总体均数判断个体指标判断个体指标正常与否正常与否是指包含是指包含在内的在内的 范围,或样本均数范围,或样本均数的分布范围。的分布范围。是指正常人某是指正常人某指标(观察值)指标(观察值)的波动的波动 范围。范围。第四节第四节 假设检验假设检验(hypothesis test)例例3-5 某医生测量了某医生测量了36名从事铅作业男性工人名从事铅作业男性工人的血红蛋白含量,算得其均数为的血红蛋白含量,算得其均数为130.83g/L,标准,标准差为差为25.74g/L。问
19、从事铅作业工人的血红蛋白是否。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值不同于正常成年男性平均值140g/L?已知总体已知总体未知总体未知总体?图图34 例例35示意图示意图一、假设检验的概念:一、假设检验的概念:先对总体参数或分布作出某种假设先对总体参数或分布作出某种假设,然后用,然后用适当的方法计算检验统计量,根据该检验统计量适当的方法计算检验统计量,根据该检验统计量的分布理论的分布理论,推断假设推断假设是否拒绝是否拒绝。二、假设检验的种类:二、假设检验的种类:根据检验目的分为根据检验目的分为:差别性检验差别性检验、方差齐性检验、方差齐性检验、拟合优度检验、正态性检验、均衡性检
20、验等。拟合优度检验、正态性检验、均衡性检验等。根据检验统计量命名分为根据检验统计量命名分为:三、假设检验的意义三、假设检验的意义:通过对事物通过对事物数量差异数量差异的比较分析,判断的比较分析,判断事物间有无事物间有无质量区别质量区别。四、假设检验的基本思想:四、假设检验的基本思想:小概率反证法思想。小概率反证法思想。五、五、假设检验的一般步骤假设检验的一般步骤 以例以例3-5为例,说明假设检验的一般步骤:为例,说明假设检验的一般步骤:1.建立假设,确定检验检验水准:建立假设,确定检验检验水准:(1)检验假设)检验假设 H0:=0,(2)备择假设)备择假设 H1:0,双侧检验。,双侧检验。注意
21、注意:针对总体;针对总体;相互联系、相互对立,缺一不可;相互联系、相互对立,缺一不可;情况不同假设不同;情况不同假设不同;单、双侧检验时单、双侧检验时H1 不同。不同。单、双侧检验单、双侧检验两个指标两个指标比较时比较时,从从专业专业角度考虑:角度考虑:如果甲指标大于乙指标或甲指标小于乙指标如果甲指标大于乙指标或甲指标小于乙指标都可能发生则为都可能发生则为双侧检验双侧检验;如果甲指标不可能大于(或小于)乙指标如果甲指标不可能大于(或小于)乙指标,只只需检验是否小于(或大于)乙指标则为需检验是否小于(或大于)乙指标则为单侧检验单侧检验。表表33 样本均数(代表未知样本均数(代表未知 )与已知总体
22、均数)与已知总体均数 比较的比较的t 检验检验目的目的 双侧检验双侧检验 是否是否 单侧检验单侧检验 是否是否 是否是否 检验水准符号为检验水准符号为,它是人为规定的小概率,它是人为规定的小概率事件的判断标准,即事件的判断标准,即H0拒绝与否的概率界限,或拒绝与否的概率界限,或犯第一类错误的概率,一般取犯第一类错误的概率,一般取0.05。2.选定检验方法,计算检验统计量:选定检验方法,计算检验统计量:检验方法的选择依据有:资料类型、设计方检验方法的选择依据有:资料类型、设计方案、检验目的、样本大小、分布类型、方差齐性案、检验目的、样本大小、分布类型、方差齐性以及检验方法的适用条件等等。以及检验
23、方法的适用条件等等。本例选择单样本本例选择单样本 t 检验:检验:(为什么?为什么?)(3)检验水准)检验水准3.确定确定P值,作出推断和结论:值,作出推断和结论:P值的大小根据检验统计量的理论界值表查得。值的大小根据检验统计量的理论界值表查得。本例自由度本例自由度35,查,查 t 值表得值表得 t0.05/2,35=2.030,t0.02/2,35=2.438,2.030 2.138 2.438,故,故0.02P 时,无统计学意义,不拒绝时,无统计学意义,不拒绝H0;P 时,有统计学意义,拒绝时,有统计学意义,拒绝H0,接受,接受H1。本例本例P 0.05,即即P 60,t 分布接近分布接近
24、u分布,分布,或者已知总体标准差(或者已知总体标准差()时均可采用)时均可采用 u 检验。检验。一、样本均数与总体均数比较一、样本均数与总体均数比较1.总体标准差已知:总体标准差已知:2.总体标准差未知,样本较大(总体标准差未知,样本较大(n 60):):3.总体标准差未知,样本较小总体标准差未知,样本较小(例(例35)二、二、配对设计资料的配对设计资料的 t 检验检验 配对设计配对设计包括异体配对和同体配对两种。包括异体配对和同体配对两种。异体配对是将两个条件相近的对象配成一对,异体配对是将两个条件相近的对象配成一对,然后随机化地接受两种处理;然后随机化地接受两种处理;模式:模式:甲组甲组
25、乙组乙组 随机随机 同体配对同体配对是对同一观察对象分别接受两种处理是对同一观察对象分别接受两种处理后的结果进行比较,又称自身配对,包括:后的结果进行比较,又称自身配对,包括:在两个部位用两种不同方法处理后进行比较;在两个部位用两种不同方法处理后进行比较;先后用两种方法处理后进行比较;先后用两种方法处理后进行比较;同一对象的检测标本用两种方法检测;同一对象的检测标本用两种方法检测;同一对象接受一种处理前后比较等。同一对象接受一种处理前后比较等。关于一种处理前后的比较是一种特殊的同体配对设计,关于一种处理前后的比较是一种特殊的同体配对设计,又可称为前后测量设计,见第十二章,又可称为前后测量设计,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选 总体 估计 假设检验 综述 39835
限制150内