抽样误差与假设检验.pptx
《抽样误差与假设检验.pptx》由会员分享,可在线阅读,更多相关《抽样误差与假设检验.pptx(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 抽样误差与假设检验抽样误差与假设检验要求:要求: 掌握:掌握:均数的抽样误差与标准误,均数的抽样误差与标准误,t t分分布的特征,布的特征,t t界值表,总体均数可信区间及界值表,总体均数可信区间及其与参考值范围的区别。其与参考值范围的区别。 了解:了解:t t变换。变换。 第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、均数的抽样误差一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数时会存在一
2、定的误差,如样本均数 往往不等于总往往不等于总体均数体均数 ,这种由抽样造成的样本均数与总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不的差异称为抽样误差。对于抽样研究,抽样误差不可避免。可避免。X 样本均数样本均数 样本样本n1 样本样本n2 样本样本nk 各样本均数不相同,为什么?各样本均数不相同,为什么?总体总体12kXXX 假定某年某地所有假定某年某地所有13岁女学生身高服从岁女学生身高服从 N(155.4,5.32),在该总体中作),在该总体中作100次随次随机抽样,机抽样,ni = 30153.6153.1157.7从正态总体从正态总体N(1
3、55.4,5.32)抽样得到的)抽样得到的100个样本均数的频数分布个样本均数的频数分布组段(组段(cm)频数频数频率()频率()152.611.0153.244.0153.844.0154.42222.0155.02525.0155.62121.0156.21717.0156.833.0157.422.0158.0158.611.0合计合计100100.0二、抽样误差的分布二、抽样误差的分布 理论上可以证明:若从正态总体理论上可以证明:若从正态总体 中,反中,反复多次随机抽取样本含量固定为复多次随机抽取样本含量固定为n 的样本,那么的样本,那么这些样本均数这些样本均数 也服从正态分布,即也服
4、从正态分布,即 的总体均的总体均数仍为数仍为 ,样本均数的标准差为,样本均数的标准差为 。2N( ,) XX/n抽样分布抽样分布 抽样分布示意图抽样分布示意图 中心极限定理中心极限定理: : 当样本含量很大的情况下,无论原始测量变量服从当样本含量很大的情况下,无论原始测量变量服从什么分布,什么分布, 的抽样分布均近似正态。的抽样分布均近似正态。 X抽样分布抽样分布 抽样分布示意图抽样分布示意图 三、标准误(三、标准误(Standard ErrorStandard Error) 样本均数的标准差称为标准误。样本均数的变样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误
5、表示异越小说明估计越精确,因此可以用标准误表示抽样误差的大小:抽样误差的大小: 实际中总体标准差实际中总体标准差 往往未知,故只能求得样往往未知,故只能求得样本均数标准误的估计值本均数标准误的估计值 : nX XSnSSX 例例4.1 4.1 在某地随机抽查成年男子在某地随机抽查成年男子140140人,计算人,计算得红细胞均数得红细胞均数4.774.7710101 21 2/L/L,标准差,标准差0.38 0.38 10101212/L /L ,试计算均数的标准误。,试计算均数的标准误。 标准误的用途:标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽标准误是抽样分布的重要特征之一,
6、可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。计和对不同组之间的参数进行比较。120.380.032( 10 /L)140XSSn 标准差与标准误的区别与联系标准差与标准误的区别与联系 意义意义标准差:标准差:描述个体值间的变异,标准差较描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。说明样本均数的代表性。标准误:标准误:描述统计量的抽样误差,标准误描述统计量的抽样误差,标准误 较小,表示样本统计量与参数较较小,表示样本统计量与参数较
7、接近。说明样本均数的可靠性。接近。说明样本均数的可靠性。标准差:标准差:表示变量值离散程度的大小,表示变量值离散程度的大小, 结合均数估计参考值范围。结合均数估计参考值范围。 随样本含量的增多,逐渐趋于稳定。随样本含量的增多,逐渐趋于稳定。标准误:标准误:表示抽样误差的大小,表示抽样误差的大小, 估计参数的可信区间。估计参数的可信区间。 随样本含量的增多逐渐减小。随样本含量的增多逐渐减小。 标准差与标准误的区别与联系标准差与标准误的区别与联系 区别区别 标准差与标准误的区别与联系标准差与标准误的区别与联系 联系联系(1 1)标准差与标准误都是变异指标,说)标准差与标准误都是变异指标,说明个体值
8、之间的差异时用标准差,说明统明个体值之间的差异时用标准差,说明统计量之间的差异时用标准误。计量之间的差异时用标准误。(2 2)当样本含量不变时,标准差越大,)当样本含量不变时,标准差越大,标准误亦越大。标准误亦越大。 t 分布分布变量变换变量变换总体总体 2( ,)N 样本均数样本均数 XX),(2XN中心极限定理中心极限定理标准正态分布标准正态分布 Xu ) 1 , 0(NXXu u变量变换变量变换XXts 未知100n 服从自由度服从自由度 = n 1的的t分布分布1.1.单峰分布,以单峰分布,以0 0为中心,左右两侧对称为中心,左右两侧对称v 5v 1v ( )f t标准正态分布 图图4
9、-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 v 5v 1v ( )f t标准正态分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 2. t 分布只有一个参数分布只有一个参数,曲线形状与样本,曲线形状与样本含量有关。是一簇曲线。含量有关。是一簇曲线。 v 5v 1v ( )f t标准正态分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 3. 当自由度逼近当自由度逼近,t分布则逼近分布则逼近u分布,分布,故标准正态分布是故标准正态分布是t分布的特例。分布的特例。v 5v 1v ( )f t标准正态分布 图图4-2 4-2 不同自由度
10、的不同自由度的 t t 分布图分布图 4. 4. t t分布曲线下的面积为分布曲线下的面积为1 1(100100)。)。 t t界值表界值表 概率概率P P自由度自由度 双侧双侧 0.10 0.05 0.02 0.01 0.10 0.05 0.02 0.01 单侧单侧 0.05 0.025 0.01 0.005 0.05 0.025 0.01 0.005 21 1.721 2.080 2.518 2.831 21 1.721 2.080 2.518 2.831 22 1.717 2.074 2.508 2.819 22 1.717 2.074 2.508 2.819 23 1.714 2.06
11、9 2.500 2.807 23 1.714 2.069 2.500 2.807 24 1.711 2.064 2.492 2.797 24 1.711 2.064 2.492 2.797 25 1.708 2.060 2.485 2.787 25 1.708 2.060 2.485 2.787 26 1.706 2.056 2.479 2.779 26 1.706 2.056 2.479 2.779 27 1.703 2.052 2.473 2.771 27 1.703 2.052 2.473 2.771 自由度相同时,自由度相同时,t值越大,概率值越大,概率P越小;越小; t值相同时,值相
12、同时,t0.05/2,22 = t0.025,22 =2.074。 第二节第二节 总体均数的估计总体均数的估计 一、可信区间的概念一、可信区间的概念(Confidence Interval(Confidence Interval) 参数估计参数估计点估计:不考虑抽样误差,如点估计:不考虑抽样误差,如区间估计:考虑抽样误差区间估计:考虑抽样误差XParameter estimationpoint estimationinterval estimation总体均数的估计总体均数的估计1. 点点(值值)估计(估计(point estimation):): 用样本统计量直接作为总体参数的估用样本统计量
13、直接作为总体参数的估计值。计值。例例 为了解某地为了解某地1 1岁婴儿的血红蛋白浓度,岁婴儿的血红蛋白浓度,从该地随机抽取从该地随机抽取1 1岁婴儿岁婴儿2525人,测得血红蛋人,测得血红蛋白的平均数为白的平均数为123.7g/L123.7g/L,标准差为,标准差为11.98g/L11.98g/L。试估计该地。试估计该地1 1岁婴儿血红蛋白岁婴儿血红蛋白的平均的平均浓度。浓度。 2. 区间估计(区间估计(interval estimation):): 指按预先给定的概率,计算出一个区间,指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率使它能够包含未知的总体均数。
14、事先给定的概率 称为可信度,通常取称为可信度,通常取 可信度(置信率、置信度):可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概由样本信息推断总体特征时,估计正确的概 率,用率,用1表示。表示。 : 类错误的概率类错误的概率195. 01可信区间(可信区间(confidence interval CIconfidence interval CI):): 按预先给定的概率确定的包含未知总按预先给定的概率确定的包含未知总体参数的可能范围。体参数的可能范围。可信限(可信限(confidence limit CLconfidence limit CL):): 构成可信区间的两个点值构
15、成可信区间的两个点值 上限值:较大的值上限值:较大的值 下限值:较小的值下限值:较小的值模拟实验模拟实验 模拟抽样成年男子红细胞数。设定模拟抽样成年男子红细胞数。设定: : 产生产生100100个随机样本,分别计算其个随机样本,分别计算其95%95%的可信区间,的可信区间,结果用图示的方法表示。从图可以看出:绝大多数结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数可信区间包含总体参数 ,只有,只有6 6个可信区间个可信区间没有包含总体参数(用星号标记)。没有包含总体参数(用星号标记)。14039.075.4 n, 75.4 图图4-2 4-2 模拟抽样成年男子红细胞数模拟抽样成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样误差 假设检验
限制150内