第四章--研参数估计基础课件.ppt
《第四章--研参数估计基础课件.ppt》由会员分享,可在线阅读,更多相关《第四章--研参数估计基础课件.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医用统计方法及其医用统计方法及其SPSS软件应用软件应用公共卫生学院公共卫生学院流行病与卫生统计学系流行病与卫生统计学系第四章第四章 抽样误差与参数估计抽样误差与参数估计QuestionQuestion某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男岁健康男大学生的身高,其均数为大学生的身高,其均数为172.2cm172.2cm,标准,标准差为差为4.5cm,4.5cm,,试估计该地,试估计该地1919岁健康男大岁健康男大学生的身高可能的范围。学生的身高可能的范围。讲课提纲抽样分布和抽样误差抽样分布和抽样误差t t分布分布总体均数和概率的估计总体均数和概率的估计 第
2、一节第一节 抽样分布与抽样误差抽样分布与抽样误差 用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为用样本信息来推断相应总体的特征,这一过程称为统计推断统计推断统计推断统计推断。统计推断包括两方面的内容:统计推断包括两方面的内容:参数估计参数估计和和假设检验假设检验抽样误差抽样误差:由:由个体变异个体变异个体变异个体变异产生的、由于产生的、由于抽样抽样抽样抽样而造成的而造成的样本统计量与样本统计量及样本统计量与总体参数之间样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。的差
3、异称为抽样误差。无倾向性,不可避免。一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差 均数的抽样误差:均数的抽样误差:由由个体变异个体变异产生的、由于产生的、由于抽样抽样而造成的样而造成的样本均数与样本均数及样本均数与总体均数之间的差异本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称叫样本均数的标准差,也称样本均数的标准误样本均数的标准误。抽样实验一:抽样实验一:假定从假定从1313岁女学生身高总体均数岁女学生身高总体均数标准差标准差 的的正态总体正态总体中进行随机
4、抽样。中进行随机抽样。v样本均数的抽样分布特点样本均数的抽样分布特点:1 1 各样本均数未必等于总体均数各样本均数未必等于总体均数 2 2 样本均数之间存在差异样本均数之间存在差异 3 3 样本均数的分布很有规律,围绕着总体均数,中样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称,也服从正态分布间多,两边少,左右基本对称,也服从正态分布 4 4 样本均数的变异较之原变量变异大大缩小样本均数的变异较之原变量变异大大缩小抽样实验二:非正态总体样本均数的抽样实验(实验5-2)图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次
5、,计算样本均数并绘制4个直方图 N=5N=10N=30N=50 1 1)从正态总体)从正态总体N(,N(,2 2)中,随机抽取例数为中,随机抽取例数为n n的多的多个样本,样本均数个样本,样本均数 服从正态分布;即使是从偏态服从正态分布;即使是从偏态总体中随机抽样,当总体中随机抽样,当n n足够大时足够大时(如如n n50)50),也近也近似正态分布。似正态分布。2)从均数为从均数为,标准差为标准差为的正态或偏态总体中抽的正态或偏态总体中抽取例数为取例数为n n的样本,样本均数的标准差即的样本,样本均数的标准差即标准误标准误为为 。标准误的大小与标准误的大小与的大小成正比,与的大小成正比,与n
6、 n成反比,而成反比,而为定值,说明可以通过为定值,说明可以通过增加样本例数增加样本例数来减少标准误,来减少标准误,以降低抽样误差。以降低抽样误差。未知,用样本标准差未知,用样本标准差S S来估计总体标准差来估计总体标准差。用 来表示均数抽样误差的大小。(标准误的理论值)(标准误的理论值)(标准误的估计值)(标准误的估计值)例例5-1 20005-1 2000年某研究所随机调查某地健康年某研究所随机调查某地健康成年男子成年男子2727人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L125g/L,标准差为标准差为15g/L 15g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽
7、样误差。二二 、样本频率的抽样分布与抽样误差、样本频率的抽样分布与抽样误差从同一总体中随机抽出观察单位相等的多个样本,从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为异是由于抽样引起的,称为频率的抽样误差频率的抽样误差频率的抽样误差频率的抽样误差。表示频率的抽样误差大小的指标叫表示频率的抽样误差大小的指标叫频率的标准误。频率的标准误。频率的标准误。频率的标准误。样本频率的抽样分布与抽样误差样本频率的抽样分布与抽样误差 实验4.2:某班近视眼患病率20%(总体概率=20%),随机抽出3
8、5人(n=35),观察近视眼患病率(样本频率p i)。重复这样的实验100次,每次得到患病率分别为14.4%,19.8%,20.2%,22.5%,等,将其频数分布列于表5-3。表表5-3总体概率为总体概率为20%时的随机抽样结果(时的随机抽样结果(ni=35)黑球比例%样本频数%5.0 3 3.0 8.0 7 7.011.0 5 5.014.0 8 8.017.0 1616.020.0 2222.022.0 1515.025.0 7 7.028.0 7 7.031.0 5 5.034.0 3 3.040.0 2 2.0合计100 100.0:总体率,总体率,n:样本例数。样本例数。当当未知时,
9、未知时,p p (为样本含量足够大,为样本含量足够大,且且p p和和1-p1-p不太小)不太小)公式为公式为::率的标准误的估计值,:率的标准误的估计值,p p:样本率。样本率。据数理统计的原理,率的标准误用据数理统计的原理,率的标准误用 表示表示例例5-2 5-2 某市随机调查了某市随机调查了5050岁以上的中老年岁以上的中老年妇女妇女776776人,其中患有骨质疏松症者人,其中患有骨质疏松症者322322人,患病率人,患病率为为41.5%41.5%,试计算该样本频率的抽样误差。,试计算该样本频率的抽样误差。一、一、t t分布的概念分布的概念在统计应用中,可以把任何一个均数为在统计应用中,可
10、以把任何一个均数为,标准差为,标准差为的正态分布的正态分布N(,2)转变为转变为=0,=1的标准正态分布,的标准正态分布,即将正态变量值即将正态变量值X用用来代替。来代替。第二节第二节 t 分布分布也服从正态分布,也服从正态分布,服从标准正态分布服从标准正态分布N(0,1)服从服从=n-1的的t分布分布N=3N=50t分布曲线特点:分布曲线特点:1)t分布曲线是单峰分布,它以分布曲线是单峰分布,它以0为中心,左为中心,左右对称。右对称。2)t分布的形状与样本例数分布的形状与样本例数n有关。自由度越小,有关。自由度越小,则则越大,越大,t 值越分散,曲线的峰部越矮,尾部翘的值越分散,曲线的峰部越
11、矮,尾部翘的越高。越高。3)当当n时,则时,则S逼近逼近,t分布逼近标准分布逼近标准正态分布。正态分布。t分布不是一条曲线,而是一簇曲线。分布不是一条曲线,而是一簇曲线。二、二、t 分布的图形和分布的图形和t分布表分布表=(标准正态分布)=5=1012345-1-2-3-4-5f(t)0.10.20.3图5-3 不同自由度下的t分布图t分布分布 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。t界值表:横标目为自由度,纵标目为概率P。t临界值:表中数字表示当 和P 确定时,对应的值。单侧概率(one-tailed probability)
12、:用t,表示 双侧概率(two-tailed probability):用t/2,表示t分布分布例如,当=16,单侧概率P=0.05时,由表中查得单侧t0.05,16=1.746;而当=16,双侧概率P=0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.05 双侧:P(t t0.05/2,16)P(t t0.05/2,16)=0.05 t分布分布更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:单侧:P(t t,)=和 P(t t,)=双侧:P(t t/2,)P(t t/2
13、,)=t分布分布从t界值表中或表的右上角图列亦可看出:在相同自由度时,t值越大,概率P越小;而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16=t0.05,16=1.746。一、参数估计的概念一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。用样本指标(统计量)来估计总体指标(参数)。第三节第三节第三节第三节 总体均数及总体概率的估计总体均数及总体概率的估计总体均数及总体概率的估计总体均数及总体概率的估计参数估计参数估计点估计点估计(point estimation)区间估计
14、区间估计(interval estimation)二、二、置信区间的计算置信区间的计算1.点估计点估计:用样本统计量直接作为总体参数的估计值用样本统计量直接作为总体参数的估计值。例如例如于于2000年测得某地年测得某地27例健康成年男性血红蛋白量例健康成年男性血红蛋白量的样本均数为的样本均数为125g/L,试估计其总体均数。试估计其总体均数。同理,例同理,例5-2中中776名名50岁以上的中老年妇女骨质疏岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即松症的样本患病率作为总体患病率的点值估计值,即认为该市所有认为该市所有50岁以上的中老年妇女骨质疏松症的总岁以上的中老年妇
15、女骨质疏松症的总体患病率约为体患病率约为41.5%。(一)总体均数的置信区间一)总体均数的置信区间一)总体均数的置信区间一)总体均数的置信区间2.区间估计区间估计:按预先给定的概率:按预先给定的概率(1)估计总体参数估计总体参数的可能范围的可能范围,该范围就称为该范围就称为总体参数的总体参数的总体参数的总体参数的1 1 置信区间置信区间置信区间置信区间(confidence interval,CI)(confidence interval,CI)。预先给定的概率(1)称为置信度置信度置信度置信度,常取95%或99%。如无特别说明,一般取双侧95%。可信区间由两个数值即可信区间由两个数值即置信限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 参数估计 基础 课件
限制150内