《chapter5参数估计医学统计学.ppt》由会员分享,可在线阅读,更多相关《chapter5参数估计医学统计学.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 参数估计基础参数估计基础潍坊医学院卫生统计学教研室1Qualitative dataAnalysis(ranked)Quantitative data analysis Statistical descriptionStatistical InferenceStatistical InferenceStatistical descriptionStatistical analysis Statistical descriptionStatistical descriptionStatistical InferenceStatistical InferenceParameter E
2、stimationHypothesis TestParameter Estimation2Chapter5目的要求1、掌握均数的抽样误差与标准误的概念2、了解t分布的基本特征3、掌握总体均数的区间估计3119.41cm=4.38cm估计全国七岁男童的平均身高总体参数总体参数样本统计量样本统计量4第一节 抽样误差抽样误差:由于总体中个体变异的存在,在抽样过程中产生的样本统计量与总体参数间的差异以及样本统计量与样本统计量间的差异。两种表现形式:n样本统计量与总体参数间的差异n样本统计量间的差异 5抽样误差产生的基本条件个体变异 抽样研究6 100=156.6 S100=1.16x1,x2,x3x3
3、0 2=158.1 S2=0.95x1,x2,x3x30样本含量样本含量ni=30抽样次数抽样次数m=100 =155.4cm =5.3cm 1=156.7 S1=0.91x1,x2,x3x30某地所有13岁 女 学生身高总体一、一、样本均数的抽样分布与抽样误差样本均数的抽样分布与抽样误差随机抽样,共抽100次。每次均抽取30例10表表6-2 从正态总体从正态总体N(155.4,5.32)抽样得到的样本均数的频数分布抽样得到的样本均数的频数分布12图图2 从从N(155.4,5.32)抽样得到的样本均数的频数分布抽样得到的样本均数的频数分布13正态总体中抽样时样本均数的抽样分布特点各样本均数未
4、必等于总体均数(155.4cm);样本均数之间存在差异;样本均数的分布很有规律:围绕着总体均数(155.4cm),中间多、两边少,左右基本对称,也服从正态分布。样本均数的变异较之原变量的变异(5.3cm)大大缩小。14表表6-1 从正态总体从正态总体N(155.4,5.32)中抽到的中抽到的100个份随机样本的计算结果个份随机样本的计算结果15中心极限定理(central limit theorem)Case 1:从正态分布总体N(,)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。n样本均数的均数为 ;n样本均数的标准差为样本均数样本均数的
5、标准误的标准误16标准误(standard error)的计算样本统计量(均数或率)的标准差称为标准误。标准误的计算公式(5.1),(5.2):样本均数标准误的大小与标准差成正比,与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。所以在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。17例 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。解:18均数标准误的应用均数标准误的应用 1 1、表示均数抽样误差大小,描述(、表示均数抽样误差大小,描述(n n相同
6、)相同)样本均数的离散程度,反映用样本均数估计或样本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性;推断总体均数的可靠性;2 2、与样本均数相结合,用于估计总体均数、与样本均数相结合,用于估计总体均数的置信(置信)区间的置信(置信)区间 ;3 3、用于进行均数的假设检验。、用于进行均数的假设检验。19表I 标准差与标准误的区别与联系联系:都是表示离散程度的指标 都与n大小有关。20 随机变量 X B(n,)标准误二、二、样本样本率率的抽样误差的抽样误差样本频率的标准差称为频率的标准误,反映样本频率的离散程度,反映样本频率抽样误差大小。样本样本率率的抽样误差的抽样误差21例6-2 某市
7、随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。=22第二节 t分布实际工作中,总体方差未知,用样本方差代替,此时:23正态分布的标准化变换24一、t分布的概念设从正态分布N(,2)中随机抽取 含量为n的样本,样本均数和标准差 分别为 和s,则:t分布,分布,=n 1则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在Biometrika杂志(生物统计)上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。Gosset25N(,2)n nn26t分布试验:从
8、前述的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。二、t分布的图形与特征27(a)n=3 (b)n=50图图4 不同样本含量不同样本含量t值的频数分布值的频数分布28 f(t)=(标准正态曲线)=5=10.10.2-4-3-2-1012340.3图5 自由度分别为1、5、时的t分布 29t分布的特征单峰分布,曲线以0为中心,左右对称类似于标准正态分布。t分布的形状与自由度有关n自由度越小,自由度越小,则则 越大,越大,曲线越曲线越“扁平扁平”;n自由度越大,自由度越
9、大,则则 越小,越小,曲线越曲线越“瘦高瘦高”;n当当自自由由度度为为无无穷穷大大时时,t分分布布曲曲线线与与标标准准正正态态分分布布曲线完全吻合,曲线完全吻合,故标准正态分布是故标准正态分布是t分布分布的特例。的特例。30-tt031单侧:P(t t,)=P(t t,)=t,v32-t/2,vt/2,v双侧:P(t-t/2,)+P(tt/2,)=P(-t,t t,)=1-33-t/2,vt/2,v在相同自由度时,t值越大,概率P越小;相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16=t0.05,16=1.746。34t界值释义双侧t0.05/2,92.262 表明:从正态分布
10、总体中抽取样本含量n=10的样本,则由该样本计算的t值大于等于2.262的概率为0.025,小于等于-2.262的概率亦为0.025。P(t-2.262)+P(t2.262)0.05 或:P(-2.262t2.262)=1-0.05=0.95。35样本指标 总体指标 参数估计第三节、总体参数的置信区间36一、参数估计的基础理论n点估计(Point Estimation)n区间估计(Interval Estimation)37参数估计之一:点估计样本统计量 总体参数用样本均数 作为总体均数 的点估计值38 例例6-3 2000年某研究所随机调查某地健康成年男年某研究所随机调查某地健康成年男子子2
11、7人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L,标准差为标准差为15g/L。即认为即认为2000年该地所有健康成年男性血红蛋白量的年该地所有健康成年男性血红蛋白量的总体均数总体均数 为为125 g/L。点估计39点估计的缺陷=?cm =?cm x1,x2,x3,x4 N =143.3747 S=5.2347x1,x2,x3x10 =144.0681 S=4.7245 x1,x2,x3x10 =142.7203 S=9.2473 x1,x2,x3x10样本含量样本含量n=1040 置信区间置信区间(confidence interval,CI)按按(1-)的概率或置信度,估计总体
12、参数所在的概率或置信度,估计总体参数所在范围,称作置信度为范围,称作置信度为(1-)的置信区间。的置信区间。参数估计之二:区间估计41对“区间”的要求“区间区间”包含总体均数的可能性包含总体均数的可能性(概率)(概率)比比较大较大考虑到考虑到抽样误差(标准误)抽样误差(标准误)的影响的影响 置信度置信度 一般取一般取0.05或或0.0144正确理解置信区间 置信区间通常由两个置信限(confidence limit)构成,其中较小者称为下限,记为CL,较大者称为上限,记为CU。严格地讲,置信区间并不包括上置信限和下置信限两个值,即置信区间是一开区间。(CL,CU)45二、总体均数的置信区间(一
13、)总体均数的置信区间的计算461、t分布法未知且样本例数n较小时,按t分布原理-ta/2,vta/2,va/2a/247单侧置信区间48例6-3 已知某地27名健康成年男子的血红蛋白量均数=125 g/L,标准差S=15 g/L。试问该市地健康成年男子血红蛋白平均含量的95%置信区间和99%置信区间各是多少?计算自由度:v=27-1=26查t 界值表 :=0.05时,双侧 t0.05/2,26=2.056,=0.01时,双侧 t0.01/2,26=2.779;按公式计算:49表5.3 某市2008年20名19岁女生身高cm154.18 164.09 158.51 148.51 164.23 1
14、67.03 159.42 156.22 161.14 170.47159.68 159.08 159.06 159.74 163.96 163.33 150.74 165.88 165.23 160.08求其总体均数的求其总体均数的95%置信区间。置信区间。例例 =160.53(cm),S=5.37(cm),95%置信区间置信区间 502、正态分布法(1)已知,按标准正态分布原理计算-za/2za/2a/2a/251单侧置信区间522、正态分布法(2)未知但样本例数n足够大(n50)时 由t分布可知,自由度越大,t分布越逼近标准正态分布,按标准正态分布原理计算53单侧置信区间54例6-4 某市
15、2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2 cm,标准差为4.5 cm,试估计该市2000年19岁健康男大学生平均身高的95%置信区间。552.两总体均数之差的两总体均数之差的1置信区间置信区间 双侧双侧单侧单侧56表5.7 实验前两组小鼠的肉芽肿重组别肉芽肿重(mg)treatment 110.0 165.2 137.4 129.8 163.0 153.5 187.086.1 202.3 148.6control 144.1 94.7 151.4 178.3 189.2 122.3 103.1 155.6 204.3 165.5 160.2双侧双侧57总体均数的置
16、信区间总结估计方法:t分布方法:未知且样本例数n较小正态分布近似方法:已知 未知但样本例数n足够大(n50)58 95置信区间置信区间 99置信区间置信区间 公式公式 区间范围区间范围 窄窄 宽宽 估计错误的概率估计错误的概率 大(大(0.05)小(小(0.01)9595置信区间:从总体中作随机抽样,作置信区间:从总体中作随机抽样,作100100次抽样,每个样本可算得一个置信区间,次抽样,每个样本可算得一个置信区间,得得100100个置信区间,平均有个置信区间,平均有9595个置信区间包个置信区间包括括(估计正确估计正确),只有,只有5 5个置信区间不包括个置信区间不包括(估计错误估计错误)。
17、59正确理解置信区间置信度为95%的CI的涵义:平均来说每100个样本所算得的100个置信区间有95个包含总体参数,有5个未包含总体参数。做一次抽样,“该置信区间包含总体参数”这句话未必正确,置信的程度为95%。-2 -1 0 1 260置信区间的两个要素置信度(1-),可靠性n一般取90%,95%。n可人为控制。精确性n是指区间的大小(或长短)兼顾可靠性、精确性65表II 总体均数置信区间与参考值范围的区别u置信区间用于估计总体参数,总体参数只置信区间用于估计总体参数,总体参数只 有一个有一个。u参考值范围用于估计个体值的分布范围,参考值范围用于估计个体值的分布范围,个体值有很多个体值有很多。u95%置信区间中的置信区间中的95%是可信度,即所求置是可信度,即所求置信区间包含总体参数的可信程度为信区间包含总体参数的可信程度为95%。u95%参考值范围中的参考值范围中的95%是一个比例,即是一个比例,即 所求参考值范围包含了所求参考值范围包含了95%的正常人。的正常人。66Homework简述标准差和标准误的区别和联系简述参考值范围与均数的置信区间的区别.6768
限制150内