《华北理工卫生统计学教案05参数估计基础.docx》由会员分享,可在线阅读,更多相关《华北理工卫生统计学教案05参数估计基础.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4周,第8讲次课程名称:卫生统计学A摘 要授课题目(章、节)第五章参数估计基础 第一节抽样分布与抽样误差 第二节t分布【目的要求】掌握:抽样误差的含义;熟悉:抽样研究、抽样误差、统计推断、标准误、参数 估计、t分布的概念、图形和特征;了解:均数与率的抽样分布、中心极限定理;【重点】均数与率的抽样误差及参数的区间估计。【难点】均数与率的抽样分布,t分布。【本讲课程的引入】在前面的章节中我们主要介绍了统计描述的内容,而统计分析 除了统计描述之外,还包括统计推断。统计推断是指由样本的信息推断相应总体特 征的过程,包括参数估计和假设检验。由于医学研究中多数是抽样研究,因此统计 推断更有实际价值。当我
2、们不能了解总体的情况时,只能依赖于样本,以样本为基 础进行总体特征的推断。虽然“一叶知秋”是统计推断的睿智,但“盲人摸象”的 谬误亦不鲜见,因此统计推断中我们关心的不是样本本身,而是随机化的实现、样 本的代表性和统计推断技术。本章将从参数估计的统计原理展开,介绍样本统计量 的分布规律,以及总体均数和总体率的估计方法。【本讲课程的内容】第一节抽样分布与抽样误差讲授抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计 推断。统计推断包括:参数估计和假设检验在用样本信息来推断相应总体特征的过程中总是存在误差-抽样误差。抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量
3、及 样本统计量与总体参数之间的差异称为抽样误差(sampling error)。无倾向性,不可避免。一、样本均数的抽样误差与抽样分布(一)均数的抽样误差:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总 体均数之间的差异称为均数的抽样误差。(二)均数的抽样分布从总体中随机抽取若干样本,计算出样本均数(标准差),这些样本均数的分 布即为均数的抽样分布。是抽样分布的一种。均数的抽样分布有一定的规律。抽样实验:假定从13岁女学生身高总体均数4 = 155.4(cm),总体标准差举你b = 5.3(cw)的正态总体中进行随机抽样。结果将一p85:表 5 1p87:表5-2午1/J表5
4、-2 从正鑫,小正7V( 155. 4 ,5.至秤彳寻荽的 1OO 个样本均数的函数分布(% =30)维段下限曲CE)频绞相率/152. 6 、11 . O153. 2 44. O1 53. 8 44. O1 54. 4 2222. O155. O .,2525. O1 55. 6 2121. OW 2 1717. O156 8 33. O1 57. 4 :22. O158- O 11. O介j十1OO1OO.。由表5-2可见样本均数的分布特点:1.各样本均数未必等于总体均数;2.样本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。对
5、于非正态总体:图5-1x MIDPOINT原始数据回冰乂口姒而nun MIDPOINT(c) n=10mm MIDPOINT(b) n=5C u-iu0 I 234567890 II234i6789b)i3456890 123B68900 1 2345678901 2345678901234567890 12 34567890 1234567890mm MIDPOINTmm MIDPOINT(d) n=30(e) n=50图54从正偏峰总体抽样,样本均数的分布(a)为正偏峰总体,(b) (e)为不同样本含量时样本均数的直方图中心极限定理:1)从正态总体N(r ,。2)中,随机抽取例数为n的多个
6、样本,样本均数服从正态分 布;即使是从偏态总体中随机抽样,当n足够大时(如n50),样本均数也近似正态分 布。2)该正态分布(样本均数作为变量值)的总体均数(样本均数的总体均数)仍为H , 标准差(样本均数的标准差)称均数的标准误为。工。样本均数的标准差称均数的标准误,简称标准误。常用来表示均数抽样误差的大小。c% = b/4n标准误的理论值。未知,用样本标准差s来估计总体标准差。:% =s/4n标准误的估计值一般,用上来表示均数抽样误差的大小。标准误的大小与。(S)的大小成正比,与n成反比,而。(s)为定值,说明可以通过增 加样本例数来减少标准误,以降低抽样误差。综上所述:1、样本均数与总体
7、均数之间存在抽样误差,可以用均数的标准误表示。2、样本均数的分布为正态分布,并通过标准正态变换可以将其转换为标准正态分布:=z =N(0,l) 较大时a a-s-vV入二、样本频率的抽样误差与抽样分布讲授(一)样本频率的抽样误差从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率 之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。Op一一频率的标准差,又称频率的标准误。Op =1)标准误的理论值% = 产7)-标准误的估计值常用率的标准误表示频率的抽样误差的大小。(二)频率的抽样分布从总体中随机抽取若干样本,计算出样本频率,这些频率的分布即为频率的抽 样分布。也是抽
8、样分布的一种。频率的抽样分布也有一定的规律。从总体率为20%的总体中作n=50的抽样,样本率的分布情况:p90-表5-3频率的抽样分布:1.样本频率服从正态分布:N n ,n (1- Ji ) 25时,pNgb?) p2.样本频率服从二项分布:n不太大,n不接近0也不接近1时,p3,样本频率服从泊松分布:n较大,兀接近0或接近1时,X尸(X)第二节t分布一、t分布的概念VX - u=上服从V 5-1的t分布二、t分布的图形与特征灭(一)t 分布图形:P92-图 5-3、5-4图5-3 不同自由度下的t分布图讲授(-)t分布的特征1、t分布曲线是单峰分布,它以0为中心,左右对称。2、t分布的形状
9、与自由度v有关。自由度越小,则与.越大,t值越分散,曲 线的峰部越矮,尾部翘的越高。t分布不是一条曲线,而是一簇曲线。3、当nf8时,S逼近。,t分布逼近标准正态分布.(三)t界值表.横标目:自由度v讲授、举纵标目:概率p (曲线下面积),一侧尾部面积称为单侧概率,两侧尾部面积 例 之和称为双侧概率。表中数字:自由度为v , P为概率。时,所对应的t界值,记为tay插图:阴影部分表示L,以外尾部面积占总面积的百分数,即概率P。t分布是以0为中心的对称分布,表中只列出正值。查表时,不管t值正负,只用绝对值。t禽大,P越小. &,僮tP单*P物时得【本讲课程的小结】【本讲课程的作业】1,什么是均数
10、的抽样误差?如何控制其大小?2 .什么是率的抽样误差?3 ,参数估计的方法有哪些?课程名称:卫生统计学A第6周,第 9 讲次摘要授课题目(章、节)第五章参数估计基础第三节总体均数及总体概率的估计【目的要求】掌握:总体均数及总体概率的区间估计。熟悉:参数估计的方法。了解总体均数的置信区间与参考值范围的区别与联系【重点】总体均数及总体概率的区间估计【难 点】参数区间估计的方法内容【本讲课程的引入】上一次课我们介绍了参数估计的相关基础知识,这些内容是为 了给参数估计奠定一定的基础,而这些理论是进行参数估计的前提,在此基础上, 这次课我们将了解到总体参数包括总体均数及其总体率的估计方法。【本讲课程的内
11、容】第三节总体均数及总体概率的估计一.参数估计的概念统计推断包括参数估计和假设检验。参数估计:用样本指标(统计量,Statistic)来估计总体指标(参数,Parameter)o包括: 点估计-Point estimation区 间估计-Interval estimation(一)点估计:用样本统计量直接作为总体参数的估计值。例如:2011年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L, 试估计其总体均数。即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L o用p估计兀,用s估计。等(二)区间估计:按预先给定的概率(1a)估计总体参数的可能范围,该范 围称为
12、总体参数1一 a的置信区间(confidence intervalCI) o预先给定的概率(1a)称为置信度,常取95%或99%。如无特别说明,一般取 双侧95%。置信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。 严格讲,置信区间不包括上下限两个端点值。讲授举例二、总体均数及总体概率的区间估计(一)总体均数的区间估计W讲授根据。是否已知,以及n的大小,可分别用t分布和u分布计算。正态分布原理:X + 7 rr Y + 7 SA Za/2CTX A Za/2dXt分布原理:X ta/2,v$*L。未知且样本例数n较小时,按t分布原理通式: X + t v-A - La/2yS
13、Xt a/2, v是按自由度v=n-1,由附表2查得的t值。95%的双侧置信区间:(X-t0.05/2(a又,X + to.o5/2(v)Sx)99%的双侧置信区间:(Y - t q_ X 4-f S-19。0.01/2(1/产/人十o.O1/2MQJ例5-2已知某地27例健康成年男性血红蛋白量的均数为125g/L,标准差S=15g/L ,举例 试问该地健康成年男性血红蛋白量的总体均数95%和99%置信区间。+本例n=27, S=15 ,。未知且样本例数n较小,按t分布原理估计95%的 CI:京土片05/2(26)= 125 土 2.056 x 2.38V27(119 .06,130.94)9
14、9% 的 CI:刀土分)= 125 土 2.779 x 2.38(116.98,133 .02)2. o已知时 通式:z a /2为标准正态变量,Z a /2相当于按v=8时及p取a ,由附表2查的的 t界值。95%的双侧置信区间:(X Z0.05/2crx,X + r005/2cr- 99%的双侧置信区间:(X - Zo.oi/2crx X + 0.01/2。斤讲授讲授举例3.。未知但样本例数n足够大(n50)时 通式:(又士七”斤)z a /2为标准正态变量,Z a /2相当于按v=8时及p取a ,由附表2查的的 t界值。99%的双侧置信区间:(G Zo0/2,G95%的双侧置信区间:(X
15、-Zoo5/2Sq,X +,0.05/2$)+,0.01/2田)例5-3某市2000年随机测量了 90名19岁健康男大学生的身高,其均数为 172. 2cm,标准差为4. 5cm,试估计该地19岁健康男大学生的身高总体均数的95% 置信区间。Zo.05/2 = L96X1.96Sr AX1.96Sr A= (171.3,173.1)4 5 =172.21.96、=V90该市19岁健康男大学生的身高的95%置信区间(171. 3,173. l)cmo(-)总体概率的区间估计总体概率的区间估计方法与样本含量n,阳性频率p的大小有关,可根据n和P的大小选择以下两种方法:讲授1 .查表法(1)按二项分
16、布原理P接近0或1, n较小时,以n及发生数x查附表6.1-6. 3。p96:例 5-4 例 5-5例5-4某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人, 试估计该手术合并症发生概率的95%置信区间。查表得:该手术合并症发生概率的95%置信区间:1%17%注意:此表仅列出XWn/2的95%置信区间。例5-5某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,举例 试求该药物治疗脑血管梗塞有效概率的95%置信区间。该药物治疗脑血管梗塞有效概率的95%置信区间:62%-92%(2)按泊松分布原理P接近0, n较大时,以发生数x查附表7。例:某地抽取1万人,调查得乳腺癌
17、死亡人数为3人,估计该地乳腺癌死亡率 95%的置信区间。以x=3查附表7得:(0. 6-8. 8) /万P(l-P)讲授举例强调2 .正态近似法当样本含量足够大,且p和1-p不太小即np和n(l-p)均25时,则样本率 的分布近似正态分布。公式为:n y or -乙a/2DpP为样本率,Sp为率的标准误的估计值。例5-6用某种仪器检查已确诊的乳腺癌患者94例,检出率为78. 3虬 估计该 仪器乳腺癌总体检出率的95%置信区间。分析:本例样本例数较大,且样本率p不太小,可用正态近似法:P Z。/2sp = P Z0.05/2=0.7831.96、但业回V 120=(0.709,0.857)(三)置信区间的意义.从总体中进行随机抽样,由样本均数计算置信区间,有1-a的可能得到包含 总体均数的置信区间。注意:总体均数的置信区间与参考值范围的区别与联系(四)置信区间的两个要素,1、准确度:反映置信度a的大小,即区间包含总体均数的概率大小。2、精度:反映区间的长度。.增加样本例数,会减小ta,v和、亍,可减少区间长度,提高精度。 【本讲课程的小结】【本讲课程的作业】L什么叫参数估计?2 .参数估计的方法有哪些?3 .总体均数区间估计的原理和方法有哪些?4、置信区间的要素是什么/5、参考值范围和置信区间的区别?
限制150内