《均数的抽样误差和总体均数估计临本讲稿.ppt》由会员分享,可在线阅读,更多相关《均数的抽样误差和总体均数估计临本讲稿.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于均数的抽样误差关于均数的抽样误差和总体均数估计临本和总体均数估计临本第一页,讲稿共六十二页哦1.参数估计参数估计 包括:点估计与区间估计包括:点估计与区间估计2.假设检验假设检验统计推断的两部分内容:统计推断的两部分内容:统计推断:用样本信息推论总体的特征。统计推断:用样本信息推论总体的特征。第二页,讲稿共六十二页哦总体总体样本样本随机抽取部分观察单位随机抽取部分观察单位?推断推断inferenceinference参数估计参数估计第三页,讲稿共六十二页哦一、均数的抽样误差与标准误一、均数的抽样误差与标准误第四页,讲稿共六十二页哦2009年某市年某市18岁男生身高岁男生身高N(167.7,
2、5.32)的抽样示意图的抽样示意图 第五页,讲稿共六十二页哦将将此此100个个样样本本均均数数看看成成新新变变量量值值,则则这这100个个样样本本均数构成均数构成一新分布一新分布,绘制频数图,绘制频数图从正态分布总体从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布随机抽样所得样本均数分布第六页,讲稿共六十二页哦 ,各样本均数各样本均数 未必等于总体均数;未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样样本本均均数数的的分分布布为为中中间间多多,两两边边少少,左左右右基基本本对对称。称。样样本本均均数数的的变变异异范范围围较较之之原原变变量量的的变变异异范范围围大
3、大大大缩小。缩小。可可算算得得这这100个个样样本本均均数数的的均均数数为为167.69cm、标标准准差差为为1.69cm。样本均数分布具有如下样本均数分布具有如下特点:特点:第七页,讲稿共六十二页哦8从正态分布总体从正态分布总体 中以固定中以固定 n 抽样时,样本均数抽样时,样本均数 的分布的分布仍服从正态分布仍服从正态分布 。当样本含量当样本含量 n 足够大时,即使从偏态分布总体中以固定足够大时,即使从偏态分布总体中以固定 n 抽样,抽样,其样本均数的分布也近似服从正态分布。其样本均数的分布也近似服从正态分布。理论上可以证明,理论上可以证明,第八页,讲稿共六十二页哦抽样误差:抽样误差:由个
4、体变异产生的、抽样造成的样本统计由个体变异产生的、抽样造成的样本统计量与总体参数的差别量与总体参数的差别 原因:原因:1 1)抽样)抽样 2 2)个体差异)个体差异第九页,讲稿共六十二页哦由于由于变异变异的存在,的存在,抽样研究抽样研究所造成的样本所造成的样本均数与总体均数的差异,以及各样本均数均数与总体均数的差异,以及各样本均数间的差异称为间的差异称为均数的抽样误差均数的抽样误差。抽样误差在抽样研究中是不可避免的,但抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽只要严格遵循随机化抽样的原则,就能估计抽样误差的大小样的原则,就能估计抽样误差的大小。1.均数的抽样误差的概念均数的抽样误
5、差的概念第十页,讲稿共六十二页哦表表示示样样本本统统计计量量抽抽样样误误差差大大小小的的统统计计指指标。标。标标准准误误:说说明明抽抽样样误误差差的的大大小小,总总体体计算公式计算公式2、标准误、标准误(standard error,SE)实质:样本均数的标准差实质:样本均数的标准差第十一页,讲稿共六十二页哦若用样本标准差若用样本标准差s 来估计来估计 ,(7-28)n当样本例数当样本例数n一定时,标准误与标准差呈正比一定时,标准误与标准差呈正比n当标准差一定时,标准误与样本含量当标准差一定时,标准误与样本含量n的平方根呈的平方根呈反比。反比。通过增加样本含量通过增加样本含量n来降低抽样误差。
6、来降低抽样误差。第十二页,讲稿共六十二页哦抽抽样样调调查查150名名3岁岁女女孩孩的的身身高高均均数数为为92.79cm,标标准准差差为为4.61cm,则则其其标标准准误误是是多多少少?例子例子:第十三页,讲稿共六十二页哦1 1、反映样本均数的可靠性;、反映样本均数的可靠性;2 2、估计总体均数的置信区间;、估计总体均数的置信区间;3 3、用于均数的假设检验。、用于均数的假设检验。标准误的应用:标准误的应用:第十四页,讲稿共六十二页哦指标意义应用标准差(s)衡量变量值变异程度,s越大表示变量值变异程度越大,s越小表示变量值变异程度越小描述正态分布(近似正态分布)资料的频数分布;医学参考值范围的
7、估计标准误()样本均数的变异程度,表示抽样误差的大小。标准误越大表示抽样误差越大,样本均数的可靠性越小;标准误越小表示抽样误差越小,样本均数的可靠性越大总体均数区间估计;两个或多个总体均数间比较的假设检验标准差和标准误的区别标准差和标准误的区别第十五页,讲稿共六十二页哦第十六页,讲稿共六十二页哦二、二、t 分布分布(一)(一)t分布概念分布概念 第十七页,讲稿共六十二页哦随机变量随机变量X XN N(,2 2)标准正态分布标准正态分布N N(0 0,1 12 2)z变换第十八页,讲稿共六十二页哦第十九页,讲稿共六十二页哦 式中式中 为自由度为自由度(degree of freedom,df)3
8、实际工作中,由于实际工作中,由于 未知,用未知,用 代替,则代替,则 不再服从标准正态分布,而服从不再服从标准正态分布,而服从t t 分布。分布。第二十页,讲稿共六十二页哦均数均数标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度:自由度:n n-1-1第二十一页,讲稿共六十二页哦0t 分布分布一簇曲线一簇曲线一簇曲线一簇曲线0N(0,1)n n足够大时,足够大时,足够大时,足够大时,(1)(1)(2)(2)(3)(3)以固定以固定 n 随机抽样随机抽样英国统计学家英国统计学家GossetGosset第二十二页,讲稿共六十二页哦(二)(二
9、)t 分布的图形与特征分布的图形与特征 分布只有一个参数,即自由度第二十三页,讲稿共六十二页哦图图 不同自由度下的不同自由度下的t 分布图分布图第二十四页,讲稿共六十二页哦t 分布与标准正态分布分布与标准正态分布第二十五页,讲稿共六十二页哦第二十六页,讲稿共六十二页哦1特征:特征:第二十七页,讲稿共六十二页哦2、t界值表:界值表:详见详见P312,可反映,可反映t分布曲线下的面积。分布曲线下的面积。单侧概率或单尾概率:用单侧概率或单尾概率:用 表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用 表示。表示。第二十八页,讲稿共六十二页哦-tt0第二十九页,讲稿共六十二页哦 由由t t界值表
10、可知:界值表可知:相同自由度时,相同自由度时,t t越大,概率越大,概率P P越越 小。小。相同相同t t值时,双侧概率是单侧概率的两倍。值时,双侧概率是单侧概率的两倍。=时,时,t t 分布即为分布即为Z Z分布,故分布,故t t界值表中最后界值表中最后一行是一行是Z Z界值。界值。第三十页,讲稿共六十二页哦t分布的分位数分布的分位数(双侧双侧t界值界值)/2/21-t/2,-t/2,第三十一页,讲稿共六十二页哦 1-t,t分布的分位数分布的分位数(单侧单侧t界值界值)第三十二页,讲稿共六十二页哦举例:举例:第三十三页,讲稿共六十二页哦三、总体均数的置信区间估计三、总体均数的置信区间估计用样
11、本统计量推断总体参数。用样本统计量推断总体参数。总体均数估计:总体均数估计:用样本均数推断总体均数。用样本均数推断总体均数。第三十四页,讲稿共六十二页哦1.点估计点估计(point estimation):n用相应样本统计量直接作为其总体参数的估计用相应样本统计量直接作为其总体参数的估计值。如用值。如用 估计估计、s估计估计 等。其方法虽简单,等。其方法虽简单,但未考虑抽样误差的大小。但未考虑抽样误差的大小。第三十五页,讲稿共六十二页哦 按按预预先先给给定定的的概概率率(1 )所所确确定定的的包包含含未未知知总总体体参数的一个范围。参数的一个范围。总总体体均均数数的的区区间间估估计计:按按预预
12、先先给给定定的的概概率率(1 )所所确定的包含未知总体均数的一个范围。确定的包含未知总体均数的一个范围。n 如如给给定定=0.05,该该范范围围称称为为参参数数的的95%可可信信区区间间或或置置信区间;信区间;n 如如给给定定=0.01,该该范范围围称称为为参参数数的的99%可可信信区区间间或或置信区间。置信区间。2区间估计区间估计(interval estimation):第三十六页,讲稿共六十二页哦计算总体均数可信区间计算总体均数可信区间n需考虑:需考虑:(1)总体标准差)总体标准差 是否已知,是否已知,(2)样本含量)样本含量n的大小的大小n通常有两类方法:通常有两类方法:(1)t分布法
13、分布法 (2)z分布法分布法第三十七页,讲稿共六十二页哦n1.1.当当 未知且未知且n 较小时较小时,由于,由于 服从服从 t分布,分布,可按可按 t 分布原分布原理理估计总体均数的可信区间。估计总体均数的可信区间。由于由于 即即 故总体均数(故总体均数(1-1-)100%100%的可信区间为的可信区间为第三十八页,讲稿共六十二页哦n2、当当 未知但未知但n足够大时足够大时(n 100),),t分布近似分布近似u分布,分布,可以可以 u 界界值代替值代替 t 界值,估计总体均数的可信区间。界值,估计总体均数的可信区间。n3、当当 已知时,可按正态分布已知时,可按正态分布的原理,估计总体均数的可
14、信区间。的原理,估计总体均数的可信区间。第三十九页,讲稿共六十二页哦例例 某地抽取正常成年人某地抽取正常成年人200名,名,测得其血清胆固醇的均数得其血清胆固醇的均数为3.64 mmol/L,标准差准差为1.20mmol/L,估,估计该地正常成年人血清胆固地正常成年人血清胆固醇均数的醇均数的95%可信区可信区间。故故该该地地正正常常成成年年人人血血清清胆胆固固醇醇均均数数的的95%可可信信区区间间为为(3.47,3.81)mmol L。第四十页,讲稿共六十二页哦41四、置信区间的确切涵义四、置信区间的确切涵义第四十一页,讲稿共六十二页哦42 1.95%的可信区间的理解:的可信区间的理解:(1)
15、我们所估计的可信区间有)我们所估计的可信区间有95%的可能包含所要估计的总体参的可能包含所要估计的总体参数。数。(2)从正态总体中随机抽取)从正态总体中随机抽取100个样本,可算得个样本,可算得100个样本均数和标准个样本均数和标准差,也可算得差,也可算得100个均数的可信区间,平均约有个均数的可信区间,平均约有95个可信区间包含个可信区间包含了总体均数了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数就认为该区间包含了总体均数。第四十二页,讲稿共六十二页哦43 2.可信区间的两个要素可信区间
16、的两个要素(1)准确度:准确度:用可信度(用可信度(1 )表示:表示:即区间包含总体均数即区间包含总体均数 的理论概率大小的理论概率大小。当然它愈接近当然它愈接近1愈好,如愈好,如99%的可信区间比的可信区间比95%的可信区间的可信区间要好要好。(2)精确度:精确度:反映在区间的宽度上。反映在区间的宽度上。区间愈窄愈好,如区间愈窄愈好,如95%的可信区间比的可信区间比99%的可信区间要好的可信区间要好。第四十三页,讲稿共六十二页哦44 n当当n确定时,上述两者互相矛盾。确定时,上述两者互相矛盾。n提高准确度(可信度),则精确度降低(可信区间会变提高准确度(可信度),则精确度降低(可信区间会变宽
17、),势必降低可信区间的实际应用价值,故不能笼统宽),势必降低可信区间的实际应用价值,故不能笼统认为认为99%可信区间比可信区间比95%可信区间要好。可信区间要好。n相反,在实际应用中,相反,在实际应用中,95%可信区间更为常用。可信区间更为常用。n在可信度确定的情况下,增加样本含量可减小区间宽度,提在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。高精确度。第四十四页,讲稿共六十二页哦第四十五页,讲稿共六十二页哦一、一、假假设检验的基本原理的基本原理第四第四节 t t检验第四十六页,讲稿共六十二页哦 假设检验的基本原理假设检验的基本原理n反证法:反证法:当一件事情的发生只有两种可能
18、当一件事情的发生只有两种可能A A和和B B,为了肯定一种情况,为了肯定一种情况A A,但又不能直接证实,但又不能直接证实A A,这时否定另一种可能,这时否定另一种可能B B,则间接肯定,则间接肯定了了A A。n概率论(小概率):概率论(小概率):如果一件事情发生的概率很小,那么在一次试验时,如果一件事情发生的概率很小,那么在一次试验时,我们说这个事件是我们说这个事件是”不会发生的不会发生的”。从一般的常识可知,这句。从一般的常识可知,这句话在大多数情况下是正确的,但有犯错误的时候,因为概率小也是话在大多数情况下是正确的,但有犯错误的时候,因为概率小也是有可能发生的。有可能发生的。第四十七页,
19、讲稿共六十二页哦 假设检验的基本原理假设检验的基本原理假设检验是利用小概率反证法思想,从问题的对立面假设检验是利用小概率反证法思想,从问题的对立面(H H0 0)出出发间接判断要解决的问题发间接判断要解决的问题(H H1 1)是否成立。然后在是否成立。然后在H H0 0成立的成立的条件下计算检验统计量,最后获得条件下计算检验统计量,最后获得P P值来判断。值来判断。问题实质上都是希望通过样本统计量与总体参数的差别,或两问题实质上都是希望通过样本统计量与总体参数的差别,或两个样本统计量的差别,来推断总体参数是否不同。这种识别的个样本统计量的差别,来推断总体参数是否不同。这种识别的过程,就是本章介
20、绍的假设检验过程,就是本章介绍的假设检验(hypothesis test)hypothesis test)。第四十八页,讲稿共六十二页哦 例例 15.13 15.13 根据大量调查,已知一般健康根据大量调查,已知一般健康成年男子的脉搏均数为成年男子的脉搏均数为7272次次/min/min。某医生。某医生在某山区随机抽查在某山区随机抽查100100名健康成年男子,求名健康成年男子,求得其脉搏均数为得其脉搏均数为76.276.2次次/min/min,标准差为,标准差为4.04.0次次/min,/min,能否认为该山区的健康成年男子脉能否认为该山区的健康成年男子脉搏均数高于一般健康成年男子的脉搏均数
21、搏均数高于一般健康成年男子的脉搏均数?第四十九页,讲稿共六十二页哦 0 0=7272次次/min/min 山区健康山区健康成年男子成年男子 一般健康一般健康成年男子成年男子第五十页,讲稿共六十二页哦假设检验的基本思想假设检验的基本思想 据专业知识,有两种可能:据专业知识,有两种可能:0 0或或 0 0 直接证明是哪种结果都很困难,利用反证法。直接证明是哪种结果都很困难,利用反证法。假设假设 0 0,然后借助一定的分布,观察实测,然后借助一定的分布,观察实测 样本情况是否属于小概率事件。样本情况是否属于小概率事件。如果如果实测样本情况属于小概率事件,则认为原先的假设实测样本情况属于小概率事件,则
22、认为原先的假设是错的,拒绝这个假设;是错的,拒绝这个假设;如果如果实测样本情况不属于小概率事件,则不拒绝原来的假实测样本情况不属于小概率事件,则不拒绝原来的假设。设。第五十一页,讲稿共六十二页哦假设检验的一般步骤假设检验的一般步骤(一)建立检验假设(一)建立检验假设(hypothesis under test),),确定检验水准确定检验水准无效假设或零假设(无效假设或零假设(null hypothesis)H0:0 假定假定总体参数相同体参数相同备择假假设或或对立假立假设(alternative hypothesis)H1:0或或 0(0)假定总体参数不相同,即差别不是由于抽样误差所致。假定总
23、体参数不相同,即差别不是由于抽样误差所致。第五十二页,讲稿共六十二页哦注意:注意:假假设针对的是的是总体;体;H0和和 H1是互斥的;是互斥的;单侧、双侧的选择。单侧、双侧的选择。第五十三页,讲稿共六十二页哦 样本均数所代表的未知总体均数样本均数所代表的未知总体均数 与与 已知总体均数已知总体均数 0 0的比较的比较目的目的 双侧检验是否双侧检验是否 单侧检验是否单侧检验是否 是否是否 第五十四页,讲稿共六十二页哦检验水准检验水准(size of test)size of test)也称显著性水准也称显著性水准(significance level)significance level),符号
24、为符号为,常取常取0.050.05或或0.010.01。是小概率事件的概率标准,也是假设检验时发是小概率事件的概率标准,也是假设检验时发生第一类错误的概率。生第一类错误的概率。第五十五页,讲稿共六十二页哦(二二)选定检验方法和计算检验统计量)选定检验方法和计算检验统计量根据资料类型、研究设计的类型及分析目的选用根据资料类型、研究设计的类型及分析目的选用适当的检验方法,计算相应的检验统计量。适当的检验方法,计算相应的检验统计量。具体有具体有t t检验和检验和u u检验。检验。第五十六页,讲稿共六十二页哦(三)确定(三)确定P P值,做出推断结论值,做出推断结论 用计算得的检验统计量与相应界值表中
25、的界用计算得的检验统计量与相应界值表中的界值比较,确定值比较,确定P P值。值。P P值是指在值是指在H H0 0所规定的总体中做随机抽样,获得等所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有统计量的概率。于及大于(或等于及小于)现有统计量的概率。第五十七页,讲稿共六十二页哦第五十八页,讲稿共六十二页哦如果如果PP,则按,则按水准拒绝水准拒绝H H0 0,接受接受H H1 1,称差异有显著性,或差异有统计学意义;称差异有显著性,或差异有统计学意义;如果如果P P,则按,则按水准不能拒绝水准不能拒绝H H0 0,从从而接受它。称差异无显著性或无统计学意而接受它。称差异无显著性或无统计学意义。义。第五十九页,讲稿共六十二页哦假设检验的基本原理与假设检验的基本原理与t t检验检验 假设检验的基本原理假设检验的基本原理3.3.确定确定P P值,作出结论值,作出结论P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量t值的概率。第六十页,讲稿共六十二页哦3.3.确定概率确定概率P P值作出结论值作出结论第六十一页,讲稿共六十二页哦感谢大家观看第六十二页,讲稿共六十二页哦
限制150内