第三章抽样误差与假设检验.ppt
笃学精业修德厚生笃学精业修德厚生1现在学习的是第1页,共34页第三章第三章 抽样误差与假设检验抽样误差与假设检验掌握内容:掌握内容:1t分布的概念和特征分布的概念和特征 2总体均数的区间估计总体均数的区间估计 3假设检验的基本步骤假设检验的基本步骤 4假设检验的基本原理假设检验的基本原理5常用的数值型变量假设检验的方法常用的数值型变量假设检验的方法现在学习的是第2页,共34页熟悉:熟悉:1、抽样误差的概念、抽样误差的概念2、引起抽样误差的原因、引起抽样误差的原因3、均数的标准误的计算、均数的标准误的计算4、标准差和标准误的区别、标准差和标准误的区别 第三章第三章 抽样误差与假设检验抽样误差与假设检验现在学习的是第3页,共34页第一节第一节 抽样分布与抽样误差抽样分布与抽样误差 一抽样研究一抽样研究(一)抽样研究的意义(一)抽样研究的意义样样本本总体总体现在学习的是第4页,共34页(1)由于研究对象很多是无限总体,要直接研究总由于研究对象很多是无限总体,要直接研究总体的情况是不可能的。体的情况是不可能的。(2)即使对有限总体来说,若包含的观察单位数过即使对有限总体来说,若包含的观察单位数过多,需要耗费大量的人力、物力和时间,而且多,需要耗费大量的人力、物力和时间,而且也不易组织,难以保证工作的质量。也不易组织,难以保证工作的质量。(3)有的时候,观察的实质就是一种破坏性实验,根本有的时候,观察的实质就是一种破坏性实验,根本就不允许对总体中的每一个体逐一观察。就不允许对总体中的每一个体逐一观察。为什么要做抽样研究?为什么要做抽样研究?现在学习的是第5页,共34页目前抽样研究的理论与技术已发展成目前抽样研究的理论与技术已发展成熟,只要严格按照有关抽样研究的要求去熟,只要严格按照有关抽样研究的要求去做,这是完全可行的。做,这是完全可行的。目的:就是要用样本信息来推断总体特征,目的:就是要用样本信息来推断总体特征,这就叫统计推断(这就叫统计推断(statistical inference)现在学习的是第6页,共34页(二)抽样研究和抽样误差(二)抽样研究和抽样误差 抽样研究是指从总体中按照随机化的原则,抽样研究是指从总体中按照随机化的原则,抽取一定数量的个体组成样本进行研究,从抽取一定数量的个体组成样本进行研究,从而推断总体的研究方法。而推断总体的研究方法。在抽样研究中产生的样本在抽样研究中产生的样本统计量统计量与相应的总与相应的总体体参数参数间的差异,称为抽样误差(间的差异,称为抽样误差(sampling error),),现在学习的是第7页,共34页 (三)、抽样误差的分布(三)、抽样误差的分布 理理论论上可以上可以证证明:若从正明:若从正态总态总体体 中,反复中,反复多次随机抽取多次随机抽取样样本含量固定本含量固定为为n 的的样样本,那么本,那么这这些些样样本均数本均数 也服从正也服从正态态分布,即分布,即 的的总总体均数仍体均数仍为为 ,样样本均数的本均数的标标准差准差为为 。抽样分布抽样分布 抽样分布示意图抽样分布示意图现在学习的是第8页,共34页 (三)、抽样误差的分布(三)、抽样误差的分布中心极限定理中心极限定理 当当样样本含量很大的情况下,无本含量很大的情况下,无论论原始原始测测量量变变量服从什量服从什么分布,么分布,的抽的抽样样分布分布均均近似正近似正态态。抽样分布抽样分布图图 抽样分布示意图抽样分布示意图现在学习的是第9页,共34页二均数的抽样误差二均数的抽样误差 如上所述,数理统计研究表明,抽样误如上所述,数理统计研究表明,抽样误差具有一定的规律性,可以用特定的指标来差具有一定的规律性,可以用特定的指标来描述。这个指标称为描述。这个指标称为标准误标准误(standard errorSE)。)。标准误除了反映样本统计量之间的离散标准误除了反映样本统计量之间的离散程度外,也反映样本统计量与相应总体参数程度外,也反映样本统计量与相应总体参数之间的差异,即之间的差异,即抽样误差大小抽样误差大小。现在学习的是第10页,共34页意义意义:反映抽样误差的大小。标准误越小,抽:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性样误差越小,用样本均数估计总体均数的可靠性越大。越大。与样本量的关系:与样本量的关系:S 一定,一定,n,标准误,标准误标准误的计算公式:标准误的计算公式:现在学习的是第11页,共34页 例例4.1 在在某某地地随随机机抽抽查查成成年年男男子子140人人,计计算算得得红红细细胞胞均均数数4.771012/L,标标准准差差0.38 1012/L,试计算均数的标准误。,试计算均数的标准误。现在学习的是第12页,共34页均数标准误的用途均数标准误的用途1衡量样本均数的可靠性衡量样本均数的可靠性 由于均数标准由于均数标准误越小,均数的抽样误差越小,样本均误越小,均数的抽样误差越小,样本均数就越可靠,代表性越好。数就越可靠,代表性越好。2估计总体均数的可信区间。估计总体均数的可信区间。3用于均数的假设检验。用于均数的假设检验。现在学习的是第13页,共34页第二节第二节 t 分布分布 一一t 分布分布(t-distribution)(一)(一)Z分布分布 正态分布正态分布(normal distribution)常将一般的正态变量常将一般的正态变量X通过变换通过变换 转化转化成标准正态变量成标准正态变量Z,以使原来各种形态的正态分布都,以使原来各种形态的正态分布都转换为转换为=0,=1的标准正态分布(的标准正态分布(standard normal distribution),亦称亦称Z分布。分布。现在学习的是第14页,共34页在正态分布总体中以固定在正态分布总体中以固定n(如(如n=10)抽取若干个样本时,样本均数的分布仍服从抽取若干个样本时,样本均数的分布仍服从正态分布,即。所以,对样本均正态分布,即。所以,对样本均数的分布进行数的分布进行Z变换变换,也可,也可变换为标准正态分布变换为标准正态分布N(0,1)。现在学习的是第15页,共34页由于在实际工作中,往往由于在实际工作中,往往是未知的,是未知的,常用常用s作为作为的估计值,为了与的估计值,为了与Z变换区别,变换区别,称为称为t 变换变换t=,统计量,统计量t 值的分布称值的分布称为为t 分布。分布。(二)(二)t分布分布 现在学习的是第16页,共34页t分布有如下特征分布有如下特征 1以以0为中心,左右对称的单峰分布;为中心,左右对称的单峰分布;2t分布是一簇曲线,其形态变化与分布是一簇曲线,其形态变化与n(确切地说与自(确切地说与自由度由度)大小有关。自由度)大小有关。自由度越小,越小,t分布曲线越低平;分布曲线越低平;自由度自由度越大,越大,t分布曲线越接近标准正态分布(分布曲线越接近标准正态分布(u分布)分布)曲线,如图曲线,如图4.1。图4.1 自由度为1、5、的t分布 现在学习的是第17页,共34页t分布曲线下的面积与自由度分布曲线下的面积与自由度有有关系。如关系。如t 分布曲线下面积为分布曲线下面积为95%或或99%的界值不是一个常量,而是随着自的界值不是一个常量,而是随着自由度大小而变化的,分别用由度大小而变化的,分别用 和和 表示。表示。t 分布曲线下面积分布曲线下面积现在学习的是第18页,共34页第三节第三节 总体均数的估计总体均数的估计 统计推断包括两个重要的方面:统计推断包括两个重要的方面:参数估计和参数估计和假设检验假设检验。参数估计就是用样本指标(称为统计量,参数估计就是用样本指标(称为统计量,statistic)来估计总体指标(参数,)来估计总体指标(参数,parameter)。参数估计有两种方法:点)。参数估计有两种方法:点估计和区间估计。估计和区间估计。现在学习的是第19页,共34页 第三节第三节 总体均数的估计总体均数的估计 一、可信区间的概念一、可信区间的概念(Confidence Interval(Confidence Interval)区间估计:区间估计:指按预先给定的概率,计算出一个区间,指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取称为可信度,通常取 。参数估计参数估计点估计:不考虑抽样误差,如点估计:不考虑抽样误差,如区间估计:考虑抽样误差区间估计:考虑抽样误差现在学习的是第20页,共34页1已知或已知或未知但未知但n(n50)足足够够大大时时,由,由Z分布可知分布可知:(1)已知:已知:即即写成区间形式:写成区间形式:二、可信区间的计算二、可信区间的计算 现在学习的是第21页,共34页同理,单侧可信区间为:同理,单侧可信区间为:或或(2)未知,但足够大:未知,但足够大:可信区间为:可信区间为:现在学习的是第22页,共34页2未知,且未知,且n(n50)不不够够大大时时,按,按t分布原理得分布原理得到均数的可信区到均数的可信区间为间为:即:即:同理,单侧可信区间为:同理,单侧可信区间为:,现在学习的是第23页,共34页(10.9-2.093*3.86/例例 对某人群随机抽取对某人群随机抽取20人,用某批号的结核菌素人,用某批号的结核菌素作皮试,平均浸润直径为作皮试,平均浸润直径为10.9cm,标准差为,标准差为3.86cm。问这批结核菌素在该人群中使用时,皮。问这批结核菌素在该人群中使用时,皮试的平均浸润直径的试的平均浸润直径的95%可信区间是多少?可信区间是多少?该例该例n=20,n较小,因此,可认为平均浸润直较小,因此,可认为平均浸润直径服从径服从t分布。自由度分布。自由度=20-1=19,查,查t 界值表,界值表,得得=2.093,10.9+2.093*3.86/即即(9.1,12.7)cm。)cm现在学习的是第24页,共34页 图图4-2 4-2 模拟抽样成年男子红细胞数模拟抽样成年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 *三可信区间的注意问题三可信区间的注意问题 1可信区间的涵义可信区间的涵义现在学习的是第25页,共34页准确度:反映在可信度的大小,即区间包准确度:反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近含总体均数的概率的大小,愈接近1愈好。愈好。精密度:反映在区间的长度,长度愈小愈精密度:反映在区间的长度,长度愈小愈好。好。三可信区间的注意问题三可信区间的注意问题2可信区间的两个要素可信区间的两个要素:准确度和精密度。准确度和精密度。现在学习的是第26页,共34页3.均数的可信区间与参考值范围的区别均数的可信区间与参考值范围的区别表表 均数的可信区间与参考值范围的区别均数的可信区间与参考值范围的区别含含 义义计算公式计算公式用用 途途可信区间可信区间按预先给定的概率,按预先给定的概率,确定总体均数的可确定总体均数的可能范围;能范围;总体均数的波动范总体均数的波动范围。围。未知,未知,已知或已知或n很大,很大,总体均数的总体均数的区间估计区间估计参考值参考值 范围范围正常人的解剖、生正常人的解剖、生理、生化某项指标理、生化某项指标的波动范围;个体的波动范围;个体值的波动范围。值的波动范围。正态分布,正态分布,偏态分布偏态分布绝大多数观绝大多数观察对象某项察对象某项指标的分布指标的分布范围范围现在学习的是第27页,共34页第四节、假设检验的基本步骤第四节、假设检验的基本步骤 假设检验假设检验(hypothesis test)是用来判断是用来判断样本样本与样本与样本,样本与总体样本与总体的差异是由的差异是由抽样误差抽样误差引起还是引起还是本质差别本质差别造成的造成的统计推断方法统计推断方法。假设检验亦称差别有无统计学意义检验假设检验亦称差别有无统计学意义检验(significance test)一、假设检验的基本思想一、假设检验的基本思想现在学习的是第28页,共34页例:为研究某山区成年男子的脉搏均数是否高例:为研究某山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数,如某医生在某山于一般成年男子的脉搏均数,如某医生在某山区随机测量了区随机测量了25名健康成年男子的脉搏,平均名健康成年男子的脉搏,平均次数为次数为74.2次分钟,标准差为次分钟,标准差为6.0次分钟,但次分钟,但是根据医学常识,一般男子的平均脉搏次数为是根据医学常识,一般男子的平均脉搏次数为72次分钟,问该山区男子脉搏均数是否高于次分钟,问该山区男子脉搏均数是否高于一般男子的脉搏均数?一般男子的脉搏均数?结果是怎样呢?结果是怎样呢?一、假设检验的基本思想一、假设检验的基本思想现在学习的是第29页,共34页1)由抽样误差所造成;由抽样误差所造成;2)该样本均数确实与正常成年男性脉该样本均数确实与正常成年男性脉搏数不同。搏数不同。两种可能:两种可能:一、假设检验的基本思想一、假设检验的基本思想现在学习的是第30页,共34页先对总体的特征建立假设,然后判断此假设应先对总体的特征建立假设,然后判断此假设应该被拒绝或不被拒绝。该被拒绝或不被拒绝。假设检验的基本思想是小概率假设检验的基本思想是小概率(P0.05)反证法思反证法思想想,是先提出假设是先提出假设(检验假设检验假设H0),再用适当的统计方法,再用适当的统计方法确定假设成立的可能性大小,如可能性小确定假设成立的可能性大小,如可能性小,则认为假设不则认为假设不成立,若可能性大,则还不能认为假设不成立。成立,若可能性大,则还不能认为假设不成立。一、假设检验的基本思想一、假设检验的基本思想现在学习的是第31页,共34页二、假设检验的基本步骤二、假设检验的基本步骤l 零假设、无效假设零假设、无效假设(null hypothesis):假设样本来假设样本来自同一总体,即其总体参数相等自同一总体,即其总体参数相等(H0)。l 备择假设备择假设(H1)(alternative hypothesis):作为拒绝作为拒绝检验假设时的备选假设;检验假设时的备选假设;l 检验水准检验水准(size of test),又称显著性水平,又称显著性水平(significance level)为拒绝检验假设是犯第一类错误的为拒绝检验假设是犯第一类错误的概率,是预先设定的概率值。概率,是预先设定的概率值。1、建立假设,确定检验水准。、建立假设,确定检验水准。现在学习的是第32页,共34页 变量的分布类型不同、研究目的不同,都决变量的分布类型不同、研究目的不同,都决定着选择何种检验方法。因此需选择合适的检定着选择何种检验方法。因此需选择合适的检验方法,并计算统计量。验方法,并计算统计量。二、假设检验的基本步骤二、假设检验的基本步骤2、选择检验方法,并计算统计量、选择检验方法,并计算统计量现在学习的是第33页,共34页 根据计算的统计量,查阅相应的统计表,确根据计算的统计量,查阅相应的统计表,确定定P P 值,以值,以P P 值与检验水准值与检验水准 比较,若比较,若 ,则拒绝,则拒绝 ,接受,接受 ;若;若 ,则不拒绝,则不拒绝 。3.根据统计量确定根据统计量确定P 值,作出统计推断值,作出统计推断二、假设检验的基本步骤二、假设检验的基本步骤现在学习的是第34页,共34页