总体均数估计与假设检验及t检验ppt资料课件.ppt





《总体均数估计与假设检验及t检验ppt资料课件.ppt》由会员分享,可在线阅读,更多相关《总体均数估计与假设检验及t检验ppt资料课件.ppt(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、定量资料的统计推断定量资料的统计推断 在医学科研当中,常常要利用抽样研究的方法,在医学科研当中,常常要利用抽样研究的方法,通过对总体中部分样本的研究来估计总体。这种用通过对总体中部分样本的研究来估计总体。这种用样本的指标来推断总体的方法,统计上叫做样本的指标来推断总体的方法,统计上叫做“统计统计推断推断”,统计推断的方法是我们统计工作中最常用,统计推断的方法是我们统计工作中最常用的方法。的方法。样本样本 samplingsampling 参数估计参数估计 假设检验假设检验 统计推断的内容统计推断的内容 参数估计参数估计 均数的抽样误差和标准误均数的抽样误差和标准误 t t分布分布 总体均数的估
2、计总体均数的估计 既然是抽样研究,那么就一定存在着既然是抽样研究,那么就一定存在着抽样误差(由于个体变异),每次抽到抽样误差(由于个体变异),每次抽到的样本均数之间或者样本均数与总体均的样本均数之间或者样本均数与总体均数之间都不尽相同,总是有差别的。数之间都不尽相同,总是有差别的。 因此,估计抽样误差的大小,就成为统因此,估计抽样误差的大小,就成为统计推断必须要解决的问题。计推断必须要解决的问题。 一、均数的抽样误差和标准误:一、均数的抽样误差和标准误:n假设一个已知总体,从该总体中重复抽取样本假设一个已知总体,从该总体中重复抽取样本量相等(为量相等(为m)的样本)的样本n次,对每个样本计算样
3、次,对每个样本计算样本统计量本统计量(均数、方差等均数、方差等),观察,观察n个样本统计量个样本统计量的分布规律的分布规律抽样分布规律。抽样分布规律。n考察:考察:n不同的分布不同的分布-正态分布、偏态分布正态分布、偏态分布n不同的样本含量不同的样本含量抽样试验抽样试验 由中心极限定理及大数定理得出:由中心极限定理及大数定理得出: 若原变量若原变量X服从正态分布,随机抽取样本服从正态分布,随机抽取样本含量为含量为n的样本均数的样本均数 也服从正态分布。也服从正态分布。 即使从偏态总体中随机抽样,当即使从偏态总体中随机抽样,当n足够大(足够大(n50),样本均数也近似服从正态分布。),样本均数也
4、近似服从正态分布。 这个定理不仅具有理论价值,而且具有很这个定理不仅具有理论价值,而且具有很高的实用价值。因为在实际工作当中,许多医高的实用价值。因为在实际工作当中,许多医学测量结果并不知道它的确切分布,有了这个学测量结果并不知道它的确切分布,有了这个性质,就可以利用正态分布的原理对其特征进性质,就可以利用正态分布的原理对其特征进行统计推断。行统计推断。样本均数的分布:样本均数的分布:X 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每)中,每次随机抽取样本含量次随机抽取样本含量n n5 5,并计算其均数与标,并计算其均数与标准差;重复抽取准差;重复抽取1
5、0001000次,获得次,获得10001000份样本;计份样本;计算算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对10001000份样份样本的均数作直方图。本的均数作直方图。 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含、样本含量量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。抽样试验(抽样试验(n n=5=5)抽样试验(抽样试验(n n=10=10)抽样试验(抽样试验(n n=30=30)3 3个抽样实验结果图示个抽样实验结果图示样本均数的抽样分布特点样本均数的抽样分布特点n各样本均数未必等于总体均数;各样本均数未必等于总体均
6、数;n样本均数之间存在差异;样本均数之间存在差异;n样本均数的分布很有规律,围绕着总体均数,中间样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;多、两边少,左右基本对称,也服从正态分布;n样本均数的变异较原变量的变异大大缩小。样本均数的变异较原变量的变异大大缩小。n随着样本含量的增加,样本均数的变异范围逐渐缩随着样本含量的增加,样本均数的变异范围逐渐缩小。小。 均数的标准误(均数的标准误(standard error of mean):): 样本均数之间的差异,反映了样本均数样本均数之间的差异,反映了样本均数的离散程度,即为抽样误差。这时的样本均的离散程度
7、,即为抽样误差。这时的样本均数的标准差,称为样本均数的标准误,简称数的标准差,称为样本均数的标准误,简称标准误。标准误。标准误的概念标准误的概念 抽样的样本量越大,抽样的样本量越大,标准误标准误就越小;就越小; 原来总体变异度小,原来总体变异度小,标准误标准误就越小。就越小。 标准误反映了样本均数间的离散程度,也反映了样本均标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。数对总体均数的估计的可靠程度就小;反之亦然。ESXSX.标准差与标准误标准差与标准误意义意
8、义:标准差用于描述个体值之间的变异,即观察值间的离散度,:标准差用于描述个体值之间的变异,即观察值间的离散度, 标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。样误差小,则统计量稳定,与参数接近。用途用途:标准差表示观察值间波动的大小,用于医学参考值范围;标:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。准误表示抽样误差的大小,用于参
9、数估计。关系关系:随着样本含量增加,都减小。:随着样本含量增加,都减小。联系联系:都是表示变异度的指标,当样本量一定时,两者成正比。:都是表示变异度的指标,当样本量一定时,两者成正比。标准误用途标准误用途n衡量样本均数的可靠性衡量样本均数的可靠性:标准误越小,表明:标准误越小,表明样本均数越可靠;样本均数越可靠;n参数估计参数估计:估计总体均数的置信区间(区:估计总体均数的置信区间(区域);域);n假设检验假设检验:用于总体均数的假设检验(比:用于总体均数的假设检验(比较)。较)。t-分布分布t-distributiont 分布的概念分布的概念n用样本方差代替总体方差,此时不再服从正态分布。而
10、服从 t 分布。记为: 开创了开创了小样本小样本统计的新纪元,统计的新纪元,t分布主要用于总体均数的分布主要用于总体均数的区间估计和区间估计和t检验!检验!t t分布曲线分布曲线0.00.10.10.20.20.30.30.40.4-4-3-2-101234tf(t)自由度为1的t分布自由度为9的t分布标准正态分布 t t 分布分布有如下性质:有如下性质:单峰分布,曲线在单峰分布,曲线在t t0 0 处最高,并以处最高,并以t t0 0为中心为中心左右对称左右对称与正态分布相比,曲线与正态分布相比,曲线最高处较矮,两最高处较矮,两尾部翘得尾部翘得高高(见绿线)(见绿线) 随自由度增大,曲线逐随
11、自由度增大,曲线逐渐接近正态分布;分布的渐接近正态分布;分布的极限为标准正态分布。极限为标准正态分布。t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t
12、0.050.05, 1.641.64vt,2/vt, 三、总体均数的估计:三、总体均数的估计: 是一种参数估计,是统计推断的一个重要方面。是是一种参数估计,是统计推断的一个重要方面。是指用样本指标(称为统计量)估计总体指标(称为参指用样本指标(称为统计量)估计总体指标(称为参数),这里我们主要介绍总体均数的估计。估计方式有数),这里我们主要介绍总体均数的估计。估计方式有点估计(点估计(point estimation)和区间估计(和区间估计(interval estimation)两种。两种。1点值估计:是用样本统计量直接作为总体参数的点值估计:是用样本统计量直接作为总体参数的估计值,这种方法
13、虽简单,但未考虑抽样误差,一般不估计值,这种方法虽简单,但未考虑抽样误差,一般不用。用。2区间估计:是按一定的概率如区间估计:是按一定的概率如95%估计总体均数估计总体均数所在的范围,即总体均数的可信区间或置信区间,通常所在的范围,即总体均数的可信区间或置信区间,通常用样本均数和均数的标准误来估计。估计方法:用样本均数和均数的标准误来估计。估计方法: 总体均数估计方法总体均数估计方法总体均数的估计:总体均数的估计: 点值估计(点值估计(point estimation):):例,例,120名成名成年男子血清铁含量的均数是年男子血清铁含量的均数是18.57。那么,该总体。那么,该总体范围(这个地
14、区)的成年男子血清铁含量的均数就范围(这个地区)的成年男子血清铁含量的均数就是是18.57。这种方法虽简单,但未考虑抽样误差,。这种方法虽简单,但未考虑抽样误差,一般不用。一般不用。区间估计区间估计(interval estimation)也称置信区间。利用样本信息给出一个区间,也称置信区间。利用样本信息给出一个区间,并同时给出按预先给定的并同时给出按预先给定的概率概率估计该区间包估计该区间包含总体均数的可能范围。含总体均数的可能范围。可信度:给定的概率称为可信度。用可信度:给定的概率称为可信度。用 表表示。通常取示。通常取99%、95%。1t分布方法分布方法应用条件:总体方差未知,样本量小应
15、用条件:总体方差未知,样本量小1)(, 2/, 2/vaXvatSXtP例例 某医师测的某医师测的40名老年性慢性支气管炎病人尿中名老年性慢性支气管炎病人尿中17-酮类固醇酮类固醇排出量均数为排出量均数为15.19umol/d,标准差为,标准差为5.03umol/d,试估计该种,试估计该种病人尿病人尿17-酮类固醇排出量总体均数的酮类固醇排出量总体均数的95%可信区间。可信区间。分析条件:总体方差未知,样本量小分析条件:总体方差未知,样本量小(13.5816.80)正态分布近似法正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知,而应用条件:当总体标准差已知时;或总体标准差未知,而样
16、本量较大时样本量较大时(n50)0-11-1.961.96-2.582.5868.27%95.00%99.00%例例4.3 某市随机抽查某市随机抽查12岁男孩岁男孩100人,得身高均数人,得身高均数139.6cm,标准,标准差差6.85cm。计算该地。计算该地12岁男孩身高均数的岁男孩身高均数的95%的可信区间。的可信区间。0 .1413 .13810085. 696. 16 .13910085. 696. 16 .139,分析条件:总体方差未知,但样本量大,用正态分布法分析条件:总体方差未知,但样本量大,用正态分布法(-0.79,7.21) 可信区间的意义:可信区间的意义:用样本均数估计出一
17、用样本均数估计出一个总体均数的范围,可信的程度有个总体均数的范围,可信的程度有95%。也。也就是说总体均数落在这个范围的可能性有就是说总体均数落在这个范围的可能性有95%。 从理论上讲,这样估计从理论上讲,这样估计100次,约有次,约有95次次是对的,也就是总体均数在这个范围的可能是对的,也就是总体均数在这个范围的可能性是性是95%,约有,约有5次是不对的,也就是总体次是不对的,也就是总体均数没有在这个范围的可能性是均数没有在这个范围的可能性是5%。 例题:随机抽样调查例题:随机抽样调查2019年某市区年某市区232例足月龄例足月龄正常女婴的出生体重,结果见下表,试估计正常女婴的出生体重,结果
18、见下表,试估计2019年年该市区正常女婴的出生体重均数所在范围。该市区正常女婴的出生体重均数所在范围。 假设检验的推断原理假设检验的推断原理 假设检验的基本步骤假设检验的基本步骤 t t检验和检验和Z Z检验检验 两样本总体方差齐性检验两样本总体方差齐性检验 正态性检验正态性检验 假设检验的两类错误假设检验的两类错误 注意事项注意事项假设检验(假设检验(Hypothesis test) 一、一、假设检验的推断原理假设检验的推断原理 上面介绍过的区间估计方法是统计上面介绍过的区间估计方法是统计推断的内容之一推断的内容之一(对总体参数做对总体参数做估计估计),假设检验是统计推断的另一重要内容假设检
19、验是统计推断的另一重要内容(对总体参数做对总体参数做比较比较)。正是应用统计。正是应用统计推断的理论和方法,人们才能顺利地推断的理论和方法,人们才能顺利地通过有限的样本信息去把握总体特征,通过有限的样本信息去把握总体特征,实现抽样研究的目的。实现抽样研究的目的。 n假设检验是对所估计的总体首先提出一个假设 (即假设样本来自这个总体),然后通过样本数据去推断是否拒绝这一假设,如果拒绝,认为该样本很可能不是来自这个总体;否则,认为该样本很可能来自这个总体。 例,例, 某医生测量了某医生测量了36名从事名从事铅作业男性工人的血红蛋白含铅作业男性工人的血红蛋白含量,算得其均数为量,算得其均数为130.
20、83g/L,标准差为标准差为25.74g/L。问从事铅作。问从事铅作业工人的血红蛋白是否不同于业工人的血红蛋白是否不同于正常成年男性平均值正常成年男性平均值140g/L? 由上面的例子可以看出,需要检验两个方面:由上面的例子可以看出,需要检验两个方面:与正常人群相同,均数之间的差别是由于与正常人群相同,均数之间的差别是由于抽样误差所致,抽样误差影响的可能性大,抽样误差所致,抽样误差影响的可能性大,其它因素影响的可能性小。与正常人群不其它因素影响的可能性小。与正常人群不同,是由于从事铅作业环境条件的影响,抽同,是由于从事铅作业环境条件的影响,抽样误差影响的可能性小。那么,如何进行判样误差影响的可
21、能性小。那么,如何进行判断呢?统计上就是以抽样误差发生的可能性,断呢?统计上就是以抽样误差发生的可能性,也就是以小概率事件发生来判断。也就是以小概率事件发生来判断。 假设检验假设检验通过对假设作出取舍抉择来达到解决问题的目的通过对假设作出取舍抉择来达到解决问题的目的A.从事铅作业男性工人血红蛋白含量的总体均数与一从事铅作业男性工人血红蛋白含量的总体均数与一般成年男子的相等般成年男子的相等 无差异假设、零假设无差异假设、零假设 H0(null hypothesis)B.从事铅作业男性工人血红蛋白含量的总体均数与一从事铅作业男性工人血红蛋白含量的总体均数与一般成年男子的不相等般成年男子的不相等 对
22、立假设、备择假设对立假设、备择假设 H1(alternative hypothesis)证明证明A还是证明还是证明B?n在在H0成立的条件下,均数之间的差异是由抽样成立的条件下,均数之间的差异是由抽样误差引起的,有规律可循;误差引起的,有规律可循;n在在H1成立的条件下,均数间的不同包含种种未成立的条件下,均数间的不同包含种种未知情形,无规律可循。知情形,无规律可循。n故从故从H0成立的角度出发,寻求其成立的概率。成立的角度出发,寻求其成立的概率。 变量值(血红蛋白)变量值(血红蛋白)X服从正态分布,且为小样服从正态分布,且为小样本,假定本,假定H0成立,样本均数服从成立,样本均数服从t-分布
23、,则分布,则在在H0成立的前提下,当前成立的前提下,当前t值出现的概率有多值出现的概率有多大?大?35136,138. 33674.2514083.130/0vnsxt如何给出这个量的界限?如何给出这个量的界限?小概率事件在一次试验小概率事件在一次试验中基本上不会发生中基本上不会发生 !从附表从附表2中查出在显著性水平中查出在显著性水平=0.05(双侧),自由度为(双侧),自由度为35所所对应的对应的t界值界值=2.318,即为拒绝,即为拒绝域与接受域的界限。如果计算域与接受域的界限。如果计算出的出的t统计量大于相应的统计量大于相应的t界值,界值,则落在拒绝域中,该统计量出则落在拒绝域中,该统
24、计量出现的概率小于现的概率小于5%,为小概率事,为小概率事件。件。-2.3182.318接受域拒绝域拒绝域拒绝域拒绝域常取常取 的选择要根据实际情况而定的选择要根据实际情况而定 .05. 0,01. 0, 1 . 0通常取通常取0.05检验水准的概念检验水准的概念在假设检验中,称预先规定的小概率值为检在假设检验中,称预先规定的小概率值为检验水准,也称为显著性水准,用表示。验水准,也称为显著性水准,用表示。这里所依据的逻辑是:这里所依据的逻辑是: 如果如果H0 是成立的,那么衡量差异大小的某是成立的,那么衡量差异大小的某个统计量落入区域个统计量落入区域 拒绝域拒绝域 是个小概率事件。是个小概率事
25、件。如果该统计量的实测值落入拒绝域,也就是说,如果该统计量的实测值落入拒绝域,也就是说, H0 成立下的小概率事件发生了,那么就认为成立下的小概率事件发生了,那么就认为H0不可信而否定它。不可信而否定它。否则我们就不能否定否则我们就不能否定H0 (只(只好接受它)好接受它).1. 1. 建立检验假设,确定检验水准;建立检验假设,确定检验水准; H H0 0:零假设、无效假设。是与研究假设有关的、被推断特:零假设、无效假设。是与研究假设有关的、被推断特征某种确定的关系;征某种确定的关系; H H1 1:备择假设、对立假设。是被推断总体特征的另一种关:备择假设、对立假设。是被推断总体特征的另一种关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计 假设检验 检验 ppt 资料 课件

限制150内