3.参数估计、假设检验.ppt
《3.参数估计、假设检验.ppt》由会员分享,可在线阅读,更多相关《3.参数估计、假设检验.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 参数估计参数估计戎芬戎芬主要内容:主要内容:抽样分布与抽样误差抽样分布与抽样误差总体均数的估计总体均数的估计总体率的估计总体率的估计几个重要概念的回顾:几个重要概念的回顾:总体:总体:样本:样本:统计量:统计量:参数:参数:统计分析统计分析 统计描述:统计描述:统计指标、统计图表统计指标、统计图表 统计推断统计推断:参数估计、假设检验参数估计、假设检验第一节第一节 抽样分布与抽样误差抽样分布与抽样误差一、样本均数的抽样分布与标准误一、样本均数的抽样分布与标准误 了解总体特征的最好方法是对总体了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医的每一个体进行观察、试验,
2、但这在医学研究实际中往往不可行。学研究实际中往往不可行。对无限总体不可能对所有个体逐一对无限总体不可能对所有个体逐一观察,对有限总体限于人力、财力、物观察,对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究。没必要对所有个体逐一研究。借助借助抽样研究抽样研究。抽抽 样样 研研 究究按照按照随机化随机化原则原则采用正确的采用正确的抽样方法抽样方法从总体中抽取从总体中抽取有代表性有代表性的一部分的一部分 组成样本组成样本用样本信息用样本信息推断推断总体特征的研究总体特征的研究统计推断统计推断 例例:欲了解某地欲了解某地20002
3、000年正常成年男性血清总胆年正常成年男性血清总胆固醇的平均水平,随机抽取该地固醇的平均水平,随机抽取该地200200名正常成名正常成年男性作为样本。年男性作为样本。由于存在个体差异,抽得的样本均数不太可由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。能恰好等于总体均数。由个体变异和抽样造成的由个体变异和抽样造成的样本统计量样本统计量与与总体总体参数参数的差异,称为的差异,称为抽样误差抽样误差。这些来自同一总体的若干样本统计量间,这些来自同一总体的若干样本统计量间,也存在抽样误差。也存在抽样误差。在抽样研究中,抽样误差是不可避免的。在抽样研究中,抽样误差是不可避免的。由于其产生的根本
4、原因是生物个体的变异性由于其产生的根本原因是生物个体的变异性,故抽样误差分布具有一定的规律性。,故抽样误差分布具有一定的规律性。抽样误差抽样误差从总体均数从总体均数 为为155.4cm155.4cm,标准差标准差 为为5.3cm5.3cm的的正态分布总体中随机抽样。样本大小为正态分布总体中随机抽样。样本大小为3030。n=30 .从正态总体从正态总体 抽样得到的抽样得到的10001000个样本,个样本,将将10001000个样本均数看成新变量,构成新的分布,个样本均数看成新变量,构成新的分布,这这10001000个样本个样本均数的频数分布均数的频数分布(n ni i=30)=30)如下:如下:
5、Mean=155.426 Std=0.966样本均数的分布样本均数的分布特点:特点:各样本均数不一定等于总体均数各样本均数不一定等于总体均数样本均数间存在差异样本均数间存在差异样本均数的分布规律:样本均数的分布为样本均数的分布规律:样本均数的分布为中间多,两边少,中间多,两边少,围绕总体均数围绕总体均数上下波动,上下波动,左右基本对称左右基本对称样本均数的变异样本均数的变异较之原变量的变异大大减较之原变量的变异大大减小,小,(这这10001000个样本均数的均数为个样本均数的均数为155.4155.4、标、标准差为准差为0.966)0.966),由样本均数的标准差描述,由样本均数的标准差描述
6、在非正态分布总体中可进行类似抽样。在非正态分布总体中可进行类似抽样。样本均数的规律性样本均数的规律性随机的随机的在概率意义下是有规律的在概率意义下是有规律的-抽样分布抽样分布通过大量重复抽样,借助频数表描述通过大量重复抽样,借助频数表描述样本均数的变异规律样本均数的变异规律(抽样分布抽样分布)与个体观察值与个体观察值变异规律有关变异规律有关即使只有一个样本资料,也可由样本资料即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均的个体观察值的变异规律间接得到样本均数的变异规律数的变异规律抽样分布抽样分布小结:小结:抽样误差抽样误差抽样误差抽样误差Sampling error
7、Sampling error 由于个体差异和抽样引起的样本统计量由于个体差异和抽样引起的样本统计量与总体参数之间的差异或各样本统计量与总体参数之间的差异或各样本统计量之间的差异。之间的差异。来源来源:个体变异个体变异抽样抽样表现表现样本统计量与总体参数间的差异样本统计量与总体参数间的差异样本统计量间的差异样本统计量间的差异 的总体均数为的总体均数为;而;而 的标准差比原个体值的标准差比原个体值的标准差要小,为区别两者,的标准差要小,为区别两者,的标准差用的标准差用 表示。表示。样本均数的标准差称样本均数的标准差称均数的标准误均数的标准误(standard(standard error of m
8、ean,SEM)error of mean,SEM),简称标准误(简称标准误(SE)SE)。标准误意义:反映样本均数抽样误差的大小,标准误意义:反映样本均数抽样误差的大小,SESE越大,均数的抽样误差越大,说明样本均越大,均数的抽样误差越大,说明样本均数与总体均数间的变异越大。数与总体均数间的变异越大。标准误标准误可证明均数标准误可证明均数标准误在在实实际际工工作作中中 常常未未知知,用用S S来来估估计计。均均数数标标准准误估计值误估计值 均均数数标标准准误误大大小小与与标标准准差差大大小小成成正正比比,与与样样本本含量含量n n的平方根成反比。的平方根成反比。标准误标准误含义含义 :样本均
9、数的标准差:样本均数的标准差计算:计算:(标准误的估计值标准误的估计值)P P2323例例4-14-1:某地:某地120120名正常成人血清铜含量资料,其名正常成人血清铜含量资料,其 X X =14.46umol/L,s=2.26umol/L=14.46umol/L,s=2.26umol/L,求其标准误,求其标准误注意:注意:X X 、S S X X均为样本均数的标准误均为样本均数的标准误(标准误的理论值标准误的理论值)标准误与标准差的关系标准误与标准差的关系标准误标准误 与标准差成正比;与标准差成正比;标准误标准误 与样本含量与样本含量n n的平方根成反比(说明的平方根成反比(说明增大样本含
10、量可以减少抽样误差);增大样本含量可以减少抽样误差);标准误与标准差的意义不同(标准差反映标准误与标准差的意义不同(标准差反映了变量值的离散程度,标准误则反映了均了变量值的离散程度,标准误则反映了均数的离散程度数的离散程度)。)。)。)。注意区别:注意区别:小小 结结标准误的应用标准误的应用反映抽样误差的大小(样本均数的离散程度;反映抽样误差的大小(样本均数的离散程度;样本均数与总体均数的接近程度;均数的代表样本均数与总体均数的接近程度;均数的代表性如何。)说明样本均数推论总体均数的可靠性如何。)说明样本均数推论总体均数的可靠性。(标准误越小,可靠性越好;反之,标准性。(标准误越小,可靠性越好
11、;反之,标准误越大,可靠性越差)误越大,可靠性越差)估计总体均数的可信区间(参数估计)。估计总体均数的可信区间(参数估计)。用于均数的假设检验。用于均数的假设检验。减小抽样误差的方法减小抽样误差的方法增大样本含量增大样本含量n n ;选择标准差较小的指标。选择标准差较小的指标。由中心极限定理可由中心极限定理可得到如下结论:得到如下结论:若若 服从正态分布服从正态分布 则则 服从正态分布服从正态分布 若若 不服从正态分布不服从正态分布 n n大:则大:则 近似服从正态分布近似服从正态分布 n n小:则小:则 为非正态分布为非正态分布标准差和标准误的区别标准差和标准误的区别标准差标准误意义描述观察
12、值的变异程度。其值越小,观察值的变异程度越小,均数的代表性越好描述样本均数的变异程度,说明抽样误差的大小。其值越小,估计总体均数的可靠性越大计算用途描述资料的频数分布状况,可用于制定医学参考值范围,计算变异系数和标准误用于表示抽样误差大小、总体均数的区间估计和均数的假设检验等二、二、t t 分布及其应用分布及其应用若若某某一一随随机机变变量量X X服服从从总总体体均均数数为为、总总体体标标准准差为差为 的正态分布的正态分布N(N(,2 2)由于样本均数服从总体均数为由于样本均数服从总体均数为、总体标准差、总体标准差为为 的正态分布的正态分布N(N(,)n n为计算某一统计量用到的数据个数,为计
13、算某一统计量用到的数据个数,m m为计算该为计算该统计量用到其它独立统计量的个数。统计量用到其它独立统计量的个数。t t分布最早由英国统计学家分布最早由英国统计学家W.S.W.S.GossetGosset于于19081908年以年以“StudentStudent”笔名发表,故又称笔名发表,故又称Students t-distributionStudents t-distribution。它的发现,开创了小样本统计推断的新纪元。它的发现,开创了小样本统计推断的新纪元。总体为总体为N N的的m m个样本(样本大小为个样本(样本大小为n n)的)的t t 值值t t分布的特征:分布的特征:以以0 0
14、为中心的对称分布;为中心的对称分布;与与U U分布比,曲线低平;分布比,曲线低平;t t分布是一簇曲线,形态与自由度(分布是一簇曲线,形态与自由度(n-1n-1)有关。)有关。t t分布与分布与标准正态分布的标准正态分布的比较比较 1.1.二者都是单峰分布,以二者都是单峰分布,以0 0为中心左右对称。为中心左右对称。2.2.自由度自由度v v较小时,较小时,t t分布与标准正态分布相分布与标准正态分布相差较大,并且差较大,并且t t分布曲线的尾部面积大于标分布曲线的尾部面积大于标准正态分布曲线的尾部面积。准正态分布曲线的尾部面积。3.3.当当 逐渐增大时,逐渐增大时,t t分布逐渐逼近标准正态
15、分布逐渐逼近标准正态分布,当分布,当=时,时,t t分布完全成为标准正态分布完全成为标准正态分布。分布。t t分布的界值分布的界值 给定自由度给定自由度v v,t t分布曲线的双侧尾部面积为分布曲线的双侧尾部面积为 时对时对应的应的t t值,记为值,记为 并称其为并称其为t t的双侧界值的双侧界值 单侧界值单侧界值 :一侧尾部面积为:一侧尾部面积为 时对应的时对应的t t值值对称性得:单侧曲线下面积对称性得:单侧曲线下面积=2*=2*双侧曲线下面积双侧曲线下面积给定曲线下面积对应的界值与自由度有关给定曲线下面积对应的界值与自由度有关同样的尾部面积,同样的尾部面积,t t分布的界值要大于标准正态
16、分分布的界值要大于标准正态分布的界值布的界值 t t分布的界值分布的界值 t t分布界值示意图,分布界值示意图,表示阴影的面积表示阴影的面积 01-12-2-33f(t)t t分布曲线下的面积规律:分布曲线下的面积规律:中间中间95%95%的的t t值:值:-t-t0.05/20.05/2,t t0.05/20.05/2,中间中间99%99%的的t t值:值:-t-t0.01/20.01/2,t t0.01/20.01/2,单尾概率:一侧尾部面积单尾概率:一侧尾部面积双尾概率:双侧尾部面积双尾概率:双侧尾部面积(1)(1)自由度(自由度()一定时,一定时,p p与与t t成反比成反比;(2)(
17、2)概率(概率(p p)一定时,)一定时,与与t t成反比成反比;三、样本率的抽样分布与标准误三、样本率的抽样分布与标准误 样本率与总体率存在着抽样误差,其大小用样本率与总体率存在着抽样误差,其大小用率的标准误来描述,用率的标准误来描述,用 p p表示。表示。例:例:某医院用某方剂治疗慢性肝炎某医院用某方剂治疗慢性肝炎160160例,例,有效率为有效率为86.2586.25,求其标准误。,求其标准误。3232第二节第二节 总体均数的估计总体均数的估计计量资料统计推断计量资料统计推断一般包括以下两个方面:一般包括以下两个方面:参数估计:参数估计:用样本指标估计总体指标用样本指标估计总体指标 (1
18、)(1)点估计:用样本统计量直接作为总体参数的估计值点估计:用样本统计量直接作为总体参数的估计值 优点优点:简单简单 缺点:没有考虑抽样误差缺点:没有考虑抽样误差 (2)(2)区间估计区间估计:按预先给定的概率按预先给定的概率确定一个包含未知总确定一个包含未知总体参数的范围,称为参数的可信区间或置信区间体参数的范围,称为参数的可信区间或置信区间(confidence(confidence interval,CIinterval,CI),常用常用95%95%的可信区间的可信区间 假设检验假设检验 总体均数的区间估计总体均数的区间估计 可信区间的含义:可信区间的含义:按一定的可信度由样本均数计算的
19、总体均数按一定的可信度由样本均数计算的总体均数 可能所在的范围,这个范围称为总体均数的可能所在的范围,这个范围称为总体均数的 可信区间。可信区间。95%95%可信区间表示该区间包含总体均数可信区间表示该区间包含总体均数 的的 概率为概率为95%95%。若作若作100100次抽样算得次抽样算得100100个可信区间,平均有个可信区间,平均有 9595个可信区间包含个可信区间包含(估计正确),有(估计正确),有5 5个个 可信区间不包含可信区间不包含(估计错误)。(估计错误)。总体均数可信区间的计算计算方法:计算方法:l 已知,按已知,按u u分布。分布。l 未知,但未知,但n n足够大,按足够大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数估计 假设检验
限制150内