参数估计假设检验.pptx
《参数估计假设检验.pptx》由会员分享,可在线阅读,更多相关《参数估计假设检验.pptx(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容:主要内容:抽样分布与抽样误差抽样分布与抽样误差总体均数的估计总体均数的估计总体率的估计总体率的估计第1页/共75页几个重要概念的回顾:几个重要概念的回顾:总体:总体:样本:样本:统计量:统计量:参数:参数:统计分析统计分析 统计描述:统计描述:统计指标、统计图表统计指标、统计图表 统计推断统计推断:参数估计、假设检验参数估计、假设检验第2页/共75页第一节第一节 抽样分布与抽样误差抽样分布与抽样误差第3页/共75页一、样本均数的抽样分布与标准误一、样本均数的抽样分布与标准误 了解总体特征的最好方法是对总了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这体的每一个体进行观察、
2、试验,但这在医学研究实际中往往不可行。在医学研究实际中往往不可行。对无限总体不可能对所有个体逐对无限总体不可能对所有个体逐一观察,对有限总体限于人力、财力、一观察,对有限总体限于人力、财力、物力、时间或个体过多等原因,不可物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究。能也没必要对所有个体逐一研究。借助借助抽样研究抽样研究。第4页/共75页抽抽 样样 研研 究究按照按照随机化随机化原则原则采用正确的采用正确的抽样方法抽样方法从总体中抽取从总体中抽取有代表性有代表性的一部分的一部分 组成样本组成样本用样本信息用样本信息推断推断总体特征的研究总体特征的研究统计推断第5页/共75页 例
3、例:欲了解某地欲了解某地20002000年正常成年男性血清总胆固醇的平均水平,随机抽取该地年正常成年男性血清总胆固醇的平均水平,随机抽取该地200200名名正常成年男性作为样本。正常成年男性作为样本。由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。由个体变异和抽样造成的由个体变异和抽样造成的样本统计量样本统计量与与总体参数总体参数的差异,称为的差异,称为抽样误差抽样误差。第6页/共75页 这些来自同一总体的若干样本统计量间,也存在抽样误差。这些来自同一总体的若干样本统计量间,也存在抽样误差。在抽样研究中,抽样误差是不可避免的。
4、在抽样研究中,抽样误差是不可避免的。由于其产生的根本原因是生物个体的变异性,故抽样误差分布具有一定的规律性。由于其产生的根本原因是生物个体的变异性,故抽样误差分布具有一定的规律性。第7页/共75页抽样误差抽样误差从总体均数 为155.4cm,标准差 为5.3cm的正态分布总体中随机抽样。样本大小为30。n=30 .第8页/共75页从正态总体从正态总体 抽样得到的抽样得到的10001000个样个样本,本,将将10001000个样本均数看成新变量,构成新的个样本均数看成新变量,构成新的分布,分布,这这10001000个样本个样本均数的频数分布均数的频数分布(n(ni i=30)=30)如下:如下:
5、第9页/共75页Mean=155.426 Std=0.966第10页/共75页样本均数的分布特点:样本均数的分布特点:各样本均数不一定等于总体均数各样本均数不一定等于总体均数样本均数间存在差异样本均数间存在差异样本均数的分布规律:样本均数的分布样本均数的分布规律:样本均数的分布为中间多,两边少,为中间多,两边少,围绕总体均数围绕总体均数上下上下波动,左右基本对称波动,左右基本对称样本均数的变异样本均数的变异较之原变量的变异大大较之原变量的变异大大减小,减小,(这这10001000个样本均数的均数为个样本均数的均数为155.4155.4、标准差为标准差为0.966)0.966),由样本均数的标准
6、差描,由样本均数的标准差描述述 在非正态分布总体中可进行类似抽样。在非正态分布总体中可进行类似抽样。第11页/共75页样本均数的规律性样本均数的规律性随机的随机的在概率意义下是有规律的在概率意义下是有规律的-抽样分布抽样分布通过大量重复抽样,借助频数表描述通过大量重复抽样,借助频数表描述样本均数的变异规律样本均数的变异规律(抽样分布抽样分布)与个体观察值变异规律有关与个体观察值变异规律有关即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律均数的变异规律抽样分布抽样分布第12页/共75页小结:
7、小结:抽样误差抽样误差抽样误差抽样误差Sampling error Sampling error 由于个体差异和抽样引起的样本统计由于个体差异和抽样引起的样本统计量与总体参数之间的差异或各样本统量与总体参数之间的差异或各样本统计量之间的差异。计量之间的差异。来源来源:个体变异个体变异抽样抽样表现表现样本统计量与总体参数间的差异样本统计量与总体参数间的差异样本统计量间的差异样本统计量间的差异第13页/共75页 的总体均数为;而 的标准差比原个体值的标准差要小,为区别两者,的标准差用 表示。样本均数的标准差称均数的标准误(standard error of mean,SEM),简称标准误(SE)。
8、标准误意义:反映样本均数抽样误差的大小,SE越大,均数的抽样误差越大,说明样本均数与总体均数间的变异越大。标准误第14页/共75页可证明均数标准误在实际工作中常未知,用S来估计。均数标准误估计值 均数标准误大小与标准差大小成正比,与样本含量n的平方根成反比。第15页/共75页标准误标准误含义含义 :样本均数的标准差:样本均数的标准差计算:计算:(标准误的估计值)P23例4-1:某地120名正常成人血清铜含量资料,其X=14.46umol/L,s=2.26umol/L,求其标准误注意:X、SX均为样本均数的标准误(标准误的理论值)第16页/共75页标准误与标准差的关系标准误与标准差的关系标准误标
9、准误 与标准差成正比;与标准差成正比;标准误标准误 与样本含量与样本含量n n的平方根成反比(说的平方根成反比(说明增大样本含量可以减少抽样误差);明增大样本含量可以减少抽样误差);标准误与标准差的意义不同(标准差反映标准误与标准差的意义不同(标准差反映了变量值的离散程度,标准误则反映了均了变量值的离散程度,标准误则反映了均数的离散程度数的离散程度)。)。注意区别:注意区别:小 结第17页/共75页标准误的应用标准误的应用反映抽样误差的大小(样本均数的离散程度;样本均数与总体均数的接近程反映抽样误差的大小(样本均数的离散程度;样本均数与总体均数的接近程度;均数的代表性如何。)说明样本均数推论总
10、体均数的可靠性。(标准误度;均数的代表性如何。)说明样本均数推论总体均数的可靠性。(标准误越小,可靠性越好;反之,标准误越大,可靠性越差)越小,可靠性越好;反之,标准误越大,可靠性越差)估计总体均数的可信区间(参数估计)。估计总体均数的可信区间(参数估计)。用于均数的假设检验。用于均数的假设检验。减小抽样误差的方法减小抽样误差的方法增大样本含量增大样本含量n n ;选择标准差较小的指标。选择标准差较小的指标。第18页/共75页由中心极限定理可得到如下结论:若 服从正态分布 则 服从正态分布 若 不服从正态分布 n大:则 近似服从正态分布 n小:则 为非正态分布第19页/共75页标准差和标准误的
11、区别标准差和标准误的区别标准差标准误意义描述观察值的变异程度。其值越小,观察值的变异程度越小,均数的代表性越好描述样本均数的变异程度,说明抽样误差的大小。其值越小,估计总体均数的可靠性越大计算用途描述资料的频数分布状况,可用于制定医学参考值范围,计算变异系数和标准误用于表示抽样误差大小、总体均数的区间估计和均数的假设检验等第20页/共75页二、t 分布及其应用若某一随机变量X服从总体均数为、总体标准差为 的正态分布N(,2)由于样本均数服从总体均数为、总体标准差为 的正态分布N(,)第21页/共75页n为计算某一统计量用到的数据个数,m为计算该统计量用到其它独立统计量的个数。第22页/共75页
12、t分布最早由英国统计学家W.S.Gosset于1908年以“Student”笔名发表,故又称Students t-distribution。它的发现,开创了小样本统计推断的新纪元。第23页/共75页 总体为总体为N N的的m m个样本(样本大小为个样本(样本大小为n n)的)的t t 值值第24页/共75页t t分布的特征:分布的特征:以以0 0为中心的对称分布;为中心的对称分布;与与U U分布比,曲线低平;分布比,曲线低平;t t分布是一簇曲线,形态与自由度(分布是一簇曲线,形态与自由度(n-1n-1)有)有关。关。第25页/共75页t t分布与分布与标准正态分布的比较标准正态分布的比较 1
13、.1.二者都是单峰分布,以二者都是单峰分布,以0 0为中心左右对称。为中心左右对称。2.2.自由度自由度v v较小时,较小时,t t分布与标准正态分布相差较大,并且分布与标准正态分布相差较大,并且t t分布曲线的尾部面积大分布曲线的尾部面积大于标准正态分布曲线的尾部面积。于标准正态分布曲线的尾部面积。3.3.当当 逐渐增大时,逐渐增大时,t t分布逐渐逼近标准正态分布,当分布逐渐逼近标准正态分布,当=时,时,t t分布完全成为标准分布完全成为标准正态分布。正态分布。第26页/共75页t t分布的界值分布的界值 给定自由度给定自由度v v,t t分布曲线的双侧尾部面积为分布曲线的双侧尾部面积为
14、时时对应的对应的t t值,记为值,记为 并称其为并称其为t t的双侧界值的双侧界值 单侧界值单侧界值 :一侧尾部面积为:一侧尾部面积为 时对应的时对应的t t值值对称性得:单侧曲线下面积对称性得:单侧曲线下面积=2*=2*双侧曲线下面积双侧曲线下面积给定曲线下面积对应的界值与自由度有关给定曲线下面积对应的界值与自由度有关同样的尾部面积,同样的尾部面积,t t分布的界值要大于标准正态分布的界值要大于标准正态分布的界值分布的界值 第27页/共75页t t分布的界值分布的界值 t分布界值示意图,表示阴影的面积 第28页/共75页01-12-2-33f(t)第29页/共75页t分布曲线下的面积规律:中
15、间95%的t值:-t0.05/2,t0.05/2,中间99%的t值:-t0.01/2,t0.01/2,单尾概率:一侧尾部面积双尾概率:双侧尾部面积(1)自由度()一定时,p与t成反比;(2)概率(p)一定时,与t成反比;第30页/共75页31三、样本率的抽样分布与标准误三、样本率的抽样分布与标准误 样本率与总体率存在着抽样误差,其大样本率与总体率存在着抽样误差,其大小用率的标准误来描述,用小用率的标准误来描述,用 p p表示。表示。例:某医院用某方剂治疗慢性肝炎160例,有效率为86.25,求其标准误。第31页/共75页第二节第二节 总体均数的估计总体均数的估计第32页/共75页计量资料统计推
16、断计量资料统计推断一般包括以下两个方面:一般包括以下两个方面:参数估计:参数估计:用样本指标估计总体指标用样本指标估计总体指标 (1)(1)点估计:用样本统计量直接作为总体参数的估计点估计:用样本统计量直接作为总体参数的估计值值 优点优点:简单简单 缺点:没有考虑抽样误差缺点:没有考虑抽样误差 (2)(2)区间估计:区间估计:按预先给定的概率按预先给定的概率确定一个包含未确定一个包含未知总体参数的范围,称为参数的可信区间或置信区知总体参数的范围,称为参数的可信区间或置信区间间(confidence interval,CI)(confidence interval,CI),常用常用95%95%的
17、可信区间的可信区间 假设检验假设检验 第33页/共75页 总体均数的区间估计 可信区间的含义:按一定的可信度由样本均数计算的总体均数 可能所在的范围,这个范围称为总体均数的 可信区间。95%可信区间表示该区间包含总体均数 的 概率为95%。若作100次抽样算得100个可信区间,平均有 95个可信区间包含(估计正确),有5个 可信区间不包含(估计错误)。第34页/共75页总体均数可信区间的计算总体均数可信区间的计算计算方法:计算方法:已知,按已知,按u u分布。分布。未知,但未知,但n n足够大,按足够大,按u u分布。分布。未知,且未知,且n n较小,按较小,按t t分布。分布。第35页/共7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数估计 假设检验
限制150内