《五t分布与总体均数的估计.ppt》由会员分享,可在线阅读,更多相关《五t分布与总体均数的估计.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、五t分布与总体均数的估计 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望t t分布与总体均数的估计分布与总体均数的估计哥塞特(W.S.GossetW.S.Gosset,18761937)1908年,哥塞特首次以“学生”(StudentStudent)为笔名,在生物计量学杂志上发表了“平均数的概率误差”。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。t 分布o戈塞特:t分布与小样本o由于“有些实验不能多次地
2、进行”,从而“必须根据少数的事例(小样本)来判断实验结果的正确性”小样本思想:t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计vt分布曲线是单峰分布,以0为中心,左右两侧对称,v曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标准正态曲线略高。vt分布曲线随自由度而变化,当样本含量越小(严格地说是自由度=n-1越小),t分布与u分布差别越大;当逐渐增大时,t分布逐渐逼近于u分布,当=时,t分布就完全成正态分布。vt分布曲线是一簇曲线
3、,而不是一条曲线。vt分布下面积分布规律:查t分布表。t分布曲线的特征 t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计t 分布t t分布与总体均数的估计分布与总体均数的估计总体均数的估计 统计学中的统计推断包括两个重要的方面:一是利用样本统计统计学中的统计推断包括两个重要的方面:一是利用样本统计量的信息对相应总体参数值做出推断,如用样本均数估计总体量的信息对相应总体参数值做出推断,如用样本均数估计总体均数,用样本标准差均数,用
4、样本标准差S S估计总体标准差等,称之为估计。另一个估计总体标准差等,称之为估计。另一个是利用样本统计量来推断我们是否接受一个事先的假设,称之是利用样本统计量来推断我们是否接受一个事先的假设,称之为假设检验。本章只讨论参数估计,假设检验将在下一章中讨为假设检验。本章只讨论参数估计,假设检验将在下一章中讨论。而参数估计又分为论。而参数估计又分为点估计与区间估计。点估计与区间估计。t t分布与总体均数的估计分布与总体均数的估计总体均数的估计t t分布与总体均数的估计分布与总体均数的估计 点估计点估计 总体均数的点估计总体均数的点估计(point estimation)(point estimati
5、on)就是用样本均数来直接就是用样本均数来直接地估计总体均数,即。这种方法比较简单,由于没有考虑到抽样误差,只地估计总体均数,即。这种方法比较简单,由于没有考虑到抽样误差,只适合大样本资料的统计推断。适合大样本资料的统计推断。区间估计区间估计 总体均数的区间估计总体均数的区间估计(interval estimation)(interval estimation)是利用样本信是利用样本信息给出一个区间,并同时给出重复试验时该区间包含总体均数的概率。即息给出一个区间,并同时给出重复试验时该区间包含总体均数的概率。即按预先给定的概率(按预先给定的概率(1-1-)估计包含未知总体参数的范围。该范围通常
6、称估计包含未知总体参数的范围。该范围通常称为参数的可信区间(为参数的可信区间(confidence internalconfidence internal,CICI)。)。可信区间的确切含义可信区间的确切含义是指:有是指:有1-1-(如如95%95%)的可能可信区间包含总体参数。可信区间通常由)的可能可信区间包含总体参数。可信区间通常由两个数值即可信限(两个数值即可信限(confidence limitconfidence limit)构成。其中较小值称为下限构成。其中较小值称为下限(lower limitlower limit),),较大的值称为上限(较大的值称为上限(upper limit
7、upper limit)。)。总体均数的估计t t分布与总体均数的估计分布与总体均数的估计 总体标准差未知时总体标准差未知时 用样本标准差用样本标准差S S作为的估计值计算标准误,按作为的估计值计算标准误,按t t分布原理分布原理总体均数的估计t t分布与总体均数的估计分布与总体均数的估计 总体标准差未知但总体标准差未知但n n足够大时,用正态分布原理估计:足够大时,用正态分布原理估计:总体均数的估计t t分布与总体均数的估计分布与总体均数的估计 总体标准差已知时,用正态分布原理估计:总体标准差已知时,用正态分布原理估计:标标准准误误愈愈小小,估估计计总总体体均均数数可可信信区区间间的的范范围
8、围也也愈愈窄窄,说说明明样样本本均均数数与总体均数愈接近,对总体均数的估计也愈精确;与总体均数愈接近,对总体均数的估计也愈精确;反反之之,标标准准误误愈愈大大,估估计计总总体体均均数数可可信信区区间间的的范范围围也也愈愈宽宽,说说明明样样本均数距总体均数愈远,对总体均数的估计也愈差。本均数距总体均数愈远,对总体均数的估计也愈差。总体均数的估计t t分布与总体均数的估计分布与总体均数的估计(1 1)统统计计意意义义:从从总总体体中中作作大大数数次次随随机机抽抽样样,有有95%95%求求得得的的可可信信区区间间包包含含总总体体均均数数。并并不不是是做做一一次次抽抽样样求求得得可可信信区区间间包包括
9、括的的概概率率是是0.950.95,对对一一次次抽抽样样而而言言只只有有两两种种可可能能,要要么么可可信信区区间间包包含含,要要么么不不包包含含,即即可可信信区区间间一一旦旦形形成成,它它要要么么包包含含总总体体参参数数,要要么么不不包包含含总总体体参参数数,二二者者必必居居其其一一,无无概概率率可可言言。所所谓谓9595的的可可信信度度是是针针对对可可信信区区间间的的构构建建方方法法而而言言的的。其其涵涵义义是是:如如果果重重复复100100次次抽抽样样,每每次次样样本本含含量量均均为为n n,每每个个样样本本均均构构建建可可信信区区间间,则则在在此此100100个个可可信信区区间间内内,理
10、论上有理论上有9595个包含总体均数,而有个包含总体均数,而有5 5个不包含总体均数。个不包含总体均数。(2 2)两个要素:准确度()两个要素:准确度(accuracyaccuracy)即)即1-1-,即即 可可 信信 区区 间间 包包 含含 的的 概概 率率 的的 大大 小小,一一 般般 而而 言言 概概 率率 越越 大大 越越 好好。精精密密度度(precisionprecision),反反映映区区间间的的长长度度,区区间间的的长长度度越越窄窄,估估计计的的精精密密度度越越好好,反之越差。反之越差。,即区间的长度。,即区间的长度。(3 3)与医学正常值范围不同)与医学正常值范围不同总体均数
11、的估计t t分布与总体均数的估计分布与总体均数的估计 在样本含量一定的情况下,二者是相互矛盾的,若考虑提高准确在样本含量一定的情况下,二者是相互矛盾的,若考虑提高准确度(即减小度(即减小,增大或),则区间变宽,精密度下降。因而在实际中,增大或),则区间变宽,精密度下降。因而在实际中不能笼统地认为不能笼统地认为99%99%的可信区间好于的可信区间好于95%95%的可信区间,而是需要兼顾二的可信区间,而是需要兼顾二个要素。在通常情况中,以个要素。在通常情况中,以95%95%的可信区间较为常用。在可信度固定的可信区间较为常用。在可信度固定的前提下,要提高精密度的唯一方法是扩大样本含量。的前提下,要提高精密度的唯一方法是扩大样本含量。准确度与精密度的矛盾关系:总体均数的估计t t分布与总体均数的估计分布与总体均数的估计(3)可信度与可信区间:总体均数的估计t t分布与总体均数的估计分布与总体均数的估计(3)可信度与可信区间:总体均数的估计t t分布与总体均数的估计分布与总体均数的估计(4)可信区间与医学参考值的区别:总体均数的估计
限制150内