《概率论与数理统计》第32讲.ppt
在前面的课程中,我们已经了解了假设在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题态时,关于其中未知参数的假设检验问题.然而可能遇到这样的情形,总体服从何然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体种理论分布并不知道,要求我们直接对总体分布提出一个假设分布提出一个假设.例如,从例如,从1500到到1931年的年的432年间,每年年间,每年爆发战争的次数可以看作一个随机变量,椐统爆发战争的次数可以看作一个随机变量,椐统计,这计,这432年间共爆发了年间共爆发了299次战争,具体数据次战争,具体数据如下如下:战争次数战争次数X01234 22314248154 发生发生 X次战争的年数次战争的年数 在概率论中,大家对泊松分布产生的一在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似争的次数,可以用一个泊松随机变量来近似描述描述.也就是说,我们可以假设每年爆发也就是说,我们可以假设每年爆发战争次数分布战争次数分布X近似泊松分布近似泊松分布.上面的数据能否证实上面的数据能否证实X 具有具有泊松分布的假设是正确的?泊松分布的假设是正确的?现在的问题是:现在的问题是:又如,某钟表厂对生产的钟进行精确性检查,又如,某钟表厂对生产的钟进行精确性检查,抽取抽取100个钟作试验,拨准后隔个钟作试验,拨准后隔24小时以后小时以后进行检查,将每个钟的误差(快或慢)按秒进行检查,将每个钟的误差(快或慢)按秒记录下来记录下来.问该厂生产的钟的误差是否服从正态问该厂生产的钟的误差是否服从正态分布?分布?再如,某工厂制造一批骰子,再如,某工厂制造一批骰子,声称它是均匀的声称它是均匀的.为检验骰子是否均匀,要把骰子实地投掷若为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与干次,统计各点出现的频率与1/6的差距的差距.也就是说,在投掷中,出也就是说,在投掷中,出现现1点,点,2点,点,6点的概点的概率都应是率都应是1/6.得到的数据能否说明得到的数据能否说明“骰子均匀骰子均匀”的假设是可信的?的假设是可信的?问题是:问题是:K.皮尔逊皮尔逊这是一项很重要的工作,不少人这是一项很重要的工作,不少人把它视为近代统计学的开端把它视为近代统计学的开端.解决这类问题的工具是英国统计学家解决这类问题的工具是英国统计学家K.皮尔逊在皮尔逊在1900年发表的一篇文章中引进年发表的一篇文章中引进的所谓的所谓 检验法检验法.检验法检验法是在总体是在总体X 的分布未知时,的分布未知时,根据来自总体的样本,检验关于总体分根据来自总体的样本,检验关于总体分布的假设的一种检验方法布的假设的一种检验方法.H0:总体总体X的分布函数为的分布函数为F(x)然后根据样本的经验分布和所假设的理论分然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设布之间的吻合程度来决定是否接受原假设.使用使用 对总体分布进行检验时,对总体分布进行检验时,我们先提出原假设我们先提出原假设:检验法检验法这种检验通常称作这种检验通常称作拟合优度检验拟合优度检验,它是一,它是一种非参数检验种非参数检验.在用在用 检验假设检验假设H0时,若在时,若在H0下下分布类型已知,但其参数未知,这时需要先分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验用极大似然估计法估计参数,然后作检验.检验法检验法分布拟合的分布拟合的 的基本原理和步的基本原理和步骤如下骤如下:检验法检验法3.根据所假设的理论分布根据所假设的理论分布,可以算出总体可以算出总体X的的值落入每个值落入每个Ai的概率的概率pi,于是于是npi就是落入就是落入Ai的的样本值的样本值的理论频数理论频数.1.将总体将总体X的取值范围分成的取值范围分成k个互不重迭的小个互不重迭的小区间区间,记作记作A1,A2,Ak.2.把落入第把落入第i个小区间个小区间Ai的样本值的个数记的样本值的个数记作作fi,称为称为实测频数实测频数.所有实测频数之和所有实测频数之和f1+f2+fk等于样本容量等于样本容量n.标志着经验分布与理论分布之间的差异的大小标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布皮尔逊引进如下统计量表示经验分布与理论分布之间的差异与理论分布之间的差异:统计量统计量 的分布是什么的分布是什么?在理论分布在理论分布已知的条件下已知的条件下,npi是常量是常量实测频数实测频数理论频数理论频数皮尔逊证明了如下皮尔逊证明了如下定理定理:若原假设中的理论分布若原假设中的理论分布F(x)已经完全给已经完全给定,那么当定,那么当 时,统计量时,统计量的分布渐近的分布渐近(k-1)个自由度的个自由度的 分布分布.如果理论分布如果理论分布F(x)中有中有r个未知参数需用个未知参数需用相应的估计量来代替,那么当相应的估计量来代替,那么当 时,统时,统计量计量 的分布渐近的分布渐近(k-r-1)个自由度的个自由度的 分分布布.为了便于理解,我们对定理作一为了便于理解,我们对定理作一点直观的说明点直观的说明.是是k个近似个近似正态正态的变量的平方和的变量的平方和.这些变量之间存在着一个制约关系:这些变量之间存在着一个制约关系:故统计量故统计量 渐近渐近(k-1)个自由度的个自由度的 分布分布.在理论分布在理论分布F(x)完全给定的情况下,每个完全给定的情况下,每个pi 都是确定的常数都是确定的常数.由由棣莫佛拉普拉斯中心极棣莫佛拉普拉斯中心极限定理,当限定理,当n充分充分大时,实测频数大时,实测频数 fi 渐近正态,渐近正态,因此因此 在在F(x)尚未完全给定的情况下,每个未知尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个参数用相应的估计量代替,就相当于增加一个制约条件,制约条件,因此,自由度也随之减少一个因此,自由度也随之减少一个.若若有有r个未知参数需用相应的估计量来代个未知参数需用相应的估计量来代替,替,自由度就减少自由度就减少r个个.此时统计量此时统计量 渐近渐近(k-r-1)个自由度的个自由度的 分布分布.如果根据所给的样本值如果根据所给的样本值 X1,X2,Xn算得算得统计量统计量 的实测值落入拒绝域,则拒绝原假的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设设,否则就认为差异不显著而接受原假设.得拒绝域得拒绝域:(不需估计参数不需估计参数)(估计估计r 个参数个参数)查查 分布表可得临界值分布表可得临界值,使得,使得 根据这个定理,对给定的显著性水平根据这个定理,对给定的显著性水平 ,皮尔逊定理是在皮尔逊定理是在n无限无限增大时推导出来增大时推导出来的,因而在使用时要注意的,因而在使用时要注意n要足够大要足够大,以及,以及npi 不太小不太小这两个条件这两个条件.根据计算实践,要求根据计算实践,要求n不小于不小于50,以及,以及npi 都都不小于不小于 5.否则应适当合并区间,使否则应适当合并区间,使npi满满足这个要求足这个要求.让我们回到开始的一个例子,检验每年让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布爆发战争次数分布是否服从泊松分布.提出假设提出假设H0:X服从参数为服从参数为 的泊松分布的泊松分布按参数按参数为为0.69的泊松分布,计算事件的泊松分布,计算事件X=i 的的概率概率pi,=0.69将有关计算结果列表如下将有关计算结果列表如下:pi的估计是的估计是,i=0,1,2,3,4根据观察结果,得参数根据观察结果,得参数 的极大似然估计为的极大似然估计为 因因H0所假设的理论分布中有一个未知所假设的理论分布中有一个未知参数,故自由度为参数,故自由度为4-1-1=2.x 0 1 2 3 4fi 223 142 48 15 4 0.58 0.31 0.18 0.01 0.02n 216.7 149.5 51.6 12.0 2.16 0.1830.376 0.251 1.623战争次数战争次数实测频数实测频数14.162.43将将n 5的组予以合并,即将发生的组予以合并,即将发生3次及次及4次次战争的组归并为一组战争的组归并为一组.故认为每年发生战争的次数故认为每年发生战争的次数X服从服从参数为参数为0.69的泊松分布的泊松分布.按按 =0.05,自由度为,自由度为4-1-1=2查查 分布表得分布表得=5.991=2.435.991,由于统计量由于统计量的实测值的实测值未落入否定域未落入否定域.奥地利生物学家孟德尔进行了长奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验达八年之久的豌豆杂交试验,并根据并根据试验结果试验结果,运用他的数理知识运用他的数理知识,发现发现了遗传的基本规律了遗传的基本规律.在此,我们以遗传学上的一项伟大发现为在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用规律性时,是起着积极的、主动的作用.孟德尔孟德尔子二代子二代子一代子一代黄色纯系黄色纯系绿色纯系绿色纯系他的一组观察结果为:他的一组观察结果为:黄黄70,绿,绿27近似为近似为2.59:1,与理论值相近,与理论值相近.根据他的理论,子二代中根据他的理论,子二代中,黄、绿之比黄、绿之比 近似为近似为3:1,由于随机性,观察结果与由于随机性,观察结果与3:1总有些差距,总有些差距,因此有必要去考察某一大小的差异是否已构因此有必要去考察某一大小的差异是否已构成否定成否定3:1理论的充分根据,这就是如下的检理论的充分根据,这就是如下的检验问题验问题.这里,这里,n=70+27=97,k=2,检验孟德尔的检验孟德尔的3:1理论理论:提出假设提出假设H0:p1=3/4,p2=1/4理论频数为:理论频数为:np1=72.75,np2=24.25实测频数为实测频数为70,27.由于统计量由于统计量的实测值的实测值统计量统计量自由度为自由度为k-1=1=0.41583.841,按按 =0.05,自由度为,自由度为1,查,查 分布表得分布表得=3.841未落入否定域未落入否定域.故认为试验结果符合故认为试验结果符合孟德尔的孟德尔的3:1理论理论.这些试验及其它一些试验,都显这些试验及其它一些试验,都显 示孟德尔的示孟德尔的3:1理论与实际是符合的理论与实际是符合的.这本身就是这本身就是统计方法在科学中的一项统计方法在科学中的一项 重要应用重要应用.用于客观地评价理论上的某个结论是否用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站与观察结果相符,以作为该理论是否站得住脚的印证得住脚的印证.教材上的另一例留给同学们自己看教材上的另一例留给同学们自己看.由于这种检验的计算量相对较大,一般要用由于这种检验的计算量相对较大,一般要用统计软件包来实现统计软件包来实现.这一讲我们介绍了拟合优度的这一讲我们介绍了拟合优度的 检验检验法法.在对总体的分布进行检验时经常使用在对总体的分布进行检验时经常使用.