统计学概念和方法-第7章.ppt
《统计学概念和方法-第7章.ppt》由会员分享,可在线阅读,更多相关《统计学概念和方法-第7章.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 假设检验假设检验数学与信息科学学院 王 坤统计学概念和方法主要内容主要内容作为一个问题的假设:备择假设、回答假设时的错误怎样回答零假设所提出的问题:p值假设检验的机制拒绝或接受零假设显著水平双边检验假设检验和构造置信区间不拒绝零假设意味着什么Excel2007在假设检验方面提供的功能小结问题统计推断包括估计和假设检验。估计的任务是根据样本寻找总体参数值及其范围。那么,这样估计的把握性有多大呢?假设检验的兴趣是对任意一个有关未知分布的假设。假设检验又分为参数检验和非参数检验。参数检验考虑总体参数是否等于某个特定的值。非参数检验是考虑利用子样拟合总体分布。本章只介绍参数检验。例 19
2、88年7月28日的纽约时报上刊登了一篇关于人们地理知识的文章。这篇文章描述了一个调查公司的研究结果。研究者们从一些国家抽取许多成年人并请他们鉴别在一个地图上的16个地方,然后把每个人答对的个数加起来。四个国家的样本中答对的个数的均值为 美国 6.9 墨西哥 8.2 英国 9.0 法国 9.2上述结果是一个样本均值的情况,可以轻易获得样本均值差。那么,总体均值是否有差异呢?7.1作为一个问题的假设作为一个问题的假设在上述问题中,来自墨西哥和美国的总体均值差异是否为零?零假设零假设(原假设)原假设)墨西哥与美国的样本均值差为8.2-6.8=1.3,这个值是否超出样本抽样随机性解释范围?为此,我们可
3、以假设总体均值相等,即两个总体的均值之差为零。这就是统计学中的零假设(null hypothesis)。在这个例子里,零假设就是问这两个总体均值之差是否等于零。记m为墨西哥的总体均值,u为美国的总体均值。那么零假设可以写成:H0:m-u=0H代表假设,下标0表明是零假设。“零”的意思是假设内容的差异为零。注:希腊字母代表总体参数。零假零假设就是提出一个参数是否等于某一个特殊就是提出一个参数是否等于某一个特殊值。形式上,零假形式上,零假设写成:写成:H0:参数参数=值备择假设备择假设零假设逻辑上的反面假设是“两个参数的差异不为零”,这种反面假设称为备择假设(alternative hypothe
4、sis)。上述例子中,备择假设为:H1:m-u0显然,零假设H0与备择假设H1不相容。如果样本数据能证明零假设提出的问题应该否定,那么我们就拒绝零假设H0,而倾向于备择假设H1。回答假设时的错误回答假设时的错误真实状态检验结论接受H0拒绝H0H0为真正确第一类错误(弃真,错误)H1为真第二类错误(存伪,错误)正确 零假设的问题有两个答案,“是”或者“不是”。但由于样本所携带的信息是来自样本而不是总体,其信息量会受到限制,就有可能提供错误答案。犯两类错误的概率当然是越小越好,但是当样本容量 n 固定时,不能同时都小,即 变小时,就变大;而 变小时,就变大。只有当样本容量 n 增大时,才有可能使两
5、者同时变小。在实际应用中,人们常遵循 Neyman-Pearson 原则:在控制犯第一类错误的概率 的条件下,寻找拒绝域(或检验法则),使得犯第二类错误的概率 达到最小。不过,基于 Neyman-Pearson 原则的最优检验不一定存在。思考思考一个人因为杀人而受审理。他实际上是有罪的,但法官确认他为无罪。这里零假设是:一个人是无罪的除非你能证明他有罪。则此案中,法官犯的是第一类错误还是第二类错误?法官犯另外一类错误的情形是怎样的?7.2怎样回答零假设所提出的问题怎样回答零假设所提出的问题为了确定1.3这么大的差异是否属于一类不常见的数据集合,我们计算当总体差别为零时,得到一个大于等于1.3的
6、样本均值之差的概率。这个概率称为p值。当p值很小,以至于几乎不可能在零假设正确时出现目前的样本数据时,我们就拒绝零假设。p值越小,拒绝零假设的理由就越充分。著名统计学家R.Fisher把0.05作为标准,即0.05或者比0.05小的概率被认为是小概率事件。p值值p值(p value)就是当原假设原假设H0为真为真时所得到的样本观察结果或更极端结果出现的概率。如果p值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,p值越小,我们拒绝原假设的理由越充分。总之,p值越小,表明结果越显著。通常,如果p值0.05,说明结果更倾向于接受假定H0。这里的0.05称为
7、显著水平。假设检验的机制假设检验的机制为了求得p值,我们需要把观测到的样本均值之差 转换为t=4.25。(这个过程好比把华氏度转换为摄氏度)这里美国的样本包含了1600个观测,墨西哥的样本有1200个观测。这个例子里,对于观测数大于2000的样本来说,t值大于等于4.25的概率是0.00001。即样本均值之差大于等于1.3的概率为0.00001,这个结果是非常非常显著的。注:正态分布N(,2)自由度为自由度为10的的t-分布分布拒绝或接受零假设拒绝或接受零假设刚才计算得到的p=0.00001是一个非常非常小的概率。对此情况有两种解释:1.零假设是正确的,但观测到的数据恰好是不常发生的那一类;2
8、.观测到的数据是常见的那一类,那么零假设就是错误的。由于总体均值相等时样本均值有1.3的概率为p=0.00001,所以我们选择第二种解释,拒绝H0,即认为两个总体均值差异不是零.7.3显著水平显著水平在收集数据之前,统计学家已经根据预定的小概率确定好一个区间(拒绝域),这个小概率称为检验的显著水平(significant level),通常选0.05。这个显著水平通常认为是一个合理的风险。显著水平为0.05的意思是:在零假设正确的情况下进行100次抽样,会有5次错误地拒绝零假设。显著水平是允许犯第一类错误的最大概率。显著水平是允许犯第一类错误的最大概率。双边检验双边检验正态分布和t分布是对称的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概念 方法
限制150内