多元统计分析第三章 假设检验与方差分析.doc
《多元统计分析第三章 假设检验与方差分析.doc》由会员分享,可在线阅读,更多相关《多元统计分析第三章 假设检验与方差分析.doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元统计分析第三章 假设检验与方差分析.精品文档.第3章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然
2、伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数的值有多大?”之类的问题,而假设检验回答诸如“未知参数的值是吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。3.1一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备
3、择假设(或称对立假设),分别记为和。1、显著性检验为便于表述,假定考虑假设检验问题:设,, 来自总体的样本,我们要检验假设 (3.1)原假设与备择假设应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设,我们就选择已准备的假设。当已知时,用统计量在原假设成立下,统计量服从正态分布,通过查表,查得的上分位点。对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验):当时,拒绝;当时,接受。 (3.2)我们称为临界值,是的上分位点,不同的临界值代表不同的检验。称拒绝原假设的统计量的范围为拒绝域,称接受的统计量的范围为接受域,因此给出一个检验,就是给出一个拒绝域。2、两类错误由
4、于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。一类错误是,原假设本来正确,但按检验规则却作出了拒绝的判断,这类错误称为第一类错误(弃真错误),其发生的概率称为犯第一类错误的概率;另一类错误时,原假设本来不正确,但按检验规则却作出了接收的判断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为。同时控制这两类错误是困难的,当时在样本容量固定的条件下,要使和同时减小,通常是不可能的。在假设检验的应用中,由奈曼(NEYMAN)与皮尔逊(PEARSON)提出了一个原则,即在控制犯第一类错误的概率条件下,尽量使犯第二类错误的概率小,这种检验问题, 称为显著
5、性检验问题。根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分,未必意味着原假设就是正确的。所以,在实际问题中,为了通过样本观测值对某一猜测取得强有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。3、关于检验的值下面,我们再介绍进行检验的另一种方式值,我们就以(3.1.1)的检验问题为例来加以说明,对于样本,我们通过统计量,计算出,是一确定值,这里的是样本观测值的均值,再由统计量服从正态分布,计算为检验的值。由于等价于=,所以检验规则可以表述为:当时,拒绝;当时,接受。接受。
6、 (3.3)上述值的检验规则与(3.1.2)的检验结果相比含有更丰富的信息,值越小,拒绝原假设的理由就充分。通常SAS等软件的计算机输出一般只给出值,由你自己给定的值来判断检验结果二、单一变量假设检验的回顾1、 单个正态总体均值的检验 考虑假设检验问题:设,, 来自总体的样本,我们要检验假设(1) 总体方差已知构造统计量 在原假设成立下, 服从正态分布,可得这样一个检验规则:当时,拒绝;当时,接受。(2) 总体方差未知构造统计量 在原假设成立下,服从自由度为的分布可得这样一个检验规则:当时,拒绝;当时,接受。 (3.1.4)2、 两个正态总体均值的比较检验考虑假设检验问题 (3.1.5) 设是
7、取自总体的容量为的样本,是取自的容量为的样本,给定显著性水平。(1) 两个总体方差和已知 构造检验统计量 (3.1.6)在原假设成立下, 服从正态分布,检验规则为:当时,拒绝;当时,接受。(2) 两个总体方差和都未知,但=用样本方差代替,构造检验统计量在原假设成立下,服从正态分布,检验规则为:当时,拒绝;当时,接受。3、 多个正态总体均值的比较检验(方差分析)设个正态总体分别为,, 从个总体取个独立样本如下:考虑假设检验问题假设成立条件下,构造检验统计量为:这里称为组间平方和;称为组内平方和;称为总平方和。其中, 给定检验水平,查分布表,使,可确定出临界值,再利用样本值计算出值,若,则拒绝,否
8、则不能拒绝。 附注:多元假设检验与SAS过程本章的主要内容是多元假设检验和方差分析,其中的计算一般都很复杂,可用国际上著名的专业软件SAS软件计算。SAS中有GLM,ANOVA和NESTED等过程可用方差分析。其中GLM过程最常用。SAS的GLM过程采用了一般线性模型:在方差分析问题中,变量 是示性变量,即只取0或1的变量。GLM过程对每一因子的每一水平,通过CLASS语句产生1个示性变量,也称分类变量。GLM过程主要有四个语句:PROC GLM,CLASS,MODEL和LSMEANS语句。PROC GLM语句 用以调用GLM过程,有许多选项,一般形式是:Proc glm data=数据集名称
9、 outstat=输出的统计量 order=formatted|freq|data|internal; CLASS语句 说明哪些变量是分类变量。方差分析中的因素都是分类变量,如:Class V1 V2 V3;此语句指示计算机把因子V1,V2 ,V3作为分类变量,可以是字符型变量或数字型变量。如果是字符型变量,长度限于10个字符以内。MODEL语句 语句中等号前是响应变量,如:Model Y=A; 单因子ANOVAModel Y=A B C; 主效应模型Model Y=A B A*B; 含交互效应的因子模型Model Y1 Y2=A B; 多因子方差模型MANOVALSMEANS语句 用以求待估
10、参数的最小二乘估计。Lsmeans A B A*B;MANOVA语句 用以说明是做多元方差分析。3.2 均值等于常数向量的检验在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,将项指标的历史平均水平记作,考虑新的项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:例3.1测量20名健康女性排汗量、钠含量、钾含量得表3.1。问健康女性、的均值是不是4、50、10? 表3-1 20名健康女性排汗量、钠含量、钾含量数据排汗量钠含量钾含量3.748.59.35.765.18.03.847.210.93.253.212
11、.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.84.540.28.41.513.510.18.556.47.14.571.68.26.552.810.94.144.111.25.540.99.4例3.1的数学模型就是:服从要根据20个样品做复合检验:一般的,我们考虑维正态分布均值等于常数的检验问题:为取自维正态总体的一个样本,要检验:, (3.4)其中为已知维向量。对于这样一个检验问题,分为以下两种情形:一、协方差阵已知条件下,均值的检验作出假设后,需
12、要构造一个合适的统计量。要检验的假设在形式上同一维情形是一样的。在一维时构造的统计量为且在成立时,服从正态分布。依照一维情形,由于成立时服从维正态分布,。若记,为非奇异对称阵,则有 服从但用来确定拒绝域不方便,因此,改选用统计量, (3.5)当成立时,服从-分布。对给定的,从,求出。当时,要先求,这需要大量的计算。实际计算时,可以不必求出,只要令即 (3.6)求解方程组(3.2.3),求出Y后,则二协方差阵未知条件下均值的检验假设检验问题仍然是:其中为已知维向量。在回顾一元情况,在原假设成立下,服从自由度为的分布,在维正态情况下,当协方差已知时,选用时统计量为现用样本协方差代替总体协方差阵,令
13、统计量的分布是一元统计中分布的推广,最早由HOTELLING导出,在上一章中,我们已经给出了这个定义,可以直接用它作为检验的统计量,分布已被仔细研究过,1%及5%的分位点已经列成专表,读者可在3中找到这个表。也可以利用HOTELLING 分布的性质, (证明参见朱道元P210)当不成立时,有变大的趋势,对给定的,从求出,当时,拒绝;否则接受。例3.1测量20名健康女性排汗量、钠含量、钾含量得表3.1。问健康女性、的均值是不是4、50、10?解:建立 用SAS,MATEMATICA,MATLAB等软件都可算出所以否定原假设,即在0.10显著水平下拒绝。 例3.1 也可用下列SAS程序计算data
14、 hanye;input x1-x3;y1=x1-4;y2=x2-50;y3=x3-10;a=1;cards;3.748.59.35.765.18.03.847.210.93.253.212.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.84.540.28.41.513.510.18.556.47.14.571.68.26.552.810.94.144.111.25.540.99.4proc glm ;model y1-y3=a/noint;manova
15、 h=a/printe printh;run;执行此程序后得到的输出中主要的是最后一个表 H = Type III SSCP Matrix for a E = Error SSCP Matrix S=1 M=0.5 N=7.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.66112774 2.90 3 17 0.0649 Pillais Trace 0.33887226 2.90 3 17 0.0649 Hotelling-Lawley Trace 0.51256699 2.90 3 17 0.0649 Roys Grea
16、test Root 0.51256699 2.90 3 17 0.0649可见P值为0.0649,所以否定原假设,即在0.10显著水平下拒绝。在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信息。3.3 两总体均值的比较检验例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对中国经营环境的评价是否存在差异?表3-2日美两国在华企业对中国经营环境的评价美国企业号政治环境X1经
17、济环境X2法律环境X3文化环境X4美165352560美275502055美360453565美475404070美570303050美655403565美760453060美865402560美960503070美1055553575日本企业号政治环境Y1经济环境Y2法律环境Y3文化环境Y4日155554065日250604570日345453575日450505070日555503075日660404560日765554575日850653580日940453065日1045504570假设服从 ,服从下,且有10对样品,要做复合检验一般情况下,我们考虑为取自维正态总体的一个样本,为取自维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析第三章 假设检验与方差分析 多元 统计分析 第三 假设检验 方差分析
限制150内