第11章-方差分析.doc
《第11章-方差分析.doc》由会员分享,可在线阅读,更多相关《第11章-方差分析.doc(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除第十一章 方差分析第一节 方差分析的概述一、方差分析的由来t检验法(z检验法也是如此)适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在公共管理的研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:检验过程烦琐。 例如,一实验包含5个处理,采用t检验法要进行=10次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。无统一的实验误差,误差估计的精确性和检验的灵敏性低。对同一实验的多个处理进行比较时,应该有一个统一的实验误差的估计值。若用
2、t检验法作两两比较,由于每次比较需计算一个,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,实验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计实验误差,误差自由度为2(6-1)=10;若利用整个实验的30个观测值估计实验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。推断的可靠性低,检验的I型错误率大。 即使利用资料所提供的全部信息估计了实验误差,若用t
3、检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。方差分析(analysis of variance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在公共
4、管理研究中应用十分广泛。二、方差分析的常用术语实验指标(experimental index) 为衡量实验结果的好坏或处理效应的高低,在实验中具体测定的性状或观测的项目称为实验指标。由于实验目的不同,选择的实验指标也不相同。实验因素(experimental factor) 实验中所研究的影响实验指标的因素叫实验因素。当实验中考察的因素只有一个时,称为单因素实验;若同时研究两个或两个以上的因素对实验指标的影响时,则称为两因素或多因素实验。实验因素常用大写字母A、B、C、等表示。因素水平(level of factor) 实验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3种激励
5、措施下组织绩效的高低,这3种激励措施就是3个水平。因素水平用代表该因素的字母加添足标1,2,来表示。如A1、A2、,B1、B2、,等。实验处理(treatment) 事先设计好的实施在实验单位上的具体项目叫实验处理,简称处理。在单因素实验中,实施在实验单位上的具体项目就是实验因素的某一水平。在多因素实验中,实施在实验单位上的具体项目是各因素的某一水平组合。例如进行3种金融政策和3种税收政策对企业自主创新能力影响的两因素实验,整个实验共有33=9个水平组合,实施在实验单位(实验企业)上的具体项目就是某金融政策与某种税收政策的结合。所以,在多因素实验时,实验因素的一个水平组合就是一个处理。实验单位
6、(experimental unit) 在实验中能接受不同实验处理的独立的实验载体叫实验单位,实验单位往往也是观测数据的单位。重复(repetition) 在实验中,将一个处理实施在两个或两个以上的实验单位上,称为处理有重复;一处理实施的实验单位数称为处理的重复数。三、方差分析的应用条件与其他统计分析方法一样,在应用方差分析时也有一定的条件限制。研究所获得的数据需要满足一些基本的条件,否则由它得出的结论将会产生错误。分布的正态性(normality)。方差分析与Z检验和t检验一样,也需要样本必须来自正态分布的总体。但是在公共管理研究领域中,大多数变量是可以假定其总体分布是满足正态分布的基本要求
7、的,因此进行方差分析时并不需要去检验总体分布是否服从于正态分布。当有证据表明总体不服从于正态分布时,可以将数据作某种转换,经过转换以后的数据就可以接近正态分布了。效应的可加性(additivity)。方差分析所依据的一个基本原理就是变异的可加性。确切地说,应该是变异的可分解性,总变异可以分解成几个不同来源的部分,这几个部分变异的来源在意义上必须明确,而且彼此要相互独立。该条件一般情况下也都是能够满足的。通常情况下,总变异可以分解为组间变异和组内变异两部分,组间变异是实验处理引起的那部分变异,而组内变异指实验误差及个体差异引起的变异。由于被试分组是随机分配的,个体差异及实验误差带有随机性质,因而
8、组内变异与组间变异是相互独立的。方差的齐性(homogeneity of variance)。各实验条件(处理)下实验结果的总体方差相等,即方差齐性。考察实验结果是否满足第3个条件,可用Levenet 和Bartlett来检验方差是否齐性检验。Levene方差齐性检验由HLevene在1960年提出。MBBrown和ABForsythe在1974年对Levene检验进行了扩展,使对原始数据的数据转换不但可以使用数据与算术平均数的绝对差,也可以使用数据与中位数和调整均数(trimmed mean)的绝对差。从而使得Levene检验的用途更加广泛。Levene检验主要用于检验两个或两个以上样本间的
9、方差是否齐性。要求样本为随机样本且相互独立。国内常见的Bartlett多样本方差齐性检验主要用于正态分布的资料,对于非正态分布的数据,检验效果不理想。Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料,其检验效果比较理想。在SPSS中,是采用Levene的方差齐性检验。 第二节 单因素完全随机化设计的方差分析只安排一个实验处理因素(单因素),且该实验处理因素有a个水平(a2),即a个实验处理组,将N个实验单位(experiment units)采用随机方法分派到各个实验处理组当中。或者采用随机取样的方法,从a个实验处理组所对应的总体中分别抽取个实验单位()进行
10、实验处理。这种实验设计叫做单因素完全随机化设计(Completely randomized design)。其目的主要是比较a个实验处理组间的实验效应有无显著的差异。各实验处理组的实验单位可以相同,也可以不同,相同时为平衡设计(balanced design),设计效率较高;不同时为非平衡设计(unbalanced design),效率较低。单因素完全随机化设计简单明了,应用十分广泛。一、单因素完全随机化设计方差分析的基本原理在实验中仅有一个实验因素,并分为k个不同的水平。在完全随机化的单因素实验设计中,为了考察因素A的k个水平对实验指标Y的影响(如k种激励措施对组织绩效的影响),设想在固定的
11、条件下作实验 。所有可能的实验结果组成一个总体,它是一个随机变量 。可以把它分解为两部分:其中,纯属作用的结果,称为在条件下的真值(也称为在条件下的理论平均)。是实验误差(也称为随机误差),是服从正态分布的随机变量 。如果在独立地进行实验过程中,除不同外,其余条件均不变,那么,就应该是独立同分布的随机变量 。即 因为, , 故 其中,和都是未知参数(i=1,2,k)。 为了估计和检验上述参数,就要做重复实验 。假定在水平下重复做m次实验,得到观测值 (为方便起见,不再与小写字母加以区别,也可以表示数值),这相当于从第i个正态总体(i=1,2,k)中,随机抽取一个容量为m的样本,则: (i=1,
12、2,k) 表中,表示在条件下第j次实验的结果,用公式表示就是(i=1,2,k j=1,2,m) 这里值得注意的是:每次实验结果只能得到,而上式中的和都不能直接观测到。为了便于比较和分析因素A的水平对指标影响的大小,通常把再分解为 (i=1,2,k) 其中,称为总体平均数,它是比较作用大小的一个基点,并且称为第i个水平的效应 。它表示水平的真值比总体水平差多少。满足约束条件把上式代入前式中,得 (i=1,2,k)(j=1,2,m) 于是单因素方差分析的数学模型可写成:单因素方差分析要解决的问题是:(1)分析观测值的偏差;(2)检验各水平效应有无显著差异。二、单因素完全随机化设计方差分析的基本过程
13、单因素完全随机化设计方差分析的数据结构如表11-1所示:表11-1 单因素随机化设计方差分析的数据结构(1)建立假设: 原假设; 即所有实验处理水平的总体平均数是相等的,不存在处理效应。 备择假设H1:其中至少有两个实验处理的总体平均数是不相等的,处理效应不为0。(2)将总方差的平方和的分解为组间平方和与组内平方和(3)构造F统计量(4)给出方差分析表,并计算F统计量的值表11-2:方差分析表方差来源方差平方和自由度均方F统计量组间方差(效应)SSAr-1MSA=SSA/r-1F=MSA/MSE组内方差(误差)SSEn-rMSE=SSE/n-r总离差SSTn-1(5)在给定的显著性水平下查得F
14、的临界值,并进行决策当F临界值时,拒绝原假设 (6)平均数的多重比较 F值显著或极显著,否定了无效假设HO,表明实验的总变异主要来源于处理间的变异,实验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。统计上把多个平均数两两间的相互比较称为多重比较(multiple comparisons)。 多重比较的方法甚多,最常用的有最小显著差数法(LSD法)。最小显著差数法 (LSD法,least significan
15、t difference) 此法的基本作法是:在F检验显著的前提下,先计算出显著水平为的最小显著差数,然后将任意两个处理平均数的差数的绝对值与其比较。若LSDa时,则与在水平上差异显著;反之,则在水平上差异不显著。三、单因素完全随机化设计方差分析的实例 【例11-1】某公共管理研究者采用随机抽样方法研究某省东部、北部、中部、南部和西部五个不同地区10年间每周发生的交通事故次数,若从五个不同地区(视为五个不同总体)独立地各选取12个周发生的交通事故次数作为研究对象,五个不同地区12个周每周发生的交通事故次数如表11-3所示。请在=1%的显著性水平下检验该省五个不同地区10年间每周发生的交通事故次
16、数是否存在显著的差异。表11-3:每周发生的交通事故次数地区东部北部中部西部南部合计交通事故次数8.009.0010.009.009.007.008.0010.009.007.0013.0014.0010.0011.0012.0013.0011.0012.0011.0010.0012.0011.0012.0014.0013.0012.0010.0012.0014.0012.0010.0011.0012.0010.0011.0010.0012.0011.0011.0010.009.0012.009.0012.008.009.0011.0010.008.009.007.0010.0011.009.
17、009.0011.0010.009.0011.0010.001131391371241146279.416711.583311.416710.33339.500010.4500这是一个单因素方差分析问题,a=5,N=60。单因素方差分析的基本程序如下:(1)提出假设H0:五个不同区域每天发生的交通事故数没有显著差异;H1:五个不同地区每天发生的交通事故数有显著差异, (2)将总平方和分解为组间平方和、组内平方和(3)计算均方和F值,并列出方差分析表表11-4: 不同区域发生交通事故的方差分析表变异来源平方和自由度均方F值组间(效应)50.433412.6085.665组内(误差)122.417
18、552.226总变异172.85059 (4)把计算得到的F值与查表得到的临界值进行比较,并作出决策 查F分布表得临界值:,由于F值大于临界值 因此否定原假设,即表明五个不同地区每周发生的交通事故数次数具有显著的差异。 运用SPSS对上例进行方差分析的基本程序如下: (1)将表8-2的数据输入SPSS,建立SPSS数据文件(SPSS数据文件见本书光盘中的文件“SPSS11-方差分析1”)。(2)选择主菜单Analyze= compare means= one-way ANOVA(如图11-1所示),打主单因素方差分析对话框。图11-1(3)将变量“x”(交通事故发生次数)输入Dependent
19、 List框中,将变量“地区”(分类变量)输入Factor框中(如图11-2所示)图11-2 (4)进入Poat Hoc,选择如图11-3所示的选项,将显著性水平设为5%。图11-3(5)进入Options,并进行如图11-4所示的选项,点击Continue。 图11-4(5)点击OK,输出单因素方差分析结果。表11-5:DescriptivesNMeanStd. DeviationStd. Error95% Confidence Interval for MeanMinimumMaximumLower BoundUpper Bound1129.41672.1515.62118.049710.
20、78367.0014.0021211.58331.1645.336210.843412.323210.0014.0031211.41671.3114.378610.583512.249910.0014.0041210.33331.3707.39579.462411.20428.0012.005129.50001.2432.35898.710110.28997.0011.00Total6010.45001.7116.221010.007810.89227.0014.00 表11-5是关于变量X的描述性统计分析结果,主要给出了五个不同地区的平均数,标准差、95%置信度的置信区间,以及最大值和最小值
21、。表11-6:Test of Homogeneity of VariancesLevene Statisticdf1df2Sig.993455.419 表11-6是关于变量X来自于五个总体(五个不同地区)方差齐性的检验结果。结果表明,变量X的方差是齐性的,即五个地区交通事故发生数的的方差是相等的,这样就满足了方差分析的一个最重要的条件。表11-7:ANOVASum of SquaresdfMean SquareFSig.Between Groups50.433412.6085.665.001Within Groups122.417552.226Total172.85059 表11-7是方差分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 方差分析
限制150内