第九章方差分析精选文档.ppt
第九章方差分析第九章方差分析本讲稿第一页,共五十九页1 单因子方差分析1.1 基本概念水平观测值A1x11x12.x1n1A2x21x22x2n2Arxr1xr2xrnr本讲稿第二页,共五十九页 例例:为寻求适应本地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上得到在每一块田上的亩产量如下:我们要研究的问题是诸不同品种的平均亩产量是否有显著差异.本讲稿第三页,共五十九页 试验的目的就是要检验假设 H0:1=2=3=4=5是否成立.若是拒绝,那么我们就认为这五种品种的平均亩产量之间有显著差异;反之,就认为各品种间产量的不同是由随机因素引起的.方差分析就是检验假设的一种方法.在本例中只考虑品种这一因子对亩产量的影响,五个不同品种就是该因子的五个不同水平.由于同一品种在不同田块上的亩产量不同,我们可以认为一个品种的亩产量就是一个总体,在方差分析中总假定各总体独立地服从同方差正态分布,即第i个品种的亩产量是一个随机变量,它服从分布N(i,2),i=1,2,3,4,5.本讲稿第四页,共五十九页 设在某试验中,因子A有r个不同水平A1,A2,.,Ar,在Ai水平下的试验结果Xi服从正态分布N(i,2),i=1,2,.,r,且X1,X2,.,Xr间相互独立.现在水平Ai下做了ni次试验,获得了ni个试验结果Xij,j=1,2,.,ni这可以看成是取自Xi的一个容量为ni的样本,i=1,2,.,r.实际上,方差分析是检验同方差的若干正态总体均值是否相等的一种统计方法.在实际问题中影响总体均值的因素可能不止一个.我们按试验中因子的个数,可以有单因子方差分析,双因子分析,多因子分析等.例中是一个单因子方差分析问题.本讲稿第五页,共五十九页 由于XijN(i,2),故Xij与i的差可以看成一个随机误差ijN(0,2).这样一来,可以假定Xij具有下述数据结构式:为了今后方便起见,把参数的形式改变一下,并记 称为一般平均,i为因子A的第i 个水平的效应.Xij=i+ij,i=1,2,.,r;j=1,2,.,ni其中诸ijN(0,2),且相互独立.要检验的假设是 H0:1=2=r本讲稿第六页,共五十九页 在这样的改变下,单因子方差分析模型中的数据结构式可以写成:所要检验的假设可以写成:为了导出检验假设的统计量,下面我们分析一下什么是引起诸Xij 波动的原因.本讲稿第七页,共五十九页 引起诸Xij 波动的原因有两个:一个是假设H0为真时,诸Xij的波动纯粹是随机性引起的;另一个可能是假设H0不真而引起的.因而我们就想用一个量来刻划诸Xij之间的波动,并把引起波动的两个原因用另两个量表示出来,这就是方差分析中常用的平方和分解法.1.2 平方和分解公式本讲稿第八页,共五十九页其中交叉乘积项本讲稿第九页,共五十九页下面我们来看各式的意义本讲稿第十页,共五十九页本讲稿第十一页,共五十九页1.3 检验统计量的构造本讲稿第十二页,共五十九页对于各组样本有因此本讲稿第十三页,共五十九页本讲稿第十四页,共五十九页本讲稿第十五页,共五十九页 一般,当FF0.01时,称因子的影响高度显著,记为“*”;当F0.01FF0.05时,称因子的影响显著,记为“*”;当FF0.05时,称因子无显著影响,即认为因子各水平间无差异.1.4 检验过程本讲稿第十六页,共五十九页本讲稿第十七页,共五十九页本讲稿第十八页,共五十九页 例例:为寻求适应本地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上得到在每一块田上的亩产量如下:我们要研究的问题是诸不同品种的平均亩产量是否有显著差异.本讲稿第十九页,共五十九页 解解:先列表计算本讲稿第二十页,共五十九页本讲稿第二十一页,共五十九页本讲稿第二十二页,共五十九页本讲稿第二十三页,共五十九页例例:下面给出了随机选取的下面给出了随机选取的,用于计算器的四种类型用于计算器的四种类型的电路的响应时间的电路的响应时间(以毫秒计以毫秒计).表表:电路的响应时间电路的响应时间类型I类型II类型III类型IV1915222018204021332716 17151826182219这里试验的指标是电路的响应时间这里试验的指标是电路的响应时间.电路类型为因素电路类型为因素.这一这一因素有四个水平因素有四个水平,试验的目的是要考察各类型电路对响应时试验的目的是要考察各类型电路对响应时间的影响间的影响.本讲稿第二十四页,共五十九页设四种类型电路的响应时间的总体均为正态设四种类型电路的响应时间的总体均为正态,且各且各总体方差相同总体方差相同,但参数均未知但参数均未知.又设各样本相互独又设各样本相互独立立.解解 分别以分别以m m1,m m2,m m3,m m4记类型记类型I,II,III,IV四种电路响应时四种电路响应时间总体的平均值间总体的平均值.我们需检验我们需检验(a a=0.05)H0:m m1=m m2=m m3=m m4,H1:m m1,m m2,m m3,m m4不全相等不全相等.现在现在n=18,s=4,n1=n2=n3=5,n4=3,试验号12345和和平方类型I1915222018948836类型II204021332714119881类型III1617151826928464类型IV182219593481本讲稿第二十五页,共五十九页ST,SA,SE的自由度依次为的自由度依次为17,3,14本讲稿第二十六页,共五十九页表:方差分析表方差来源 平方和自由度均方F值显著性因素318.983106.333.76*误差395.461428.25总和714.4417因因F0.05(3,14)=3.343.76 F0.01时,称因子的影响高度显著,记为“*”;当F0.01FF0.05时,称因子的影响显著,记为“*”;当FF0.05时,称因子无显著影响,即认为因子各水平间无差异.本讲稿第三十九页,共五十九页 例例:为了考察蒸馏水的pH值和硫酸铜溶液浓度对化验血清中白蛋白与球蛋白的影响,对蒸馏水的pH值(A)取了4个不同水平,对硫酸铜溶液浓度(B)取了3个不同水平,在不同水平组合(Ai,Bj)下各测一次白蛋白与球蛋白之比,其结果列于计算表的左上角.试检验两因子对化验结果有无显著差异.解解本讲稿第四十页,共五十九页本讲稿第四十一页,共五十九页查F-分布表得:F0.05(3,6)=4.76,F0.05(2,6)=5.14,F0.01(3,6)=9.78,F0.01(2,6)=10.9,由此可知FA F0.01(3,6);FB F0.01(2,6).所以因子A及因子B的不同水平对化验结果有高度显著影响.本讲稿第四十二页,共五十九页3 有交互作用的双因子方差分析3.1 模型本讲稿第四十三页,共五十九页本讲稿第四十四页,共五十九页本讲稿第四十五页,共五十九页本讲稿第四十六页,共五十九页3.2 平方和分解 其中n=rst 仍然用平方和分解的思想来给出检验用的统计量,先引入下述记号:本讲稿第四十七页,共五十九页由此可知本讲稿第四十八页,共五十九页总的偏差平方和可作如下的分解:本讲稿第四十九页,共五十九页其中各偏差平方和表达式如下:本讲稿第五十页,共五十九页3.3 各偏差平方和的意义 SE表示试验的随机波动引起的误差,称为误差平方和;SA除了反映了试验的随机波动引起的误差外,还反映了因子A的效应间的差异,称为因子A的偏差平方和;SB除了反映了试验的随机波动引起的误差外,还反映了因子B的效应间的差异,称为因子B的偏差平方和;SAB除了反映了试验的随机波动引起的误差外,还反映了交互效应的差异所引起的波动,称为交互作用的偏差平方和.本讲稿第五十一页,共五十九页 同无交互作用的情况类似可得:3.4 检验统计量及显著性检验本讲稿第五十二页,共五十九页 这就是用来检验假设H01,H02,H03,的统计量.按照显著性假设检验程序,对给定的显著性水平,当FAF1-(r-1,rs(t-1)时拒绝H01;当FBF1-(s-1,rs(t-1)时拒绝H02;当 FABF1-(r-1)(s-1),rs(t-1)时拒绝H03.具体的计算过程,各偏差平方和的计算也可用下面简化的表达式,且可列成一张计算表和方差分析表.本讲稿第五十三页,共五十九页本讲稿第五十四页,共五十九页本讲稿第五十五页,共五十九页 一般,当FF0.01时,称因子的影响高度显著,记为“*”;当F0.01FF0.05时,称因子的影响显著,记为“*”;当FF0.05时,称因子无显著影响,即认为因子各水平间无差异.本讲稿第五十六页,共五十九页 例例:在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验.在同一浓度与同一温度组合下各做二次试验,其收率数据如下而计算表所列(数据均已减去75).试检验不同浓度,不同温度以及它们间的交互作用对收率有无显著影响.解解:本讲稿第五十七页,共五十九页本讲稿第五十八页,共五十九页查表知F0.05(2,12)=3.89,F0.01(2,12)=6.93;F0.05(3,12)=3.49,F0.01(3,12)=5.95;F0.05(6,12)=3.00,F0.01(6,12)=4.81.由此知F0.05FA F0.01,而FBF0.05,FABF0.05.故浓度不同将对收率产生显著影响;而温度和交互作用的影响都不显著.本讲稿第五十九页,共五十九页