正交试验设计的方差分析.ppt
正交试验设计的方差分析现在学习的是第1页,共29页 为了弥补直观分析方法的不足,可采用方差分析方法对实为了弥补直观分析方法的不足,可采用方差分析方法对实验结果进行计算分析。验结果进行计算分析。所谓方差分析就是将因素水平就是将因素水平(或交或交互作用互作用)的变化引起的实验结果间的差异与误差的波动所的变化引起的实验结果间的差异与误差的波动所引起的实验结果间的差异区分开来的一种数学方法。引起的实验结果间的差异区分开来的一种数学方法。方差分析的中心要点是方差分析的中心要点是:把实验数据总的波动分解成两:把实验数据总的波动分解成两部分,一部分反映因素水平变化引起的波动,另一部分反映实部分,一部分反映因素水平变化引起的波动,另一部分反映实验误差引起的波动。即把数据总的偏差平方和验误差引起的波动。即把数据总的偏差平方和(S(S总总)分解为因素分解为因素的偏差平方和的偏差平方和(S(SA A、S SB B、SC)与误差的偏差平方和(S(Se),并计算它们的平均偏差平方,并计算它们的平均偏差平方和和(也称均方和,或均方),然后进行检验,最后得出方差,然后进行检验,最后得出方差分析表。分析表。现在学习的是第2页,共29页二二.方差分析中的一些基本概念1.1.偏差平方和偏差平方和 方差分析的关键是对偏差平方和的分解,因此,充分理解方差分析的关键是对偏差平方和的分解,因此,充分理解这一概念是至关重要的。这一概念是至关重要的。所谓偏差平方和是指一组数据中,各个数所谓偏差平方和是指一组数据中,各个数(y(y1 1,y,y2 2,y,y3 3yyn n)与它们的算术平均数y之差的平方和。用符号之差的平方和。用符号S S来表示。即:则现在学习的是第3页,共29页为了计算方便,上式可简化为一种更常见的形式:若令:则现在学习的是第4页,共29页 偏差平方和偏差平方和(S)(S)反映了该组数据的分散或集中程度。显然,反映了该组数据的分散或集中程度。显然,S S越大,该组数据越分散;反之,越大,该组数据越分散;反之,S S越小,说明该组数据越集越小,说明该组数据越集中。中。2.2.平均偏差平方和与自由度平均偏差平方和与自由度为了合理地比较由不同个数所组成的两组数据的分散或集中的为了合理地比较由不同个数所组成的两组数据的分散或集中的程度,通常采用平均偏差平方和程度,通常采用平均偏差平方和(简称均方和简称均方和)平均偏差平方和平均偏差平方和的计算方法是:将的计算方法是:将n n个数个数(y(y1 1,y2 2,y,y3,y,yn n)的偏差平方和的偏差平方和 除以平方项的个数减除以平方项的个数减1 1,即除以(n-1)(n-1),就得到平均偏差平方和。,就得到平均偏差平方和。现在学习的是第5页,共29页 为什么不除以为什么不除以n而要除以而要除以(n-1)呢?这是因为呢?这是因为n个数(y1 1,y y2,y,y3 3,y,yn n)之间并非彼此毫无关系,它们满足的关系是:之间并非彼此毫无关系,它们满足的关系是:即n个数之和的均值为一定值,因此,n个数中只有(n-1)(n-1)个可“自由”变动,所以,求平均偏差平方和时除以(n-1)(n-1),数学上将这个,数学上将这个(n-1)(n-1)称为S S的自由度。的自由度。当实验所测得的当实验所测得的n个数(y1,y,y2 2,y,y3 3,y,yn n)数值较大时,数值较大时,为了简化计算,可将每一个原始数据为了简化计算,可将每一个原始数据y yi i(i=1,2,3(i=1,2,3n)n)都都减去同一个常数减去同一个常数C C,这并不影响偏差平方和的计算结果,但计算的工作量却简化了许多。现在学习的是第6页,共29页上述推论可通过以下简单换算予以证明。上述推论可通过以下简单换算予以证明。若令若令Xi=yi i-C(i=1,2,n)-C(i=1,2,n)则于是现在学习的是第7页,共29页3.F3.F比比与与F F分布表分布表(1)F(1)F比比 F F比比是指因素水平的改变引起的平均偏差平方和与误差的是指因素水平的改变引起的平均偏差平方和与误差的平均偏差平方和的比值。即:平均偏差平方和的比值。即:(2)F F分布表及其查阅方法分布表及其查阅方法为了判断为了判断F F比比值的大小所表明的物理意义值的大小所表明的物理意义(即即F F比比值多大时,可以认为实验结果的差异主要是由因素水平的改变所引起的;其值多小时,可以认为实验结果的差异主要是由实验误差所引起的),这就需要有一个标准来衡量,这就需要有一个标准来衡量F F比比值,此标准就是根据统计数学原理编制的F F分布表,F F分布表列出了各种自由度情况下分布表列出了各种自由度情况下F比的临界值。的临界值。现在学习的是第8页,共29页 在在F分布表上横行分布表上横行(n(n1 1:1,2,3)代表F F比比中分子的自由度;竖行(n(n2 2:1,2,3)1,2,3)代表代表F F比比中分母的自由度;表中的数值中分母的自由度;表中的数值即各种自由度情况下即各种自由度情况下F F比比的临界值。的临界值。例如,某因素例如,某因素A的偏差平方和的自由度的偏差平方和的自由度f fA A=1=1,误差,误差(e)(e)的偏差平方和的自由度f fe e=8=8,查得,查得F F0.10.1(1,8)=3.64(1,8)=3.64,这里,这里0.10.1是信度。在判断时(如判断因素如判断因素A A的水平的改变对实验结果是否有的水平的改变对实验结果是否有显著影响显著影响),信度,信度a a是指我们对做出的判断有多大的把握,若是指我们对做出的判断有多大的把握,若a=5%a=5%,那就是指当,那就是指当F FA AFF0.050.05(fA A,fe)时,大概有时,大概有95%95%的把握判断的把握判断因素因素A A的水平改变对实验结果有显著影响。对于不同的信度的水平改变对实验结果有显著影响。对于不同的信度a a,有不同的,有不同的F F分布表,常用的有分布表,常用的有a=1%,a=5%,a=10%等。等。根据自由度的大小,可在各种信度的根据自由度的大小,可在各种信度的F表上查得表上查得F比比的临界值,的临界值,分别记作分别记作F F0.01(n(n1 1,n,n2),F F0.050.05(n(n1 1,n,n2),F0.10 0.10(n(n1,n,n2)等。等。现在学习的是第9页,共29页4.4.因素的显著性判断因素的显著性判断设因素设因素A的的F F比比为为F FA A:当当FA A F0.01 0.01(n(n1 1,n,n2 2)时,说明该因素水平的改变对实验时,说明该因素水平的改变对实验结果有很显著的影响,记作结果有很显著的影响,记作*。当当F FA A F F0.05 0.05(n(n1 1,n,n2 2)时,说明该因素水平的改变对实验结果有显著的影响,记作*。当FA F F0.10 0.10(n1,n2)时,说明该因素水平的改变对实时,说明该因素水平的改变对实验结果有一定的影响,记作验结果有一定的影响,记作O O。现在学习的是第10页,共29页三三.正交试验设计的方差分析正交试验设计的方差分析 现以实验室制取现以实验室制取H H2为例,来说明正交设计的方差分析的为例,来说明正交设计的方差分析的基本方法。若该实验所考察的因素、水平如表基本方法。若该实验所考察的因素、水平如表1 1和表和表2所示。所示。因素水平AwH2SO4(%)BmCuSO45H2O(g)CmZn (g)一200.44二250.55三300.66表1.因素水平现在学习的是第11页,共29页表表2.2.实验方案及实验结果的直观分析实验方案及实验结果的直观分析 列号实验号AwH2SO4(%)BmCuSO45H2O(g)CmZn (g)空白列10min内H2的产率1111232.622212140.403313341.074123134.975221336.536322245.757132336.628233239.199331144.53现在学习的是第12页,共29页 列号实验号AwH2SO4(%)BmCuSO45H2O(g)CmZn (g)空白列10min内H2的产率K1104.21114.09122.77119.9最佳实验条件是A3B3C1K2116.12117.25115.23117.56K3131.35120.34113.68114.22k134.7838.0340.9239.96k238.7039.0838.4139.18k343.7840.1137.8938.07R9.052.083.031.89现在学习的是第13页,共29页上述正交试验设计所获得的数据,从直观分析的角度来看,提供给我们如下有用的信息:第一:从极差值的大小可以判断各个因素对实验指标影响的主次关系,即:主-次次 AAw wH2SO4H2SO4 C Cm mZn B Bm mCuSO45H2OCuSO45H2O 但是,极差值仅仅反映了各因素影响实验指标的主次关系,但是,极差值仅仅反映了各因素影响实验指标的主次关系,它不能告诉我们各个因素对实验指标影响的程度。也就是说,它不能告诉我们各个因素对实验指标影响的程度。也就是说,它既不能指明这些因素中哪个是影响实验指标的关键因素,它既不能指明这些因素中哪个是影响实验指标的关键因素,也不能提供一个标准,用来考察、判断各个因素的作用是否也不能提供一个标准,用来考察、判断各个因素的作用是否显著。显著。现在学习的是第14页,共29页第二:就因素第二:就因素A而言(因素因素B B、C C也类同),其中,其中k k1、k k2 2、k k3值之间的差异是如何产生的?是由于A A因素水平不同引起的呢?还是由于实验误差所造成的呢?还是两者综合作用的结果?从直观分析角度是无法说清楚的。正是由于直观分析存在着上述的缺点,所以需要采用方差分析的方法来弥补上述的不足。1.1.单因素实验的方差分析单因素实验的方差分析 为了便于讨论,我们仍以实验室制取为了便于讨论,我们仍以实验室制取H H2的因素之一-A-A因素因素(硫酸的质量分数硫酸的质量分数)为例,来说明单个因素的实验数为例,来说明单个因素的实验数据的方差分析方法。据的方差分析方法。现在学习的是第15页,共29页 方差分析是把实验数据总的波动方差分析是把实验数据总的波动(即数据的总的偏差平方和即数据的总的偏差平方和S S总总)分分解成两部分:一部分反映因素水平变化引起的波动解成两部分:一部分反映因素水平变化引起的波动(即因素的偏即因素的偏差平方和差平方和),对本例而言仅为,对本例而言仅为S S w wH2SO4H2SO4;另一部分反映实验误差引起;另一部分反映实验误差引起的波动的波动(即误差的偏差平方和即误差的偏差平方和S Se e)。即:。即:(1)S(1)Se e的计算的计算 参与wH2SO4某一水平的实验编号 10minH2产率A1(20%)A2(25%)A3(30%)A1(20%)A2(25%)A3(30%)12332.6240.4041.0745634.9736.5345.7578936.6239.1944.53 平均值y34.7438.7143.78表3.实验结果分析现在学习的是第16页,共29页若以若以S S1 1表示表示A A1 1水平下实验误差所引起的波动,其值应为:水平下实验误差所引起的波动,其值应为:S S1 1=(32.62-34.74)=(32.62-34.74)2 2+(34.97-34.74)2 2+(36.62-34.74)+(36.62-34.74)2 2=8.0870=8.0870。同理可以求出A2 2、A A3 3水平下实验误差所引起的波水平下实验误差所引起的波动,其值分别为动,其值分别为S S2 2=7.8389,S S3=11.7875=11.7875则,则,A A因素的各个水平下总的偏差平方和应为:S Se=S=S1 1+S2 2+S3 3=8.0870+7.8389+11.7875=27.71=8.0870+7.8389+11.7875=27.71(2)S(2)S总总的计算的计算总的偏差平方和总的偏差平方和S S总总是指全部实验数据中,每个数据是指全部实验数据中,每个数据(yi)与总平均值(y(y总总)之差的平方和,即:之差的平方和,即:现在学习的是第17页,共29页由表3知:y总=1/9(32.62+34.97+36.62+40.40+44.53)=39.08则:S总=(32.62-39.08)2+(34.97-39.08)2+(44.53-39.08)2=151.08 S总反映了实验数据总的波动情况,如果硫酸质量分数水平的改变对实验指标不发生影响,而且实验中也没有误差产生的话,那么全部实验数据理应都一样,即S总应等于零,但情况并非如此。现在学习的是第18页,共29页(3)S(3)S w wH2SO4 H2SO4(S(SA A)的计算的计算对于因素对于因素A A来讲,当它取一水平时,来讲,当它取一水平时,3 3次实验次实验(即即1 1、4 4、7 7实验实验)结果的均值结果的均值(y)(y)应为:应为:y y1 1=1/3(y=1/3(y1 1+y+y4 4+y+y7 7)=1/3(32.62+34.93+36.62)=34.74)=1/3(32.62+34.93+36.62)=34.74y y1 1代表了代表了3 3次一水平实验对次一水平实验对H H2 2产率的影响。同理:产率的影响。同理:y y2 2=1/3(y=1/3(y2 2+y+y5 5+y+y8 8)=38.71)=38.71 y y3 3=1/3(y=1/3(y3 3+y+y6 6+y+y9 9)=43.78)=43.78y y2 2、y y3 3分别代表了分别代表了3 3次二水平和三水平实验对次二水平和三水平实验对H H2 2产率的影响。因此,因产率的影响。因此,因素水平变化所引起的波动,即因素素水平变化所引起的波动,即因素A A的偏差平方和的偏差平方和S SA A应为:应为:S SA A=(yi-yyi-y总总)2 2=(34.74-39.08)=(34.74-39.08)2 2+(38.71-39.08)+(38.71-39.08)2 2+(43.78-39.08)+(43.78-39.08)2 2=123.37=123.37 上述计算结果我们可以通过上述计算结果我们可以通过S S总总=S=SA A+S+Se e式来检验式来检验S SA A和和 S Se e计算正确计算正确与否。与否。现在学习的是第19页,共29页(4)(4)自由度和平均偏差平方和的计算自由度和平均偏差平方和的计算 为了消除个数不同对实验指标所产生的影响,应采用为了消除个数不同对实验指标所产生的影响,应采用平均偏差平方和,其计算公式为:平均偏差平方和,其计算公式为:因素因素A A的平均偏差平方和的平均偏差平方和=SA A/f/fA A误差的平均偏差平方和误差的平均偏差平方和=Se e/f/fe式中SA A、S Se e分别代表因素分别代表因素A A和误差的偏差平方和和误差的偏差平方和f fA=A=A因素的水平数因素的水平数-1-1,它代表SA A的自由度的自由度f fe e=f=f总总-fA A,它代表,它代表S Se e的自由度 f f总总=总的实验次数总的实验次数-1-1,它代表S S总的自由度的自由度在本例中在本例中f f总=9-1=8,f fA A=3-1=2,f fe=8-2=6=8-2=6现在学习的是第20页,共29页(5)F(5)F值的计算及因素显著性的检验值的计算及因素显著性的检验 因素水平的变化引起的平均偏差平方和与误差的平均偏因素水平的变化引起的平均偏差平方和与误差的平均偏差平方和的比值称为差平方和的比值称为F F值,即:值,即:用F值的大小来判断因素水平对实验指标的影响。显然,只有当比值大于1时,才能表明因素水平的改变对实验指标的影响,即超过了实验误差所产生的影响。现在学习的是第21页,共29页 为了判断因素对实验结果形象的显著性的大小,须将为了判断因素对实验结果形象的显著性的大小,须将计算得到的计算得到的F F值与从F F分布表上查到的相应临界值进行比较。当F F值大于临界值时,表明该因素对实验结果影响显值大于临界值时,表明该因素对实验结果影响显著。著。就本例而言:就本例而言:F FA A=(123.37/2)/(27.71/6)=13.36=(123.37/2)/(27.71/6)=13.36查F F检验的临界值表可知:检验的临界值表可知:F0.100.10(2,6)=3.46(2,6)=3.46,F0.050.05(2,6)=5.14(2,6)=5.14,F0.010.01(2,6)=10.9(2,6)=10.9由于由于F FA F F0.100.10(2,6)(2,6),所以我们可以认为,有99%99%以上的以上的把握判断因素把握判断因素A A的水平改变对实验结果有极为显著的影响,的水平改变对实验结果有极为显著的影响,以以“*”“*”标记。由此可得出如下结论:对标记。由此可得出如下结论:对10minH2 2产率的影响是由硫酸浓度的差异所引起的。现在学习的是第22页,共29页2.多因素实验的方法分析 和单因素实验的情况一样,多因素实验方差分析的目的仍然是将实验误差所引起的结果与实验条件的改变(即各因素水平的改变即各因素水平的改变)所引起的结果区分开来,以便所引起的结果区分开来,以便能抓住问题的实质,此外,多因素实验的方差分析还要将影能抓住问题的实质,此外,多因素实验的方差分析还要将影响实验结果的主要因素和次要因素区分开来,以便集中力量响实验结果的主要因素和次要因素区分开来,以便集中力量研究主要因素。研究主要因素。我们仍以实验室制取我们仍以实验室制取H2 2为例,来阐明多因素单指标实验方差分析的基本步骤。现在学习的是第23页,共29页(1)(1)因素的偏差平方和的计算因素的偏差平方和的计算自由度f=3-1=2,为了简化计算,上式可写为其中CT=G2/n现在学习的是第24页,共29页则则将数据带入上式CT=G2/9=(351.68)2/9=13742.09现在学习的是第25页,共29页S SA A=(104.212 2+116.12+116.122 2+131.35+131.352 2)/3-(13742.09)/9=123.37)/3-(13742.09)/9=123.37同理,可以计算出因素B和因素C的偏差平方和SB B、SC(其自由度fB B=fC=3-1=2),SB B=6.51,SC C=15.77,SA A、SB、SC C反映了因素A、B、C的3个水平所引起的实验结果的差异。现在学习的是第26页,共29页(2)误差的偏差平方和的计算误差的偏差平方和的计算 对于误差的偏差平方和对于误差的偏差平方和(S(Se e),可用正交表中未安排因素,可用正交表中未安排因素的空白列的偏差平方和来计算。因为空白列未安排因素,它的空白列的偏差平方和来计算。因为空白列未安排因素,它们的偏差平方和中不包括因素水平的变化所引起的实验结果们的偏差平方和中不包括因素水平的变化所引起的实验结果的误差,仅仅反映了实验误差的大小。的误差,仅仅反映了实验误差的大小。本例中:本例中:S Se e=S=SD D=(K=(K1 12 2+K2 22 2+K+K3 32)/3-CT=5.43误差的自由度:误差的自由度:f fe=f=f总总-fA A-f-fB B-f-fC C=(9-1)-2-2-2=2应当指出,当正交表中空白列不是一列时,可将空白列应当指出,当正交表中空白列不是一列时,可将空白列的的S S值相加作为误差的估计值。值相加作为误差的估计值。现在学习的是第27页,共29页(3)(3)因素的显著性检验因素的显著性检验分别计算出因素分别计算出因素A A、B B、C C的的F F值:值:查F分布表可知:F0.10(2,2)=9.00,F0.05(2,2)=19.0F0.01(2,2)=99.0由于F0.05(2,2)FA F0.01(2,2),FB F0.10(2,2)FC F0.10(2,2)由此可见,显著性分别为:现在学习的是第28页,共29页硫酸的质量分数硫酸的质量分数 *(显著显著)硫酸铜晶体加入量和锌加入量硫酸铜晶体加入量和锌加入量 (不显著不显著)本例通过方差分析表明:硫酸质量分数的改变对H H2产产率有显著影响,依据率有显著影响,依据K K值可知,选取硫酸的质量分数的三值可知,选取硫酸的质量分数的三个水平,即个水平,即30%30%为最好;硫酸铜的加入量对H2 2产率无显著影响,在最佳实验条件中,取三水平为好;锌的加入量对H H2 2产率无显著影响,同样,在最佳实验条件中取产率无显著影响,同样,在最佳实验条件中取一水平为好。一水平为好。现在学习的是第29页,共29页