《spss主成分分析的实现.ppt》由会员分享,可在线阅读,更多相关《spss主成分分析的实现.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 方差分析试验设计问题试验设计问题一个养蟹户要遇到许多影响生产的因一个养蟹户要遇到许多影响生产的因素或因子(素或因子(factor),如水温,饲料,),如水温,饲料,水质等。水质等。要想稳定高产,就要进行各种因素的要想稳定高产,就要进行各种因素的不同水平不同水平(level)的搭配(组合)试验。的搭配(组合)试验。这里的这里的“水平水平”就是一个因素可能取就是一个因素可能取的值。如有三种饲料,那饲料因素就的值。如有三种饲料,那饲料因素就有三个水平。而如果水温有四种水平,有三个水平。而如果水温有四种水平,则水温和饲料就有则水温和饲料就有1212种可能的搭配。种可能的搭配。试验设计问题试验设
2、计问题试验设计模型可以说就是回归模型的试验设计模型可以说就是回归模型的一种。试验设计问题本身有很大一部一种。试验设计问题本身有很大一部分是如何设计试验,使得人们有可能分是如何设计试验,使得人们有可能用最少的资源得到最好的结果。用最少的资源得到最好的结果。这里,我们不打算详细讨论如何设计这里,我们不打算详细讨论如何设计试验,而把主要精力放在试验设计数试验,而把主要精力放在试验设计数据的方差分析和建立线性模型上。据的方差分析和建立线性模型上。 方差分析方差分析 方差分析(方差分析(analysis of variance,ANOVA)是分析各个自变量对因)是分析各个自变量对因变量影响的一种方法。变
3、量影响的一种方法。 这里的自变量就是定性变量的因子这里的自变量就是定性变量的因子及可能出现的称为协变量及可能出现的称为协变量(covariate)的定量变量。)的定量变量。 分析结果是由一个方差分析表表示分析结果是由一个方差分析表表示的。的。方差分析方差分析 原理为:把因变量的值随着自变量的不同原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。知的原因解释的则看成随机误差的贡献。 然后用各自变量的贡献和随机误差的贡献然后用各自变量
4、的贡献和随机误差的贡献进行比较(进行比较(F F检验),以判断该自变量的不检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。同水平是否对因变量的变化有显著贡献。输出就是输出就是F-F-值和检验的一些值和检验的一些p p- -值。值。 下面看一个例子。下面看一个例子。 单因素方差分析回顾单因素方差分析回顾饲料比较数据饲料比较数据, n=19头猪头猪, 用用p=4种饲种饲料喂养一段时间后的重量增加料喂养一段时间后的重量增加问题问题: : 四种饲料是否不同四种饲料是否不同? ? 饲料饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.116
5、2.7182.8220.4128.9143.8188.5212.3135.7153.5198.6SPSS中的中的数据形式数据形式饲料例子饲料例子(继续继续):饲料饲料(fodder)为自变量为自变量(单因子单因子),重量重量增加增加(weight) 为因变量为因变量(一个数量变一个数量变量量) (SPSS计算机数据形式有所不同计算机数据形式有所不同)饲料饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6均值均值A= 133.36 均值均值B=
6、152.04 均值均值C=189.72 均值均值D= 220.78对数据的描述性对数据的描述性输出输出(SPSS) (ANOVA-CONTRASTS/POST HOC-LSD,T2/OPTION-DES.,HOMO./MEAN PLOT) DescriptivesWEIGHT NMeanStd. DeviationStd. Error95% Confidence Interval for MeanMinimumMaximumLower BoundUpper BoundA5133.366.807943.04460124.9068141.8132125.3143.1B5152.046.957233
7、.11137143.4015160.6785143.8162.7C5189.726.350352.83996181.8350197.6050182.8198.6D4220.786.105943.05297211.0591230.4909212.3225.8Total19171.5234.311377.87157154.9730188.0481125.3225.84555N =fodderDCBAWEIGHT2402202001801601401201008四种饲料的箱图四种饲料的箱图 四种饲料的均值图四种饲料的均值图 fodderDCBAMean of WEIGHT24022020018016
8、0140120模型中的假定模型中的假定: :涉及的检验涉及的检验: H0: m m1=m mp212,.,(,),1,.,iiiiniyyyNipm 线性模型线性模型: :,1,., ,1,.,ijiijiyipjnm公式公式: :总平方和总平方和= =组间平方和组间平方和+ +组内平方和组内平方和 22111()()inppiijiiiijSSTSSBSSEn yyyy其中其中, SST 有自由度有自由度 n-1, SSB有自由度有自由度 p-1, SSE 有自由度有自由度 n-p,在正态分布的假设下在正态分布的假设下, 如如果各组增重均值相等果各组增重均值相等(零假设零假设), 则则 有自
9、由度为有自由度为 p-1 和和n-p 的的F 分布分布. /(1)/()MSBSSBpFMSESSEnpANOVAWEIGHT 由由SPSS可以得到方差分析表可以得到方差分析表: : Sum of SquaresDfMean SquareFSig.Between Groups20538.69836846.233157.467.000Within Groups652.1591543.477Total21190.85818该表说明各饲料之间有显著不同该表说明各饲料之间有显著不同. . (比较一元总体的比较一元总体的) ANOVAWEIGHT(重量重量) 方差分析表的说明方差分析表的说明: : Su
10、m of Squares(平方和平方和)Df自由度Mean Square(均方均方)FSig.Between Groups(处理处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(FFa a)Within Groups(误差误差)SSEn-pMSE=SSE/(n-p)Total(总和总和)SSTn-1这里这里n n 为观测值数目为观测值数目p p 为水平数为水平数, ,F Fa a满足满足 P(FFP(FFa a)=)=a a. .这是自由度为这是自由度为 p-1p-1和和n-p n-p 的的 F F- -分布的概率分布的概率 Test of Homogeneity of Var
11、iances (A robust test)这是这是SPSS输出之一输出之一, ,明白即可明白即可, ,不用记住不用记住Levene Statisticdf1df2Sig.024315.995F0.05(3,15)面积面积=0.05F (3,15)分布密度图分布密度图SPSS操作操作Compare MeansOne Way ANOVA:fodder(饲料饲料) FactorWeight(重量重量) Dependent ListOptions: Descriptive Homogeneity of VarianceMean Plot销售数据销售数据( (sales.txt) ) 研究这个数目的主
12、要目的是看销售额(因变量)研究这个数目的主要目的是看销售额(因变量)是否受到促销方式、售后服务和奖金这三个自变是否受到促销方式、售后服务和奖金这三个自变量的影响(头两个是定性变量,亦称为因子,分量的影响(头两个是定性变量,亦称为因子,分别有别有3个和个和2个水平;而定量变量奖金是协变量)个水平;而定量变量奖金是协变量)以及怎样的影响。以及怎样的影响。9.1 9.1 方差分析方差分析( (只考虑主效应只考虑主效应, ,不考虑交互效应及协变量不考虑交互效应及协变量) )首先假定因变量受到的仅有主效应首先假定因变量受到的仅有主效应(main effect)而没有交互效应)而没有交互效应(intera
13、ction)和协变量的影响。)和协变量的影响。主效应就是每个自变量对因变量的主效应就是每个自变量对因变量的单独影响,而交互效应是当两个或单独影响,而交互效应是当两个或更多的自变量的某些水平同时出现更多的自变量的某些水平同时出现时除了主效应之外的附加影响。时除了主效应之外的附加影响。9.1 9.1 方差分析方差分析( (只考虑主效应只考虑主效应, ,不考虑交互效应及协变量不考虑交互效应及协变量) ) 拿我们例拿我们例子子来说,当单独考虑时,假定主动促销来说,当单独考虑时,假定主动促销比被动促销可以多产生比被动促销可以多产生8万元效益,而有售后服万元效益,而有售后服务比没有售后服务多产生务比没有售
14、后服务多产生9万元效益。那么在没万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会有交互作用时,同时采取主动促销和售后服务会产生产生8917万元的效益(称为可加的)。万元的效益(称为可加的)。 但如果存在交互效应,那么同时采取主动促销和但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(可售后服务会产生一个附加的效应即交互效应(可能是正面的,也可能是负面的),这时的总效应能是正面的,也可能是负面的),这时的总效应就不是就不是17万元了。万元了。 如只考虑如只考虑主效应主效应。用。用y表示销售额,表示销售额,a ai表示表示促销(下标表示不同水平),促销(
15、下标表示不同水平),b bj表示售后服表示售后服务;则相应的只有主效应的线性模型为:务;则相应的只有主效应的线性模型为: ,1,2,3,1,2,1,2,3,4:)ijkijijkijkijijkyijkyabmab(或有常数项时为 这里的下标这里的下标i i代表促销的水平,下标代表促销的水平,下标j j代表代表是否有售后服务,下标是否有售后服务,下标k k代表每种代表每种ijij组合中组合中的第的第k k个观测;最后一项个观测;最后一项 ijkijk为随机误差。为随机误差。9.1 方差分析方差分析(只考虑主效应只考虑主效应,不考虑交互效应及协变量不考虑交互效应及协变量)公式公式: :总平方和总
16、平方和= =组间平方和组间平方和+ +组内平方和组内平方和 222.1111()()()pqpqijijijijijSSTSSASSBSSEqyypyyyyyy其中其中, SSA 有自由度有自由度 p-1, SSB有自由度有自由度 q-1, SSE 有自由度有自由度 (p-1)(q-1),在正态分布的假设下在正态分布的假设下, 如果各组增重均值相等如果各组增重均值相等(零假设零假设), 则则 分别有自由度为分别有自由度为 p-1 和和(p-1)(q-1) 及自由度及自由度为为q-1 和和(p-1)(q-1)的的F 分布分布. /(1)/(1);/(1)(1)/(1)(1)ABMSASSApMS
17、BSSBqFFMSESSEpqMSESSEpqTests of Between-Subjects EffectsTests of Between-Subjects EffectsDependent Variable: SALES21469.667a45367.417257.224.000579.2502289.62513.880.000532.0421532.04225.497.000417.3332020.86721887.00024SourceModelPROMOTSERVICEErrorTotalType III Sumof SquaresdfMean SquareFSig.R Squa
18、red = .981 (Adjusted R Squared = .977)a. 用我们数据拟合这个模型,用我们数据拟合这个模型,SPSSSPSS输出为输出为 促销促销(promotpromot)的的F F检验统计量检验统计量(其自由度来自其自由度来自promotpromot和和errorerror的自由度的自由度:2 2,2020)取值为取值为1 3 . 8 8 01 3 . 8 8 0 ,p p- - 值 为值 为 0 . 0 0 00 . 0 0 0 ( 更 精 确 些 是更 精 确 些 是0.00016580.0001658).而售后服务的而售后服务的F F检验统计量为检验统计量为25
19、.49725.497,p p- -值为值为0.0000.000(更精确些是更精确些是0.000061350.00006135). R2为为0.981. 这里的估计只有相对意义。一定要放在模型中,这里的估计只有相对意义。一定要放在模型中,或者考虑同一因子水平之间的差,或者考虑同一因子水平之间的差,比如比如a a1-a a3、a a2-a a3、b b1-b b2等等。等等。P Pa ar ra am me et te er r E Es st ti im ma at te es sDependent Variable: SALES28.4581.86515.260.00024.56832.348
20、32.7081.86517.539.00028.81836.59840.3331.86521.628.00036.44344.223-9.4171.865-5.049.000-13.307-5.5270a.ParameterPROMOT=.00PROMOT=1.00PROMOT=2.00SERVICE=.00SERVICE=1.00BStd. ErrortSig.Lower BoundUpper Bound95% Confidence IntervalThis parameter is set to zero because it is redundant.a. 对于这个模型,参数估计为对于这
21、个模型,参数估计为 这个模型还可以有截距,这时的这个模型还可以有截距,这时的SPSS默认约束默认约束是固定是固定a a3=b b2=0;而目前的没有截距的;而目前的没有截距的a a1,a a2,a a3的估计实际上等于截距的估计加上有截距时的的估计实际上等于截距的估计加上有截距时的a a1,a a2,a a3的估计。的估计。 由于约束条件不一样,所以各种软件的各种选项由于约束条件不一样,所以各种软件的各种选项的估计不尽相同,但相对大小是不会变的。的估计不尽相同,但相对大小是不会变的。P Pa ar ra am me et te er r E Es st ti im ma at te es sD
22、ependent Variable: SALES28.4581.86515.260.00024.56832.34832.7081.86517.539.00028.81836.59840.3331.86521.628.00036.44344.223-9.4171.865-5.049.000-13.307-5.5270a.ParameterPROMOT=.00PROMOT=1.00PROMOT=2.00SERVICE=.00SERVICE=1.00BStd. ErrortSig.Lower BoundUpper Bound95% Confidence IntervalThis parameter
23、is set to zero because it is redundant.a. 没有交互作用的模型可以从下面点图中直观看出。图没有交互作用的模型可以从下面点图中直观看出。图10.1中下面两条折线分别连接了中下面两条折线分别连接了有及没有有及没有售后服务时三售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。应综合效应是简单的加法。 Estimated Marginal Means of SALESPROMOT2.00
24、1.00.00Estimated Marginal Means5040302010SERVICE .00 1.00SPSSSPSS实现实现( (只有因子主效应的方差分析只有因子主效应的方差分析) ) 拿拿sales.sav为例,在为例,在SPSS中选中选AnalyzeGeneral Linear ModelUnivariate进入主对进入主对话框;话框; 然后把然后把sales选入选入Dependent Variable,把,把promot和和service选入选入Fixed Factors; 然后点击然后点击Model,选择,选择Custom,在,在Build Terms中选择中选择Main
25、 effects,再把再把promot(F)和和service(F)选入选入Model; 选择或不选择选择或不选择Include intercept in model则确则确定是否在模型中包含常数项;回到主对话框定是否在模型中包含常数项;回到主对话框(Continue),这时点),这时点OK即可;即可; 如果要输出参数估计可以在如果要输出参数估计可以在Options选诸如选诸如Parameter Estimates等。等。 9.2 9.2 方差分析方差分析(考虑交互效应但不考虑协变量考虑交互效应但不考虑协变量) 加上交互效应,这时的线性模型就又多了一项加上交互效应,这时的线性模型就又多了一项(
26、ab)(ab)ij: 而计算机的方差分析表的输出而计算机的方差分析表的输出(主要部分主要部分)为:为: (),1,2,3,1,2,1,2,3,4ijkijijkijyijkababTests of Betw een-Subjects EffectsDependent Variable: sales21613.750a63602.292237.296.000579.2502289.62519.079.000532.0421532.04235.048.000144.083272.0424.746.022273.2501815.18121887.00024SourceModelpromotservi
27、cepromot * serviceErrorTotalType III Sumof SquaresdfMean SquareFSig.R Squared = .988 (Adjusted R Squared = .983)a. 这个模型的交互作用可以用下面的来描述:这个模型的交互作用可以用下面的来描述: Estimated Marginal Means of SALESPROMOT2.001.00.00Estimated Marginal Means50403020SERVICE .00 1.00还要说明的是,如果每一种因还要说明的是,如果每一种因子水平的组合只有一个观测值子水平的组合只有一
28、个观测值(这里例中每个组合有四个观(这里例中每个组合有四个观测值),那么,测值),那么,无法对是否有无法对是否有交互作用进行判断;交互作用进行判断;这是由于这是由于数据量不够,交互作用即使有数据量不够,交互作用即使有也混在误差项中,无法剥离出也混在误差项中,无法剥离出来进行分析。来进行分析。 SPSSSPSS实现实现( (有交互效应有交互效应,但没有协变量的方差分析但没有协变量的方差分析 ) ) sales.sav为例,在为例,在SPSS中选中选AnalyzeGeneral Linear ModelUnivariate进入主对话框;进入主对话框; 然后把然后把sales选入选入Dependen
29、t Variable,把,把promot和和service选入选入Fixed Factors; 然后点击然后点击Model,选择,选择Custom,在,在Build Terms 中选择中选择Interaction,先把,先把promot(F)和和service(F)选入选入Model,再把,再把promot(F)和和service(F)同时选同时选入入Model(出现(出现“promot*service”);); 选择或不选择选择或不选择Include intercept in model则确定则确定是否包含常数项;回到主对话框(是否包含常数项;回到主对话框(Continue),),这时点这时
30、点OK即可;如果要输出参数估计可以在即可;如果要输出参数估计可以在Options选诸如选诸如Parameter Estimates等。等。 9.3 9.3 方差分析方差分析( (考虑协变量考虑协变量 ) ) 现在再加上作为协变量,这时的线性模型就又多了代表现在再加上作为协变量,这时的线性模型就又多了代表自变量奖金自变量奖金x的一项(加上系数的一项(加上系数g g)g gx: 而计算机的方差分析表的输出而计算机的方差分析表的输出(主要部分主要部分)为:为: (),1,2,3,1,2,1,2,3,4ijkijijkijyxijkababgTests of Between-Subjects Effe
31、ctsTests of Between-Subjects EffectsDependent Variable: SALES21799.925a73114.275608.012.000704.6332352.31768.784.000550.8621550.862107.547.000165.256282.62816.132.000186.1751186.17536.348.00087.075175.12221887.00024SourceModelPROMOTSERVICEPROMOT * SERVICEBONUSErrorTotalType III Sumof SquaresdfMean S
32、quareFSig.R Squared = .996 (Adjusted R Squared = .994)a. SPSSSPSS实现实现( (有交互效应及协变量的方差分析有交互效应及协变量的方差分析 ) ) 拿拿sales.sav为例,在为例,在SPSS中选中选AnalyzeGeneral Linear ModelUnivariate进入主对话框;进入主对话框; 然后把然后把sales选入选入Dependent Variable,把,把promot和和service选入选入Fixed Factors,把,把bonus选入选入Covariate;然后点击;然后点击Model,选择,选择Cust
33、om,在,在Build Terms中选择中选择Interaction,先把,先把promot(F),service(F)和和bonus(C)选入)选入Model,再把,再把promot(F)和和service(F)同时选入同时选入Model(出现(出现“promot*service”);); 选择或不选择选择或不选择Include intercept in model则确定则确定是否包含常数项;回到主对话框(是否包含常数项;回到主对话框(Continue),),这时点这时点OK即可;如果要输出参数估计可以在即可;如果要输出参数估计可以在Options选诸如选诸如Parameter Estima
34、tes等。等。 附:一般方差分析表的数学意义附:一般方差分析表的数学意义 而计算机的方差分析表的输出的意义为而计算机的方差分析表的输出的意义为(这里包这里包含在含在SSM中还有一个中还有一个SS和和1个自由度属于截距的个自由度属于截距的(没有用处)没有列出):(没有用处)没有列出): Tests of Between-Subjects EffectsTests of Between-Subjects EffectsDependent Variable: SALESSSM=SST-SSEa6MSM=SSM/6MSM/MSE.000SSA3-1=2MSA=SSA/2MSA/MSE.000SSB2-
35、1=1MSB=SSB/1MSB/MSE.000SSAB(3-1)(2-1)=2MSAB=SSAB/2MSAB/MSE.022SSE3*2(4-1)=18MSE=SSE/18SST3*2*4=24SourceModelPROMOTSERVICEPROMOT * SERVICEErrorTotalType III Sumof SquaresdfMean SquareFSig.R Squared = .988 (Adjusted R Squared = .983)a. 方差分析表公式的意义为:方差分析表公式的意义为: 222. .1111122. .1111121112.1() ,() ,()() ,()()()pqpqnijkijijkijpqpqnijkijijijijijkpqnijkijkpiiSSTyySSAqnyySSBpnyySSABnyyyySSEyySSTyySSASSBSSABSSEqnyy222. . .111111. .11111111()()()1111,qpqpqnijkjijijijjijijkpqqpnnnnijkiijkjijkijijkijkjkikkpnyynyyyyyyyyyyyyyyqpnqnpnn。
限制150内