SPSS统计分析第五章方差分析.ppt
SPSS统计分析第五章方差分析分析第五章方差分析一、方差分析的概念一、方差分析的概念 在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间差异。不同实验条件下样本均值间差异。方差分析是检验两个或多个样本均数间差异是否具有统计意义的一种统计学方法。方差分析是检验两个或多个样本均数间差异是否具有统计意义的一种统计学方法。方差分析主要用于均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用和方差齐性检验;举例:几种药物对某疾病的疗效;不同饲料对牲畜体重增长的效果;1方差分析原理方差分析原理 随机误差,例如测量误差造成的差异,称为组内差异。用变量在各组的均值与该组内变量值之偏(离均)差平方和的总和表示。记作SS组内。实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏(离均)差平方和的总和表示。记作SS组间。SS组间、SS组内除以各自的自由度得到其均方值即组间均方和组内均方。一种情况是处理没有作用,即各样本均来自同一总体。MS组间/MS组内1。考虑抽样误差的存在,则有MS组间/MS组内1。另一种情况是处理因素确实有作用。组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,组间均方会远远大于组内均方。MS组间MS组内。MS组间/MS组内比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。2方差分析的假设检验方差分析的假设检验 假设有m个样本,如果原假设H0:样本均数都相同1=2=3=m=,m个样本有共同的方差2。则m个样本来自具有共同的方差2和相同的均数的总体。如果经过计算结果组间均方远远大于组内均方的FF0.05(f组间,f组内),(括号中的两个f是自由度)则p0.05,推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异,有统计意义。否则,FF0.05(f组间,f组内),P0.05承认原假设,样本来自相同总体,处理无作用。二、方差分析中的术语二、方差分析中的术语因素与处理(Factor and Treament)水平(Level)单元(Cell)因素的主效应和因素间的交互效应均值比较协方差分析1因素与处理因素与处理因素(Factor)是影响因变量变化的客观条件客观条件;例如影响农作物产量的因素有气温、降雨量、日照时间等;处理(Treatments)是影响因变量变化的人为条件人为条件。也可以通称为因素通称为因素。如研究不同肥料对不同种系农作物产量的影响时农作物的不同种系可称为因素,所施肥料可视为不同的处理。一般情况下一般情况下Factors与与Treatments在方差分析中可作相同理解在方差分析中可作相同理解。在要求进行方差分析的数据文件在要求进行方差分析的数据文件中均作为分类变量出现。中均作为分类变量出现。即它们的值只有有限个取值。即使是气温、降雨量等平常看作是连续变量的,在方差分析中如果作为影响产量的因素进行研究,就应该将其数值用分组定义水平的方法事先变为具有有限个取值的离散变量2水平水平因素的不同等级称作水平。例如,性别因素在一般情况下只研究两个水平:男、女。化学实验或生物实验中的“剂量”必须离散化为几个有限的水平数。如:1ml、2ml、4ml三个水平。应该特别注意的是在SPSS数据文件中,作为因素出现的变量不能是字符型变量,必须是数值型变量。例如性别变量SEX,定义为数值型,取值为0、1。换句话说,因素变量的值实际上是该变量实际值的代码,代码必须是数值型的。可以定义值标签F、M(或Fema1e、ma1e)来表明0、1两个值的实际含义,以便在打印方差分析结果时使用。使结果更加具有可读性。3.单元(单元(Ce11)在方差分析中Cell指各因素的水平之间的每个组合。例如研究问题中的因素有性别Sex,取值为1、2;有年龄,分三个水平1(10岁)、2(11岁)、3(12岁)。两个变量的组合共可形成六个单元:1,1、1,2、1,3、2,1、2,2、2,3,代表两种性别与三种年龄的六种组合。4因素的主效应和因素间的交互效应因素的主效应和因素间的交互效应有A、B两种药物治疗缺铁性贫血,患者12例,分为4组。实验方案是:第一组用一般疗法;第二组在一般疗法基础上加用A药;第三组在一般疗法基础上加用B药,第四组在一般疗法基础上A、B两药同时使用。一个月后观察红细胞增加数。要求分析两种药物的疗效(数据下表)。实验数据实验数据l这是个双因素方差分析的问题,因素A与因素B。每个因素均有用该药与不用该药两个水平,研究药物A和B是否对红细胞的增加有显著影响是对红细胞增加数的均值作以下比较:红细胞增加数(百万/m3)第一组第二组第三组第四组0.81.30.92.10.91.21.12.20.71.11.02.0各组平均值0.81.21.02.1比较第二组的均值与第一组的均值是否有显著性差异。比较第三组的均值与第一组的均值是否有显著性差异。前两项研究的是A、B两因素的主效应。除了比较第四组的均值与第一组的均值是否有显著性差异外还要研究A药对B药的疗效是否有影响。若A药对B药疗效无影响,那么除抽样误差外,第四组与第二组均值之差应该等于第三组均值减去第一组均值。但是实际上(2.11.2)=0.9;(1.00.8)=0.2。竞相差0.7,该差值几乎与第一组均值相同。0.7的差值包括抽样误差和A、B药的相互作用。因素之间的相互作用在统计学上称之为交互效应。如果交互效应存在,说明两个因素不是相互独立的。5均值比较均值比较均值的相对比较是比较各因素对因变量的效应的大小的相对比较。例如研究A、B效应之和是否等于它们的交互效应。或者研究A、B对红细胞增加数的效应是否相等,等。均值的多重比较是研究因素单元对因变量的影响之间是否存在显著性差异,例如例题中研究A、B药物对红细胞增加数的疗效是否存在显著性差异。6协方差分析协方差分析在一般进行方差分析时,要求除研究的因素外应该保证其他条件的一致。作动物实验往往采用同一胎动物分组给予不同的处理,研究各种处理对研究对象的影响就是这个道理。例如研究身高与体重的关系时要求按性别分别进行分析。这样消除性别因素的影响。不同年龄的身高对体重的关系也是有区别的,被测对象往往是不同年龄的。要消除年龄的影响,应该采用协方差分析。三、方差分析过程SPSS提供的方差分析过程有:lOne-way过程(One-way ANOVA)lGeneral Linear Model(简称GLM,一般线性模型)过程(一)(一)One-way过程过程One-way过程就是单因素简单方差分析过程,它在Analyze菜单中的Compare Means过程组中,用 One-way ANOVA菜单项调用,可以进行单因素方差分析、均单因素方差分析、均值多重比较和相对比较。值多重比较和相对比较。1、单因素方差分析、单因素方差分析单因素方差分析也称作一维(元)方差分析。它检验由单一因素单一因素影响的一个(或几个相互独立的)因变量按因素各水平分组各水平分组的均值之间的差异是否具有统计意义。还可以对该因素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析即进行均值的多重比较。One-way ANOVA过程适用情况过程适用情况One-way ANOVA过程要求因变量属于正态分布总体;如果因变量的分布明显的是非正态,不能使用该过程,而应该使用非参数分析过程;如果几个因变量之间彼此不独立,应该用GLM过程。例例 题题l用4种饲料喂猪,共19头猪分为四组,每组用一种饲料。一段时间后称重。猪体重增加数据如下。比较四种饲料对猪体重增加的作用有无不同。饲 料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6步步 骤骤1、建立数据库Fodder变量:数值型,取值1、2、3、4分别代表A、B、C、D四种饲料。Weight变量:数值型,其值为猪体重的增加数。应该特别注意,不能把A、B、C、D定义为四个变量。2、调用One-way过程进行单因素方差分析l第一栏:方差来源l第二栏:离均差平方和l第三栏:自由度l第四栏:均方差(第二栏与第三栏之比)l第五栏:F值(组间均方与组内均方之比)l第六栏:F值对应的概率即P值3、结果说明4、结果分析根据输出的p值为0.000可以看出,无论临界值取0.05,还是取0.01,P值均小于临界值。因此否定H0假设,四种饲料对猪体重均数有显著性意义,结论是四种饲料对猪体重的增加明显作用不同。根据该结论选择饲料,犯错误的概率几乎为0。存在问题与解决方法 本例只考虑了猪体重的增加量,对其均值进行了比较但实际工作中的问题往往不是这样简单,例如是否应该考虑每头猪的进食量对体重增加的影响,去除这个影响比较猪体重的增加会对饲料比较得出更切合生产实际的结论。这个问题应该使用ANOVA过程的协方差分析功能去解决。使用系统默认值进行单因素方差分析只能得出是否有显著性差异的结论,本例数据量少,哪两组之间差别最大,哪种饲料使猪体重增加更快,几乎是可以看出来的。实际工作中往往需要两两的组间均值比较。这就需要使用 One-way ANOVA进行单因素方差分析时使用选择项从而获得更丰富的信息,使分析更深入。单因素方差分析的选择项单因素方差分析的选择项lContrasts:可以指定一种要用t检验来检验的Priori对比,即进行均值的多项式比较选项;lPost Hoc:可以指定一种多重比较检验;lOption:可以指定要输出的统计量,指定处理缺失值的方法。Contrasts(均值的多项式选项)(均值的多项式选项)lPolynomial(多项式比较):均值的多项式比较是包括两个或更多个均值的比较。单因素方差分析的One-way ANOVA过程允许进行高达5次的均值多项式比较。Linear线性、Quadratic二次、Cubic三次、4th四次、5th五次多项式 lCoefficients:为多项式指定各组均值的系数。因素变量分为几组,输入几个系数,多出的无意义。如果多项式中只包括第一组与第四组的均值的系数,必须把第二个、第三个系数输入为0值。如果只包括第一组与第二组的均值,则只需要输入前两个系数,第三、四个系数可以不输入。多项式的系数需要由读者自己根据研究的需要输入。可以同时建立多个多项式。一个多项式的一级系数输入结束,激活Next按钮,单击该按钮后Coefficients 框中清空,准备接受下一组系数数据。如果认为输入的几组系数中有错误,可以分别单击Previous或Next按钮前后翻找出错误的一组数据。单击出错的系数,该系数显示在编辑框中,可以在此进行修改,修改后年击Change按钮,在系数显示框中出现正确的系数值。当在系数显示框中选中一个系数时,同时激活Remove按钮;单击该按钮将选中的系数清除。l左图是要求计算:1.7mean11mean4的值。检验的假设H0:第一组值的的1.7倍与第四组的均值相等。Post Hoc(均数的多重比较选项)(均数的多重比较选项)l进行多重比较是对每两个组的均值进行如下比较:MEAN(i)-MEAN(j)4.6625RANGESQRT(1/N(i)+1/N(j);其中i、j分别为组序号,MEAN(i)、MEAN(j)分别为第i、j组均值,N(i)、N(j)分别为第i、j组中的观测数。各组均值的多重比较方法的算法不同RANGE值也不同。lLSD(最小显著差异法):用 t检验完成各组均值间的配对比较。对多重比较误差率不进行调整;lBonferroni(修正最小显著差异法):用 t检验完成各组均值间的配对比较,但通过设置每个检验的误差率来控制整个误差;lSidak(斯达克法):计算t统计量进行多重配对比较,可以调整显著性水平,比Bonferroni法的界限要小lScheffe(谢弗检验法):对所有可能的组合进行同步进入的配对比较,这些选择可以同时选择若干个,以便比较各种均数比较方法的结果;lR-E-G-W F(赖安艾耶盖F法):用F检验进行多重比较检验;lR-E-G-W Q(赖安艾耶盖F法):正态分布范围进行多重配对比较;lS-N-K(SNK法):用student range分布进行所有各组均值间的比较;该过程各组均值从lTukey(图基法):用student-range统计量进行所有组间均值的配对比较,将所有配对比较误差率作为实验误差率;lTukeys-b(图基s-b法):用student range分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值;lDuncan(邓肯法):指定一系列的的Range值,逐步进行计算比较得出结论;lHochbergs GT2(霍耶比GT2法):用正态最大系数进行多重比较;lGabriet(盖比理法):用正态标准系数进行配对比较,在单元数较大时,这种方法较自由;lWaller-Duncan(瓦尔-邓肯法):用t统计量进行多重比较检验。使用贝耶斯接近;lDunnett(邓尼特法):方法是选择最后一组为对照,其他各组和它比较;选定此方法后,激活下面的Control Catetory参数框,展开小菜单,选择对照组lTamhanes T2(塔海尼T2法):t检验进行配对比较;lDunnetts T3(邓尼特T3法):正态分布下的配对比较;lGames-Howell(盖门-霍威尔法):方差不齐时的配对比较,该方法较灵活;lDunnettC(邓尼特C法):正态分布下的配对比较。Options(输出统计量的选择输出统计量的选择)lDescriptive复选项,要求输出描述统计量。选择此项,会计算并输出:观测量数目、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95置信区间;lFix and random effects:输出固定与随机效应;Options(输出统计量的选择输出统计量的选择)lHomogeneity of variance复选项,要求进行方差齐次性检验,并输出检验结果。用Levene test检验,即计算每个观测量与其组均值之差,然后对这些差值进行一维方差分析;lBrown-Forsythe:布朗福塞斯统计量lWelch:韦尔奇统计量 Options(输出统计量的选择输出统计量的选择)lMean plot复选项,即均数分布图,根据各组均数描绘出因变量的分布情况;lMissing Values栏中,选择缺失值处理方法。Exclude cases analysis by analysis选项,对含对含有缺失值的观测量有缺失值的观测量根据缺失值是因变量还是自变量从有关的分析中剔除从有关的分析中剔除。Exclude cases listwise选项对含有缺失值的观测对含有缺失值的观测量从所有分析中剔除量从所有分析中剔除 例题一例题一l用4种饲料喂猪,共19头猪分为四组,每组用一种饲料。一段时间后称重。猪体重增加数据如下。比较四种饲料对猪体重增加的作用有无不同;并比较、D饲料效应和与B、C饲料效应和之间是否有显著性差异,A、C饲料效应和与B、D效应和之间是否有显著性差异。Data12-01饲 料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6指定多项式系数指定多项式系数l1.0mean11.0mean21.0mean31.0mean4检验饲料对使猪体重增加的效应,A、D饲料效应和与B、C饲料效应和之间是否有显著性差异;l1.0mean11.0mean21.0mean31.0mean4检验 A、C饲料效应和与B、D效应和之间是否有显著性差异。结果分析结果分析(1)描述统计量结果描述统计量结果l给出了四种饲料分组的样本含量N、平均数Mean、标准差 Std Deviation、标准误 Std Error、95的置信区间、最小值和最大值;结果分析结果分析(2)方差齐次性检验结果方差齐次性检验结果l从显著性概率看,P0.9950.05,说明各组的方差在=0.05水平上没有显著性差异,即方差具有齐次性。这个结论在选择多重比较方法时作为一个条件。结果分析结果分析(3)方差分析结果方差分析结果l与未使用选择项的输出结果一样给出了组间、组内的偏差平方和、均方、F值和概率P值。P0.05;Contrast2,p0.05;说明各组方差具有齐次性。结果分析结果分析(8)均数图形均数图形l以因素变量fodder为横轴,以独立变量Weight为纵轴而绘制的均数散点图。可看出各组均数的水平分布。特别说明特别说明应该特别说明的是,选取哪些选择项是根据研究需要进行的。本例中希望比较各种饲料对猪体重增加的效应,因此选择多重比较的选择项。相对比较在此例中无实际相对比较在此例中无实际意义,意义,只是为了说明选择项的使用方法才选择了Contrast 选择项。例题二例题二同种三叶草被接种上不同的菌种测量三叶草植物中含氮量。每组数据中前面一个是菌种代码,变量名是strain,SPSS分析过程要求因素变量必须为数值型变量。后面一个是含氮量,变量名是nitrogen。Data12-02练习一练习一l用二氧化硒50mg对大鼠染尘后不同时期全肺湿重的变化见下表,试比较染尘后1个月,3个月,6个月,三个时期的全肺湿重有无差别。1个月3个月6个月3.43.43.63.64.44.44.33.45.14.14.25.04.24.75.53.34.24.7 练习二练习二l为试验三种镇咳药,先以NH.OH0.2ml对小白鼠喷雾,测定其方式咳嗽的时间,然后分别用药灌胃,在同样条件下再测定发生咳嗽的时间,并以“用药前的时间用药后的时间”之差为指标,计算延迟咳嗽时间(秒)。试比较三种药物的镇咳作用。可待音复方2号复方1号6050403020101004535855525202020551515458035301015751055105753010256070456560453050SPSS 10.0简明教程网址简明教程网址(二)(二)General Linear Model(简称(简称 GLM,一般线性模型)过程,一般线性模型)过程 GLM过程可以完成实验设计的多自变量、多水平、多因变量、重复测量方差分析以及协方差分析等。它包括:单变量方差分析(Univariate),多变量方差分析(Multivariate),重复测量方差分析(Repeated Measures),方差分量估计法(Variance)与协方差分析(ANCOVA)。GLM过程由Analyze菜单直接调用,该过程可以完成简单的多因素方差分析和协方差分析,并且不但可以分析各因素的主效应,还可以分析各因素间的交互效应。1、单变量多因素方差分析过程、单变量多因素方差分析过程单因变量多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进单因变量多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的回归分析和方差分析。利用该方差分析过程,可以检验不同组之间均数由于受行的回归分析和方差分析。利用该方差分析过程,可以检验不同组之间均数由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作用,以及分析协方差和协方差交互作用。以分析因素之间的交互作用,以及分析协方差和协方差交互作用。单变量多因素方差分析调用步骤单变量多因素方差分析调用步骤(1)主对话框)主对话框lDependent Variable:定义因变量;lFixed Facter:定义固定变量;lRandom Facter:定义随机变量;l如果需要去除协变量的影响,将协变量移到Covariates框中;l如果需要分析权重变量的影响,将权重变量移到WLS Weight框中。(2)功能按钮)功能按钮Model:选择分析模型;Contrast:选择对照方法;Plots:选择分布图形;Post Hoc:选择多重比较分析;Save:选择保存运算值;Option:选择输出项。Model按钮按钮、在、在Specify Model栏中指定模型类型栏中指定模型类型lFull Factorial选项,此项为系统默认的模型类型。该项选择建立全模型。全模型包括所有因素变量的主效应和所有的交互效应。例如有三个因素变量,全模型包括三个同素变量的主效应、两两的交互效应和三个因素的交互效应。lCustom选项,建立自定义的模型。此项的选择激活下面各操作框、建立自定义模型类型、建立自定义模型类型l选择了Custom 后,在FactorsCovariates框中自动列出可以作为因素变量的变量名,其变量名后面的括号中标有字母“F”;和可以作为协变量的变量名,其变量名后面的括号中标有字每“C”。A、选择模型中的主效应、选择模型中的主效应(Model)n鼠标键单击某一个单个的因素变量名该变量名背景将改变颜色(一般变为蓝色),单击Build Term(s)栏中下面的箭头,该变量出现在Mode1中。一个变量名占一行称为主效应项。欲在模型中包括几个主效应项,就进行几次如上的操作。注意,选择主效应必须选择一个,用箭头按钮送入模型一个。也可以同时送两个或多个到Model框中。B、选择交互效应类型、选择交互效应类型lInteractin选项,选中此项可以指定任意的交互效应;lMain effects选项,选中此项可以指定主效应;lAll2-way选项,指定所有2维交互效应;lAll3-way选项,指定所有3维交互效应;lAll4-Way选项,指定所有4维交互效应;lAll4-Way选项,指定所有5维交互效应。C、建立模型中的交互项、建立模型中的交互项 利用选中的交互效应类型可以建立模型中的交互项了。例如,因素变量有Light(F)、Device(F)、Target(F)。要求模型中包括变量Light与Device交互效应,相应的操作是在FactorsCovariates框内的变量表中,用鼠标单击device变量使其背景改变颜色,此为选择了交互项之一,再用鼠标单击变量light变量使其背景改变颜色;此为选择了交互项之二。单击Build Term(s)栏内参数框的箭头按钮,一个交互效应出现在Model框中。模型增加了一个交互效应项:device*light。要求模型中包括三个变量的所有2维交互效应项时应该分别用鼠标单击light、Device、Target三个变量名。在Build Term(s)栏内参数框中选择All2way项,单击箭头按钮。在Model中出现三个 2维交互效应项:light*device、light*target、device*target。若要求模型中包括所有3维效应,由于可以作为因素变量的只有三个变量,因此可以有两种操作方法。鼠标分三次单击变量 light、device、target。选择 Build Term(s)栏内参数框中的Interaction或All3way项,再申击箭头按钮,均可以在Model框中出现3维交互效应项:ligh*device*target。、选择分解平方和的方法、选择分解平方和的方法l在对话框的下部有 Sum of squares后跟一个矩形框,可以进行四项选择来确定平方和的分解方法,包括TYPE、TYPE、TYPE 和TYPEIV四种。其中TYPE是系统默认的,也是常用的一种。Contrasts按钮按钮l在Factors框中显示出所有在主对话框中选中的因素变量。因素变量名后的括号中是当前的对比方法了;lChange Contrast栏中改变对照方法。可供选择的参照方法可供选择的参照方法lNone选项,不进行均数比较;lDeviation选项,比较预测变量或因素的每个水平的效应。选择Last或First作为忽略的水平;lSimple选项,除了作为参考的水平外对预测变量或因素变量的每一水平都与参考水平进行比较。选择Last或Firt作为参考水平;lDifference选项,对预测变量或因素每一水平的效应,除第一水平以外,都与其前面各水平的平均效应进行比较。与Helmert对照方法相反;对照的参考水平对照的参考水平l 对照的参考水平有两个,只有选择了Deviation或Simple 方法时需要选择参考水平。共有两种可能的选择,最后一个水平Last选项和第一水平Fist选项。系统默认的参考水平是Last。Plots按钮按钮lFacror:主对话框中所选因素变量名;lHorizontal:横坐标框lSepariate Lines:纵坐标框lSepariate Plots:散点框Post Hoc按钮按钮l选择均数多重比较,具体内容参见One-way过程Save按钮按钮(选择保存运算值选择保存运算值)l通过在对话框中的选择,可以将所计算的预测值、残差和检测值作为新的变量保存在编辑数据文件中。以便在其他统计分析中使用这些值。Save按钮按钮(选择保存运算值选择保存运算值)Predicted Values(预测值)lUnstandardized:非标准化预测值lWeighted:如果在主对话框选择了WLS变量,选中该复选项将保存权重非标准化预测值lStandard Error:预测值误差Save按钮按钮(选择保存运算值选择保存运算值)Diagnostics(诊断值栏)lCooks distance:Cook距离;lLeverage values:非中心化Leverage值;Save to new filel将参数协方差矩阵保存到一个新文件中Save按钮按钮(选择保存运算值选择保存运算值)Residuals(参差栏)lUnstandarized:非标准化参差,观测值与预测值之差;lWeighted:如果在主对话框选择了WLS变量,选中该复选项将保存权重非标准化参差;lStandardized:标准化参差;lStudentized:学生化参差;lDeleted:剔除参差,自变量与校正预测值之差。Option按钮按钮(选择输出项选择输出项)