统计学-思想方法与应用(袁卫等)第七章方差分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学-思想方法与应用(袁卫等)第七章方差分析.ppt》由会员分享,可在线阅读,更多相关《统计学-思想方法与应用(袁卫等)第七章方差分析.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学:思想、方法与应用统计学:思想、方法与应用袁卫袁卫刘超刘超第第7 7章章 方差分析方差分析7.1单因素方差分析单因素方差分析7.2方差分析回顾方差分析回顾7.3双因素方差分析双因素方差分析学习目标学习目标 了解方差分析的一般思想;了解方差分析的一般思想;明白单因素方差分析能解决什么问题;明白单因素方差分析能解决什么问题;了解为什么要介绍双因素方差分析;了解为什么要介绍双因素方差分析;相关理论在统计学软件中的应用。相关理论在统计学软件中的应用。相应统计分析结果的解读。相应统计分析结果的解读。方差分析(方差分析(AnalysisofVariance,ANOVA)是英国统计学家罗纳德费歇尔(R
2、onald Fisher)20世纪年代发展起来的一种在实践中被广泛运用的统计方法。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上,它所研究的是分类型自变量对数量型因变量的影响,这使得它同后面一章介绍的回归分析关系密切,但是又不完全相同。如果有一个人们感兴趣的指标(因变量),其变化可能受到众多离散型因素(如性别、种族、职业等)而不是连续型因素(如年龄、收入、价格等)的影响,我们可以考虑使用方差分析。这些影响因变量的离散型因素称为因素因素或因子(因子(factor),因因素素的取值称为水平(水平(level)或处理(处理(treatment)。这里,因素就是变量,水平就是该变量的取值,
3、这些名词是分类或属性变量所特有的。为了了解哪些因素对感兴趣的指标(因变量)有影响,我们必须在众多因素中确定哪些因素影响大些,哪些影响小些,以便于进一步研究对因变量的预测和控制。为什么我们要学习方差分析为什么我们要学习方差分析为什么不能用前几章讨论的检验来比较总体的均值差异呢?可以每次比较两组均值,但是会累加了第一类错误。假设我们采用中不同的方法(A,B,C,D)训练新射击手。在训练结束后,我们用普通的检验方法比较不同射击技巧的成绩。研究问题:4组射击成绩的均值是否存在差异?回答这个问题我们需要比较4种训练方法。为什么我们要学习方差分析为什么我们要学习方差分析用t分布比较4组总体均值,需要进行6
4、次不同的t检验。也就是说,我们需要分别比较4种方法的平均成绩:A和B,A和C,A和D,B和C,B和C,以及C和D。如果显著性水平设为0.05,那么正确判断的概率为0.95。因为我们分别进行6次独立的检验,任何一次检验都不做错误判断的概率为:P(都正确)=0.956=0.735因此,至少一次错误的概率为1-0.735=0.265。总之,如果我们用t分布分别做6次独立的检验,至少有一样本错误发生的概率从0.05上升到了0.265。显然我们需要用更好的办法来而非6次t检验,方差分析允许我们同时比较多个处理的均值并且避免了第一类错误概率的增加。7.1 7.1 单因素方差分析单因素方差分析例例7.1 研
5、究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。开始,他将土地分成大小相同的24块。小麦在同时以相同的方式播种,唯一差别就是所施的肥料不同,8块地用A,8块地用B,其余8块地用C。在收割的季节,记下每块地的小麦产量。这里三种不同的肥料就是三种不同的处理。产量用公斤表示。数据见表7.1。ABC570660540560760580610670530580710550590630520580730560630640510600680530小麦产量与化肥品牌之间的关系小麦产量与化肥品牌之间的关系为了显示平均产量是否随化肥品牌不同而不同,我们首先看散点图7.1。这里的散点图与前面介
6、绍的散点图有一些不一样,其横轴是分类变量。小麦产量与化肥品牌之间的关系小麦产量与化肥品牌之间的关系从散点图可以发现,不同品牌的化肥所导致的小麦平均产量的确是有明显差别的。而且即使是同一品牌,小麦的产量也明显不同。这些区别至少说明,小麦的产量与化肥的品牌之间是有关系的。如果这三块地的小麦产量差不多,则可以认为小麦的产量与化肥的品牌之间是没有关系的。小麦产量与化肥品牌之间的关系小麦产量与化肥品牌之间的关系为了更容易的找出各化肥品牌的小麦平均产量的不同,我们对每个化肥品牌做一个箱线图。小麦产量与化肥品牌之间的关系小麦产量与化肥品牌之间的关系比较基于数据的箱线图可以揭示小麦产量的哪些信息呢?首先应该来
7、对比不同化肥品牌的中位数,因为它们代表中心值。当我们仔细看盒子中间代表中位数的横线时,就会注意到品牌B的中位数最高。因此可以断定这个品牌的化肥的小麦产量最高。类似的,品牌C的中位数最低,则品牌C的化肥的小麦产量最低。品牌B的化肥的小麦产量居中。箱线图的另一个特征是盒子的高度不同。例如品牌A和品牌C的盒子高度接近,都比品牌B盒子要矮,这就意味着品牌A和品牌C这两种化肥下的小麦产量波动性都小比品牌B的化肥下的小麦产量。关系强度有多大?关系强度有多大?箱线图比散点图更能显示各地区之间小麦产量的不同和两个变量间存在关系。但我们还想知道这两个变量之间关系的强度,以及这个关系是否可能出于偶然。要回答这些问
8、题我们还需要做进一步的工作,即利用方差分析。我们的兴趣在均值上,但在判断均值之间是否有差异时要借助于方差。关系强度有多大?关系强度有多大?原理为:把因变量的值随着自变量的不同原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献然后用各自变量的贡献和随机误差的贡献进行比较(进行比较(F检验),以判断该自变量的不检验),以判断该自变量的不同水平是否对因变量的变化有显
9、著贡献。同水平是否对因变量的变化有显著贡献。输出就是输出就是F-值和检验的一些值和检验的一些p-值。值。方差分析原理方差分析原理模型中的假定模型中的假定:涉及的检验涉及的检验:H0:m m1=m mp线性模型线性模型:公式公式:总平方和总平方和=组间平方和组间平方和+组内平方和组内平方和 其中其中,SST 有自由度有自由度n-1,SSB有自由度有自由度p-1,SSE 有自由度有自由度n-p,在正态分布的假设下在正态分布的假设下,如如果各组增重均值相等果各组增重均值相等(零假设零假设),则则 有自由度为有自由度为p-1 和和n-p 的的F 分布分布.在在总总体中的关系如何?体中的关系如何?由由S
10、PSSSPSS可以得到方差分析表可以得到方差分析表:来源来源平方和平方和比例比例自由度自由度均方均方F-比比p-值值化肥化肥868000.80224340042.60.00000004残差残差214000.198211019总计总计1082001.00023该表说明我们要拒绝零假设,各化肥该表说明我们要拒绝零假设,各化肥品牌导致的小麦产量之间有显著不同品牌导致的小麦产量之间有显著不同.方差分析表的说明方差分析表的说明:Sum of Squares(平方和平方和)Df自由自由度度Mean Square(均方均方)FSig.Between Groups(处理处理)SSBP-1MSB=SSB/(p-
11、1)F=MSB/MSEP(FFa a)Within Groups(误差误差)SSEn-pMSE=SSE/(n-p)Total(总和总和)SSTn-1这里这里n n 为观测值数目为观测值数目p p 为水平数为水平数,F Fa a满足满足 P(FFP(FFa a)=)=a a.这是自由度为这是自由度为 p-1p-1和和n-p n-p 的的 F F-分布的概率分布的概率 7.1.4 F7.1.4 F检验:比较均值检验:比较均值虽然方差分析拒绝了零假设,但是我们虽然方差分析拒绝了零假设,但是我们可能还有一些疑惑,可能还有一些疑惑,比如(比如(1)到底哪两种品牌化肥的小麦平)到底哪两种品牌化肥的小麦平均
12、产量不相同?均产量不相同?(2)如果两种化肥的小麦平均产量不同,)如果两种化肥的小麦平均产量不同,那么它们的平均产量底有多大差别?那么它们的平均产量底有多大差别?7.1.4 F7.1.4 F检验:比较均值检验:比较均值为了找到是哪一个均值与众不同,我们为了找到是哪一个均值与众不同,我们在图在图7.3中列出了每种化肥得到的小麦产中列出了每种化肥得到的小麦产量的均值。量的均值。从图中可以看出中化肥品牌从图中可以看出中化肥品牌B的小麦产量的小麦产量均值最高,而品牌均值最高,而品牌A的小麦产量均值居中,的小麦产量均值居中,品牌品牌C的小麦产量均值最低。但是仍然很的小麦产量均值最低。但是仍然很难说哪一组
13、均值在统计意义上不同,哪难说哪一组均值在统计意义上不同,哪一个相同。一个相同。进一步的问题进一步的问题.当方差分析拒绝了原假设时,即认为至少有两个当方差分析拒绝了原假设时,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著不同,则需要进行多重哪两个或哪几个均值显著不同,则需要进行多重比较来检验。多重比较是指在因变量的三个或这比较来检验。多重比较是指在因变量的三个或这三个以上水平下均值之间进行的两两比较检验。三个以上水平下均值之间进行的两两比较检验。多重比较问题:多重比较问题:多重比较方法多重比较方法SPSS提供了各种不同的
14、多重比较方法,包括最提供了各种不同的多重比较方法,包括最小显著差异小显著差异LSD法、法、Bonferroni法、法、Tukey法、法、Scheff法,如下图所示。法,如下图所示。由由SPSS可以得到多重比较结果可以得到多重比较结果 此时我们在此时我们在SPSS的输出结果选择的输出结果选择LSD方法输出的多重比较结果。如方法输出的多重比较结果。如果设定的显著性水平为果设定的显著性水平为=0.10,由于,由于0.0570.10,那么不具有方差,那么不具有方差齐性,此时我们可以选择齐性,此时我们可以选择Tamhane方法的输出结果,见表方法的输出结果,见表7.5的第三的第三部分的下边。部分的下边。
15、多重比较多重比较因变量:小麦产量(I)化肥品牌(J)化肥品牌均值差(I-J)标准误显著性95%置信区间下限上限LSDdimension21dimension32-95.000*15.961.000-128.19-61.81350.000*15.961.00516.8183.192dimension3195.000*15.961.00061.81128.193145.000*15.961.000111.81178.193dimension31-50.000*15.961.005-83.19-16.812-145.000*15.961.000-178.19-111.81Tamhanedimensi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 思想 方法 应用 第七 方差分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内