第8章单因素方差分析.doc
《第8章单因素方差分析.doc》由会员分享,可在线阅读,更多相关《第8章单因素方差分析.doc(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、+第八章 单因素方差分析第一节 方差分析的基本问题一、方差分析要解决的问题t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验;而多个平均数间的差异显著性检验,必须用方差分析法。1、检验过程繁琐一试验包含5个处理,采用t检验法要进行次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。表8-1:盐处理对碱蓬整株鲜重的影响株号盐处理浓度(mM NaCl)010020030040014.517.988.568.376.9825.067.658.647.465.8934.367.328.978.796.5444.827.549.018.056.2754.93
2、7.638.328.226.7964.467.228.488.656.44平均值4.697.568.668.426.49标准差0.280.270.270.270.392、无统一的试验误差,误差估计的精确性和检验的灵敏性低如表8-1,试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。3、推断的可靠性低,
3、检验的I型错误率大用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。假设每一对检验接受零假设的概率都是1-0.95,而且这些检验都是相互独立的,那么10对检验都接受概率是(0.95)100.60,犯错误的概率=1-0.60=0.40犯I型错误的概率明显增加。由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。二、方差分析的几个概念方差分析(analysis of variance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将a个处理的观测值作为一个整体看待,把观测
4、值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。“方差分析法”是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术” ,方差分析实质上是关于观测值变异原因的数量分析。要掌握方差分析的方法,必须先了解以下几个基本概念。这几个概念在科学研究中必须用到,非常重要。1、试验指标(experimental index)为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。如研究盐
5、处理对玉米生长状况的影响,常用的生长指标是植株鲜重、株高等指标;如发现盐处理影响鲜重、株高等,还要分析为什么盐处理抑制玉米生长?光合速率是否降低?光合速率为什么降低,是否与色素含量下降有关?盐处理还会对玉米造成那些伤害?如是否影响膜透性?叶片中Na+含量是否升高,从而对叶片具有毒害等。所以研究盐处理对玉米生长的影响,不能只研究一个指标,要研究鲜重、光合速率、色素含量、膜透性、Na+含量等多个指标。再如研究人体心脏功能常用血压、心率、心电图等指标。2、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因素。如研究盐处理对碱蓬生长的影响,土壤中的盐浓度就是一
6、个因素,此外影响碱蓬生长的因素还有水分、温度、光照等,均可作为试验因素。研究不同品系小麦的株高,品系也是一个影响株高的因素,如表8-2就是研究5个小麦品种株高的差异,因为小麦株高对其产量影响很大。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。表8-2:5个小麦品系株高调查结果株号品 系164.664.567.871.869.2265.365.366.372.168.2364.864.667.170.069.8466.063.766.869.168.3565.863.968.571.067.5平均值65.364.467.
7、370.868.63、因素水平(level of factor) 因素的具体表现或数量等级称为因素水平,简称水平。如盐处理浓度这一因素有0、100、200、300、400 mM NaCl等5个水平。小麦品系这一因素也有、等5个水平。4、试验处理(treatment)在实验对象上实施的事先设计好的具体项目叫试验处理,简称处理。进行单因素试验时,试验因素的一个水平就是一个处理。如表8-1中盐处理共有0、100、200、300、400 mM NaCl等5个处理。表8-2中也是5个处理。对于双因素试验时,处理的个数等于两个因素的水平个数的乘积。表8-3研究的是温度和原料这两个因素对酒精产量的影响,是双
8、因素试验,每个因素都又有3个水平,共有339个处理。每一个处理可以看作一个总体,每个处理得到的一组数据可以看作是从这个处理总体中抽取的一个样本的数据。表8-3:不同原料和不同酒曲对发酵酒精产量(kg/100kg)的影响酒曲种类原料种类玉米高梁水稻A414343454749504543454340B313335344338353635383734C3632332828323434303326295、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫试验单位。如植物试验中的一株玉米、一株碱蓬;在畜禽、水产试验中, 一只家禽、一只小白鼠、一位病人,即一个动物
9、、植物或人。有时也用一组实验材料作为一个实验单位,如研究肥料对产量的影响,每种肥料选5块地,每块地是一个试验单位。试验单位是获得观测数据的单位。6、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;处理实施的试验单位数目称为处理的重复数。例如,用100 mMNaCl处理了6株碱蓬,那么这个处理有6个重复;用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。但要注意,并非每一个测量结果都是一个重复,重复数是实验单位数,是每一个试验对象从头开始完整的做一遍得到的结果。如测定叶绿素含量,从一瓶叶绿素提取液中取出5小管提取液,分别测定叶绿素含量得到的5
10、个观测数不是5个重复,而是一个,因为实验对象是一个。科学的方法是将5个实验对象(叶片)分别提取,分别测定,不能将5个实验对象的叶片混在一起提取。再如研究饲料的营养,将1头猪称重5次和5头猪各称重1次是完全不一样的:1头猪称重5次得到的5个结果是1个重复,5头猪各称重1次,才是5个重复。以重复测定代替重复实验会减小误差均方,会使本来差异并不显著的因素变得显著,从而得出错误的结论。以上几个基本概念是科学实验中几个最重要的常识之一,希望初学者认真体会。方差分析的原理看似复杂,其实很简单。Excel给我们提供了“数据分析”函数,下面要讲的所有运算过程,用Excel函数都可以快速全自动的得出,我们只需要
11、将我们的原始数据输入Excel工作表就可以了。同样,后面要讲的相关和回归分析也完全可以自动运算。三、方差分析的数学模型(以单因素试验为例)(一)单因素试验的数据描述假设某单因素试验有a个处理,每个处理有n次重复,共有an个观测值。其单因素方差分析试验数据的表示方法见表8-4:表8-4:单因素试验的典型数据表试验次数或重复数实验处理数X1X2X3XiXa1x11x21x31xi1xa12x12x22x32xi2xa23x13x23x33xi3xa3jx1jx2jx3jxijxajnx1nx2nx3nxinxan总计平均值表中数据xij表示第i个处理的第j次观测值,其中的几个符号做如下说明:,表示
12、第i个处理所有数据的和;(i=1,2,a;j1,2,n),表示第i个处理所有数据的平均值。,表示所有处理中全部数据的总和;,全部数据的总平均值;(二)观测值的描述对于上表中的每一个观测值可用线性统计模型描述:其中:xij是在第i水平(处理)下的第j次观测值;为所有观测值的总平均数;i是第i水平的处理效应,即因为此处理而引起的数据的变异;ij是随机误差,即随机抽样误差。方差分析的目的就是要检验处理效应的大小或有无。(三)因素处理效应和实验模型的分类1、固定效应模型如果处理效应是由固定因素所引起的效应,就称为固定效应。固定因素是指因素的水平可以严格地人为控制,水平固定后,它的效应值i也是固定的;实
13、验重复时可以得到相同的结果。如表8-1的试验结果发现,盐处理显著促进了碱蓬生长,最适盐浓度为200 mM NaCl,别人重复这个试验也会得到同样的结果。再如我们调查上海、北京、广州、深圳四个城市市的居民收入,调查结果发现,四个城市的居民收入显著不同,上海深圳北京广州,其他人调查也会得到同样的结果。可严格人为控制的因素如:几种不同实验温度、几种不同的化学药物浓度、几个不同的小麦品种、几个城市等都属于固定因素。处理固定因素所用的模型称为固定效应模型,简称为固定模型。固定模型的假设是关于xij的假设,固定模型的方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论推广到其他未考虑的水平上。如表
14、8-1的试验结论“盐处理显著促进碱蓬的生长”只使用于0、100、200、300、400 mM NaCl这5个浓度,不能说“任何盐浓度都可以促进碱蓬生长”。研究北京、上海、广州和深圳的居民收入,发现这四个城市的居民收入有差异,不能说“任意四个城市的居民收入都有差异”。2、随机效应模型如果处理效应是由随机因素所引起的效应,就称为随机效应。若因素的a个水平是从该因素水平总体中随机抽出的样本,那么各个水平的处理效应值i不是固定的数值,不能严格的人为控制,实验重复时很难得到相同的结果,这种因素称为随机因素。处理随机因素所用的模型称为随机效应模型,简称为随机模型。随机效应模型的方差分析所得到的结论可推广到
15、总体水平上,因为这类实验是通过样本对所属总体作出的推断。如探讨不同窝的家兔出生重量是否存在差异,随机选取了4窝家兔,每窝家兔中均随机选了4只幼兔。窝别就是随机因素,任何人都不能再得到完全相同的4窝家兔。调查结果见表8-5:这4窝幼兔中第I窝出生重最大,别人再随机选择4窝家兔,并不一定还是第I窝出生重最大。表8-5的实验结论是:不同窝别的4窝家兔的体重差异显著,别人调查任何4窝家兔也会得到同样的结论。表8-5:4窝家兔的出生重(g)动物号窝别134.733.227.132.9233.326.023.331.4326.228.627.825.7431.632.326.728.0平均值31.4503
16、0.02526.22529.500再如调查山东女大学生身高,随机调查了5所大学,每所大学随机调查100名,发现山东各大学女生身高差异不显著。其他人随机调查山东5所大学的女生身高,也会得出同样的结论。从随机因素的a个水平的方差分析所得到的结论,可以推广到这个因素的所有水平上。这里i是一个随机变量,所检验的是关于i的变异性假设。有时随机因素和固定因素很难区分,简单的说固定因素可以严格的人为控制,固定因素的各水平固定以后,其效应值也是固定的,如温度、盐浓度等,其结论只适合固定的这几个水平。随机因素的水平不能严格的人为控制,在各水平固定以后,其效应值并不固定,其统计结论可推广到总体水平上。3、混合模型
17、在多因素试验中,若即包括固定因素,又包括随机因素,那么该实验应该用混合实验模型进行统计分析。如研究生科院男生和女生学习成绩的差异,男女各选50名同学,随机选择了5门课程成绩做比较。那么,课程是随机选取的,属于随机因素;男生、女生是人为确定的,属于固定因素。所以这个实验属于混合模型。由于固定模型、随机模型和混合模型在设计思想上有明显不同,因此在统计推断的方法上也有明显区别。另外,不同实验模型分析的侧重点也不完全相同,固定效应模型侧重于处理效应的估计和检验;随机模型侧重于效应方差(i的变异性)的估计和检验。但对于单因素方差来说,固定模型和随机模型的统计方法完全相同,只是统计推断的假设和推论不同。四
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第8章 单因素方差分析 因素 方差分析
限制150内