多重均值比较和方差分析前提假设检验.ppt
关于多重均值比较与关于多重均值比较与方差分析前提假设的方差分析前提假设的检验检验05.04.20231第一张,PPT共四十四页,创作于2022年6月05.04.20232失业保险案例:为什么要进行方差分析?为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?第二张,PPT共四十四页,创作于2022年6月05.04.20233试验数据试验数据不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金92869678100108927585939076888877878989797390757183947882828072756878798172第三张,PPT共四十四页,创作于2022年6月05.04.20234要研究的问题要研究的问题总体总体1 1,1 1(奖金(奖金=1=1)总体总体2 2,2 2 (奖金(奖金=2=2)总体总体3 3,3 3(奖金(奖金=3=3)样本样本1 1样本样本2 2样本样本3 3样本样本4 4总体总体4 4,4 4(奖金(奖金=4=4)第四张,PPT共四十四页,创作于2022年6月05.04.20235各个总体的均值相等吗?各个总体的均值相等吗?Xf(X)1 2 3 4 Xf(X)3 1 2 4 第五张,PPT共四十四页,创作于2022年6月05.04.20236失业保险案例:实验结果失业保险案例:实验结果1=无奖金无奖金2=低奖金低奖金3=中奖金中奖金4=高奖金。根据实验结果,高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?可以认为各总体的平均失业时间相同吗?第六张,PPT共四十四页,创作于2022年6月05.04.20237研究方法:两样本的研究方法:两样本的t检验?检验?n如果采用如果采用t检验法对多个总体均值进行差异显著检验法对多个总体均值进行差异显著性检验性检验,会出现如下问题:,会出现如下问题:n全部检验过程烦琐,做法不经济全部检验过程烦琐,做法不经济n无统一的总体方差估计无统一的总体方差估计,检验的精度降低,检验的精度降低n犯第一类错误的概率增大,检验的可靠性降犯第一类错误的概率增大,检验的可靠性降低低第七张,PPT共四十四页,创作于2022年6月05.04.20238思考思考n7岁儿童的平均身高为102,现测得某班12名7岁儿童身高分别为:n97、99、103、100、104、97、105、110、99、98、103、99n请问该班儿童身高与平均水平是否存在差异?第八张,PPT共四十四页,创作于2022年6月05.04.20239方差分析可以用来比较多个均值方差分析可以用来比较多个均值n方差分析(方差分析(Analysisofvariance,ANOVA)的主要目的是)的主要目的是通过对通过对方差方差的比较来的比较来同时同时检验多个检验多个均值均值之间差异的显著性。之间差异的显著性。n可以看作可以看作t检验的扩展,只比较两个均值时与检验的扩展,只比较两个均值时与t检验等价。检验等价。n20世纪世纪20年代由英国统计学家费喧(年代由英国统计学家费喧(R.A.Fisher)最早提出的,)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。到了广泛应用。第九张,PPT共四十四页,创作于2022年6月05.04.202310ANOVA(analysis of variance)n由于方差分析法是通过比较有关方差的大小而由于方差分析法是通过比较有关方差的大小而得到结论的,所以在统计中,常常把运用方差得到结论的,所以在统计中,常常把运用方差分析法的活动称为方差分析。分析法的活动称为方差分析。n方差分析的内容很广泛,既涉及到实验设计的方差分析的内容很广泛,既涉及到实验设计的模式,又关乎数据分析模型中因素效应的性质。模式,又关乎数据分析模型中因素效应的性质。本章在完全随机试验设计下,讨论固定效应模本章在完全随机试验设计下,讨论固定效应模型方差分析的基本原理与方法,重点介绍单因型方差分析的基本原理与方法,重点介绍单因素方差分析。素方差分析。第十张,PPT共四十四页,创作于2022年6月05.04.202311方差分析中的基本假设方差分析中的基本假设n(1)在各个总体中因变量都服从正态分布;)在各个总体中因变量都服从正态分布;n(2)在各个总体中因变量的方差都相等;)在各个总体中因变量的方差都相等;n(3)各个观测值之间是相互独立的。)各个观测值之间是相互独立的。第十一张,PPT共四十四页,创作于2022年6月05.04.202312n同一试验条件下的数据变异同一试验条件下的数据变异-随机因素影响随机因素影响n不同试验条件下,试验数据变异不同试验条件下,试验数据变异-随机因素随机因素和可能存在的系统性因素即试验因素共同影响和可能存在的系统性因素即试验因素共同影响试验数据变异原因(误差来源)分析试验数据变异原因(误差来源)分析第十二张,PPT共四十四页,创作于2022年6月05.04.202313实验数据误差类型实验数据误差类型n n随机误差随机误差随机误差随机误差n因素的同一水平因素的同一水平(总体总体)下,样本各观察值之间的差异下,样本各观察值之间的差异n比如,同一奖金水平下不同不同人的失业时间是不同的比如,同一奖金水平下不同不同人的失业时间是不同的n这种差异可以看成是随机因素影响的结果,称为这种差异可以看成是随机因素影响的结果,称为随机误差随机误差随机误差随机误差 n系统误差系统误差n因素的不同水平因素的不同水平(不同总体不同总体)下,各观察值之间的差异下,各观察值之间的差异n比如,不同奖金水平之间的失业时间之间的差异比如,不同奖金水平之间的失业时间之间的差异n这种差异这种差异可能可能是由于是由于抽样的随机性抽样的随机性所造成的,所造成的,也可能也可能是由于是由于奖奖金本身金本身所造成的,后者所形成的误差是由系统性因素造成所造成的,后者所形成的误差是由系统性因素造成的,称为的,称为系统误差系统误差系统误差系统误差第十三张,PPT共四十四页,创作于2022年6月05.04.202314方差分析的实质与分析目的方差分析的实质与分析目的n方差分析的实质:观测值变异原因的数量分析。方差分析的实质:观测值变异原因的数量分析。n方差分析的目的:系统中是否存在显著性影响方差分析的目的:系统中是否存在显著性影响因素因素第十四张,PPT共四十四页,创作于2022年6月05.04.202315单因素方差分析模型(单因素方差分析模型(1)n单因素方差分析单因素方差分析:模型中有一个自变量(因素)和一个因变量。模型中有一个自变量(因素)和一个因变量。n在失业保险实验中,假设张三在高奖金组,则在失业保险实验中,假设张三在高奖金组,则张三的失业时间张三的失业时间=高奖金组的平均失业时间高奖金组的平均失业时间 +随机因素带来的影响随机因素带来的影响=总平均失业时间总平均失业时间 +高奖金组平均值与总平均值之差高奖金组平均值与总平均值之差 +随机因素带来的影响随机因素带来的影响第十五张,PPT共四十四页,创作于2022年6月05.04.202316单因素方差分析模型(单因素方差分析模型(2)第十六张,PPT共四十四页,创作于2022年6月05.04.202317总变差(离差平方和)的分解总变差(离差平方和)的分解n数据的误差用离差平方和数据的误差用离差平方和(sumofsquares)描述。描述。n组内离差平方和组内离差平方和(withingroups)n因素的同一水平因素的同一水平(同一个总体同一个总体)下样本数据的变异下样本数据的变异n比如,同一奖金水平下失业时间的差异比如,同一奖金水平下失业时间的差异n组内离差平方和只包含组内离差平方和只包含随机误差随机误差n组间离差平方和组间离差平方和(betweengroups)n因素的不同水平因素的不同水平(不同总体不同总体)下各样本之间的变异下各样本之间的变异n比如,四个奖金水平之间失业时间的差异比如,四个奖金水平之间失业时间的差异n组间离差平方和既包括组间离差平方和既包括随机误差随机误差,也包括,也包括系统误差系统误差第十七张,PPT共四十四页,创作于2022年6月05.04.202318总变差(离差平方和)分解的图示总变差(离差平方和)分解的图示组间变异组间变异总变异总变异组内变异组内变异第十八张,PPT共四十四页,创作于2022年6月05.04.202319SSTSSASSE 总变差因素因素A A及随机因素导致及随机因素导致的变差的变差随机因素导致的变差随机因素导致的变差组间离差平方和组内离差平方和第十九张,PPT共四十四页,创作于2022年6月05.04.202320离差平方和的自由度与均方离差平方和的自由度与均方n三个平方和的自由度分别是三个平方和的自由度分别是nSST的自由度为的自由度为nk-1,nk为全部观察值的个数为全部观察值的个数nSSA的自由度为的自由度为k-1,其中,其中k为因素水平的个数为因素水平的个数nSSE的自由度为的自由度为nk-kn各离差平方和的大小与观察值的多少有关,为了消除观各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。就是均方,也称为方差。n均方的计算方法是用离差平方和除以相应的自由度。均方的计算方法是用离差平方和除以相应的自由度。第二十张,PPT共四十四页,创作于2022年6月05.04.202321组间离差平方和组内离差平方和组间方差组间方差组内方差组内方差受因素A和随机因素的影响只受随机因素的影响第二十一张,PPT共四十四页,创作于2022年6月05.04.202322F比值比值n如果因素如果因素A A的不同水平对结果没有影响,那么在组间方差中只包含有的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近随机误差,两个方差的比值会接近1 1n如果不同水平对结果有影响,组间方差就会大于组内方差,组间如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于方差与组内方差的比值就会大于1 1n当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素者说因素A A对结果有显著影响。对结果有显著影响。组间方差组间方差组内方差组内方差F=第二十二张,PPT共四十四页,创作于2022年6月05.04.202323F比的分布比的分布F 分布曲线第二十三张,PPT共四十四页,创作于2022年6月05.04.202324F分布与拒绝域分布与拒绝域如果均值相等,如果均值相等,如果均值相等,F F F=MSAMSAMSA/MSEMSEMSE1 1 1 F F 分布显著水分布显著水分布显著水分布显著水平下的临界点平下的临界点平下的临界点平下的临界点F(k-1,nk-k)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能拒绝H H H H0 0 0 0F F第二十四张,PPT共四十四页,创作于2022年6月05.04.202325方差分析的基本思想方差分析的基本思想n将将k k个水平(处理)的观测值作为一个整体看个水平(处理)的观测值作为一个整体看待,利用方差的可分解性,把观测值总变异的待,利用方差的可分解性,把观测值总变异的离差平方和及自由度分解为相应于不同变异来离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度,进而获得不同变异源的离差平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差来源总体方差估计值;通过计算这些总体方差估计值的适当比值,即估计值的适当比值,即F F比值,并以此比值的比值,并以此比值的大小来判断各样本所属总体平均数是否相等。大小来判断各样本所属总体平均数是否相等。目的是检查所讨论因素是否作为系统性因素来目的是检查所讨论因素是否作为系统性因素来影响试验结果。影响试验结果。第二十五张,PPT共四十四页,创作于2022年6月05.04.202326思考题思考题n有三台机器生产规格相同的铝合金薄板,为检有三台机器生产规格相同的铝合金薄板,为检验三台机器生产薄板的厚度是否相同,随验三台机器生产薄板的厚度是否相同,随机从机从每台机器生产的薄板中各抽取了每台机器生产的薄板中各抽取了5个样品,测个样品,测得结果如下:得结果如下:机器机器1:0.236,0.238,0.248,0.245,0.243机器机器2:0.257,0.253,0.255,0.254,0.261机器机器3:0.258,0.264,0.259,0.267,0.262问:三台机器生问:三台机器生产薄板的厚度是否有显著差异?产薄板的厚度是否有显著差异?第二十六张,PPT共四十四页,创作于2022年6月05.04.202327思考:有无差异?思考:有无差异?n某化肥生产商需要检验三种新产品的效果,在某化肥生产商需要检验三种新产品的效果,在同一地区选取同一地区选取3块同样大小的农田进行试验,块同样大小的农田进行试验,甲农田中使用甲化肥,在乙农田使用乙化肥,甲农田中使用甲化肥,在乙农田使用乙化肥,在丙地使用丙化肥,得到在丙地使用丙化肥,得到6次试验的结果如表次试验的结果如表2所示,试在所示,试在0.05的显著性水平下分析甲乙丙化的显著性水平下分析甲乙丙化肥的肥效是否存在差异?、肥的肥效是否存在差异?、甲甲504649524848、乙乙495047474649、丙丙515049465050第二十七张,PPT共四十四页,创作于2022年6月05.04.202328方差分析检验的步骤方差分析检验的步骤n1.1.检验数据是否符合方差分析的假设条件。检验数据是否符合方差分析的假设条件。n2.2.提出零假设和备择假设:提出零假设和备择假设:n零假设:各总体的均值之间没有显著差异,即零假设:各总体的均值之间没有显著差异,即n备择假设:至少有两个均值不相等,即备择假设:至少有两个均值不相等,即第二十八张,PPT共四十四页,创作于2022年6月05.04.202329方差分析的步骤方差分析的步骤n3.3.根据样本计算根据样本计算F F统计量的值。统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组 间SSAk-1MSAMSA/MSE组 内SSEnk-kMSE总变异SSTnk-1第二十九张,PPT共四十四页,创作于2022年6月05.04.202330方差分析的步骤方差分析的步骤n4.4.确定决策规则并根据实际值与临界值的确定决策规则并根据实际值与临界值的比较,或者比较,或者p-p-值与值与的比较得出检验结论。的比较得出检验结论。在零假设成立时组间方差与组内方差的比值服从在零假设成立时组间方差与组内方差的比值服从服服从自由度为从自由度为(k-1,nk-k)的的F 分布分布 临界值拒绝域p-值实际值 F检验的临界值和拒绝域 第三十张,PPT共四十四页,创作于2022年6月05.04.202331失业保险的例子(失业保险的例子(1)n在失业保险实验在失业保险实验中,设显著性水中,设显著性水平平=0.05,试分析,试分析奖金水平对失业时奖金水平对失业时间的影响是否显著间的影响是否显著。不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金92869678100108927585939076888877878989797390757183947882828072756878798172第三十一张,PPT共四十四页,创作于2022年6月05.04.202332失业保险的例子失业保险的例子(2)n1、根据前面的分析,数据符合方差分析的假、根据前面的分析,数据符合方差分析的假设条件。设条件。n2、提出零假设和备择假设:、提出零假设和备择假设:nH0:1234,nH1:1、2、3、4 不全相等。不全相等。第三十二张,PPT共四十四页,创作于2022年6月05.04.202333失业保险的例子失业保险的例子(3)n3、计算、计算F统计量的实际值。统计量的实际值。手工计算可以按照方差分析表的内容逐步计算。由于计算手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。计算的方差分析表。变差来源SS自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.3135第三十三张,PPT共四十四页,创作于2022年6月05.04.202334失业保险的例子失业保险的例子(4)n4、样本的、样本的F值为值为3.04。n由于由于因此我们应拒绝零假设,从而得出奖金水平对再就业时因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。间有显著影响的结论。n类似的,由于类似的,由于,可以得出同样的结,可以得出同样的结论。论。2.90.04330.053.04第三十四张,PPT共四十四页,创作于2022年6月05.04.202335例例2热带雨林热带雨林(1)n各水平下的样本容量不同时单因素方差分析的方各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。用软件进行分析时几乎看不出这种差别。一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。第三十五张,PPT共四十四页,创作于2022年6月05.04.202336例例2热带雨林热带雨林(2)n1、正态性检验:直方图、正态性检验:直方图从未采伐过1年前采伐过8年前采伐过271218221242915222191519201833181916172220141224141227228171919第三十六张,PPT共四十四页,创作于2022年6月05.04.202337例例2热带雨林热带雨林(3)n同方差性检验:最大值与最小值之比等于同方差性检验:最大值与最小值之比等于33.19/4.81=1.34,明显小于,明显小于4,因此可以认为是等方差的。,因此可以认为是等方差的。组计数求和平均方差从未采伐过1228523.75 25.66 1年前采伐过1216914.08 24.81 8年前采伐过914215.78 33.19 第三十七张,PPT共四十四页,创作于2022年6月05.04.202338例例2热带雨林热带雨林(4)n2、提出零假设和备择假设、提出零假设和备择假设n零假设:雨林采伐对林木数量没有显著影响零假设:雨林采伐对林木数量没有显著影响(各组均值相等);(各组均值相等);n备择假设:雨林采伐对是有显著影响(各组备择假设:雨林采伐对是有显著影响(各组均值不全相等)。均值不全相等)。第三十八张,PPT共四十四页,创作于2022年6月05.04.202339例例2热带雨林热带雨林(5)n3、方差分析表、方差分析表n4、结论。、结论。nF值值=11.433.32,p-值值=0.00020.05,因此检验的,因此检验的结论是采伐对林木数量有显著影响。结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueF crit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832第三十九张,PPT共四十四页,创作于2022年6月05.04.202340思考:是否意味着每两个处理平均数间的差异都显著思考:是否意味着每两个处理平均数间的差异都显著或极显著或极显著?n例:测定东北、内蒙古、例:测定东北、内蒙古、河北、安徽、贵州河北、安徽、贵州5个地个地区黄鼬冬季针毛的长度,区黄鼬冬季针毛的长度,每个地区随机抽取每个地区随机抽取4个样个样本,测定的结果如表,试本,测定的结果如表,试比较各地区黄鼬针毛长度比较各地区黄鼬针毛长度差异显著性。差异显著性。地区东北内蒙古河北安徽贵州合计132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7和126.4109.6104.199.091.4530.5平均31.6027.4026.0324.7522.8526.53第四十张,PPT共四十四页,创作于2022年6月05.04.202341方差分析中的多重比较方差分析中的多重比较n在方差分析中,不拒绝零假设在方差分析中,不拒绝零假设H H0 0,表示拒绝总体均数相等的证,表示拒绝总体均数相等的证据不足据不足,分析终止;当零假设分析终止;当零假设H H0 0被拒绝时,我们可以确定至少被拒绝时,我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为析中称为事后检验事后检验(Post Hoc test)(Post Hoc test)。n多重比较多重比较是是同时同时对各个总体均值进行的两两比较。方法很对各个总体均值进行的两两比较。方法很多,如多,如FisherFisher最小显著差异(最小显著差异(Least Significant Least Significant DifferenceDifference,LSDLSD)方法、)方法、TukeyTukey的诚实显著差异(的诚实显著差异(HSDHSD)方法)方法或或BonferroniBonferroni的方法等。这里我们只介绍最小显著差异方法。的方法等。这里我们只介绍最小显著差异方法。第四十一张,PPT共四十四页,创作于2022年6月05.04.202342用用LSD法进行多重比较的步骤法进行多重比较的步骤n1 1、提出假设、提出假设nH0:m mi=m mjnH1:m mi m mjn2 2、计算、计算检验的统计量检验的统计量 n3a3a、如果如果 或或 则拒绝则拒绝H H0 0。n3b3b、计算、计算 的置信区间:的置信区间:如果如果0 0包含在该置信区间内则不能拒绝包含在该置信区间内则不能拒绝H H0 0,否则拒绝,否则拒绝H H0 0。第四十二张,PPT共四十四页,创作于2022年6月05.04.202343实例:失业保险实验实例:失业保险实验n根据第一个总体和第四个总体计算的根据第一个总体和第四个总体计算的t统计量统计量n利用统计软件可以计算出利用统计软件可以计算出t检验的临界值检验的临界值由于由于,因此我们有证据表明,因此我们有证据表明无奖金组与高奖金组的再就业时间有显著差异。其他奖无奖金组与高奖金组的再就业时间有显著差异。其他奖金水平效应之间差异的显著性也可以用类似的方法计算。金水平效应之间差异的显著性也可以用类似的方法计算。第四十三张,PPT共四十四页,创作于2022年6月05.04.2023感谢大家观看第四十四张,PPT共四十四页,创作于2022年6月