概率统计第八章.ppt
概率统计第八章概率统计第八章现在学习的是第1页,共76页8.1 方差分析方差分析例例8.1.0 在饲料养鸡增肥的研究中,某研究所提出两在饲料养鸡增肥的研究中,某研究所提出两种饲料配方:种饲料配方:A1是以鱼粉为主的饲料,是以鱼粉为主的饲料,A2是以树粉为是以树粉为主的饲料。主的饲料。为比较两种饲料的效果,特选为比较两种饲料的效果,特选 16只相似的雏鸡只相似的雏鸡随机均分为两组,每组各喂一种饲料,随机均分为两组,每组各喂一种饲料,60天后观察它天后观察它们的重量。试验结果如下表所示:们的重量。试验结果如下表所示:饲料饲料A鸡鸡 重(克)重(克)A110731009106010011002101210091028A21107109299011091090107411221001现在学习的是第2页,共76页分析:分析:本例中,我们要比较的是两种饲料配方下鸡的本例中,我们要比较的是两种饲料配方下鸡的平均重量是否相等。这是两总体均值的比较问题,平均重量是否相等。这是两总体均值的比较问题,可以采用两样本均值差的假设检验方法来处理。可以采用两样本均值差的假设检验方法来处理。两样本假设检验中,一个分类变量把试验数据两样本假设检验中,一个分类变量把试验数据分为两组,分为两组,要研究这两组的均值有没有显著差异。要研究这两组的均值有没有显著差异。例例8.1.0,分类变量:饲料配方(分类变量:饲料配方(2种)种)试验数据:鸡的重量试验数据:鸡的重量现在学习的是第3页,共76页8.1.1 问题的提出问题的提出实际工作中我们经常碰到多个实际工作中我们经常碰到多个(2)正)正态总体均值的比较问题,处理这类问题通常态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。采用所谓的方差分析方法。现在学习的是第4页,共76页例例8.1.1 在饲料养鸡增肥的研究中,某研究在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:所提出三种饲料配方:A1是以鱼粉为主的是以鱼粉为主的饲料,饲料,A2是以树粉为主的饲料,是以树粉为主的饲料,A3是以苜是以苜蓿粉为主的饲料。为比较三种饲料的效果,蓿粉为主的饲料。为比较三种饲料的效果,特选特选 24 只相似的雏鸡随机均分为三组,只相似的雏鸡随机均分为三组,每组各喂一种饲料,每组各喂一种饲料,60天后观察它们的重天后观察它们的重量。试验结果如下表所示:量。试验结果如下表所示:现在学习的是第5页,共76页表表8.1.18.1.1 鸡饲料试验数据鸡饲料试验数据 饲料饲料A鸡鸡 重(克)重(克)A110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048现在学习的是第6页,共76页 分析:分析:本例中,我们的目的是比较三种饲料配方下鸡本例中,我们的目的是比较三种饲料配方下鸡的平均重量是否相等,假设检验的方法不再适用。的平均重量是否相等,假设检验的方法不再适用。方差分析就是对多个总体均值进行比较最常用的方差分析就是对多个总体均值进行比较最常用的一种统计方法一种统计方法.方差分析中,一个分类变量把试验数据分为多方差分析中,一个分类变量把试验数据分为多组,组,要研究多组样本数据的均值有没有显著差异。要研究多组样本数据的均值有没有显著差异。例例8.1.1,分类变量:饲料配方(分类变量:饲料配方(3种)种)试验数据:鸡的重量试验数据:鸡的重量现在学习的是第7页,共76页 方差分析中,将分类变量称为方差分析中,将分类变量称为因子因子,试验数据称,试验数据称为为指标。指标。本例中,有本例中,有3种饲料,每种饲料获得了种饲料,每种饲料获得了8个试样。个试样。因子因子(分类变量):饲料,记为(分类变量):饲料,记为A;水平水平(因子不同取值):三种不同的配方的饲料(因子不同取值):三种不同的配方的饲料 记为记为A1,A2,A3;指标指标(试验数据):鸡的重量,记为(试验数据):鸡的重量,记为yij,表示使表示使用配方用配方Ai下第下第 j 只鸡只鸡60天后的重量,天后的重量,i=1,2,3,j=1,2,10。方差分析的结论是因子的不同水平对指标有无方差分析的结论是因子的不同水平对指标有无显著影响。显著影响。现在学习的是第8页,共76页8.1.2 单因子方差分析的统计模型单因子方差分析的统计模型 在例在例8.1.1中我们只考察了一个因子,称其为中我们只考察了一个因子,称其为单因子试验。单因子试验。通常,在单因子试验中,记因子为通常,在单因子试验中,记因子为 A,设其有设其有r个水平,记为个水平,记为A1,A2,Ar.在每一水平下考在每一水平下考察的指标可以看成一个总体察的指标可以看成一个总体,现有,现有 r 个水平,个水平,故有故有 r 个总体,个总体,假定:假定:现在学习的是第9页,共76页1、正态性正态性:每一总体均为正态总体,记为:每一总体均为正态总体,记为 N(i,i 2),i1,2,r;2、方差齐性方差齐性:各总体的方差相同:各总体的方差相同:1 2=22 =r2=2;3、独立性独立性:从每一总体中抽取的样本是相互独:从每一总体中抽取的样本是相互独立的,即所有的试验结果立的,即所有的试验结果 yij 都相互独立。都相互独立。现在学习的是第10页,共76页 我们要比较各水平下的均值是否相同我们要比较各水平下的均值是否相同,即即:H0:1=2=r (8.1.1)备择假设为备择假设为H1:1,2,r 不全相等不全相等 在不引起误解的情况下,在不引起误解的情况下,H1 常可省略不写。常可省略不写。H0成立成立:因子:因子A的的r个水平均值相等,因子水个水平均值相等,因子水平平A没有显著差异,简称因子没有显著差异,简称因子A不显著;不显著;H0不成立不成立:因子:因子A的的r个水平均值不全相同,个水平均值不全相同,因子因子A的不同水平间有显著差异,简称因子的不同水平间有显著差异,简称因子A显著。显著。现在学习的是第11页,共76页记记 yij 表示水平表示水平Ai下的第下的第j次观察结果,则一共得如次观察结果,则一共得如下下n=r m个试验结果:个试验结果:yij,i1,2,r,j1,2,m,其中其中r为水平数,为水平数,m为重复数。为重复数。单因子试验单因子试验中,因子为中,因子为 A,设有设有r个水平个水平A1,A2,Ar.设设对第对第i个水平个水平Ai 作了作了m次重复观察,得到次重复观察,得到m个试验结果。个试验结果。因子因子A 试试 验验 数数 据据 A1y11 y12 y1m A2y21 y22 y2m Aryr1 yr2 yrm现在学习的是第12页,共76页 在在水水平平Ai下下的的试试验验结结果果yij与与该该水水平平下下的的指指标标均均值值 i 一般总是有差距的,即有一般总是有差距的,即有 yij=i+ij (8.1.2)其中其中 i 表示表示水平水平Ai下下的均值,的均值,ij为随机误差。为随机误差。(8.1.2)式称为试验结果)式称为试验结果 yij 的的数据结构式。数据结构式。现在学习的是第13页,共76页 单因子方差分析的统计模型:单因子方差分析的统计模型:yij=i+ij,1ir,1jm(8.1.3)假定假定 ij满足:满足:ij 相互独立相互独立 同方差,零均值同方差,零均值 正态分布正态分布 (ij N(0,2)总均值与效应总均值与效应:称诸称诸 i 的平均的平均 为为总均值总均值.而称第而称第 i 水平下的均值水平下的均值 i 与总均值与总均值 的差的差:ai=i-为为 Ai 的的效应。效应。现在学习的是第14页,共76页 模型(模型(8.1.3)可以改写为)可以改写为 (8.1.8)即观察值即观察值yij表示为总平均数表示为总平均数、水平效应、水平效应i、试验、试验的随机误差的随机误差ij之和。之和。假设(假设(8.1.1)可改写为)可改写为 H0:a1=a2=ar=0 (8.1.9)现在学习的是第15页,共76页方差分析的实质就是检验多个正态总体均值是否相等。方差分析的实质就是检验多个正态总体均值是否相等。方差分析的实质就是检验多个正态总体均值是否相等。方差分析的实质就是检验多个正态总体均值是否相等。方差分析是将方差分析是将方差分析是将方差分析是将r r个水平的试验数据作为一个整体看待,个水平的试验数据作为一个整体看待,个水平的试验数据作为一个整体看待,个水平的试验数据作为一个整体看待,试验数据波动由两方面引起:因子水平的不同引起;偶试验数据波动由两方面引起:因子水平的不同引起;偶试验数据波动由两方面引起:因子水平的不同引起;偶试验数据波动由两方面引起:因子水平的不同引起;偶然误差引起。然误差引起。然误差引起。然误差引起。方差分析的基本思想:方差分析的基本思想:方差分析的基本思想:方差分析的基本思想:试验数据波动分解成两部分,一试验数据波动分解成两部分,一部分反映由因子水平不同引起的波动,另一部分反映部分反映由因子水平不同引起的波动,另一部分反映由试验误差引起的波动。总偏差平方和分解为反映必由试验误差引起的波动。总偏差平方和分解为反映必然性的各个因子的偏差平方和与反映偶然性的误差平然性的各个因子的偏差平方和与反映偶然性的误差平方和,并计算它们的平均偏差平方和(方差)。将两方和,并计算它们的平均偏差平方和(方差)。将两者进行比较,借助者进行比较,借助F检验法,检验假设检验法,检验假设HH0 0:01 12,从而确定因素对试验结果的的影响是否,从而确定因素对试验结果的的影响是否显著。显著。方差分析方差分析(analysis of variance)(analysis of variance)是由统计学家是由统计学家是由统计学家是由统计学家FisherFisher于于于于19231923年提出的。年提出的。年提出的。年提出的。现在学习的是第16页,共76页8.1.3 平方和分解平方和分解 一、试验数据一、试验数据 通常在单因子方差分析中可将试验数据列成通常在单因子方差分析中可将试验数据列成如下页表格形式。如下页表格形式。现在学习的是第17页,共76页表表8.1.28.1.2 单因子方差分析试验数据单因子方差分析试验数据单因子方差分析试验数据单因子方差分析试验数据 因子水平因子水平 试试 验验 数数 据据 行和行和 行平均行平均 A1y11 y12 y1m T1A2y21 y22 y2mT2 Aryr1 yr2 yrmTrT现在学习的是第18页,共76页 数据间是有差异的。数据数据间是有差异的。数据yij与总平均与总平均 间的间的偏差可用偏差可用yij 表示,它可分解为二个偏差表示,它可分解为二个偏差之和之和 (8.1.10)记记二、组内偏差与组间偏差现在学习的是第19页,共76页 由于由于 (8.1.11)所以所以 yij-仅反映组内数据与组内平均的随机误仅反映组内数据与组内平均的随机误差,称为差,称为组内偏差(组内变差);组内偏差(组内变差);而而 (8.1.12)除了反映随机误差外,还反映了第除了反映随机误差外,还反映了第i个水平个水平的效应,称为的效应,称为组间偏差(组间变差)。组间偏差(组间变差)。现在学习的是第20页,共76页现在学习的是第21页,共76页在统计学中,把在统计学中,把k个数据个数据y1,y2,yk分别对其均分别对其均值值 =(y1+yk)/k 的偏差平方和的偏差平方和 称为称为k个数据的个数据的偏差平方和,偏差平方和,它常用来度量若干它常用来度量若干个数据分散的程度。个数据分散的程度。三、偏差平方和及其自由度现在学习的是第22页,共76页 在构成偏差平方和在构成偏差平方和Q的的k个偏差个偏差y1 ,yk 间间有一个恒等式有一个恒等式 这说明在这说明在Q中独立的偏差只有中独立的偏差只有k 1个。个。在统计学中把平方和中在统计学中把平方和中独立偏差个数独立偏差个数称为该平方称为该平方和的和的自由度,自由度,常记为常记为f,如,如Q的自由度为的自由度为fQ=k 1。自由度是偏差平方和的一个重要参数。自由度是偏差平方和的一个重要参数。现在学习的是第23页,共76页 各各yij间总的差异大小可用间总的差异大小可用总偏差平方和总偏差平方和 表示,其自由度为表示,其自由度为fT=n 1;四、总平方和分解公式 仅由重复试验中随机误差引起的数据间的差异仅由重复试验中随机误差引起的数据间的差异可以用可以用 组内偏差平方和组内偏差平方和表示表示:也称为也称为误差偏差平方和,误差偏差平方和,其自由度为其自由度为 fe=n r;现在学习的是第24页,共76页 由于组间差异除了随机误差外,还反映了效由于组间差异除了随机误差外,还反映了效应间的差异,故由效应不同引起的数据差异应间的差异,故由效应不同引起的数据差异可用可用组间偏差平方和组间偏差平方和 表示表示:也称为也称为因子因子A的偏差平方和,的偏差平方和,其自由度为其自由度为 fA=r 1;反映的是各水平平均值偏离总平均;反映的是各水平平均值偏离总平均值的偏离程度。值的偏离程度。现在学习的是第25页,共76页定理定理8.1.1 在上述符号下,总平方和在上述符号下,总平方和ST可以分解可以分解为因子平方和为因子平方和SA与误差平方和与误差平方和Se之和,其自由度之和,其自由度也有相应分解公式,具体为:也有相应分解公式,具体为:ST=SA+Se,fT=fA+fe (8.1.16)(8.1.16)式通常称为)式通常称为总平方和分解式。总平方和分解式。现在学习的是第26页,共76页 偏差平方和偏差平方和Q的大小与自由度有关,为了便于在的大小与自由度有关,为了便于在偏差平方和间进行比较,统计上引入了偏差平方和间进行比较,统计上引入了均方和均方和的概念的概念:MS=Q/fQ,其意为平均每个自由度上有多少平方和,它比较其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度。好地度量了一组数据的离散程度。8.1.4 检验方法现在学习的是第27页,共76页 对因子平方和对因子平方和 SA 与误差平方和与误差平方和 Se 之间进行比较,之间进行比较,用其均方和用其均方和 MSA=SA/fA,MSe=Se/fe 进行比较更进行比较更为合理,故可用为合理,故可用 作为检验作为检验H0的统计量。的统计量。现在学习的是第28页,共76页定理定理8.1.2 在单因子方差分析模型在单因子方差分析模型(8.1.8)及前及前述符号下,有述符号下,有 (1)Se/2 2(n r),从而,从而E(Se)(n r)2 ,进一步,若,进一步,若H0成成 立立,则有,则有SA/2 2(r 1)(2)SA与与Se独立。独立。由定理由定理8.1.2,若,若H0成立,则检验统计量成立,则检验统计量F服从自由度服从自由度为为r-1和和 n-r 的的F分布分布.现在学习的是第29页,共76页如果如果H0不成立不成立,则,则 所以,所以,即即H0不成立不成立时,时,有大于有大于1的趋势。的趋势。所以所以H0为真时的小概率事件应取在为真时的小概率事件应取在F值较大的一侧。值较大的一侧。因此拒绝域为因此拒绝域为 W=F F1 (fA,fe),cF 单侧检验单侧检验现在学习的是第30页,共76页构造检验的统计量构造检验的统计量(F分布与拒绝域分布与拒绝域)如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,F F F=MSAMSAMSA/MSEMSEMSE1 1 1 F 分布分布F1-(r-1,n-r)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能拒绝H H H H0 0 0 0F F现在学习的是第31页,共76页通常将单因子方差分析的计算过程列成一张表格,称为通常将单因子方差分析的计算过程列成一张表格,称为方差分析表。方差分析表。表8.1.3 单因子方差分析表来源来源平方和平方和自由度自由度均方和均方和F比比因子因子SAfA=r 1MSA=SA/fAF MSA/MSe误差误差Sefe=n rMSe=Se/fe总和总和STfT=n 1现在学习的是第32页,共76页对给定的对给定的,可作如下判断:,可作如下判断:若若F=F1 (fA,fe),则认为因子则认为因子A显著;显著;现在学习的是第33页,共76页常用的各偏差平方和的计算公式如下:常用的各偏差平方和的计算公式如下:(8.1.19)一般可将计算过程列表进行。一般可将计算过程列表进行。现在学习的是第34页,共76页例例8.1.2 采用例采用例8.1.1的数据,将原始数据减去的数据,将原始数据减去1000,列表给出计算过程:列表给出计算过程:表表8.1.4 例例8.1.2的计算表的计算表水水平平数据(原始数据数据(原始数据-1000)TiTi2A173 96012129281943763610024A210792-101099074122158534222560355A393 2980212232294835412531620984113350517791363现在学习的是第35页,共76页 利用利用(8.1.19),可算得各偏差平方和为:,可算得各偏差平方和为:把上述诸平方和及其自由度填入方差分析表把上述诸平方和及其自由度填入方差分析表现在学习的是第36页,共76页表8.1.5 例8.1.2的方差分析表 来源来源平方和平方和自由度自由度均方和均方和F比比因子因子9660.083324830.04173.5948 误差误差28215.9584211343.6171总和总和37876.041723若取=0.05,则F0.95(2,21)=3.47,由于F=3.59483.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。现在学习的是第37页,共76页8.1.5 参数估计参数估计 在检验结果为显著时,在检验结果为显著时,我们可进一步求出总均我们可进一步求出总均值值 、各主效应、各主效应ai和误差方差和误差方差 2的估计。的估计。现在学习的是第38页,共76页一、点估计一、点估计由模型由模型(8.1.8)知诸知诸yij相互独立,且相互独立,且yij N(+ai,2),因此,因此,可使用极大似然方法求出一般平均可使用极大似然方法求出一般平均 、各主效应、各主效应ai和误差方和误差方差差 2的估计的估计:由极大似然估计的不变性,各水平均值由极大似然估计的不变性,各水平均值 i 的极大似然估的极大似然估计为计为 ,由于,由于 不是不是 2的无偏估计,可修偏:的无偏估计,可修偏:现在学习的是第39页,共76页 由于由于 可给出可给出Ai的水平均值的水平均值 i的的1-的置信区间为的置信区间为 其中其中 。二、i 的置信区间现在学习的是第40页,共76页例例8.1.3 继续例继续例8.1.2,此处我们给出诸水平均,此处我们给出诸水平均值的估计。因子值的估计。因子A的三个水平均值的估计分的三个水平均值的估计分别为别为 从点估计来看,水平从点估计来看,水平2(以槐树粉为主的饲(以槐树粉为主的饲料)是最优的。料)是最优的。现在学习的是第41页,共76页 误差方差的无偏估计为误差方差的无偏估计为 利用利用(8.1.23)可以给出诸水平均值的置信区间。可以给出诸水平均值的置信区间。此处,此处,若取,若取 0.05,则,则t1-/2(fe)=t0.95(21)=2.0796,于是三个水平均值的于是三个水平均值的0.95置信区间分别为置信区间分别为现在学习的是第42页,共76页 在单因子试验的数据分析中可得到如下三个在单因子试验的数据分析中可得到如下三个结果:结果:因子是否显著;试验的误差方差 2的估计;诸水平均值i的点估计与区间估计。在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。现在学习的是第43页,共76页8.1.6 重复数不等情形重复数不等情形 单因子方差分析并不要求每个水平下重复试验单因子方差分析并不要求每个水平下重复试验次数全相等,在重复数不等场合的方差分析与次数全相等,在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似,只在重复数相等情况下的方差分析极为相似,只在几处略有差别。几处略有差别。数据:设从第数据:设从第i个水平下的总体获得个水平下的总体获得mi个试验结果,个试验结果,记为记为yi1,yi2,yim,i=1,2,r,统计模型为:统计模型为:(8.1.24)现在学习的是第44页,共76页总均值:诸总均值:诸 i的加权平均(所有试验结果的均的加权平均(所有试验结果的均值的平均)值的平均)(8.1.25)称为总均值或一般平均。称为总均值或一般平均。效应约束条件:各平方和的计算:SA的计算公式略有不同 现在学习的是第45页,共76页例例8.1.4 某食品公司对一种食品设计了四种新某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表记录其销售量数据,列于表8.1.6左半边,其左半边,其相应的计算结果列于右侧。相应的计算结果列于右侧。现在学习的是第46页,共76页表表8.1.6 8.1.6 销售量数据及计算表销售量数据及计算表销售量数据及计算表销售量数据及计算表 包装包装类型类型 销售量销售量 miTiTi2/miA112 18230450468A214 12 13339507509A319 17 2135710831091A424 3025414581476和和n=10T=180现在学习的是第47页,共76页由此可求得各类偏差平方和如下由此可求得各类偏差平方和如下 方差分析表如表方差分析表如表8.1.8所示所示.若取0.01,查表得F0.99(3,6)=9.78,由于 F=11.229.78,故我们可认为各水平间有显著差异。现在学习的是第48页,共76页表表8.1.7 例例8.1.48.1.4的方差分析表的方差分析表的方差分析表的方差分析表 来源来源平方和平方和自由度自由度均方和均方和F比比因子因子A25838611.22 误差误差e4667.67总和总和T3049现在学习的是第49页,共76页 由于因子显著,我们还可以给出诸水平均值由于因子显著,我们还可以给出诸水平均值的估计。因子的估计。因子A的四个水平均值的估计分别的四个水平均值的估计分别为为 由此可见,第四种包装方式效果最好。误差由此可见,第四种包装方式效果最好。误差方差的无偏估计为方差的无偏估计为现在学习的是第50页,共76页 进一步,利用进一步,利用(8.1.23)也可以给出诸水平均值的也可以给出诸水平均值的置信区间,只是在这里要用不同的置信区间,只是在这里要用不同的mi代替那里代替那里相同的相同的m。此处,。此处,若取,若取 0.05,则,则t1-/2(fe)=t0.95(6)=2.4469,于是效果较,于是效果较好的第三和第四个水平均值的好的第三和第四个水平均值的0.95置信区间分别置信区间分别为为 现在学习的是第51页,共76页8.2 多重比较多重比较 8.2.1 效应差的置信区间效应差的置信区间 如果方差分析的结果因子如果方差分析的结果因子A显著,则等于说有显著,则等于说有充分理由认为因子充分理由认为因子A各水平的效应不全相同,各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定但这并不是说它们中一定没有相同的。就指定的一对水平的一对水平Ai与与Aj,我们可通过求,我们可通过求 i-j的区间的区间估计来进行比较。估计来进行比较。现在学习的是第52页,共76页由于由于 ,故,故由此给出由此给出 i-j的置信水平为的置信水平为1-的置信区间为的置信区间为 (8.2.1)其中其中 是是 2的无偏估计。的无偏估计。这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai,Aj下的观测值。现在学习的是第53页,共76页例例8.2.1 继续例继续例8.1.2,fe=21,取,取 0.05,则则t1-/2(fe)=t0.975(21)=2.0796,于是可算出各个置信区间为于是可算出各个置信区间为 可见第一个区间在可见第一个区间在0的左边,所以我们可以概率的左边,所以我们可以概率95%断言认为断言认为 1 小于小于 2,其它二个区间包含,其它二个区间包含0点,虽然点,虽然从点估计角度看水平均值估计有差别,但这种差从点估计角度看水平均值估计有差别,但这种差异在异在0.05水平上是不显著的。水平上是不显著的。现在学习的是第54页,共76页8.2.2 多重比较问题多重比较问题 在方差分析中,如果经过在方差分析中,如果经过F检验拒绝原假设,表明检验拒绝原假设,表明因子因子A是显著的,即是显著的,即r个水平对应的水平均值不全个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。值间是确有差异的,哪些水平均值间无显著差异。同时比较任意两个水平均值间有无明显差异的同时比较任意两个水平均值间有无明显差异的问题称为问题称为多重比较多重比较,多重比较即要以显著性水平,多重比较即要以显著性水平 同时检验如下同时检验如下r(r 1)/2个假设:个假设:(8.2.2)现在学习的是第55页,共76页 直直观观地地看看,当当H0ij成成立立时时,不不应应过过大大,因因此,关于假设此,关于假设(8.2.2)的拒绝域应有如下形式的拒绝域应有如下形式 诸临界值应在(诸临界值应在(8.2.2)成立时由)成立时由P(W)=确定。确定。可分重复数相等和不等分别介绍临界值的确可分重复数相等和不等分别介绍临界值的确定。定。现在学习的是第56页,共76页 8.2.3 重复数相等场合的重复数相等场合的T法法 在重复数相等时,由对称性自然可以要求诸在重复数相等时,由对称性自然可以要求诸cij相等,记为相等,记为c.记记 ,则由给定条件不难,则由给定条件不难有有 现在学习的是第57页,共76页 于是当于是当(8.2.2)成立时,成立时,1=r=,可推出,可推出 其中其中 ,称为称为t化极差统计量,其分布可由随机模拟方法得化极差统计量,其分布可由随机模拟方法得到。到。于是于是 ,其中其中q1 (r,fe)表示表示q(r,fe)的的1 分位数,其值在附表分位数,其值在附表8中给出。中给出。现在学习的是第58页,共76页 重复数相同时多重比较可总结如下:重复数相同时多重比较可总结如下:1、对给定的的显著性水平、对给定的的显著性水平 ,查多重比较的,查多重比较的分位数分位数q(r,fe)表,计算表,计算 ;2、比较诸、比较诸 与与c的大小,若的大小,若 则认为水平则认为水平Ai与水平与水平Aj间有显著差异,反之,间有显著差异,反之,则认为水平则认为水平Ai与水平与水平Aj间无明显差别。这一方间无明显差别。这一方法最早由法最早由Turkey提出,因此称为提出,因此称为T法。法。现在学习的是第59页,共76页8.2.4 重复数不等场合的重复数不等场合的S法法在重复数不等时,若假设在重复数不等时,若假设(8.2.2)成立,则成立,则 或或 从而可以要求从而可以要求 ,在此要求下可推出,在此要求下可推出现在学习的是第60页,共76页可以证明可以证明 ,从而从而 亦即亦即现在学习的是第61页,共76页 例例8.2.3 在例在例8.1.4中,我们指出包装方式对食品中,我们指出包装方式对食品销量有明显的影响,此处销量有明显的影响,此处r=4,fe=6,,若,若取取 =0.05,则,则F0.95(3,6)=4.76。注意到。注意到m1=m4=2,m2=m3=3,故,故现在学习的是第62页,共76页 由于由于 这说明这说明A1,A2,A3间无显著差异,间无显著差异,A1,A2与与A4有显著差异,但有显著差异,但 A4与与A3 的差异却尚未达到的差异却尚未达到显著水平。综合上述,包装显著水平。综合上述,包装A4销售量最佳。销售量最佳。现在学习的是第63页,共76页8.3 方差齐性检验方差齐性检验 在进行方差分析时要求在进行方差分析时要求r个方差相等,这称为个方差相等,这称为方差方差齐性齐性。理论研究表明,当正态性假定不满足时对。理论研究表明,当正态性假定不满足时对F检验影响较小检验影响较小,即即F检验对正态性的偏离具有一定的检验对正态性的偏离具有一定的稳健性,而稳健性,而F检验对方差齐性的偏离较为敏感。所检验对方差齐性的偏离较为敏感。所以以r个方差的齐性检验就显得十分必要。个方差的齐性检验就显得十分必要。所谓方差齐性检验是对如下一对假设作出检验:所谓方差齐性检验是对如下一对假设作出检验:(8.3.1)现在学习的是第64页,共76页 很多统计学家提出了一些很好的检验方法,很多统计学家提出了一些很好的检验方法,这里介绍几个最常用的检验,它们是:这里介绍几个最常用的检验,它们是:Hartley检验,仅适用于样本量相等的场合;Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于5;修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。现在学习的是第65页,共76页8.3.1 Hartley检验检验 当各水平下试验重复次数相等时,即当各水平下试验重复次数相等时,即 m1=m2=mr=m,Hartley提出检验方差相等的检验统计量:提出检验方差相等的检验统计量:(8.3.2)这个统计量的分布无明显的表达式,但在诸方差这个统计量的分布无明显的表达式,但在诸方差相等条件下,可通过随机模拟方法获得相等条件下,可通过随机模拟方法获得H分布的分布的分位数,该分布依赖于水平数分位数,该分布依赖于水平数r 和样本方差的自和样本方差的自由度由度f=m 1,因此该分布可记为,因此该分布可记为H(r,f),其,其分位数表列于附表分位数表列于附表10上。上。现在学习的是第66页,共76页 直观上看,当直观上看,当H0成立,即诸方差相等(成立,即诸方差相等(12=22=r2)时,)时,H的值应接近于的值应接近于1,当,当H的值较的值较大时,诸方差间的差异就大,大时,诸方差间的差异就大,H愈大,诸方差愈大,诸方差间的差异就愈大,这时应拒绝间的差异就愈大,这时应拒绝(8.3.1)中的中的H0。由此可知,对给定的显著性水平由此可知,对给定的显著性水平 ,检验,检验H0的的拒绝域为拒绝域为 W=H H1 (r,f)(8.3.3)其中其中H1 (r,f)为为H分布的分布的1 分位数。分位数。现在学习的是第67页,共76页 例例8.3.1 有四种不同牌号的铁锈防护剂(简称有四种不同牌号的铁锈防护剂(简称防锈剂),现要比较其防锈能力。数据见表防锈剂),现要比较其防锈能力。数据见表8.3.1。这是一个重复次数相等的单因子试验。我们这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。此,首先要进行方差齐性检验。现在学习的是第68页,共76页 本例中,四个样本方差可由表本例中,四个样本方差可由表8.3.1中诸中诸Qi求求出,即出,即 由此可得统计量由此可得统计量H的值的值 在在 =0.05时,由附表时,由附表10查得查得H0.95(4,9)=6.31,由于由于H d (8.3.4)Bartlett证明了,检验的拒绝域为证明了,检验的拒绝域为 W=B 1-2(r-1)(8.3.8)考虑到这里考虑到这里 2分布是近似分布,在诸样本量分布是近似分布,在诸样本量mi均均不小于不小于5时使用上述检验是适当的。时使用上述检验是适当的。现在学习的是第71页,共76页 例例8.3.2 为研究各产地的绿茶的叶酸含量是否为研究各产地的绿茶的叶酸含量是否有显著差异,特选四个产地绿茶,其中有显著差异,特选四个产地绿茶,其中A1制制作了作了7个样品,个样品,A2制作了制作了5个样品,个样品,A3与与A4各各制作了制作了6个样品,共有个样品,共有24个样品,按随机次个样品,按随机次序测试其叶酸含量,测试结果如表序测试其叶酸含量,测试结果如表8.3.3所示。所示。现在学习的是第72页,共76页 为能进行方差分析,首先要进行方差齐性检验,为能进行方差分析,首先要进行方差齐性检验,从表从表8.3.3中数据可求得中数据可求得s12=2.14,s22=2.83,s32=2.41,s42=1.12,再从表,再从表8.3.4上查得上查得MSe=2.09,由,由(8.3.6),可求得,可求得 再由再由(8.3.7),还可求得,还可求得Bartlett检验统计量的值检验统计量的值 对给定的显著性水平对给定的显著性水平 =0.05,查表知,查表知 0.952(4 1)=7.815。由于。由于B7.815,故应保留原假设,故应保留原假设H0,即,即可认为诸水平下的方差间无显著差异。可认为诸水平下的方差间无显著差异。现在学习的是第73页,共76页8.3.3 修正的修正的Bartlett检验检验 针对样本量低于针对样本量低于5时不能使用时不能使用Bartlett检验的缺检验的缺点,点,Box提出修正的提出修正的Bartlett检验统计量检验统计量 (8.3.9)其中其中B与与C如(如(8.3.7)与()与(8.3.6)所示,且)所示,且现在学习的是第74页,共76页 在原假设在原假设H0:12=22=r2成立下,成立下,Box还证还证明了统计量明了统计量 的近似分布是的近似分布是F分布分布F(f1,f2),对,对给定的显著性水平给定的显著性水平 ,该检验的拒绝域为,该检验的拒绝域为 (8.3.10)其中其中f2的值可能不是整数,这时可通过对的值可能不是整数,这时可通过对F分分布的分位数表施行内插法得到分位数。布的分位数表施行内插法得到分位数。现在学习的是第75页,共76页 例例8.3.3 对对例例8.3.2中中的的绿绿茶茶叶叶酸酸含含量量的的数数据据,我我们们用用修正的修正的Bartlett检验再一次对等方差性作出检验。检验再一次对等方差性作出检验。在在例例8.3.2中中已已求求得得:C=1.0856,B=0.970,还还可可求求得:得:对对给给定定的的显显著著性性水水平平 =0.05,在在F分分布布的的分分位位数数表表上可查得上可查得 F0.95(3,682.4)=F0.95(3,)=2.60 由于由于 2.60,故保留原假设,故保留原假设H0,即认为四个水平下,即认为四个水平下的方差间无显著差异。的方差间无显著差异。现在学习的是第76页,共76页