华东师范大学茆诗松《概率论与数理统计教程》第8章方差分析与回归分析ppt课件.ppt
《华东师范大学茆诗松《概率论与数理统计教程》第8章方差分析与回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《华东师范大学茆诗松《概率论与数理统计教程》第8章方差分析与回归分析ppt课件.ppt(119页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、8.1 方差分析8.2 多重比较8.3 方差齐性分析8.4 一元线性回归8.5 一元非线性回归 8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。 例8.1.1 在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示: 饲料A鸡 重(克)A110731009106010011002101210091028A21107109299011091
2、090107411221001A310931029108010211022103210291048 本例中,我们要比较的是三种饲料对鸡的增肥作用是否相同。为此,把饲料称为因子,记为A,三种不同的配方称为因子A的三个水平水平,记为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量用yij表示,i=1, 2, 3, j=1, 2, 10。我们的目的是比较三种饲料配方下鸡的平均重量是否相等,为此,需要做一些基本假定,把所研究的问题归结为一个统计问题,然后用方差分析的方法进行解决。 在例8.1.1中我们只考察了一个因子,称其为单因子试验。 通常,在单因子试验中,记因子为 A, 设其有r个水
3、平,记为A1, A2, Ar,在每一水平下考察的指标可以看成一个总体 ,现有 r 个水平,故有 r 个总体, 假定:1)每一总体均为正态总体,记为 N(i , i 2), i1, 2, r ;2)各总体的方差相同: 1 2= 22= r2 = 2 ;3)从每一总体中抽取的样本是相互独立的, 即所有的试验结果 yij 都相互独立。 我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验: H0 :1 =2 =r (8.1.1) 备择假设为H1 :1, 2, , r 不全相等 在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r个水平间没
4、有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A显著。 为对假设(8.1.1)进行检验,需要从每一水平下的总体抽取样本,设从第i个水平下的总体获得m个试验结果,记 yij 表示第i个总体的第j次重复试验结果。共得如下n=rm个试验结果:yij, i1, 2, r , j1, 2, , m, 其中r为水平数,m为重复数,i为水平编号, j 为重复编号。 在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的,记 ij = yiji, ij 称为随机误差。于是有 yij = i +ij (8.1.2)
5、(8.1.2)式称为试验结果 yij 的数据结构式。 单因子方差分析的统计模型: (8.1.3) 总均值与效应: 称诸 i 的平均 为总均值. 称第 i 水平下的均值 i 与总均值 的差: ai=i - 为 Ai 的效应。 2,1,2,., ,1,2,.,(0,)ijiijijyir jmN诸相互独立,且都服从1111(.)rriirr 模型(8.1.3)可以改写为 (8.1.8) 假设(8.1.1)可改写为 H0 :a1 =a2 =ar =0 (8.1.9) 12,1,2,., ,1,2,.,0N(0,)ijiijriiijyair jma相互独立,且都服从一、试验数据 通常在单因子方差分析
6、中可将试验数据列成如下页表格形式。表8.1.2中的最后二列的和与平均的含义如下:.111,2,miiijijriiTTyyirmTTTTyr mnnr m总试验次数因子水平 试 验 数 据 和 平均 A1y11 y12 y1m T1A2y21 y22 y2mT2Aryr1 yr2 yrmTrT1y2yyry 数据间是有差异的。数据yij与总平均 间的偏差可用yij 表示,它可分解为二个偏差之和 (8.1.10) 记二、组内偏差与组间偏差.()()ijijiiyyyyyy.1111111,mrrmiijiijjiijmrnyy 由于 (8.1.11) 所以yij - 仅反映组内数据与组内平均的随
7、机误差,称为组内偏差;而 (8.1.12) 除了反映随机误差外,还反映了第i个水平的效应,称为组间偏差。.()()ijiiijiiijiyyijy.()()iiiiiyya. iyy在统计学中,把k个数据y1 , y2 , , yk分别对其均值 =(y1+ + yk )/k 的偏差平方和 称为k个数据的偏差平方和,它常用来度量若干个数据分散的程度。三、偏差平方和及其自由度y22211()()()kkiiQyyyyyy在构成偏差平方和Q的k个偏差y1 , , yk 间有一个恒等式 ,这说明在Q中独立的偏差只有k1个。在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为f
8、Q=k1。自由度是偏差平方和的一个重要参数。 yy1()0kiiyy各yij间总的差异大小可用总偏差平方和 表示,其自由度为fT=n1; 四、总平方和分解公式 仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示, 也称为误差偏差平方和,其自由度为 fe=nr ;211()rmTijijSyy 2.11()rmeijiijSyy由于组间差异除了随机误差外,还反映了效应间的差异,故由效应不同引起的数据差异可用组间偏差平方和 表示,也称为因子A的偏差平方和,其自由度为 fA=r1; 2.1()rAiiSmyy定理8.1.1 在上述符号下,总平方和ST可以分解为因子平方和SA与误差平方和Se之
9、和,其自由度也有相应分解公式,具体为: ST =SA +Se , fT =fA +fe (8.1.16) (8.1.16)式通常称为总平方和分解式。 偏差平方和Q的大小与自由度有关,为了便于在偏差平方和间进行比较,统计上引入了均方和的概念,它定义为MS=Q/fQ ,其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度。 如今要对因子平方和 SA 与误差平方和 Se 之间进行比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进行比较更为合理,故可用 作为检验H0的统计量。8.1.4 检验方法/AAAeeeMSSfFMSSf定理8.1.2 在单因子方差分析模型
10、 (8.1.8) 及前述符号下,有 (1) Se / 2 2(nr) ,从而E(Se ) (nr) 2 ,进一步,若H0成 立,则有SA/ 2 2(r1) (2) SA与Se独立。 221()(1)rAiiE Srma由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W=FF1 (fA ,fe),通常将上述计算过程列成一张表格,称为方差分析表。表8.1.3 单因子方差分析表来源平方和 自由度均方和F比因子SAfA=r1MSA= SA/fAF MSA/ MSe误差Sefe=nrMSe= Se/fe总和STfT=n1对给定的,可作如下判断: 若F F1 (fA
11、 ,fe) ,则说明因子A不显著。 该检验的p值也可利用统计软件求出,若 以Y记服从F(fA ,fe)的随机变量,则检验的 p 值为 p=P(YF)。 如果 F F1 (fA ,fe),则认为因子A显著;常用的各偏差平方和的计算公式如下: (8.1.19) 一般可将计算过程列表进行。 22112211rmTijijrAiieTATSynTSTmnSSS例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表水平数据(原始数据-1000)TiTi2A173 96012129281943763610024A210792-10109907
12、4122158534222560355A393 298021223229483541253162098411335051779136321mijjy 利用(8.1.19),可算得各偏差平方和为: 把上述诸平方和及其自由度填入方差分析表2211339136337876.0417,24 1 2324505177 11339660.0833,3 1282437876.0417 9660.0833 28215.9584,3(8 1) 21TTAAeTAeSfSfSSSf 表8.1.5 例8.1.2的方差分析表 来源平方和自由度均方和F比因子9660.083324830.04173.5948 误差282
13、15.9584211343.6171总和37876.041723若取=0.05,则F0.95 (2 ,21)=3.47 ,由于F=3.59483.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。 在检验结果为显著时,我们可进一步求出总均值 、各主效应ai和误差方差 2的估计。 一、点估计由模型(8.1.8)知诸yij相互独立,且yij N(+ ai , 2) ,因此, 可使用极大似然方法求出一般平均 、各主效应ai和误差方差 2的估计:由极大似然估计的不变性,各水平均值i的极大似然估计为 ,由于 不是 2的无偏估计,可修偏: .iiy2M2eMS.2211,1,1()
14、iirmeMijijyayyirSyynn 由于 ,可给出Ai的水平均值i的1- 的置信区间为 其中 。 .() ()/iieeem yt fSf二、置信区间.1/2.1/2()/,()/ieieytfmytfm2eMS例8.1.3 继续例8.1.2,此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为 从点估计来看,水平2(以槐树粉为主的饲料)是最优的。 12319410001024.25,858510001073.125,835410001044.25,8 误差方差的无偏估计为 利用(8.1.23)可以给出诸水平均值的置信区间。此处, ,若取0.05 ,则t1- /2( fe )
15、= t0.95( 21 )=2.0796, ,于是三个水平均值的0.95置信区间分别为21343.6171eMS1343.6171 36.65540.975(21)/8 26.9509t123:1024.25 26.9509 = 997.2891, 1051.2109,:1073.125 26.9509 = 1046.1741, 1100.0759,:1044.25 26.9509 = 1017.2891, 1071.2109. 在单因子试验的数据分析中可得到如下三个结果: 因子是否显著; 试验的误差方差 2的估计; 诸水平均值i的点估计与区间估计。 在因子A显著时,通常只需对较优的水平均值作
16、参数估计,在因子A不显著场合,参数估计无需进行。8.1.6 重复数不等情形 单因子方差分析并不要求每个水平下重复试验次数全相等,在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似,只在几处略有差别。 数据:设从第i个水平下的总体获得mi个试验结果,记为yi1 , yi2 , yim ,i=1,2, r,统计模型为: (8.1.24) 2,1,2,., ,1,2,.,(0,)ijiijiijyirjmN各相互独立,且都服从总均值:诸i的加权平均(所有试验结果的均值的平均) (8.1.25) 称为总均值或一般平均。 效应约束条件: 各平方和的计算: SA的计算公式略有不同 222.11
17、()rriAiiiiiTTSm yymn10riiima11111(.)rrriiimmmnn例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表8.1.6左半边,其相应的计算结果列于右侧。 包装类型 销售量 miTiTi2 / miA112 18230450468A214 12 13339507509A319 17 2135710831091A42
18、4 3025414581476和n=10T=18021imijjy213498riiiTm2113544imrijijy由此可求得各类偏差平方和如下 方差分析表如表8.1.8所示 .若取0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我们可认为各水平间有显著差异。 3544 3240304,10 1 93498 3240258,4 1 3304 25846,10 46TTAAeeSfSfSf 22180324010Tn来源平方和自由度均方和F比因子A25838611.22 误差e4667.67总和T3049 由于因子显著,我们还可以给出诸水平均值的估计。因子A的
19、四个水平均值的估计分别为 由此可见,第四种包装方式效果最好。误差方差的无偏估计为123430/215,39/313,57/319,54/227,27.67eMS 进一步,利用(8.1.23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取0.05,则t1-/2( fe )=t0.95(6)=2.4469, ,于是效果较好的第三和第四个水平均值的0.95置信区间分别为 7.672.76950.975(6)6.7767t:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.48.2.1 效应差的置信
20、区间 如果方差分析的结果因子A显著,则等于说有充分理由认为因子A各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定的一对水平Ai与Aj,我们可通过求i - j的区间估计来进行比较。 由于 ,故由此给出i - j的置信水平为1-的置信区间为 (8.2.1)其中 是 2的无偏估计。这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。2.11(,()ijijijyyNmm.()()()11()ijijeeijeyytfSmmf.11221111()(),()()ijeijeijijyytfyytfmmmm2/ee
21、Sf例8.2.1 继续例8.1.2, ,fe=21,取0.05 ,则t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各个置信区间为 可见第一个区间在0的左边,所以我们可以概率95%断言认为1 小于2,其它二个区间包含0点,虽然从点估计角度看水平均值估计有差别,但这种差异在0.05水平上是不显著的。 0.9751 1(21) 38.11438 8t121323:48.875038.1143 86.9893,10.7607:2038.1143 58.11433, 18.1143:28.875038.1143 9.2393, 66.9893 1343.6171 36.655
22、48.2.2 多重比较问题 对每一组(i, j), (8.2.1) 给出的区间的置信水平都是1 ,但对多个这样的区间,要求其同时成立,其联合置信水平就不再是1 了。 譬如,设E1 , , Ek是k个随机事件,且有 P(Ei)=1,i=1 ,k ,则其同时发生的概率 这说明它们同时发生的概率可能比1 小很多。 为了使它们同时发生的概率不低于1,一个办法是把每个事件发生的概率提高到1 /k. 这将导致每个置信区间过长,联合置信区间的精度很差,一般人们不采用这种方法。 111()1()1()1kkkiiiiiiPEPEP Ek 在方差分析中,如果经过F检验拒绝原假设,表明因子A是显著的,即r个水平对
23、应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。 同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著性水平同时检验如下r(r1)/2个假设: (8.2.2) 0:,1,ijijHijr 直观地看,当H0ij成立时, 不应过大,因此,关于假设(8.2.2)的拒绝域应有如下形式 诸临界值应在(8.2.2)成立时由P(W)= 确定。下面分重复数相等和不等分别介绍临界值的确定。 .1|ijijij rWyyc .|ijyy 8.2.3 重复数相等场合的T法 在重复数相等时,由对称性自然可以要求诸cij相等,记为c. 记 ,
24、则由给定条件不难有 2/eeSf. () /iiieytt fm 于是当 (8.2.2) 成立时,1= r = ,可推出 其中 ,称为t化极差统计量,其分布可由随机模拟方法得到。 于是 , 其中q1(r, fe)表示q(r, fe)的1 分位数,其值在附表8中给出。 ()( ,)/eP WP q r fmc.()()( ,)maxmin/jieijyyq r fmm1( ,)/ecqr fm 重复数相同时多重比较可总结如下:对给定的的显著性水平 ,查多重比较的分位数q(r,fe)表,计算 ,比较诸 与c的大小,若 则认为水平Ai与水平Aj间有显著差异,反之,则认为水平Ai与水平Aj间无明显差别
25、。这一方法最早由Turkey提出,因此称为T法。 1( ,)/ecqr fm.|ijyy.|ijyyc 例8.2.2 继续例8.1.2,若取 =0.05,则查表知q1-0.05(3, 21)=3.57,而 。所以 ,认为1与2有显著差别 ,认为1与3无显著差别 ,认为2与3有显著差别 这说明: 1与3之间无显著差别,而它们与2之间都有显著差异。 36.65543.57 36.6554/846.2659c 1.2.|48.87546.2659yy1.3.| 2046.2659yy2.3.| 46.87546.2659yy在重复数不等时,若假设 (8.2.2) 成立,则 或 从而可以要求 ,在此要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论与数理统计教程 华东师范大学 茆诗松 概率论 数理统计 教程 方差分析 回归 分析 ppt 课件
限制150内