《数理统计与随机过程ch9.pptx》由会员分享,可在线阅读,更多相关《数理统计与随机过程ch9.pptx(106页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 方差分析及回归分析9.1 单因素试验的方差分析 在科学试验和生产实践中,影响事物的因素往往很多。例如:在化工生产中,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作员水平等因素,每个因素的改变都有可能影响产品的数量和质量。有些因素影响大些,有些较小。为使生产过程得以稳定,确保优质、高产,就必要找出对产品质量有显著影响的那些因素。为此,需要进行试验及设计。方差分析就是根据试验的结果进行分析,鉴别各试验因素对试验结果影响大小的统计方法。第1页/共106页单因素试验的方差分析I.基本概念 1.试验指标 在试验中,需要考察的指标。2.因素 影响试验指标的条件。因素
2、又分成可控因素和不可控因素两类。例如,反应温度、原料剂量、溶液浓度、反应时间等都是可控因素;而测量误差、气候条件等都是不可控因素。3.水平 因素所处的状态。第2页/共106页 如试验中仅有一个因素发生改变,而其他因素(有的话)不发生改变,称这样的试验为单因素试验;如试验中有多个因素发生改变,就称试验为多因素试验。特别地,称只有两个因素发生改变,而其他因素(有的话)不发生改变的试验为两因素试验或双因素试验。第3页/共106页II.举例例1 1:用三台机器生产规格相同的铝合金薄板。测量薄板的厚度 (精确到千分之一厘米)如下表所示。在这里,试验指标是薄板厚度;机器为因素;三台机器就是因素的三个水平。
3、如果假定除机器因素外,其他因素都相同,则试验为单因素试验。试验目的是为了考察各台机器生产的铝合金薄板的厚度是否有显著差异,即因素的不同水平是否对试验目标有显著不同的影响。第4页/共106页例2 2:随机选取的、用于计算器的四种类型的电路的响应时间如下表所示 (单位是毫秒)。试验指标是电路的响应时间;考虑的因素是电路类型;四种电路就是四个水平。试验目的:考察电路类型对响应时间有无显著影响。第5页/共106页例3 3:一火箭使用四种燃料,三种推进器做射程试验。每种燃料与每种推进器的组合下发射火箭两次,射程试验数据由下表给出。试验指标:射程;因素:推进器 (三个水平)、燃料 (四个水平);目的:考察
4、推进器和燃料这两个因素对射程是否有显著影响。第6页/共106页III.问题讨论 本节仅讨论单因素试验问题。例1中,在因素的每个水平下进行独立试验,其结果是一个随机变量。表中的数据看成是来自三个不同总体(每个水平对应于一个总体)的样本值。将各个总体的均值依次记为1,2与3。按题意需检验假设 H0:1=2=3,H1:1,2与3不全相等。若假设每个总体均为正态变量,且方差相等,但参数未知。那么,这是一个检验具有相同方差的多个正态总体均值是否相等的问题。方差分析法就是解决这类问题的一种统计方法。第7页/共106页单因素试验的方差分析 设因素A 有s 个水平:A1,A2,As,在水平Aj(j=1,2,s
5、)下,进行 nj(nj 2)次独立试验,得到如下标的结果。第8页/共106页 假定水平Aj(j=1,2,s)下的样本 来自具有方差2,均值为j 的正态总体,j和2未知,且不同水平Aj下的样本相互独立。第9页/共106页方差分析的任务 检验 s 个总体 的均值 是否相等,即检验假设 作出未知参数 的估计。若记 的加权平均为第10页/共106页引入 表示总体平均值与总平均的差异,称为水平Aj j 的效应。此时,模型(1.1)可改写成假设(1.2)等价于假设第11页/共106页平方和的分解引入总偏差平方和是数据的总平均。ST 反应了全部数据之间的差异。因此,又称其为总变差。其中记水平 Aj下的样本均
6、值为第12页/共106页上式的第三项为则有第13页/共106页SE 称为误差平方和,SA称为效应平方和。(1.8)式称作总变差平方和分解式,简称平方和分解式。于是,有 ST=SE+SA,(1.8)其中第14页/共106页SE与SA的统计特性 为导出检验问题(1.2)的检验统计量,首先来讨论SE与SA的特性。先将SE写成由于不同总体的样本相互独立,又知(1.11)式中各加项也相互独立,根据2分布的可加性,得第15页/共106页 进一步,可以证明:特别地,H0为真时,有第16页/共106页 假设检验问题的拒绝域 由(1.14)式,知:当H0为真时,SA/(s-1)是2的无偏估计,而当H1为真时,此
7、时所以,当H0不真时,(1.16)式的分子SA/(s-1)的取值较2有偏大的趋势。故,检验问题的拒绝域应有的形式。第17页/共106页根据(1.16)式,可得到检验问题(1,2)的拒绝域为其中为给定的显著性水平,Fs-1,n-s()是参数为(s-1,n-s)的F分布的上分位点。单因素方差分析表如下:第18页/共106页 在实际中,可按以下简便公式计算ST,SA和SE。则有第19页/共106页例4:在例1中就是检验假设(=0.05)解:在这里,s=3,n1=n2=n3=5,n=15,按(1.20)式计算,得到 ST=0.00124533,SA=0.00105333,SE=0.000192 及如下
8、方差分析表:判断:因 F2,12()=3.8932.92,故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。第20页/共106页未知参数的估计 由(1.13)式,知:是2的无偏估计;再由(1.1),(1.6)及(1.7)式,知:故 分别为和j 的无偏估计。若拒绝H0,就意味着,效应1,2,s不全为零。由于j=j-,j=1,2,s,知:是j 的无偏估计。第21页/共106页由于第22页/共106页例5:求例4中未知参数2,j 与j 的点估计及均值差的置信水平为0.95的置信区间。解:经计算第23页/共106页由tn-s(/2)=t12(0.025)=2.1788及(1.21)式
9、,得 1 2,1 3 与2 3 的置信水平为0.95的置信区间分别为:第24页/共106页例6:6:在例2 2中,四类电路的响应时间的总体均为正态分布,且各总体的方差相同,但参数未知。设各样本相互独立。取检验水平=0.05,=0.05,检验各类电路的响应时间是否有显著差异。解:分别以1,2,3,4 记类型i,四种电路的响应时间总体均值。我们需要检验:H0:1=2=3=4,H1:1,2,3,4不全相等.现在,n=18,s=4,n1=n2=n3=5,n4=3,第25页/共106页 因为F 3,14(0.05)=3.343.76,故在水平0.05下拒绝H0,即认为各类型电路的响应时间有显著差异。将上
10、述数据填入下表:第26页/共106页双因素等重复试验的方差分析 设两个因素A 和 B 作用于试验指标。A有r 个水平A1,A2,Ar,B有s个水平B1,B2,Bs。现对A,B的各水平组合(Ai,Bj),i=1,2,r,j=1,2,s 都作t(t2)次试验(称等重复试验),得如下试验结果:9.2 双因素试验的方差分析第27页/共106页并假设:ijk(ij,2),i=1,2,=1,2,r,j=1,2,=1,2,s,k=1,2,1,2,t,各ijk独立。这里,ij 与 2 为参数,未知。第28页/共106页于是,模型可写成:引入记号:第29页/共106页易见,称 为总平均,i 为水平Ai 的效应,
11、j为水平Bj 的效应。这样可将ij 表示成第30页/共106页记此时 称 ij 为水平Ai 和水平Bj 的交互效应,这是由Ai 和Bj 搭配起来联合起作用而引起的。易见第31页/共106页这样,(2.1)式可写成第32页/共106页与单因素情况类似,对这些问题的检验方法也是建立在平方和的分解上。先引入以下记号:再引入总偏差平方和(称为总变差)第33页/共106页可将 ST 写成:即得平方和的分解式:第34页/共106页其中 称SE为误差平方和,SA与SB分别为因素、因素的效应平方和,SAB为与交互效应平方和。第35页/共106页可以证明:ST,SE,SA,SB,SAB 的自由度依次为 rst-
12、1,-1,rs(t-1),-1),r-1,-1,s-1,(-1,(r-1)(-1)(s-1)-1),且有第36页/共106页第37页/共106页上述结果可汇总成下列的方差分析表:第38页/共106页记第39页/共106页第40页/共106页例1:在上节例3中,假设符合双因素方差分析模型所需的条件。试在水平0.05下,检验不同燃料(因素A)、不同推进器(因素B)下射程是否有显著差异?交互作用是否显著?解:现在 r=4,s=3,t=2。需检验假设H01,H02,H03,(见(2.6)(2.8)。首先计算T,Tij.,Ti.,T.j.,表中括号内的数是Tij.。然后按(2.22)式计算下列各式:第4
13、1页/共106页第42页/共106页得方差分析表如下:由于 F3,12(0.05)=3.49FA,F2,12(0.05)=3.89FB,所以,在水平 =0.05下,拒绝原假设H01与H02,即认为不同燃料或不同推进器下的射程有显著差异。也就是说,燃料和推进器这两个因素对射程的影响都是显著的。第43页/共106页又,F6,12(0.05)=3.00 FAB。故拒绝H03。值得注意的是,F6,12(0.001)=8.38 也远远小于 FAB=14.9,故交互作用的效应是高度显著的。从表9.10可看出,A4与B1或A3与B2的搭配都使火箭射程较之其他水平的搭配要远得多。实际中,我们选最优的搭配方式来
14、实施。第44页/共106页例2:在某种金属材料生产过程中,对热处理温度(因素B)与时间(因素A)各取两个水平,产品强度的测定结果(相对值)如表9.12所示。在同一条件下每个实验重复两次。设各水平搭配下强度的总体服从正态分布且方差相同。各样本独立。问热处理温度、时间以及这两者的交互作用对产品强度是否有显著的影响(取=0=0.05.05)?第45页/共106页解:按题意需检验假设(2.6)(2.8),作计算如下.第46页/共106页得方差分析表如表9.13.由于F1,4(0.05)=7.71,所以认为时间对强度的影响不显著,而温度的影响显著,交互作用的影响也显著。第47页/共106页双因素无重复试
15、验的方差分析 在以上讨论中,我们考虑了双因素试验中两个因素间的交互作用。为检验交互作用的效应是否显著。对两因素的每一组合(Ai,Bj)至少要做2次试验。这是因为在模型(2.5)中,若k=1,ij+ij 总以结合在一起的形式出现,这样就不能将交互作用与误差分离出来。如果在处理实际问题时,我们知道不存在交互作用,或已知交互作用对试验的指标影响很小,就可以不考虑交互作用。此时,即使 k=1,也能对因素A、B的效应进行分析。现设对两个因素的每一组合(Ai,Bj)只做一次试验,所得结果如下。第48页/共106页或写成第49页/共106页 沿用 中的记号,注意到现在假设“不存在 交互作用”。此时,ij=0
16、 0,i=1,2,r,j=1,2,s。故,由(2.4)式知 ,(2.23)式可写成这就是现在要研究的方差分析模型。第50页/共106页对这个模型,所要检验的假设有如下两个:与在中的讨论相同,得方差分析表。第51页/共106页第52页/共106页表9.15中的平方和可按下述式子来计算:其中第53页/共106页例3:下面给出了在某5个不同地点、不同时间空气中的颗粒状物(以mg/m3计)的含量的数据:设本题符合模型(2.24)式中的条件。试在水平 =0.05=0.05下检验:1 1).).在不同时间下颗粒状物含量的均值有无显著差异;2).2).在不同地点下颗粒状物含量的均值有无显著差异。第54页/共
17、106页解:按题意需检验假设(2.25),(2.26)。,的值已算出载于上表。现在 r=4,s=5。由(2.27)得到:第55页/共106页方差分析表如下:由于F3,12(0.05)=3.4910.72,,F4,12(0.05)=3.261)有关。对于自变量 x1,x2,xp的一组确定值,Y 都有确定的分布。若Y 的数学期望存在,则它是x1,x2,xp的函数,记为(x1,x2,xp),它是Y 关于x的回归函数。在这里,仅讨论 (x1,x2,xp)是 x1,x2,xp 的线性函数的情况,即多元线性回归模型:第94页/共106页设第95页/共106页化简(4.4)式,得(4.5)式称为正则方程组。
18、为求解方便,将(4.5)式写成矩阵方程的形式。为此,引入矩阵:第96页/共106页第97页/共106页于是,(4.5)式可写成这就是正规方程组的矩阵形式。在(4.5)两边左乘 (设 存在),得到(4.5)的解第98页/共106页这就是我们要求的()的最大似然估计。例1 1:下面给出了某种产品每件平均单价Y(元)与批量x(件)之间的关系的一组数据第99页/共106页散点图如下:来拟合Y 与 x 的关系。现在来求回归方程。我们选取模型第100页/共106页这是一个二元线性回归模型,第101页/共106页经计算第102页/共106页 像一元线性回归一样,模型(4.1)往往也是一种假定。为考察这一假定
19、是否符合实际观察结果,还需进行以下的假设检验:另外,与一元线性回归一样,多元线性回归方程的一个重要应用是确定给定点(x01,x02,x0p)处对应的Y的观察值的预测区间。第103页/共106页 实际问题中,与 Y 有关的因素往往很多,如果将它们都取作自变量必然会导致所得到的回归方程很庞大。实际上,有些自变量对Y 的影响很小,如果将这些自变量剔除,不但能使回归方程较为简洁,便于应用,且能明确哪些因素(即自变量)的改变对 Y 有显著影响,从而使人们对事物有进一步的认识。通常可用逐步回归法达到这一目的。上述关于模型的线性假设的检验、观察值的预测区间、逐步回归等内容,读者可参阅华东师大出版社出版的回归分析及其试验设计一书。第104页/共106页 实际问题中,需要考虑的影响 Y 的因素较多,即自变量的个数较多。因此,要求解一个多元线性回归的问题,计算工作量是相当大的,这就需要借助于计算机来进行计算。一般,在标准程序库中都有多元线性回归、逐步回归方法的标准程序可供直接使用。第105页/共106页感谢您的观看!第106页/共106页
限制150内