《数理统计与随机过程ch.ppt》由会员分享,可在线阅读,更多相关《数理统计与随机过程ch.ppt(106页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数理统计与随机过程数理统计与随机过程第第九九章章主讲教师:程维虎教授主讲教师:程维虎教授北京工业大学应用数理学院北京工业大学应用数理学院第九章第九章 方差分析及回归分析方差分析及回归分析9.1 单因素试验的方差分析单因素试验的方差分析 在科学试验和生产实践中,影响事物的因素往在科学试验和生产实践中,影响事物的因素往往很多。往很多。例如:例如:在化工生产中,原料成分、原料剂在化工生产中,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作员水平等因素,每个因素的改间、机器设备及操作员水平等因素,每个因素的改变都有可能影响产品的
2、数量和质量。有些因素影响变都有可能影响产品的数量和质量。有些因素影响大些,有些较小。为使生产过程得以稳定,确保优大些,有些较小。为使生产过程得以稳定,确保优质、高产,就必要找出对产品质量有显著影响的那质、高产,就必要找出对产品质量有显著影响的那些因素。为此,需要进行试验及设计。些因素。为此,需要进行试验及设计。方差分析就方差分析就是根据试验的结果进行分析,鉴别各试验因素对试是根据试验的结果进行分析,鉴别各试验因素对试验结果影响大小的统计方法。验结果影响大小的统计方法。9.1.1 单因素试验的方差分析单因素试验的方差分析I.基本概念基本概念 1.试验指标试验指标 在试验中,需要考察的指标。在试验
3、中,需要考察的指标。2.因素因素 影响试验指标的条件。因素又分成影响试验指标的条件。因素又分成可控因素可控因素和和不不可控因素可控因素两类。例如,反应温度、原料剂量、溶液浓两类。例如,反应温度、原料剂量、溶液浓度、反应时间等都是可控因素;而测量误差、气候条度、反应时间等都是可控因素;而测量误差、气候条件等都是不可控因素。件等都是不可控因素。3.水平水平 因素所处的状态。因素所处的状态。如试验中仅有一个因素发生改变,而其他因素如试验中仅有一个因素发生改变,而其他因素(有的话有的话)不发生改变不发生改变,称这样的试验为称这样的试验为单因素试验单因素试验;如试验中有多个因素发生改变,就称试验为如试验
4、中有多个因素发生改变,就称试验为多因素多因素试验试验。特别地,称只有两个因素发生改变,而其他因特别地,称只有两个因素发生改变,而其他因素素(有的话有的话)不发生改变的试验为不发生改变的试验为两因素试验两因素试验或或双因双因素试验素试验。II.举例举例例例1 1:用三台机器生产规格相同的铝合金薄板。测量薄用三台机器生产规格相同的铝合金薄板。测量薄板的厚度板的厚度 (精确到千分之一厘米精确到千分之一厘米)如下表所示。在这里如下表所示。在这里,试验指标是薄板厚度试验指标是薄板厚度;机器为因素机器为因素;三台机器就是因三台机器就是因素的三个水平素的三个水平。如果假定除机器因素外,其他因素都。如果假定除
5、机器因素外,其他因素都相同,则试验为单因素试验。相同,则试验为单因素试验。试验目的是为了考察各台机器生产的试验目的是为了考察各台机器生产的铝合金薄板铝合金薄板的厚度是否有显著差异,即因素的不同水平是否对试的厚度是否有显著差异,即因素的不同水平是否对试验目标有显著不同的影响。验目标有显著不同的影响。例例2 2:随机选取的、用于计算器的四种类型的电路的随机选取的、用于计算器的四种类型的电路的响应时间如下表所示响应时间如下表所示 (单位是毫秒单位是毫秒)。试验指标是电试验指标是电路的响应时间路的响应时间;考虑的因素是电路类型考虑的因素是电路类型;四种电路四种电路就是四个水平就是四个水平。试验目的:考
6、察电路类型对响应时。试验目的:考察电路类型对响应时间有无显著影响。间有无显著影响。例例3 3:一火箭使用四种燃料,三种推进器做射程试验。一火箭使用四种燃料,三种推进器做射程试验。每种燃料与每种推进器的组合下发射火箭两次,射程每种燃料与每种推进器的组合下发射火箭两次,射程试验数据由下表给出。试验数据由下表给出。试验指标:射程试验指标:射程;因素:推进因素:推进器器 (三个水平三个水平)、燃料燃料 (四个水平四个水平);目的:考察推进目的:考察推进器和燃料这两个因素对射程是否有显著影响器和燃料这两个因素对射程是否有显著影响。III.问题讨论问题讨论 本节仅讨论单因素试验问题。例本节仅讨论单因素试验
7、问题。例1中,在因素的中,在因素的每个水平下进行独立试验,其结果是一个随机变量。每个水平下进行独立试验,其结果是一个随机变量。表中的数据看成是来自三个不同总体表中的数据看成是来自三个不同总体(每个水平对应每个水平对应于一个总体于一个总体)的样本值。的样本值。将各个总体的均值依次记为将各个总体的均值依次记为1,2与与3。按题意需检验假设。按题意需检验假设 H0:1=2=3,H1:1,2与与3不全相等。不全相等。若假设每个总体均为正态变量,且方差相等,但参数若假设每个总体均为正态变量,且方差相等,但参数未知。那么,这是一个检验具有相同方差的多个正态未知。那么,这是一个检验具有相同方差的多个正态总体
8、均值是否相等的问题。总体均值是否相等的问题。方差分析法就是解决这类方差分析法就是解决这类问题的一种统计方法。问题的一种统计方法。单因素试验的方差分析 设因素设因素A 有有s 个水平:个水平:A1,A2,As,在水平,在水平Aj(j=1,2,s)下,下,进行进行 nj(nj 2)次独立试验,得次独立试验,得到如下标的结果。到如下标的结果。假定水平假定水平Aj(j=1,2,s)下的样本下的样本 来自具有方差来自具有方差2,均值为均值为j 的正态总体的正态总体,j和和2未未知,且不同水平知,且不同水平Aj下下的样本相互独立。的样本相互独立。方差分析的任务 检验检验 s 个总体个总体 的均值的均值 是
9、否相等,即检验假设是否相等,即检验假设 作出未知参数作出未知参数 的估计。的估计。若记若记 的加权平均为的加权平均为引入引入 表示总体平均值与表示总体平均值与总平均的差异,称为水平总平均的差异,称为水平Aj j 的效应。此时,的效应。此时,模型模型(1.1)可改写成可改写成假设假设(1.2)等价于假设等价于假设9.1.2 平方和的分解平方和的分解引入总偏差平方和引入总偏差平方和是数据的总平均。是数据的总平均。ST 反应了全部数据之间的差异。反应了全部数据之间的差异。因此,又称其为总变差。因此,又称其为总变差。其中其中记水平记水平 Aj下的样本均值为下的样本均值为上式的第三项为上式的第三项为则有
10、则有SE 称为误差平方和,称为误差平方和,SA称为效应平方和。称为效应平方和。(1.8)式称式称作总变差平方和分解式,简称平方和分解式。作总变差平方和分解式,简称平方和分解式。于是,有于是,有 ST=SE+SA,(1.8)其中其中9.1.3 SE与与SA的统计特性的统计特性 为导出检验问题为导出检验问题(1.2)的检验统计量,首先的检验统计量,首先来讨论来讨论SE与与SA的特性。先将的特性。先将SE写成写成由于不同总体的样本相互独立,又知由于不同总体的样本相互独立,又知(1.11)式中各式中各加项也相互独立,根据加项也相互独立,根据2分布的可加性,得分布的可加性,得 进一步,可以证明:进一步,
11、可以证明:特别地,特别地,H0为真时,有为真时,有9.1.4 假设检验问题的拒绝域假设检验问题的拒绝域 由由(1.14)式,知:当式,知:当H0为真时,为真时,SA/(s-1)是是2的无偏估计,而当的无偏估计,而当H1为真时,为真时,此时此时所以,当所以,当H0不真时,不真时,(1.16)式的分子式的分子SA/(s-1)的的取值较取值较2有偏大的趋势。故,检验问题的拒绝域应有偏大的趋势。故,检验问题的拒绝域应有有的形式。的形式。根据根据(1.16)式,可得到检验问题式,可得到检验问题(1,2)的拒绝域的拒绝域为为其中其中为为给定的显著性水平,给定的显著性水平,Fs-1,n-s()是参数为是参数
12、为(s-1,n-s)的的F分布的上分布的上分位点。分位点。单因素方差分析表如下单因素方差分析表如下:在实际中,可按以下简便公式计算在实际中,可按以下简便公式计算ST,SA和和SE。则有则有例例4:在例在例1中就是检验假设中就是检验假设(=0.05)解:解:在这里,在这里,s=3,n1=n2=n3=5,n=15,按按(1.20)式式计算,得到计算,得到 ST=0.00124533,SA=0.00105333,SE=0.000192 及如下方差分析表:及如下方差分析表:判断:因判断:因 F2,12()=3.8932.92,故在水平故在水平0.05下拒下拒绝绝H0,即认为各台机器生产的薄板厚度有显著
13、差异。,即认为各台机器生产的薄板厚度有显著差异。9.1.5 未知参数的估计未知参数的估计 由由(1.13)式,知:式,知:是是2的无偏估计;的无偏估计;再由再由(1.1),(1.6)及及(1.7)式,知:式,知:故故 分别为分别为和和j 的无偏估计。的无偏估计。若拒绝若拒绝H0,就意味着,效应就意味着,效应1,2,s不全不全为零。由于为零。由于j=j-,j=1,2,s,知:知:是是j 的无偏估计。的无偏估计。由于由于例例5:求例求例4中未知参数中未知参数2,j 与与j 的点估计及均值的点估计及均值差的置信水平为差的置信水平为0.95的置信区间。的置信区间。解:解:经计算经计算由由tn-s(/2
14、)=t12(0.025)=2.1788及及(1.21)式,得式,得 1 2,1 3 与与2 3 的置信水平为的置信水平为0.95的置信区间分别为:的置信区间分别为:例例6:6:在例在例2 2中,四类电路的响应时间的总体均为正中,四类电路的响应时间的总体均为正态分布,且各总体的方差相同,但参数未知。设各态分布,且各总体的方差相同,但参数未知。设各样本相互独立。取检验水平样本相互独立。取检验水平=0.05,=0.05,检验各类电路检验各类电路的响应时间是否有显著差异。的响应时间是否有显著差异。解解:分别以分别以1,2,3,4 记类型记类型i,四种电四种电路的响应时间总体均值。我们需要检验:路的响应
15、时间总体均值。我们需要检验:H0:1=2=3=4,H1:1,2,3,4不全相等不全相等.现在,现在,n=18,s=4,n1=n2=n3=5,n4=3,因为因为F 3,14(0.05)=3.343.76,故在水平故在水平0.05下拒下拒绝绝H0,即认为各类型电路的响应时间有显著差异。,即认为各类型电路的响应时间有显著差异。将上述数据填入下表:将上述数据填入下表:9.2.1 双因素等重复试验的方差分析双因素等重复试验的方差分析 设两个因素设两个因素A 和和 B 作用于试验指标。作用于试验指标。A有有r 个水个水平平A1,A2,Ar,B有有s个水平个水平B1,B2,Bs。现对现对A,B的各水平组合的
16、各水平组合(Ai,Bj),i=1,2,r,j=1,2,s 都作都作t(t2)次试验次试验(称等重复试验称等重复试验),得如下试验结果:得如下试验结果:9.2 双因素试验的方差分析双因素试验的方差分析并假设并假设:ijk(ij,2),i=1,2,=1,2,r,j=1,2,=1,2,s,k=1,2,1,2,t,各各ijk独立。独立。这里,这里,ij 与与 2 为参数,为参数,未知。未知。于是,模型可写成:于是,模型可写成:引入记号:引入记号:易见,易见,称称 为总平均,为总平均,i 为水平为水平Ai 的效应,的效应,j为水平为水平Bj 的效的效应。这样可将应。这样可将ij 表示成表示成记记此时此时
17、 称称 ij 为水平为水平Ai 和水平和水平Bj 的的交互效应交互效应,这是由,这是由Ai 和和Bj 搭配起来联合起作用而引起的。易见搭配起来联合起作用而引起的。易见这样,这样,(2.1)式可写成式可写成与单因素情况类似,对这些问题的检验方法也是与单因素情况类似,对这些问题的检验方法也是建立在平方和的分解上。先引入以下记号:建立在平方和的分解上。先引入以下记号:再引入总偏差平方和再引入总偏差平方和(称为总变差称为总变差)可将可将 ST 写成:写成:即得平方和的分解式:即得平方和的分解式:其中其中 称称SE为为误差平方和误差平方和,SA与与SB分别为因素分别为因素、因素、因素的的效应平方和效应平
18、方和,SAB为为与与交互效应平方和交互效应平方和。可以证明:可以证明:ST,SE,SA,SB,SAB 的自由度依次为的自由度依次为 rst-1,-1,rs(t-1),-1),r-1,-1,s-1,(-1,(r-1)(-1)(s-1)-1),且有,且有上述结果可汇总成下列的方差分析表:上述结果可汇总成下列的方差分析表:记记例例1:在上节例在上节例3中,假设符合双因素方差分析模型所中,假设符合双因素方差分析模型所需的条件。试在水平需的条件。试在水平0.05下,检验不同燃料下,检验不同燃料(因素因素A)、不同推进器不同推进器(因素因素B)下射程是否有显著差异?交互作下射程是否有显著差异?交互作用是否
19、显著?用是否显著?解解:现在现在 r=4,s=3,t=2。需检验假设需检验假设H01,H02,H03,(见见(2.6)(2.8)。首先计算。首先计算T,Tij.,Ti.,T.j.,表中括号内的数是,表中括号内的数是Tij.。然后按。然后按(2.22)式计算下式计算下列各式:列各式:得方差分析表如下:得方差分析表如下:由于由于 F3,12(0.05)=3.49FA,F2,12(0.05)=3.89FB,所以,在水平,所以,在水平 =0.05下,拒绝原假设下,拒绝原假设H01与与H02,即认为不同燃料或不同推进器下的射程有显著差异。即认为不同燃料或不同推进器下的射程有显著差异。也就是说,燃料和推进
20、器这两个因素对射程的影响都也就是说,燃料和推进器这两个因素对射程的影响都是显著的。是显著的。又又,F6,12(0.05)=3.00 FAB。故拒绝。故拒绝H03。值得注意。值得注意的是的是,F6,12(0.001)=8.38 也远远小于也远远小于 FAB=14.9,故,故交互作用的效应是高度显著的。从表交互作用的效应是高度显著的。从表9.10可看出,可看出,A4与与B1或或A3与与B2的搭配都使火箭射程较之其他水平的搭的搭配都使火箭射程较之其他水平的搭配要远得多。实际中配要远得多。实际中,我们选最优的搭配方式来实施。我们选最优的搭配方式来实施。例例2:在某种金属材料生产过程中,对热处理温度在某
21、种金属材料生产过程中,对热处理温度(因素因素B)与时间与时间(因素因素A)各取两个水平,产品强度的测定结果各取两个水平,产品强度的测定结果(相对值相对值)如表如表9.12所示。在同一条件下每个实验重复两所示。在同一条件下每个实验重复两次。设各水平搭配下强度的总体服从正态分布且方差相次。设各水平搭配下强度的总体服从正态分布且方差相同。各样本独立。问热处理温度、时间以及这两者的交同。各样本独立。问热处理温度、时间以及这两者的交互作用对产品强度是否有显著的影响互作用对产品强度是否有显著的影响(取取=0=0.05.05)?解:解:按题意需检验假设按题意需检验假设(2.6)(2.8),作计算如,作计算如
22、下下.得方差分析表如表得方差分析表如表9.13.由于由于F1,4(0.05)=7.71,所以认为时间对强度的影,所以认为时间对强度的影响不显著响不显著,而温度的影响显著而温度的影响显著,交互作用的影响也显交互作用的影响也显著。著。9.2.2 双因素无重复试验的方差分析 在以上讨论中,我们考虑了双因素试验中两个在以上讨论中,我们考虑了双因素试验中两个因素间的交互作用。为检验交互作用的效应是否显因素间的交互作用。为检验交互作用的效应是否显著。对两因素的每一组合著。对两因素的每一组合(Ai,Bj)至少要做至少要做2次试验。次试验。这是因为在模型这是因为在模型(2.5)中,若中,若k=1,ij+ij
23、总以结合总以结合在一起的形式出现,这样就不能将交互作用与误差在一起的形式出现,这样就不能将交互作用与误差分离出来。如果在处理实际问题时,我们知道不存分离出来。如果在处理实际问题时,我们知道不存在交互作用,或已知交互作用对试验的指标影响很在交互作用,或已知交互作用对试验的指标影响很小小,就可以不考虑交互作用。此时,即使就可以不考虑交互作用。此时,即使 k=1,也,也能对因素能对因素A、B的效应进行分析。的效应进行分析。现设对两个因素的每一组合现设对两个因素的每一组合(Ai,Bj)只做一次试只做一次试验,所得结果如下。验,所得结果如下。或写成或写成 沿用沿用 9.2.1中的记号,注意到现在假设中的
24、记号,注意到现在假设“不存在不存在 交互作用交互作用”。此时,。此时,ij=0 0,i=1,2,r,j=1,2,s。故,由故,由(2.4)式知式知 ,(2.23)式可写成式可写成这就是现在要研究的方差分析模型。这就是现在要研究的方差分析模型。对这个模型,所要检验的假设有如下两个:对这个模型,所要检验的假设有如下两个:与在与在9.2.1中的讨论相同,得方差分析表。中的讨论相同,得方差分析表。表表9.15中的平方和可按下述式子来计算:中的平方和可按下述式子来计算:其中其中例例3:下面给出了在某下面给出了在某5个不同地点、不同时间空气中的颗粒个不同地点、不同时间空气中的颗粒状物状物(以以mg/m3计
25、计)的含量的数据:的含量的数据:设本题符合模型设本题符合模型(2.24)式中的条件。试在水平式中的条件。试在水平 =0.05=0.05下检验:下检验:1 1).).在不同时间下颗粒状物含量的均值有无显著差异;在不同时间下颗粒状物含量的均值有无显著差异;2).2).在不同地点下在不同地点下颗粒状物含量的均值有无显著差异。颗粒状物含量的均值有无显著差异。解解:按题意需检验假设按题意需检验假设(2.25),(2.26)。,的值已算出的值已算出载于上表。现在载于上表。现在 r=4,s=5。由。由(2.27)得到:得到:方差分析表如下:方差分析表如下:由于由于F3,12(0.05)=3.4910.72,
26、,F4,12(0.05)=3.261)有关。对于自变量有关。对于自变量 x1,x2,xp的的一组确定值一组确定值,Y 都有确定的分布。若都有确定的分布。若Y 的数学期望存的数学期望存在在,则它是则它是x1,x2,xp的函数,记为的函数,记为(x1,x2,xp),它是它是Y 关于关于x的回归函数。在这里的回归函数。在这里,仅讨论仅讨论 (x1,x2,xp)是是 x1,x2,xp 的线性函数的情况的线性函数的情况,即多元即多元线性回归模型:线性回归模型:设设化简化简(4.4)式,得式,得(4.5)式称为式称为正则方程组正则方程组。为求解方便,将。为求解方便,将(4.5)式式写成矩阵方程的形式。为此
27、,引入矩阵:写成矩阵方程的形式。为此,引入矩阵:于是,于是,(4.5)式可写成式可写成这就是正规方程组的矩阵形式。在这就是正规方程组的矩阵形式。在(4.5)两边左乘两边左乘 (设设 存在存在),得到,得到(4.5)的解的解这就是我们要求的这就是我们要求的()的最大似然估计。的最大似然估计。例例1 1:下面给出了某种产品每件平均单价下面给出了某种产品每件平均单价Y(元元)与批与批量量x(件件)之间的关系的一组数据之间的关系的一组数据散点图如下:散点图如下:来拟合来拟合Y 与与 x 的关系。现在来求回归方程。的关系。现在来求回归方程。我们选取模型我们选取模型这是一个二元线性回归模型,这是一个二元线
28、性回归模型,经计算经计算 像一元线性回归一样,模型像一元线性回归一样,模型(4.1)往往也是一种往往也是一种假定。为考察这一假定是否符合实际观察结果,还假定。为考察这一假定是否符合实际观察结果,还需进行以下的假设检验:需进行以下的假设检验:另外,与一元线性回归一样,多元线性回归方程另外,与一元线性回归一样,多元线性回归方程的一个重要应用是确定给定点的一个重要应用是确定给定点(x01,x02,x0p)处对处对应的应的Y的观察值的预测区间。的观察值的预测区间。实际问题中,与实际问题中,与 Y 有关的因素往往很多,如果有关的因素往往很多,如果将它们都取作自变量必然会导致所得到的回归方程将它们都取作自
29、变量必然会导致所得到的回归方程很庞大。实际上,有些自变量对很庞大。实际上,有些自变量对Y 的影响很小,如的影响很小,如果将这些自变量剔除,不但能使回归方程较为简洁果将这些自变量剔除,不但能使回归方程较为简洁,便于应用,且能明确哪些因素便于应用,且能明确哪些因素(即自变量即自变量)的改变对的改变对 Y 有显著影响,从而使人们对事物有进一步的认识。有显著影响,从而使人们对事物有进一步的认识。通常可用逐步回归法达到这一目的。上述关于模型通常可用逐步回归法达到这一目的。上述关于模型的线性假设的检验、观察值的预测区间、逐步回归的线性假设的检验、观察值的预测区间、逐步回归等内容,读者可参阅华东师大出版社出版的等内容,读者可参阅华东师大出版社出版的回归回归分析及其试验设计分析及其试验设计一书。一书。实际问题中,需要考虑的影响实际问题中,需要考虑的影响 Y 的因素较多,的因素较多,即自变量的个数较多。因此,要求解一个多元线性即自变量的个数较多。因此,要求解一个多元线性回归的问题,计算工作量是相当大的,这就需要借回归的问题,计算工作量是相当大的,这就需要借助于计算机来进行计算。一般,在标准程序库中都助于计算机来进行计算。一般,在标准程序库中都有多元线性回归、逐步回归方法的标准程序可供直有多元线性回归、逐步回归方法的标准程序可供直接使用。接使用。
限制150内