数理统计课件 62 多元线性回归分析.pdf
6.2 多元线性回归分析多元线性回归分析 一、多元线性回归模型一、多元线性回归模型 上节讨论了一元回归模型,在实际问题中,遇到更多的是讨论随机变量上节讨论了一元回归模型,在实际问题中,遇到更多的是讨论随机变量Y与非随机变量与非随机变量12,mxxx?之间的关系,本节假设它们具有线性关系之间的关系,本节假设它们具有线性关系 011mmYxx=+?=+?(6.15)这里这里2(0,)N ,201,m?都是未知参数,都是未知参数,1m 。一般称由式。一般称由式(6.15)定义的模型为多元线性回归模型,称定义的模型为多元线性回归模型,称12,mxxx?为回归变量,为回归变量,01,m?为回归系数。为回归系数。设设12(,)TiiimixxxY?(1,2,)in=?是是12(,)TmxxxY?的的n个独立观测,则它们满足关系个独立观测,则它们满足关系 01122,1,iiimimiYxxxin=+=+=?(6.16)假设假设i 相互独立相互独立,且且2(0,)(1,)iNin=?由于假设由于假设i 相互独立,由式相互独立,由式(6.16)知知iY亦相互独立,且亦相互独立,且 01122iiimimEYxxx=+=+?,2iDY=,则有则有 201122(,),(1,2,)iiimimYNxxxin+=+=?。对式对式(6.15)求数学期望求数学期望 01122mmEYxxx=+=+?一般称一般称 01122mmYxxx=+?=+?为为Y关于关于12,mxxx?的的(理论理论)线性回归方程。线性回归方程。为了今后讨论方便,引入向量、矩阵记号,则式为了今后讨论方便,引入向量、矩阵记号,则式(6.16)可写成矩阵形式。令可写成矩阵形式。令 1201(,),(,)nmYY YY=?,12(,)n =?111212122212111mmnnnmxxxxxxXxxx =?式式(6.16)的矩阵表达式为的矩阵表达式为 YX =+(6.16)EYX=因因 nnijYY=)(),cov(,=jijiYYjjij,0,),cov(2 故故 2cov(,)()()nY YE YEY YEYI =这里这里nI表示表示n阶单位阵。对式阶单位阵。对式(6.15)给出的给出的m元线性回归模型,通常所考虑的问题是,对未知参数元线性回归模型,通常所考虑的问题是,对未知参数 和和2 进行估计,对进行估计,对 的某种假设进行检验,对的某种假设进行检验,对Y进行预报等。在下述讨论中,一般总假定进行预报等。在下述讨论中,一般总假定nm 和矩阵和矩阵X的秩等于的秩等于1m+。二、参数的估计二、参数的估计 对式对式(6.16),通常采用最小二乘法寻求,通常采用最小二乘法寻求 的估计量的估计量,即寻找,即寻找 的估计的估计 满足下面的条件满足下面的条件 221010()min()nmnmiijjiijjijijYxYx =,j (6.17)这里这里01,(1,2,)ixin=?,或写成矩阵形式,或写成矩阵形式 22|min|YXYX =(6.17)一般可用微分法求式一般可用微分法求式(6.17)的解的解.令令210()()nmiijjijQYx =求解方程组求解方程组 210()()0nmiijjijkkjjYxQ=,可得可得 10()0,0,1,nmiijjikijYxxkm=?,将上式变形可写为将上式变形可写为 110nnmiikijikjiijY xx x=01(),0,1,mnijikjjix xkm=?用矩阵表示,上述方程组可写为用矩阵表示,上述方程组可写为 ()X YX X=,(6.18)式式(6.18)一般称为正规方程,由于假设了一般称为正规方程,由于假设了X的秩为的秩为1m+,所以,所以X X 是正定矩阵,因而存在逆阵是正定矩阵,因而存在逆阵1()X X ,由式,由式(6.18)可得可得 1()X XX Y=(6.19)将将 代入线性回归方程,于是可得代入线性回归方程,于是可得 0Y=+=+11x+22x+?mmx (6.20)以后将式以后将式(6.20)亦简称为线性回归方程,由此出发,可对亦简称为线性回归方程,由此出发,可对Y进行预测。进行预测。类似上节对一元线性回归模型对类似上节对一元线性回归模型对2 的讨论,可用统计量的讨论,可用统计量 2*2101()1nmiijjijYxnm =(6.21)作为作为2 的估计,式的估计,式(6.21)也可用矩阵表示为也可用矩阵表示为 2*1()1YXnm =()YX 111()()1YX X XX YYX X XX Ynm=11()11()1nYIX X XXYnmY YX Ynm=例题 6.5 例题 6.5 某种水泥在凝固时放出的热量某种水泥在凝固时放出的热量Y(单位:cal)与水泥中下列四种化学成分有关:(1)(单位:cal)与水泥中下列四种化学成分有关:(1)123:3xCaO Al O;(2);(2)22:3xCaO SiO;(3);(3)32323:4xCaO Al OFe O;(4);(4)42:2xCaO SiO 通过实验得到数据列于表 6.2 中,求通过实验得到数据列于表 6.2 中,求Y对对1234(,)Txxxx的线性回归方程。将数据代入式(6.9),经计算可得 的线性回归方程。将数据代入式(6.9),经计算可得 01234(,)(62.45021.55110.51010.10190.1441)=则所求的线性回归方程为 则所求的线性回归方程为 123462.45021.55110.51010.10190.1441Yxxxx=+=+表 6.3 给出了 表 6.3 给出了iiYY 的数据表。的数据表。表 6.2 表 6.2 序号 1%x 2%x 3%x 4%x Y 1 2 3 4 5 6 7 8 9 10 11 12 13 7 1 11 11 7 11 3 1 2 21 1 11 10 26 29 56 31 52 55 71 31 54 47 40 66 68 6 15 8 8 6 9 17 22 18 4 23 9 8 60 52 20 47 33 22 6 44 22 26 34 12 12 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 1 2 3 4 5 6 7 8 9 10 11 12 13 7 1 11 11 7 11 3 1 2 21 1 11 10 26 29 56 31 52 55 71 31 54 47 40 66 68 6 15 8 8 6 9 17 22 18 4 23 9 8 60 52 20 47 33 22 6 44 22 26 34 12 12 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 表 6.3 表 6.3 序号 iY iY iiYY 1 2 3 4 5 6 7 8 9 10 11 12 13 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 78.50 72.79 105.97 89.33 95.65 105.27 104.15 75.67 91.72 115.62 81.81 112.33 111.69 0.00 1.51-1.67-1.73 0.25 3.93-1.45-3.18 1.38 0.28 1.99 0.97-2.29 1 2 3 4 5 6 7 8 9 10 11 12 13 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 78.50 72.79 105.97 89.33 95.65 105.27 104.15 75.67 91.72 115.62 81.81 112.33 111.69 0.00 1.51-1.67-1.73 0.25 3.93-1.45-3.18 1.38 0.28 1.99 0.97-2.29 三、估计量的分布及性质 三、估计量的分布及性质 一般来说,给定一组观测数据,代入式式一般来说,给定一组观测数据,代入式式(6.19)(6.19)中,便可得到线性回归方程,即使中,便可得到线性回归方程,即使Y与回归变量与回归变量1(,)Tmxx?不具有线性关系,形式上也能得到线性回归方程,因此,须对回归系数做类似一元情形的假设检验.为此,先讨论估计量的分布,由式(6.19)可知:不具有线性关系,形式上也能得到线性回归方程,因此,须对回归系数做类似一元情形的假设检验.为此,先讨论估计量的分布,由式(6.19)可知:1()X XX Y=,即,即 的任一分量均是独立正态随机变量的任一分量均是独立正态随机变量1,nYY?的线性组合,由多元分布理论,随机向量的线性组合,由多元分布理论,随机向量 服从服从1m+维正态分布 维正态分布 111()()()EE X XX YX XX EYX XX X=所以,所以,是是 的无偏估计。由公式:的无偏估计。由公式:cov(,)cov(,)TAX BYAX Y B=得 得 cov(,11)()cov(,)()X XXY Y X X X =12121()()()()nX XXIX X XX X=令 令21()CX X=,则,则 服从服从1m+维正态分布,密度函数为 维正态分布,密度函数为 1111221()(2)|exp()(),2mmf xCxCxxR+=性质 1.性质 1.是是Y的线性函数,服从的线性函数,服从1m+维正态分布,均值维正态分布,均值E =,协方差阵为,协方差阵为21()X X 注:注:如果估计量是如果估计量是Y的线性函数,则称这一估计量为线性估计.由性质 1 知的线性函数,则称这一估计量为线性估计.由性质 1 知 是是 的线性无偏估计。若的线性无偏估计。若T是是 的另一估计,且的另一估计,且T Tcov(,)cov(,)为非负定矩阵,则称为非负定矩阵,则称 的方差不大于的方差不大于T的方差。的方差。性质 2.性质 2.是是 的最小方差线性无偏估计 的最小方差线性无偏估计 证明.证明.设设T是是 的任一线性无偏估计,则的任一线性无偏估计,则T必可表为:必可表为:TAY=且且ETAEYAX =。由于。由于 的任意性,则必有:的任意性,则必有:1mAXI+=,由 ,由 2cov(,)cov(,)()T TAY Y AAA =,并考虑到,并考虑到 1111111110()()()()()()()()()()()()AX XXAX XXAAX XX XX AAX X XAAX XX XX XAAX X =+=+=+=+=则 则1()()AAX X 为非负定矩阵。由为非负定矩阵。由T的任意性,且 的任意性,且 221 cov(,)cov(,)()()cov(,)T TAY Y AAAX X =所以 所以 是是 的最小方差线性无偏估计。令 的最小方差线性无偏估计。令 YYX=?=?则有则有1(),nYIX X XXY=?Y?称为残差向量。称为残差向量。性质 3性质 3 Y?和和 互不相关。互不相关。由于 由于 11cov(,)()cov(,)()nYIX X XXY YX XX =?211()()0nIX X XXX XX =故性质 3 成立。故性质 3 成立。性质 4 性质 4 0EY=?21cov(,)()nY YIX X XX =?=?事实上,事实上,()0EYE YXXX=?=?1121cov(,)()cov(,)()()nnnY YIX X XXY YIX X XXIX X XX =?=?令 令2QY YY=?=?,称,称Q为残差平方和,则 为残差平方和,则 21121()()cov(,)()nniiiinE QE Y YEYDYtrY Ytr IX X XX=?2121()()nntrItr X X XXtrItr X X X X=221()(1)mntrInm+=这里 这里1niiitrAa=称为称为nn 矩阵矩阵A的迹,由的迹,由2*的定义知 的定义知 2*21()1EE Qnm =定理 6.2定理 6.2 若 若1(,)(1,2,)iimixxYin=?满足式(6.16),则:(1)满足式(6.16),则:(1)和和Y?相互独立,且服从于正态分布;(2)相互独立,且服从于正态分布;(2)和和2*相互独立;(3)相互独立;(3)2*2(1)nm 服从服从2(1)nm 分布 分布 证明证明 (1)由于(1)由于(,)Y?为为Y的线性函数,的线性函数,1,nYY?独立且服从正态分布,故独立且服从正态分布,故(,)Y?服从正态分布,由性质 3,服从正态分布,由性质 3,Y?和和 互不相关,从而互不相关,从而 和和Y?相互独立。(2)由相互独立。(2)由2*的定义和(1)知,的定义和(1)知,和和2*相互独立。(3)记相互独立。(3)记1()BX X XX=,由于,由于B是是nn 非负定阵,秩为非负定阵,秩为1m+,则存在,则存在n阶正交阵阶正交阵D,使得,使得 11000mDBD+=?,这里 ,这里 ,0,1,1niDDIim =+?=+?由 由 211()()BBBX X XXX X XXB =,则 ,则 2DB DDBD=所以有 所以有2ii =,即,即1,1,2,1iim=+?=+?,则,则 1000mIDBD+=作变量变换 作变量变换 1(,)()nZZZD YX =?,则,则 22()0cov(,)nnEZDE YXZ ZDI DI =由于 由于Z为正态随机向量,上式表明为正态随机向量,上式表明1,nZZ?相互独立,同服从于相互独立,同服从于2(0,)N 分布。由 分布。由 111()()()()XXX X XX YXX X XXYXX X XX D Z=则 则 2()()XXXXXX =?Z DX X XX D Z1()=12211000mmIZZZZ+=+?=+?由 由 11122221112222221()()()()()()(),nnnnmmnniiQYIX X XXYYXIX X XXYXZ D IX X XXD ZZZZZZZYXZQXX+=+=+=+=+=+=+=+?故 故2Q 服从服从2(1)nm 分布,即 分布,即 2*22(1)(1)nmnm 亦可得到 亦可得到 2()1,E Qnm=则 则 2*2()()1QEEnm =从证明过程中还得到如下结论。从证明过程中还得到如下结论。推 论1 推 论1 2Q 与与22XX?相 互 独 立,且相 互 独 立,且222(1)XXm+?+?四、回归系数及回归方程的显著性检验四、回归系数及回归方程的显著性检验 1.回归系数的显著性检验回归系数的显著性检验 所谓回归系数的显著性检验所谓回归系数的显著性检验,就是检验假设就是检验假设01,0,0(1,2,)jjHHjm=?.是否成立是否成立.若某一系数若某一系数(如如j)等于零等于零,则变量则变量jx对对Y就无显著的线性关系,一般在拟合回归方程中可暂时将它去掉就无显著的线性关系,一般在拟合回归方程中可暂时将它去掉.由于由于 是是j 的无偏估计量,的无偏估计量,2jjjDC =,这里这里jjC是是1()TCX X=的主对角线上的第的主对角线上的第1j+个元素个元素.2(,)jjjjNC,注意这里是,注意这里是 从从00C算起算起,00C表示表示C的主对角线上的第的主对角线上的第 1 个元素,则个元素,则 2(0,1)jjjjUNC=而而221(1)VQnm=,且,且 U 与与 V 独立独立,则在则在0H成立的条件下成立的条件下,有有 (1)/(1)Ut nmVnm 经化简得经化简得 (1)/(1)jjjjTt nmC Qnm=对给定的显著水平对给定的显著水平,查表可得查表可得2(1)tnm ,由样本值算得由样本值算得T的数值的数值t,若若 2|(1)jttnm,则拒绝则拒绝0H,即认为即认为j 显著不为零显著不为零,反之反之,若若 2|(1)jttnm =,故拒绝,故拒绝0H,认为例,认为例6.5的线性回归方程是显著的。的线性回归方程是显著的。例例6.7 检验例检验例6.5中各回归系数是否分别显著为零中各回归系数是否分别显著为零(0.05,0.1=)=)解解 由由6.5知知 3 4 0.1019,-0.14410.1019,-0.1441 1 21.5511,0.5101,0.5101 由例由例6.6知知AQ47.863547.8635,则,则*47.86352.44601341=于是有于是有 11*1122*2233*3344*442.08170.70460.13500.2032tCtCtCtC=查表可得:查表可得:/2(8)t 当当0.05 =时,时,0.025(8)2.306t=,当,当0.1=时,时,0.05(8)1.860t=,在水平,在水平0.05 =时,四个回归系数均显著为零;在水平时,四个回归系数均显著为零;在水平0.1=时,只有时,只有1 显著地不为零。但从例显著地不为零。但从例6.2得知,总的线性回归又是显著的,产生这种现象的原因主要是由于回归变量之间具有较强的线性相关,这时不能简单地采用例得知,总的线性回归又是显著的,产生这种现象的原因主要是由于回归变量之间具有较强的线性相关,这时不能简单地采用例6.5给出的线性回归方程,还需要进一步讨论。给出的线性回归方程,还需要进一步讨论。五、最优回归方程的选择五、最优回归方程的选择 最优回归方程的选择一般原则是,寻求一线性回归方程其包括所有对最优回归方程的选择一般原则是,寻求一线性回归方程其包括所有对Y有显著作用的回归变量,剔除不显有显著作用的回归变量,剔除不显著的回归变量,以估计的标准误差著的回归变量,以估计的标准误差 2*1()1niiiyynm=最小者为优。一般采用下述几种方法。最小者为优。一般采用下述几种方法。1 穷举法穷举法 对所有回归变量的可能组合,求出关于对所有回归变量的可能组合,求出关于Y的线性回归方程,从中选出最优者。例如对例的线性回归方程,从中选出最优者。例如对例6.1给出的数据,它共有四个自变量,它共需拟合给出的数据,它共有四个自变量,它共需拟合 1234444415CCCC+=+=个方程。对每个方程及回归系数做显著性检验,先选出回归系数都显著的线性回归方程,然后从中选出估计的标准误差个方程。对每个方程及回归系数做显著性检验,先选出回归系数都显著的线性回归方程,然后从中选出估计的标准误差*最小者。最小者。例例6.8 对例对例6.1,采用穷举法经过计算比较,最优线性回归方程是,采用穷举法经过计算比较,最优线性回归方程是 1252.57731.46830.6623Yxx=+=+*57.90435.79041321=在在0.1=时,时,1x,2x对对Y的线性影响是显著的。的线性影响是显著的。这种方法的优点是总可以找到一个最优的线性回归这种方法的优点是总可以找到一个最优的线性回归方程,缺点是当变量较多时,计算量太大。方程,缺点是当变量较多时,计算量太大。2“只进不出”法“只进不出”法 这一方法是根据经验,先选定一个回归变量,然后逐个引入其它回归变量,“只进不出”。其优点是计算量小,缺点是可能将最优方程遗漏。这一方法是根据经验,先选定一个回归变量,然后逐个引入其它回归变量,“只进不出”。其优点是计算量小,缺点是可能将最优方程遗漏。3“只出不进”法“只出不进”法 这一方法是先引进所有变量,然后逐一淘汰,“只出不进”,选出估计的标准误差这一方法是先引进所有变量,然后逐一淘汰,“只出不进”,选出估计的标准误差*的最小者。优点是计算量小,缺点同的最小者。优点是计算量小,缺点同2,也可能将最优方程遗漏。,也可能将最优方程遗漏。4“有进有出”逐步回归法“有进有出”逐步回归法 这一方法是实际应用中较为广泛的一种方法,它克服了上述三种方法的弱点,为人们所接受。这一方法的基本思想是,对于全部回归变量,按照其对这一方法是实际应用中较为广泛的一种方法,它克服了上述三种方法的弱点,为人们所接受。这一方法的基本思想是,对于全部回归变量,按照其对Y影响程度的大小,即影响程度的大小,即jT统计量数值的大小,从大到小逐次逐个引入线性回归方程,每引入一个回归变量后,均对回归系数进行检验,一旦发现作用不显著的回归变量,就加以剔除,如此反复,直至无法进入新的变量为止。较之穷举法,这一方法计算量减少许多,较之“只出不进”,“只进不出”法,这一方法不会遗失“最优方程”。统计量数值的大小,从大到小逐次逐个引入线性回归方程,每引入一个回归变量后,均对回归系数进行检验,一旦发现作用不显著的回归变量,就加以剔除,如此反复,直至无法进入新的变量为止。较之穷举法,这一方法计算量减少许多,较之“只出不进”,“只进不出”法,这一方法不会遗失“最优方程”。六、六、稳健回归稳健回归 前几节讨论了用最小二乘法拟合线性回归模型,假设前几节讨论了用最小二乘法拟合线性回归模型,假设1,n?是独立同分布的正态随机变量,在这些假设下讨论了参数估计的优良性质,但在客观实际中,这些假设往往是很难完全满足的。例如是独立同分布的正态随机变量,在这些假设下讨论了参数估计的优良性质,但在客观实际中,这些假设往往是很难完全满足的。例如1,n?往往是对称非正态的;或是近似正态;或往往是对称非正态的;或是近似正态;或1,n?虽然是正态但数据中含有“异常”点;或虽然是正态但数据中含有“异常”点;或1,n?是异方差的等等。由于上述问题的存在,往往使最小二乘得到的拟合结果与实际模型相差很大,这样就很自然地提出:能否构造一种参数估计方法,当实际模型与理论模型差别较小时,其性能变化也较小,对假设条件不很敏感,这类方法人们称之为稳健方法。本节简单介绍稳健估计方法中的是异方差的等等。由于上述问题的存在,往往使最小二乘得到的拟合结果与实际模型相差很大,这样就很自然地提出:能否构造一种参数估计方法,当实际模型与理论模型差别较小时,其性能变化也较小,对假设条件不很敏感,这类方法人们称之为稳健方法。本节简单介绍稳健估计方法中的M估计方法(更深入的内容请参阅估计方法(更深入的内容请参阅Huber,Hample等人的有关著作)。等人的有关著作)。M估计是最大似然估计(估计是最大似然估计(Maximum Likelihood Type Estimation)的简称。假设)的简称。假设1,n?独立同分布,则线性回归模型独立同分布,则线性回归模型 YX =+的参数的参数 的的M估计估计M 由下式给出由下式给出 1010()min()nmnmiijjiijjijijyxyx=(6.22)或或 10()0,0,1,nmiijjikijyxxkm=?(6.23)这里这里和和是适当选取的实函数,一般是适当选取的实函数,一般是对称的凸函数,或者是正半轴上非降的偶函数;而是对称的凸函数,或者是正半轴上非降的偶函数;而是有界的奇函数,如果是有界的奇函数,如果是可导的凸函数,取是可导的凸函数,取=,则上述两种定义是等价的。方程(,则上述两种定义是等价的。方程(6.22)或()或(6.23)一般只能用迭代法求解。)一般只能用迭代法求解。下面用一个例子来加深对下面用一个例子来加深对M估计的稳健性的了解,同时也说明稳健性回归方法相对于最小二乘回归的优越性。估计的稳健性的了解,同时也说明稳健性回归方法相对于最小二乘回归的优越性。例例6.9 在把氨氧化成硝酸的生产中收集了连续在把氨氧化成硝酸的生产中收集了连续21组的数据,以探讨氨的损失率与生产工艺之间的关系。这里回归变量是,组的数据,以探讨氨的损失率与生产工艺之间的关系。这里回归变量是,1x:空气流速;:空气流速;2x:冷却水的温度;:冷却水的温度;3x:吸收液中的硝酸浓度;:吸收液中的硝酸浓度;Y:氨的损失率。数据列于表:氨的损失率。数据列于表6.4 假设假设Y和和1x,2x,3x具有线性关系具有线性关系 01 12233Yxxx=+=+表表6.4 序号序号 1x 2x 3x y 1 80 27 89 42 2 80 27 88 37 3 75 25 90 37 4 62 24 87 28 5 62 22 87 18 6 62 23 87 18 7 62 24 93 19 8 62 24 93 20 9 58 23 87 15 10 58 18 80 14 11 58 18 89 14 12 58 17 88 13 13 58 18 82 11 14 58 19 93 12 15 50 18 89 8 16 50 18 86 7 17 50 19 72 8 18 50 19 79 8 19 50 20 80 9 20 56 20 82 15 21 76 20 91 15 Danial和和Wood在他们的书中对这个问题是这样处理的。先将在他们的书中对这个问题是这样处理的。先将21组数据作最小二乘回归,得到回归方程组数据作最小二乘回归,得到回归方程 1123:39.920.7611.300.152LYxxx=+=+然后算这然后算这21个样本点的残差个样本点的残差iiYY,残差的标准差为,残差的标准差为3.24。1L的残差列在表的残差列在表6.5中,这些残差中第中,这些残差中第21个观测值的残差最大,他超过了残差标准差的两倍。如果把这个观测值的残差最大,他超过了残差标准差的两倍。如果把这21个残差点在正态概率纸上,这个残差点也明显地偏低。个残差点在正态概率纸上,这个残差点也明显地偏低。于是,把这个数据去掉,用其余地于是,把这个数据去掉,用其余地20个数据重新做最小二乘拟合,得到回归方程个数据重新做最小二乘拟合,得到回归方程 2123:43.700.8890.8170.107LYxxx=+=+然后算出然后算出20个样本点的残差,个样本点的残差,2L的残差列在表的残差列在表6.5中,残差的标准差为中,残差的标准差为2.56。把残差点放在正态概率纸上可以看出:第。把残差点放在正态概率纸上可以看出:第1,2,3和和4这这4组数据,可能是非正常数据。组数据,可能是非正常数据。Danial和和Wood进一步分析了生产过程后认为第进一步分析了生产过程后认为第1,3,4这三组数据是过虑状态,因此综合两方面,应提出这三组数据是过虑状态,因此综合两方面,应提出1,3,4组数据,他们用其余组数据,他们用其余17组数据在作最小二乘回归,得到组数据在作最小二乘回归,得到 3123:37.60.800.580.07LYxxx=+=+经分析剔除,最后得到方程经分析剔除,最后得到方程3L。需要用多次最小二乘回归,还要结合生产实际作分析才能确定。需要用多次最小二乘回归,还要结合生产实际作分析才能确定。Andrews用用M估计方法处理这个线性回归问题,所使用的估计方法处理这个线性回归问题,所使用的函数为函数为 sin(/)|()0|x cxcxxc =(0c 为常数)为常数)取取1.5c=,他分别使用,他分别使用21组数据和去掉第组数据和去掉第1,3,4和和21组数据以后的组数据以后的17组数据,结果得到完全相同的稳健估计,组数据,结果得到完全相同的稳健估计,回归方程都是回归方程都是 123:37.20.820.520.07RLYxxx=+=+这一方程与这一方程与3L非常接近,从表非常接近,从表6.5的残差看,的残差看,3L和和RL的残差也比相差较小。从上可以看出,用的残差也比相差较小。从上可以看出,用21组数据和组数据和17组数据作回归的组数据作回归的M估计所得的结果完全一样,这表明稳健回归不受那四组非常数据的影响,同最小二乘回归相比,稳健回归可自动地发现那四组非正常数据地影响,同最小二乘回归相比,稳健回归可自动地发现那四组反常数据并清除它们地影响。不足之处是估计参数需要迭代法求解。估计所得的结果完全一样,这表明稳健回归不受那四组非常数据的影响,同最小二乘回归相比,稳健回归可自动地发现那四组非正常数据地影响,同最小二乘回归相比,稳健回归可自动地发现那四组反常数据并清除它们地影响。不足之处是估计参数需要迭代法求解。表表6.5 iiYY 序号序号 1L 2L 3L RL 1 3.24 2.06 6.08 6.11 2-1.92-3.05 1.15 1.04 3 4.56 3.25 6.44 6.31 4 5.70 6.30 8.18 8.24 5-1.71-2.70-0.67-1.24 6-3.01-2.88-1.25-0.71 7-2.39-2.06-0.42-0.33 8-1.39-1.06-0.58 0.67 9-3.14-2.33-1.06-0.97 10 1.27 0.01 0.35-0.97 11 2.64 0.97 0.96 0.14 12 2.78 0.68 0.47 0.24 13-1.43-2.78-2.52-2.71 14-0.05-1.42-1.34-1.44 15 2.36 2.09 1.34 1.33 16 0.91 0.76 0.14 0.11 17-1.52-0.55-0.37-0.42 18-0.46 0.20 0.10 0.08 19-0.60 0.49 0.59 0.63 20 1.41 1.37 1.97 1.87 21-7.24-10.12-8.63-8.91