第七章多元回归分析.ppt
第七章多元回归分析现在学习的是第1页,共47页v在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。v若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.v因此我们需要进一步讨论多元回归问题。现在学习的是第2页,共47页v第一节 多元线性回归v第二节 可化为多元线性回归的问题v第三节 自变量的选择与逐步回归现在学习的是第3页,共47页第一节 多元线性回归v多元线性回归模型一般形式 其中,是p+1个未知参数,为回归常数,为回归系数。y称为被解释变量,,,是p个可以精确测量并可以控制的一般变量,称为解释变量现在学习的是第4页,共47页对一实际问题,若得到n组观测数据(,;),i=1,2,n,则线性模型可表示为:现在学习的是第5页,共47页v写成矩阵形式 y1 1 x11 x21 x1p Y=y2 x=1 x12 x22 x2p yn 1 x1n x2n xnp 1 2 e=nv则 Y=X+e现在学习的是第6页,共47页v一、多元线性回归模型的基本假定v解释变量x1,x2,xp是确定性变量,不是随机变量,而且rk(X)=P+1F,拒绝H0,表明回归总体有显著性关系.若Ft /2,说明拒绝原假设 若tt /2,则接受原假设.现在学习的是第14页,共47页v当有多个自变量对因变量y无显著影响时,可以剔除多余变量,但由于自变量间的交互作用,不能一次剔除所有不显著变量。一般是将t值(绝对值)最小的变量删除掉,每次只剔除1个变量,再对求得的新的回归方程进行检验,直到保留的变量都对y有显著影响为止。返回现在学习的是第15页,共47页v3.拟合优度v拟合优度用于检验回归方程对样本观测值的拟合程度。样本决定系数 的取值在(0,1)区间内,越接近1,回归拟合的效果越好;越接近0,回归拟合的效果越差。现在学习的是第16页,共47页v四、复相关系数和偏相关系数v复相关系数R是由SSR和SST构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,xp与y的线性关系的大小。现在学习的是第17页,共47页v复相关系数表示的是因变量与全体自变量之间的线性关系,它的符号不能由某一自变量的回归系数的符号来确定,因而复相关系数都取正号。现在学习的是第18页,共47页v其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。现在学习的是第19页,共47页v简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。在多元回归分析中,偏相关系数才真正反映因变量y与自变量 以及自变量 与 的相关性的数量。v返回现在学习的是第20页,共47页v五、预测v所谓预测就是给定解释变量一组值 通过建立的多元回归模型,估计出对应的v1、y0的点预测:v2、y0以概率(1-)落在某区间的区间预测:其中 为随机误差项的标准差现在学习的是第21页,共47页第二节 可化为多元线性回归的问题在自然科学中,y关于x 的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。现在学习的是第22页,共47页v多项式函数vY=0+1x+2x2+pxpv设i=xiv则多项式化为:Y=0+1 1+2 2+p pv多元幂函数 y=x1 1 x2 2 xp p lny=ln +1ln x1+pln xp 令z=lny,0=ln ,i=ln xi z=0+1 1+2 2+p p现在学习的是第23页,共47页v指数函数 y=ae ixi y=a+1x1+2x2+pxp z=y,0=a,则 z=0+1x1+2x2+pxpv多元对数函数 y=a+1x1+2x2+pxp 设i=xi,则 y=a+1 1+2 2+p p 现在学习的是第24页,共47页v指数函数与幂函数的积 y=aexp ixi xibi y=a+1x1+2x2+pxp +b1x1+b2x2+bpxp 令z=y,0=a,i=xi z=0+1x1+2x2+pxp+b1 1+b2 2+bp p现在学习的是第25页,共47页v如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数v如果是三次差分大致相同,则可配合三次多项式函数现在学习的是第26页,共47页第三节 自变量选择与逐步回归v在建立一个实际问题的回归模型,我们应该如何确定回归自变量。v如果遗漏了某些重要的变量,回归方程的效果肯定不好。v如果考虑过多的变量,在这些变量中有些自变量对问题研究可能不重要,有些变量可能与其它变量有很大程度的重叠。如果模型把这些变量也引入的话,不仅计算量增大,而且得到的回归方程的稳定性也很差,直接影响了回归方程的应用。现在学习的是第27页,共47页v在实际应用中,希望拟合这样一个模型,它既能较好的反映问题的本质,又包含尽可能少的自变量。这两个方面的一个适当折中就是回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建立一个既合理又简单实用的回归模型。现在学习的是第28页,共47页v在前面,我们认为残差平方和 最小和复相关系数 来衡量回归拟合的好坏。v因为当引入的自变量的个数增大时,残差平方和随之减少,而复相关系数也随之增大。因此如果按上述原则来选择自变量,不论什么变量多取就行。但是由于变量之间的多重共显性,给自变量的估计值带来了不稳定性,加上变量的抽样误差积累将是y值得估计值误差增大。现在学习的是第29页,共47页一 穷举法v所谓穷举法就是从 所有可能的回归方程中按一定的准则选取最优的一个或几个。v设在一个实际问题的回归模型中,如果有m个可供选择的变量,由于每个变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有 个,这其中包括只包含常数项的这种情况。v下面给出几种选取准则:现在学习的是第30页,共47页1 从拟合的角度考虑的准则v准则1自由度调整复决定系数达到最大。v当给模型增加自变量时,复相关系数的增大是以残差自由度的减少为代价的。随着自由度的减少,模型估计和预测的可靠性也在降低。v调整复决定系数v其中,为样本容量,为自变量的个数。现在学习的是第31页,共47页v显然有 ,随着自变量的增加并不一定增大。因为 随着变量的增加而减少,但由于其前面的系数起折扣作用,使得 随着自变量的增加并不一定增加。当所增加的自变量对y不产生影响时,反而可能减少。v在一个实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。现在学习的是第32页,共47页v准则2 平均残差平方和达到最小。v平均残差平方和是指对应于模型中 的估计v ,其中 为自变量的个数。v在此无偏估计式中加入了惩罚因子 ,它体现了对自变量个数的增加所施加的惩罚。现在学习的是第33页,共47页v一开始自变量个数开始增加时,虽然因子 增大了,但此时 减少很多,故总起来说 还是减少的。v当自变量增加到一定程度,重要的自变量基本上都已选上了,这时再增加自变量,减少不多,以至于抵消不了 的增加,最终导致了 的增加。v随着自变量个数的增加,平均残差平方和是先减小后增大的趋势。现在学习的是第34页,共47页v用平均残差平方和 来衡量回归方程的拟合优度,应该用 最小者所对应的回归子集为最优方程。v在自由度调整的复相关系数中,由于 。由于分母并不随p的变化而变化,因而使 达到最小的准则和使调整的复相关系数达到最大是等价的。现在学习的是第35页,共47页2 从极大似然估计方法考虑的准则v准则3 赤池信息量AIC达到最小。vAIC既可以用于时间序列分析中的自回归模型的定阶上,也可以用来作回归方程自变量的选择。vAIC=,其中 是与自变量个数 无关的常数。现在学习的是第36页,共47页v在回归分析的建模过程中,对每一个回归子集计算AIC,其中最小者所对应的模型是“最优”回归模型。v由于在正态假定下,参数的OLSE与MLE是一致的,因此,AIC准则在OLSE的情况下也是适用的。现在学习的是第37页,共47页3 从预测的角度考虑的准则v准则4 统计量达到最小。v马勒斯从预测的角度提出的。v 统计量为 ,其中 ,为考虑到所有因素的全模型中 的无偏估计。v选择最小 最小的自变量子集,这个子集对应的回归方程就是最优回归方程。现在学习的是第38页,共47页v理论上,从所有可能的回归方程中选择应该是最好的方法。但是,穷举法所要拟合的回归方程数随自变量数目的增加而成倍增加,因此当自变量的数目较大时,计算量很大以至于难以实现。v在这种情况下,逐步回归是一种可行的选择最优回归方程的方法。现在学习的是第39页,共47页二 逐步回归v一、“最优”回归方程的选择v1.回归方程中包含尽量多的信息v2.回归方程中包含尽量少的变量v方法:v逐步剔除的回归分析方法v逐步引入的回归分析方法v“有进有出”的回归分析方法(逐步回归分析方法)现在学习的是第40页,共47页逐步剔除法(backward)v1、用全部m个变量建立一个回归方程v2、对每个变量的回归系数进行F检验,选m个系数中F值最小者记为 。如果有 ,则考虑把 剔除。v3、对剩余的m-1自变量重新建立回归方程,再检验v4、直至回归方程中的变量的F检验值都大于 ,没有可剔除的变量为止。这时候的得到的回归方程就是最重确定的方程。现在学习的是第41页,共47页v逐步剔出法有明显的不足。一开始把全部自变量引入回归方程,计算量很大。如果有些自变量不太重要,一开始就不引入,可减少一些计算量。再就是一旦某个自变量被剔出,它再也没有机会重新进入回归方程。现在学习的是第42页,共47页逐步引入法(forward)v1、将所有自变量分别与因变量建立一元线性回归方程,并分别计算这m个回归方程的m个回归系数的F检验值,选其中最大的记为 ,若 ,则首先将 进入回归方程。为方便,设 就是 。v2、再分别将剩余变量与因变量y、及已引入的变量 建立二元线性回归方程,再比较m-1个回归方程中 的回归系数 进行F检验,计算F值,记最大的为 。若 ,则将 引入方程v3、直至所有未被引入的自变量的F值均小于 时为止。这时得到的回归方程就是最终确定的方程。现在学习的是第43页,共47页v“逐步引入”法也有明显的不足之处。可能存在这样的问题,即不能反映引入新的自变量后的变化情况。一旦引入其他自变量后它变得并不显著时,却没机会将其剔出。现在学习的是第44页,共47页逐步回归法(stepwise)v基本思想:有进有出v具体做法:经变量一个一个引入,引入变量的条件是其偏回归平方和经检验时显著的,每因引进一个自变量后,对已选入的变量进行逐个检验。对某些由于其他变量引入而变得不显著的变量,要将其剔出。引入或剔出变量,为逐步回归的一步,都要进行F检验,以确保每次引入变量之前回归方程中只包含显著的变量。反复如此直到既无显著的变量引入,也无不显著的变量从方程中剔出为此。这样就得到了回归子集是“最优”回归子集,也就得到了最优的回归方程。现在学习的是第45页,共47页谢 谢现在学习的是第46页,共47页v在本节的讨论中,无论是从回归方程中剔出某个自变量,还是增加某个自变量,都要利用 检验。通常要求引入变量的显著性水平 小于剔出变量的显著性水平 ,否则可能产生“死循环”。一般令 ,。我们把引入变量的 检验的临界值记为 ,把剔出变量的 检验的临界值即为 。一般取 v这里的 有很大的人为性。如果希望回归方程中多包含一些变量,可以都取的小一点。现在学习的是第47页,共47页