多重共线性.doc
《多重共线性.doc》由会员分享,可在线阅读,更多相关《多重共线性.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。1非多重共线性假定rk (X X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 | rxi xj | 1, | rxi xj | 不近似等于1。就模型中解释变量的关系而言,有三种可能。 (1)rxi xj = 0,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数bj都可以通过y对xj的一元回归来估计。 (2)| rxi xj | = 1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量
2、对被解释变量的影响程度就非常困难。 (3)0 rxi xj R2,则xi,xj间的多重共线性是有害的。 (3)此外还有其他一些检验方法,如主成分分析法等,很复杂。 5多重共线性的克服方法5.1 直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。 5.2 利用已知信息合并解释变量通过经济理论及对实际
3、问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt = b0+ b1 xt1 + b2 xt2 + ut (7.20)x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数b1与b2的某种关系,例如 b2 = lb1 (7.21)其中 l 为常数。把上式代入模型(7.20),得yt = b0+ b1 xt1 + lb1 xt2 + ut = b0 + b1 (xt1 + l xt2) + ut (7.22)令 xt = xt1 + l xt2得 yt = b0+ b1 xt + ut (7.23)模型(7.23
4、)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到,然后再利用(7.21)式求出。下面以道格拉斯(Douglass)生产函数为例,做进一步说明。 Yt = K Lta Ctb eut (7.24)其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后, LnYt = LnKt + aLnLt + bLnCt + ut (7.25)因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出a,b的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件 a + b = 1利用这一关系把
5、模型(7.25)变为 LnYt = LnKt + a LnLt + (1- a) LnCt + ut 整理后, Ln () = Ln Kt + a Ln () + ut (7.26)变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型,自然消除了多重共线性。估计出a后,再利用关系式a + b = 1,估计b。 5.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法(RLS)。其
6、基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量模型如下, Ln Yt = b0+ b1 Ln Pt + b2 Ln It + ut (7.29)其中Yt 表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。首先利用截面数据估计收
7、入弹性系数b2。因为在截面数据中,平均价格是一个常量,所以不存在对b1的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型(7.29)。得 LnYt = b0+ b1 Ln Pt +Ln It + ut移项整理 LnYt -Ln It = b0+ b1 LnPt + ut变换后的因变量(LnYt -Ln It)用Zt表示,则 Zt = b0+ b1 LnPt + ut (7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出,。这样便求到相对于模型(7.29)的估计式, =+Ln Pt +Ln It其中是用截
8、面数据估计的,,是由时间序列数据估计的。由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时,这种估计方法会带来估计误差。5.5逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。若新变量
9、的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该变量。案例1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下, Ln y = 24.94 + 2.16 x1 3.03 x2 + 33.7 x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多重 线性
限制150内