计量经济学第四章-3-多重共线性教学内容.ppt
Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE计量经济学第四章-3-多重共线性Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE如果存在不全为如果存在不全为0 0的数的数c c1 1、c c2 2、c ck k,使,使 c c1 1X X1i1i+c c2 2X X2i2i+c ck kX Xkiki=0=0 i i=1,2,=1,2,n n 即:某个解释变量完全可以由其它解释变量的线性组合来表示即:某个解释变量完全可以由其它解释变量的线性组合来表示 则称为解释变量间存在则称为解释变量间存在完全共线性完全共线性(perfect multicollinearityperfect multicollinearity)。)。完全共线性与近似共线性完全共线性与近似共线性如果存在不全为如果存在不全为0 0的数的数c c1 1、c c2 2、c ck k,使,使 c c1 1X X1i1i+c c2 2X X2i2i+c ck kX Xkiki+v vi i=0=0 i i=1,2,=1,2,n n 即:某个解释变量近似地可以由其它解释变量的线性组合来表示即:某个解释变量近似地可以由其它解释变量的线性组合来表示 则则称称为为解解释释变变量量间间存存在在近近似似共共线线性性(approximate approximate multicollinearitymulticollinearity)。Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 共线性示例共线性示例X1X2X31050521575751890972412012930150152 X2=5X1 X2=5X1 完全共线性完全共线性 X3=5X1+V X3=5X1+V 近似共线性近似共线性Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 完全共线性下,完全共线性下,X X中至少有一列向量可由其他列向量(不包括第一列)中至少有一列向量可由其他列向量(不包括第一列)线性表出,线性表出,这意味着:这意味着:秩秩(X)(X)X X非列满秩非列满秩 (XX)(XX)不满秩不满秩 (XX)(XX)-1-1 不存在不存在 无法得到参数的估计量。无法得到参数的估计量。的OLS估计量为:Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE例:例:对对离差形式离差形式的二元回归模型的二元回归模型如果两个解释变量完全相关,如如果两个解释变量完全相关,如x x2 2=x x1 1,则,则这时,只能确定综合参数这时,只能确定综合参数 1 1+2 2的估计值:的估计值:这一后果的实际意义是:这一后果的实际意义是:无法得到回归系数的唯一解无法得到回归系数的唯一解,但可以得到这些,但可以得到这些系数的线性组合的唯一解系数的线性组合的唯一解Y=0+1X1+2X2+Y=0+(1+2)X1+Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE2 2、近似共线性下解释变量的单独作用无法区分、近似共线性下解释变量的单独作用无法区分实际问题中的直接表现是:模型的回归系数经常表现出实际问题中的直接表现是:模型的回归系数经常表现出反常的现象!反常的现象!例如例如 1 1本来应该是正的,结果却是负的。本来应该是正的,结果却是负的。经验表明,经验表明,如果存在这种反常情形,应该首先怀疑多重共线性。如果存在这种反常情形,应该首先怀疑多重共线性。经经典典假假设设下下,回回归归系系数数jj表表达达了了在在其其它它解解释释变变量量不不变变的的情情形形下下,XjXj对对Y Y的的单独作用(净影响)单独作用(净影响)如如果果模模型型中中两两个个解解释释变变量量具具有有线线性性相相关关性性,例例如如X X2 2=X X1 1 ,这这时时,X X1 1和和X X2 2前前的的参参数数 1 1、2 2并并不不反反映映各各自自与与被被解解释释变变量量之之间间的的结结构构关关系系,而而是是反映它们对被解释变量的反映它们对被解释变量的共同影响共同影响 从而解释变量的单独作用无法无区分,从而解释变量的单独作用无法无区分,1 1、2 2失去了应有的经济含义失去了应有的经济含义Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE3 3、近似共线性下、近似共线性下OLSOLS估计量的方差变大估计量的方差变大近近似似共共线线性性下下,可可以以得得到到OLSOLS参参数数估估计计量量,并并且且可可以以证证明明,此此时时参参数数估计量依然满足线性、无偏和有效性,即估计量依然满足线性、无偏和有效性,即OLSOLS依然是依然是BLUEBLUE但是,此时但是,此时参数估计量的方差会增大参数估计量的方差会增大。参数估计量。参数估计量方差方差的表达式为的表达式为由由于于|XX|XX|0 0,引引起起(XX)(XX)-1-1主主对对角角线线元元素素较较大大,使使参参数数估估计计值值的的方差增大方差增大这意味着:这意味着:(1 1)无法精确的估计参数(以较高的精度估计参数)无法精确的估计参数(以较高的精度估计参数)(2 2)基于参数估计量的标准差的变量显著性检验失效)基于参数估计量的标准差的变量显著性检验失效Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE以二元线性模型以二元线性模型 Y=Y=0 0+1 1X X1 1+2 2X X2 2+为例为例:恰为恰为X X1 1与与X X2 2的线性相关系数的平方的线性相关系数的平方r r2 2由于由于 0 0 r r2 2 1 1,故,故 1/(1-r1/(1-r2 2)1 1方差膨胀因子方差膨胀因子 (Variance Inflation Factor,(Variance Inflation Factor,VIFVIF)Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以采用采用1/(1-r1/(1-r2 2)衡量衡量当当完全不共线完全不共线时时,r r2 2 =0=0 当当近似共线近似共线时时,00 r r2 2 10.80.8,比较严重,比较严重 0.9 0.9,非常严重,非常严重Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 若在若在OLSOLS法下法下,出现以下现象,则可能意味着共线性的存,出现以下现象,则可能意味着共线性的存在:在:a a、系数估计值的符号不合常理;系数估计值的符号不合常理;b b、R R2 2与与F F值较大,方程具有显著性,但各参数估计值的值较大,方程具有显著性,但各参数估计值的t t检检验值均较小,多个解释变量并不显著验值均较小,多个解释变量并不显著 说明各解释变量对说明各解释变量对Y Y的联合线性作用显著,但各解释变的联合线性作用显著,但各解释变量间存在共线性而使得它们对量间存在共线性而使得它们对Y Y的独立作用不能分辨,故的独立作用不能分辨,故t t检检验不显著。验不显著。2 2、经验判断法、经验判断法Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE将每个解释变量将每个解释变量X Xi i对其它解释变量对其它解释变量X Xj j进行回归,进行回归,观察其拟合优度观察其拟合优度R R2 2和和F F检验值,如果某个检验值,如果某个R Ri i2 2接近接近1 1,F Fi i显著超出临界值,则表明该显著超出临界值,则表明该X Xi i与其它解释变量存在与其它解释变量存在多重共线性。多重共线性。3 3、辅助回归检验法、辅助回归检验法Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 计算每个回归系数的计算每个回归系数的VIFVIF或或TOLTOL 方差膨胀因子越大(或容忍度越小),表明模型的多重方差膨胀因子越大(或容忍度越小),表明模型的多重共线性越强。共线性越强。当当VIF5VIF5或或VIF10VIF10时,认为存在较严重的多重共线性。时,认为存在较严重的多重共线性。4 4、方差膨胀因子和容忍度(、方差膨胀因子和容忍度(VIF&TOLVIF&TOL)Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE模型存在较严重的多重共线性时,模型存在较严重的多重共线性时,|XX|0|XX|0,由线性代数,若,由线性代数,若 1 1,k k1 1为矩阵为矩阵XXXX的特征值,则:的特征值,则:|XX|=|XX|=1 1 k k1 1 00表明,特征值中至少有一个接近于表明,特征值中至少有一个接近于0 0。因此可利用矩阵。因此可利用矩阵XXXX的特征值检的特征值检验多重共线性。验多重共线性。条件指数(病态数)条件指数(病态数)CN(Conditional Number)CN(Conditional Number)CN=CN=最大特征值最大特征值/最小特征值最小特征值 maxmax/minmin 病态指数病态指数CICI(Conditional IndexConditional Index):):CI=SQRT(CN)CI=SQRT(CN)CN CN和和CICI均反映了特征值的离散程度,数值越大表明多重共线性越严重均反映了特征值的离散程度,数值越大表明多重共线性越严重 5 5、特征值检验法、特征值检验法Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 在模型中排除某一个解释变量在模型中排除某一个解释变量X Xj j,估计模型,估计模型;如果拟合优度与包含如果拟合优度与包含X Xj j时十分接近,则说明时十分接近,则说明X Xj j与其它解释与其它解释变量之间存在共线性。变量之间存在共线性。6 6、剔除检验法、剔除检验法Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 以以Y Y为被解释变量,逐个引入解释变量,构成回归模型,进为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计,根据拟合优度的变化决定新引入的变量是否独行模型估计,根据拟合优度的变化决定新引入的变量是否独立。立。如果拟合优度变化显著如果拟合优度变化显著,则说明新引入的变量是一个独立,则说明新引入的变量是一个独立解释变量;解释变量;如果拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入的变量与其它,则说明新引入的变量与其它变量之间存在共线性关系。变量之间存在共线性关系。7 7、引入检验法、引入检验法Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE找出引起多重共线性的解释变量,将它排除出去。找出引起多重共线性的解释变量,将它排除出去。以以逐步回归法逐步回归法得到最广泛的应用。得到最广泛的应用。注意:注意:这时,剩余解释变量参数的经济含义和数值都发生了变化这时,剩余解释变量参数的经济含义和数值都发生了变化如果模型被检验证明存在多重共线性,则需要发展新的如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。方法估计模型,最常用的方法有三类。四、克服多重共线性的方法四、克服多重共线性的方法 1 1、第一类方法:排除引起共线性的变量、第一类方法:排除引起共线性的变量Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 2 2、第二类方法:差分法、第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型时间序列数据、线性模型:将原模型变换为差分模型:Y Yi i=1 1 X X1i1i+2 2 X X2i2i+k k X Xkiki+i i可以有效地消除原模型中的多重共线性。可以有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱一般讲,增量之间的线性关系远比总量之间的线性关系弱得多得多。Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE由表中的比值可以直观地看到:由表中的比值可以直观地看到:增量的线性关系弱于总量之间的线性关系增量的线性关系弱于总量之间的线性关系。进一步分析:进一步分析:Y Y与与C(-1)C(-1)之间的判定系数为之间的判定系数为0.99880.9988,Y Y与与C(-1)C(-1)之间的判定系数为之间的判定系数为0.9567 0.9567 Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE3 3、第三类方法:减小参数估计量的方差、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差多重共线性的主要后果是参数估计量具有较大的方差 所以采取适当方法减小参数估计量的方差,虽然没有消除所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。模型中的多重共线性,但确能消除多重共线性造成的后果。岭回归法岭回归法是其中的代表是其中的代表Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE#岭回归法(岭回归法(Ridge RegressionRidge Regression)7070年年代代发发展展的的岭岭回回归归法法,以以引引入入偏偏误误为为代代价价减减小小参参数数估估计计量量的的方方差差,受到人们的重视。受到人们的重视。具体方法是:引入矩阵具体方法是:引入矩阵DD,使参数估计量为,使参数估计量为 其中矩阵其中矩阵DD一般选择为主对角阵,即一般选择为主对角阵,即 D=aID=aI (a0a0)(*)显然,与未含显然,与未含DD的参数的参数B B的估计量相比,的估计量相比,(*)(*)式的估计量有较小的方差。式的估计量有较小的方差。Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE#对多重共线性处理的说明对多重共线性处理的说明 多多重重共共线线性性在在本本质质上上是是一一种种样样本本现现象象,因因此此增增大大样样本本容容量量可可以以视视为为一个根本性的解决方法一个根本性的解决方法 多多重重共共线线性性的的主主要要后后果果是是增增大大估估计计量量的的方方差差,从从而而导导致致无无法法精精确确的的估计参数,而参数估计量的性质并未因此改变估计参数,而参数估计量的性质并未因此改变 因因此此,只只要要是是参参数数估估计计量量的的方方差差较较小小,t t统统计计量量较较大大,就就没没有有必必要要过过度关注多重共线性的问题度关注多重共线性的问题 特特别别地地,如如果果模模型型的的主主要要目目的的在在于于预预测测,那那么么即即便便存存在在严严重重的的多多重重共线性,也并不会过度妨碍模型的预测性共线性,也并不会过度妨碍模型的预测性Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 六、案例六、案例(中国粮食生产函数)(中国粮食生产函数)根据理论和经验分析,影响粮食生产(根据理论和经验分析,影响粮食生产(Y Y)的主要因素有:)的主要因素有:农业化肥施用量(农业化肥施用量(X X1 1););粮食播种面积粮食播种面积(X X2 2)成灾面积成灾面积(X X3 3););农业机械总动力农业机械总动力(X X4 4););农业劳动力农业劳动力(X X5 5)已知中国粮食生产的相关数据,建立中国粮食生产函数:已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=Y=0 0+1 1 X X1 1+2 2 X X2 2+3 3 X X3 3 +4 4 X X4 4 +4 4 X X5 5 +Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 1 1、用、用OLSOLS法估计上述模型:法估计上述模型:R R2 2接近于接近于1 1;给定给定=5%=5%,得,得F F临界值临界值 F F0.050.05(5,12)=3.11(5,12)=3.11 F=638.4 15.19 F=638.4 15.19,故认上述粮食生产的总体线性关系显著成立。故认上述粮食生产的总体线性关系显著成立。但但X X4 4 、X X5 5 的参数未通过的参数未通过t t检验,且符号不正确,故检验,且符号不正确,故解释变量间可解释变量间可能存在多重共线性能存在多重共线性。(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE2 2、检验简单相关系数、检验简单相关系数发现:发现:X X1 1与与X X4 4间存在高度相关性。间存在高度相关性。列出列出X X1 1,X X2 2,X X3 3,X X4 4,X X5 5的相关系数矩阵:的相关系数矩阵:Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE3 3、找出最简单的回归形式、找出最简单的回归形式可见,应选可见,应选第第1 1个式子个式子为初始的回归模型。为初始的回归模型。分别作分别作Y Y与与X X1 1,X X2 2,X X4 4,X X5 5间的回归:间的回归:(25.58)(11.49)R2=0.8919 F=132.1 DW=1.56 (-0.49)(1.14)R2=0.075 F=1.30 DW=0.12 (17.45)(6.68)R2=0.7527 F=48.7 DW=1.11 (-1.04)(2.66)R2=0.3064 F=7.07 DW=0.36Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE4 4、逐步回归、逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE 回归方程以回归方程以Y=f(Y=f(X1,X2,X3)为最优:为最优:5 5、结论、结论Copyrightprincebf,2008-2009,YNUFECopyrightprincebf,2008-2009,YNUFE此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢