《《计量经济学》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《计量经济学》PPT课件.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三部分第三部分 实践中的实践中的回归分析回归分析Chp 12 多重共线性多重共线性12-2主要内容主要内容n多重共线性的概念性质多重共线性的概念性质n多重共线性的理论后果多重共线性的理论后果n多重共线性的实际后果多重共线性的实际后果n多重共线性的诊断多重共线性的诊断n多重共线性的补救措施多重共线性的补救措施n小结小结12-3一、多重共线性的概念及性质一、多重共线性的概念及性质n对于模型对于模型 Yi=B0+B1X1i+B2X2i+BkXki+ui i=1,2,n其基本假设之一是解释变量是互相独立的。其基本假设之一是解释变量是互相独立的。如如果果某某两两个个或或多多个个解解释释变变量量之之间间
2、出出现现了了相相关关性性,则称为则称为多重共线性多重共线性(Multicollinearity)。12-4如果存在不全为如果存在不全为0的的 ci,使得使得 c1X1i+c2X2i+ckXki=0 i=1,2,n 则则称称为为解解释释变变量量间间存存在在完完全全共共线线性性(perfect multicollinearity)。如果存在如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其其中中ci不不全全为为0,vi为为随随机机误误差差项项,则则称称为为 近近似似共共线线性性(approximate multicollinearity)或或交交互相关互相关(interco
3、rrelated)。12-5n完全多重共线性的例子:完全多重共线性的例子:P266Yi=A1+A2X2i+A3X3i+ui其中,其中,X3i=300-2X2i or X2i=150-X3i/2进行迭代后进行迭代后(将将X3i的表达式代入初始方程的表达式代入初始方程),可,可以看到,该例不是多元回归,而是简单的双变以看到,该例不是多元回归,而是简单的双变量回归:量回归:Yi=A1+A2X2i+A3(300-2X2i)+ui =(A1+300A2)+(A2-2A3)X2i+ui =C1+C2X2i+ui12-6n可以看到,在完全多重共线性的情况下,可以看到,在完全多重共线性的情况下,不可能对多元回
4、归模型中的单个回归系数不可能对多元回归模型中的单个回归系数进行估计和假设检验。进行估计和假设检验。我们可以得到原始系数线性组合的一个估计值,我们可以得到原始系数线性组合的一个估计值,但无法获得每个系数的估计值。但无法获得每个系数的估计值。12-7二、接近或不完全多重共线性的情形二、接近或不完全多重共线性的情形n接近或不完全多重共线性的例子:接近或不完全多重共线性的例子:P268Yi=A1+A2X2i+A3X4i+ui(12-8)=145.37-2.7975X2i -0.3191X4i (1.2107)(-3.4444)(-0.7971),R2=0.977812-8n对模型对模型12-8的回归结
5、果的分析:的回归结果的分析:对比前一例,虽然对比前一例,虽然X3和和X4 很接近,但前者无法估很接近,但前者无法估计,后者仍可估计;计,后者仍可估计;对价格回归的说明;对价格回归的说明;对判定系数的说明;对判定系数的说明;对收入(工资)系数的说明对收入(工资)系数的说明统计不显著,且统计不显著,且符号错误;符号错误;X4不显著,但不显著,但F检验表明,联合假设检验表明,联合假设B2=B4=0却是却是显著的,即价格和工资同时对商品的需求有显著显著的,即价格和工资同时对商品的需求有显著影响影响n原因在于,原因在于,X2 与与X4 二者二者高度相关高度相关:(在只有两个解释变在只有两个解释变量的情形
6、下,相关系数可用于共线性程度的度量。量的情形下,相关系数可用于共线性程度的度量。)nX4i2i+ei(见(见P269,图图12-2)12-9实际经济问题中的多重共线性实际经济问题中的多重共线性n一一般般地地,产产生生多多重重共共线线性性的的主主要要原原因因有有以以下三个方面:下三个方面:1.经济变量相关的共同趋势经济变量相关的共同趋势n时时间间序序列列样样本本:经经济济繁繁荣荣时时期期,各各基基本本经经济济变变量量(收收入入、消消费费、投投资资、价价格格)都都趋趋于于增增长长;衰衰退退时时期期,又同时趋于下降。,又同时趋于下降。n横横截截面面数数据据:生生产产函函数数中中,资资本本投投入入与与
7、劳劳动动力力投投入入往往往往出出现现高高度度相相关关情情况况,大大企企业业二二者者都都大大,小小企企业业都小。都小。12-102.滞后变量的引入滞后变量的引入n在经济计量模型中,往往需要引入滞后经济变量来在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。反映真实的经济关系。例如例如,消费,消费=f(当期收入当期收入,前期收入)前期收入)显然,两期收入间有较强的线性相关性。显然,两期收入间有较强的线性相关性。12-113.样本资料的限制样本资料的限制n由于完全符合理论模型所要求的样本数据较难收集,由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。特
8、定样本可能存在某种程度的多重共线性。一般经验一般经验:n时间序列数据时间序列数据样本:简单线性模型,往往样本:简单线性模型,往往存在多重共线性。存在多重共线性。n截面数据截面数据样本:问题不那么严重,但多重样本:问题不那么严重,但多重共线性仍然是存在的。共线性仍然是存在的。12-12三、多重共线性的理论后果三、多重共线性的理论后果n只要共线性是不完全的,则只要共线性是不完全的,则OLS估计量仍然是估计量仍然是最优线性无偏估计量,但其仍然存在如下问题:最优线性无偏估计量,但其仍然存在如下问题:在接近共线性的情形下,在接近共线性的情形下,OLS估计量仍然是无偏估计量仍然是无偏的;的;n但无偏性是在
9、重复抽样的情形下得出的,对单个样本仍但无偏性是在重复抽样的情形下得出的,对单个样本仍存在重大影响存在重大影响接近共线性并未破坏接近共线性并未破坏OLS估计量最小方差性,但估计量最小方差性,但并不意味着任何一个样本的并不意味着任何一个样本的OLS估计量的方差会很估计量的方差会很小;小;即使变量即使变量X与总体不线性相关,但可能与某一样本与总体不线性相关,但可能与某一样本线性相关:线性相关:n原因:多数经济数据都不是通过实验获得的原因:多数经济数据都不是通过实验获得的12-13四、多重共线性的实际后果(四、多重共线性的实际后果()nOLS估计量的方差和标准误较大;估计量的方差和标准误较大;n置信区
10、间变宽;置信区间变宽;n t值不显著;值不显著;nR2值较高;值较高;nOLS估计量及其标准误对数据的微小变化非常敏估计量及其标准误对数据的微小变化非常敏感感趋于不稳定;趋于不稳定;n回归系数符号有误;回归系数符号有误;n难以评估各个解释变量对回归平方和或难以评估各个解释变量对回归平方和或R2的贡献。的贡献。分别就支出对价格、收入,及价格和收入作回归,得分别就支出对价格、收入,及价格和收入作回归,得到的到的R2都很大,故难以区别哪一部分归于收入,哪一都很大,故难以区别哪一部分归于收入,哪一部分归于价格。部分归于价格。12-15五、多重共线性的诊断五、多重共线性的诊断n应注意的几个问题:应注意的
11、几个问题:多重共线性是一个程度问题,而非存在与否的多重共线性是一个程度问题,而非存在与否的问题问题多重共线性针对的是解释变量是非随机的情形多重共线性针对的是解释变量是非随机的情形,因而它是一个样本特征,而不是总体特征,因而它是一个样本特征,而不是总体特征12-16n诊断多重共线性的诊断多重共线性的经验法则(重点)经验法则(重点)R2较高,但较高,但t值统计显著的不多;值统计显著的不多;解释变量两两高度相关;解释变量两两高度相关;n存在问题:两两相关系数可能较低,但却可能存在共存在问题:两两相关系数可能较低,但却可能存在共线性线性检验偏相关系数检验偏相关系数n类似于偏回归系数类似于偏回归系数从属
12、回归或辅助回归从属回归或辅助回归n做每个变量对其他剩余变量的回归并计算出相应的做每个变量对其他剩余变量的回归并计算出相应的R2值值12-17n例,考虑例,考虑Y对对X2,X3,,X7这这6个解释变量的个解释变量的回归,如果回归结果表明存在多重共线性,回归,如果回归结果表明存在多重共线性,如如R2值很高,但解释变量的系数很少是统计值很高,但解释变量的系数很少是统计显著的,我们可找出哪些变量可能是其他变显著的,我们可找出哪些变量可能是其他变量的线性组合,步骤如下:量的线性组合,步骤如下:做做X2对其他剩余变量的回归,并求样本判定系对其他剩余变量的回归,并求样本判定系数,记为数,记为R22;做做X3
13、对其他剩余变量的回归,并求样本判定系对其他剩余变量的回归,并求样本判定系数,记为数,记为R32;重复以上步骤,得到重复以上步骤,得到6个这样的辅助回归个这样的辅助回归12-18检验检验R2的显著性的显著性R2值值F值值F显著否?显著否?0.900.180.360.860.090.2479.201.934.9554.060.872.78是是*否否是是*是是*否否是是*:1%的显著性水平的显著性水平*:5%的显著性水平的显著性水平12-19n诊断多重共线性的经验法则(续)诊断多重共线性的经验法则(续)方差膨胀因子(方差膨胀因子(VIF)12-20n结论:结论:较高的较高的Ri2既非较高标准误的必要
14、条件,也非充既非较高标准误的必要条件,也非充分条件,多重共线性本身并不必然导致较高的分条件,多重共线性本身并不必然导致较高的标准误。标准误。诊断多重共线性的方法有多种,但没有哪一种诊断多重共线性的方法有多种,但没有哪一种方法能够彻底诊断多重共线性问题。方法能够彻底诊断多重共线性问题。多重共线性是一个程度问题,它是一种样本特多重共线性是一个程度问题,它是一种样本特殊现象。殊现象。12-21如何看待多重共线性如何看待多重共线性n多重共线性的好坏取决于研究的目的多重共线性的好坏取决于研究的目的。如果是为了利用模型预测应变量的未来均值,如果是为了利用模型预测应变量的未来均值,则多重共线性未必是一件坏事
15、。则多重共线性未必是一件坏事。如果研究的目的不仅仅是预测,而且还要可靠如果研究的目的不仅仅是预测,而且还要可靠地估计出模型的参数,则严重的共线性就是件地估计出模型的参数,则严重的共线性就是件坏事坏事其导致估计量的标准误增大。其导致估计量的标准误增大。12-22n例:例:1960-1982年期间美国的鸡肉需求年期间美国的鸡肉需求n回归的初步结论:回归的初步结论:收入弹性和自身价格均统计显著,收入弹性和自身价格均统计显著,n收入弹性(大于收入弹性(大于0)小于)小于1:非奢侈品;:非奢侈品;n自身价格弹性(小于自身价格弹性(小于0)绝对值小于)绝对值小于1:缺乏弹性。:缺乏弹性。两个交叉弹性(替代
16、品)(大于两个交叉弹性(替代品)(大于0)不显著)不显著n两种肉类与鸡肉是互为竞争的两种肉类与鸡肉是互为竞争的n鸡肉的需求并不猪肉和牛肉价格的影响鸡肉的需求并不猪肉和牛肉价格的影响12-23n对鸡肉需求函数的共线性诊断:对鸡肉需求函数的共线性诊断:相关矩阵相关矩阵n相关系数很高,但并不表明需求函数中一定存在共相关系数很高,但并不表明需求函数中一定存在共线性,只是有存在的可能线性,只是有存在的可能辅助回归辅助回归n所有的所有的R2都统计显著,表明回归方程中每个解释变都统计显著,表明回归方程中每个解释变量都与其他解释变量高度共线。量都与其他解释变量高度共线。12-24多重共线性的解决办法(多重共线
17、性的解决办法()n方法方法1 1:从模型中删除一个变量:从模型中删除一个变量例:关于鸡肉猪肉牛肉价格对鸡肉消费量例:关于鸡肉猪肉牛肉价格对鸡肉消费量的影响的影响存在的问题存在的问题n为了削弱共线性的严重程度,得到的系数估计值可为了削弱共线性的严重程度,得到的系数估计值可能是有偏的能是有偏的从模型中删除这些变量可能导致模型设定错误,从模型中删除这些变量可能导致模型设定错误,使简化模型估计得到的参数是有偏的使简化模型估计得到的参数是有偏的n建议:不要仅仅因为共线性很严重就从一个经济上建议:不要仅仅因为共线性很严重就从一个经济上可行的模型中删除变量可行的模型中删除变量12-25n方法方法2 2:获取
18、额外的数据或新的样本:获取额外的数据或新的样本有时获得额外的数据将削减共线性程度;有时获得额外的数据将削减共线性程度;但出于成本和其他一些因素的考虑,获得变量的但出于成本和其他一些因素的考虑,获得变量的额外数据也许并不可行,否则,这一实施措施肯额外数据也许并不可行,否则,这一实施措施肯定是可行的。定是可行的。对于上式,给定对于上式,给定 2 2和和R R2 2,n,n越大,越大,VarVar越小。越小。12-26n方法方法3 3:重新考虑模型:重新考虑模型原模型可能是由于省略了一些重要变量,或者原模型可能是由于省略了一些重要变量,或者是没有正确选择函数形式。是没有正确选择函数形式。例:例:P2
19、78,原来为对数形式,现在用原始数据原来为对数形式,现在用原始数据进行回归。进行回归。12-27n方法方法4:先验信息:先验信息根据先验研究了解有关参数的某些信息。例如对根据先验研究了解有关参数的某些信息。例如对于:于:Demand=B1+B2price+B3 salary+uWe know that B3=0.9,so(Demard-0.9salary)=B1+B2price+u该方法的缺陷在于外生的或先验的信息并不总是该方法的缺陷在于外生的或先验的信息并不总是可获得的。可获得的。如果各样本之间的收入效应预期变化不大,且得如果各样本之间的收入效应预期变化不大,且得知有关收入系数的先验信息,那
20、么该方法将较为知有关收入系数的先验信息,那么该方法将较为可行。可行。12-28n方法方法5 5:变量变换:变量变换有时通过对模型中的变量进行变换也能降低共线有时通过对模型中的变量进行变换也能降低共线性程度。对于性程度。对于Y(进口进口)X2(GNP)X3(CPI)T检验表明,收入和价格系数都不统计显著,但检验表明,收入和价格系数都不统计显著,但F检验却拒绝零假设,表明回归方程之间存在共检验却拒绝零假设,表明回归方程之间存在共线性,作如下变换,得线性,作如下变换,得12-29n差分法差分法时间序列数据、线性模型:将原模型变换为差时间序列数据、线性模型:将原模型变换为差分模型分模型:Yi=B1 X
21、1i+B2 X2i+Bk Xki+ui可以有效地消除原模型中的多重共线性。可以有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的一般讲,增量之间的线性关系远比总量之间的线性关系弱得多线性关系弱得多。2.第二类方法:差分法第二类方法:差分法12-30例如例如:在中国消费模型中的:在中国消费模型中的2个变量个变量:12-31 由表中的比值可以直观地看到,由表中的比值可以直观地看到,两变量增量的线性两变量增量的线性关系弱于总量之间的线性关系。关系弱于总量之间的线性关系。n 进一步分析:进一步分析:Y与与C(-1)之间的判定系数为之间的判定系数为0.9845,Y与与C(-1)之间
22、的判定系数为之间的判定系数为0.7456。一般认为:一般认为:两个变量之间的判定系数大于两个变量之间的判定系数大于0.8时,二者之间存在线性关系。时,二者之间存在线性关系。所以,原模型经检验地被认为具有多重共线所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。性,而差分模型则可认为不具有多重共线性。12-32n其他补救措施其他补救措施因子或主成分分析因子或主成分分析岭回归岭回归12-33本章小结本章小结n多重共线性:两个或多个变量高度线性相多重共线性:两个或多个变量高度线性相关关n多重共线性的后果多重共线性的后果n多重共线性的检验多重共线性的检验n多重共线性的诊断多
23、重共线性的诊断12-34案例案例中国粮食生产函数中国粮食生产函数 根根据据理理论论和和经经验验分分析析,影影响响粮粮食食生生产产(Y)的的主要因素有:主要因素有:农业化肥施用量(农业化肥施用量(X1)粮食播种面积粮食播种面积(X2)成灾面积成灾面积(X3)农业机械总动力农业机械总动力(X4)农业劳动力农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=B0+B1 X1+B2 X2+B3 X3+B4 X4+B4 X5+u12-35表:中国粮食生产与相关投入资料表:中国粮食生产与相关投入资料年份年份粮食产量粮食产量Y万吨万吨农业化肥施用农业化肥施用量量X1万公斤万公斤粮食播种面
24、粮食播种面积积X2千公顷千公顷受灾面积受灾面积X3公顷公顷农业机械总动农业机械总动力力X4万千瓦万千瓦农业劳动力农业劳动力X5万人万人1983387281659.811404716209.31802231645.11984407311739.81128841526419497316851985379111775.810884522705.32091330351.51986391511930.61109332365622950304671987402081999.311126820392.724836308701988394082141.511012323944.72657531455.7198
25、9407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.1112314278142938934186.31992442642930.211056025894.730308340371993456493151.9110509231333181733258.21994445103317.9109544313833380232690.31995466623593.7110060222673611832334.51996504543827.9112548212333854732
26、260.41997494173980.7112912303094201632434.91998512304083.7113787251814520832626.41999508394124.3113161267314899632911.82000462184146.4108463343745257432797.512-361.1.用用OLS法估计上述模型法估计上述模型:R2接近于接近于1;给定给定=5%,得,得F临界值临界值 F0.05(5,12)=3.11 F=638.4 15.19,故认上述粮食生产的总体线,故认上述粮食生产的总体线性关系显著成立。但性关系显著成立。但X4、X5 的参数未通
27、过的参数未通过t检验,且检验,且符号不正确,故符号不正确,故解释变量间可能存在多重共线性解释变量间可能存在多重共线性。(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)12-372.2.检验简单相关系数检验简单相关系数n发现:X1与与X4间存在高度相关性。间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:12-383.3.找出最简单的回归形式找出最简单的回归形式n可见,应选第一个式子第一个式子为初始的回归模型。分别作Y与X1,X2,X4,X5间的回归:(25.58)(11.49)R2=0.8919 F=132.1 DW=1.56 (-0.49)(1.14)R2=0.075 F=1.30 DW=0.12 (17.45)(6.68)R2=0.7527 F=48.7 DW=1.11 (-1.04)(2.66)R2=0.3064 F=7.07 DW=0.3612-394.4.逐步回归逐步回归 将将其其他他解解释释变变量量分分别别导导入入上上述述初初始始回回归归模模型型,寻寻找最佳回归方程。找最佳回归方程。12-40 回归方程以回归方程以Y=f(X1,X2,X3)为最优为最优:5.5.结论结论
限制150内