《计量经济学 第七章 多重共线性优秀PPT.ppt》由会员分享,可在线阅读,更多相关《计量经济学 第七章 多重共线性优秀PPT.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量经济学 第七章 多重共线性1现在学习的是第1页,共49页7.1 多重共线性的两种表现形式对于形如的多元线性回归模型,如果自变量之间存在较强的线性关系,或者说一组不全为零的常数 ,使得那么就说原模型中存在多重共线性。则表明原模型中存在完全多重共线性则表明原模型中存在不完全多重共线性2现在学习的是第2页,共49页1.完全多重共线性完全多重共线性假设为了研究某种商品的需求函数4912984522964432943942923852903762883472863282843092822910280 收集到一组样本数据,观察两个自变量,它们之间实际上存在下面函数关系 也就是说两个自变量之间存在明确的
2、线性关系,即所谓的完全共线性3现在学习的是第3页,共49页因而原来的模型变为 这个模型实际上变成了一个一元线性回归模型,我们可以估计出截距系数和斜率系数 在上面的方程组中,有三个未知数,没有办法求出原回归模型中三个参数的唯一解,这就是完全多重共线性的后果4现在学习的是第4页,共49页2.不完全多重共线性不完全多重共线性假设现在收集到另外一组样本数据,在这个样本中,两个自变量之间没有明确的函数关系,但是它们之间的相关系数 ,说明两个变量之间还是存在线性相关关系491297.5452294.9443293.5394292.8385290.2376289.7347285.8328294.630929
3、1.12910278.85现在学习的是第5页,共49页在这种不完全多重共线性情况下,可以对模型使用最小二乘估计,得到下面的结果(-3.4444)(-0.7911)参数是可以估计出来,但是这个模型存在下面两个问题:1.收入参数的斜率系数符号为负,在现实生活中我们知道随着人们收入的增加,对一般商品的需求应该也是增加的,参数符号应该为正;2.收入参数没有通过t检验6现在学习的是第6页,共49页7.2 多重共线性产生的原因多重共线性产生的原因1、经济变量之间的内在联系(对横截面数据)工业生产函数中,劳动力投入量和资金投入量产品需求函数中,商品本身价格和替代品价格消费函数中,人们的收入和财产这些变量之间
4、实际上相互联系,经常会表现出一定的相关关系2、经济变量共同变化的趋势(对时间序列数据)这些经济变量本身之间可能没有非常密切的联系,但是它们在相同的样本期间内,有着相同变化的趋势,比如在经济繁荣的时期,人们的收入、投资、就业等经济变量都会相同的增长趋势7现在学习的是第7页,共49页3、模型中引入了滞后变量 比如在消费函数中引入了上一期或者前几期收入,各期收入之间有可能是高度相关的8现在学习的是第8页,共49页7.3 多重共线性的后果 多重共线性对多元线性模型的影响,可以从完全多重共线性和不完全多重共线性两个方面进行分析。(1)参数无法估计参数无法估计(参数无唯一解参数无唯一解)前面我们已经通过一
5、个例子说明在完全多线性的情况下,没有办法得到参数的唯一解,实际上我们也可以从二元线性回归模型的参数估计表达式中得出同样得结论1.完全多重共线性对模型的影响9现在学习的是第9页,共49页以一个二元线性回归模型的偏斜率系数为例在完全共线性情况下,若10现在学习的是第10页,共49页(2)参数估计量的方差无穷大参数估计量的方差无穷大在多元线性回归模型一章中也给出了参数估计量的方差11现在学习的是第11页,共49页两个自变量完全共线性时,12现在学习的是第12页,共49页2.不完全多重共线性对模型的影响不完全多重共线性对模型的影响(1)参数估计值的方差增大参数估计值的方差增大 随着自变量之间的相关性增
6、强,估计参数的方差也随之增大,从刚推导出的方差表达式中也可以看出13现在学习的是第13页,共49页为此特别定义方差膨胀因子010.520.850.9100.95200.96250.97330.98500.991000.9991000 观察右侧方差增大的趋势表,可以发现当变量之间的的相关系数 ,方差急剧增大14现在学习的是第14页,共49页(2)t检验的可靠性降低检验的可靠性降低 模型中存在多重共线性时,估计参数的方差增大,因此其标准差也会增大,从而使得t检验值减小,一个或多个自变量可能没有办法通过参数的显著性检验,其检验的可靠性也会降低(3)难以区分每个自变量对因变量的单独影响难以区分每个自变
7、量对因变量的单独影响 正是由于自变量之间的共线性,它们相互影响,因此没有办法分离出每个解释变量对因变量的影响15现在学习的是第15页,共49页(4)参数估计值及其标准差对数据的微小变化都非常敏感yx1x212420234124605816yx1x21242023404612581616现在学习的是第16页,共49页7.4 多重共线性的检验多重共线性检验一般要实现下面几个任务1.检验多重共线性是否存在2.判断多重共线性问题的严重程度3.判断多重共线性的具体形式 多重共线性产生的原因比较复杂,在实际的检验过程中没有固定的、确定的方法,只有一些探索性的手段17现在学习的是第17页,共49页1.利用相
8、关系数检验利用相关系数检验通过计算自变量之间的两两的相关系数,可以大体判断出模型中是否存在多重共线性以 新教材P115模型为例经过计算,四个自变量两两的相关系数如下 从上面的相关系数矩阵中可以看出这四个自变量两两之间高度相关,因此原模型中存在多重共线性问题18现在学习的是第18页,共49页2.综合分析普通最小二乘估计的结果 如果最小二乘估计结果的拟合系数和方程总体显著统计量都比较大,而有的自变量的偏斜率系数t检验值较小,无法通过显著性检验,此时模型中可能会存在多重共线性问题仍以 新教材P115或老教材P146页的数据为例(-1.7614)(3.7076)(0.2951)(-2.2049)(2.
9、2391)19现在学习的是第19页,共49页3.通过辅助回归方程进行检验通过辅助回归方程进行检验 这种检验方法通过建立每个自变量和其它自变量之间的辅助线性回归方程来检验模型中是否存在多重共线性,也就是建立形如 如果其中某些自变量通过参数显著性检验,就表明模型中存在多重共线性。20现在学习的是第20页,共49页不仅能检验是否模型中是否存在多重共线性,而且可以得到多重共线性的具体形式;这种检验方法具有比较显著的作用:结合相关和偏相关分析,可以进一步断定模型中哪些自变量引起多重共线性21现在学习的是第21页,共49页 例例7.3对教材对教材P146页的模型进行辅助方程检验页的模型进行辅助方程检验(-
10、3.0501)(3.5450)(-0.8013)(2.3868)(0.8944)(3.5450)(1.0732)(-1.3268)22现在学习的是第22页,共49页(0.9844)(-0.8013)(1.0731)(3.3131)(3.9530)(2.3868)(-1.3268)(3.313123现在学习的是第23页,共49页4.通过计算方差膨胀因子和容许度来判断通过计算方差膨胀因子和容许度来判断 (1)计算每个自变量对应的方差膨胀因子VIF来判断模型中是否存在多重共线性,一般认为如果方差膨胀因子VIF10,那么模型中的自变量之间是高度共线性的。24现在学习的是第24页,共49页 (2)容许度
11、(tolerance)是方差膨胀因子的倒数,某个自变量的容许度就是其他自变量所不能解释的这个自变量的变动程度。某个自变量的容许度数值越大,其他自变量对该自变量的解释程度越小,那么这个自变量和其他自变量的共线性程度越小;反之则表明这个自变量和其他自变量的共线性程度越大。25现在学习的是第25页,共49页辅助回归方程(1)0.9922 127.62100.0078辅助回归方程(2)0.9820 55.49900.0180辅助回归方程(3)0.9863 73.04000.0137辅助回归方程(4)0.9921 126.61200.0079 通过计算可以看出每一个辅助回归方程中的方差膨胀因子都大于10
12、,容许度都比较小,因此原模型中存在比较严重的共线性问题例7.4 利用例7.3中的辅助回归方差来计算VIF和Tol26现在学习的是第26页,共49页方差膨胀因子的有关说明方差膨胀因子的有关说明 使用方差膨胀因子来度量模型中的共线性仅仅是一种经验方法,它的使用也受到一些批评。一个较高的方差膨胀因子既不是导致参数估计值较大的标准误差的必要条件也不是充分条件,也就是说一个较高的VIF度量出来的较高的多重共线性不一定会导致参数估计值较高的标准误差。27现在学习的是第27页,共49页X127.62103.70760.0139K55.49900.29510.7798P173.0400-2.20490.078
13、6p0126.61202.23910.0753 对比模型中每个自变量的方差膨胀因子和参数显著性检验的结果,可以发现第二个自变量的方差膨胀因子是最小的,但偏偏是它没有通过参数的显著性检验,第一个自变量和第四个自变量的方差膨胀因子都是非常大的,但是它们反而都通过了参数的显著性检验比较例比较例7.3中的中的VIF和和t统计量统计量28现在学习的是第28页,共49页课堂练习题 某商品的需求函数为 其中Y为需求量,X1为商品价格,X2为收入,现已知两个自变量之间的相关系数为-0.96,需求函数的回归结果为:(1)计算该模型的方差膨胀因子(2)结合方差膨胀因子和相关的检验统计量,判断该模型是否存在多重共线
14、性29现在学习的是第29页,共49页7.5 多重共线性的解决方法在处理多重共线性问题之前,必须明确两点:如果建立模型的目的仅仅是为了预测,只要模型的拟合系数较大,而且自变量之间的相关关系在短时间内不会变化,那么多重共线性的影响其实并不太重要;多重共线性产生最主要的原因是多元线性回归模型中自变量之间的相关性,其根本解决方法是剔除回归模型中的若干自变量,但是这样一来又会带来其他的问题模型的经济意义不尽合理 如生产函数中,劳动力投入和资本投入之间经常高度相关,剔除其中任何一个都不太合适30现在学习的是第30页,共49页如果剔除的变量是比较重要的,那么将影响回归模型的估计,容易使得模型产生异方差异方差
15、和自相关自相关的问题;如果自变量剔除不当,还会使得模型设定存在偏差偏差,造成参数估计严重偏误 为了解决多重共线性的问题,我们应该慎重考虑,根据自变量的特点,分别采用直接剔除法和间接剔除法来对多重共线性进行补救31现在学习的是第31页,共49页1.直接剔除次要或者可以替代的变量直接剔除次要或者可以替代的变量 如果模型中有些自变量可能是没有显著影响的,或者它们的影响可以用其他变量来代替,那么可以直接剔除32现在学习的是第32页,共49页2.间接剔除重要的解释变量间接剔除重要的解释变量 (1)利用已知或者附加的信息利用已知或者附加的信息 前面我们讲到,在柯布道格拉斯生产函数中,劳动力投入L和资本投入
16、K之间常常是高度相关的,如果我们事先知道劳动力投入和资本投入之间是规模报酬不变的,即1,则原来的生产函数可以改写为 对于模型中重要的解释变量,可以利用下面的方法将它们“间接剔除”:33现在学习的是第33页,共49页34现在学习的是第34页,共49页(2)改变模型的形式改变模型的形式对原来的模型进行适当的改变有时也可以消除或者减少模型中自变量之间的相关程度:1)改变模型的函数形式,将线性回归模型转为为对数模型或者多项式模型等;2)改变自变量的形式,使用差分变量、相对数变量;3)改变变量的统计指标,比如在生产函数中,劳动力投入使用职工工资指标,资本投入采用固定资产或者流动资产指标来进行分析。35现
17、在学习的是第35页,共49页比如我们在前面提到过的商品需求函数36现在学习的是第36页,共49页(3)增加样本容量多重共线性是一个样本现象,在研究同一个问题的另外一个样本中或许并不存在非常严重的多重共线性,因此增大样本容量也许能够减轻模型中大的共线性程度。但是在在实际的工作中,社会经济的数据并不是通过实验方法来获得的,要得到新增的数据并不是轻而易举的事情,也许要花费很大的代价。37现在学习的是第37页,共49页(4)综合使用横截面数据和时间序列数据综合使用横截面数据和时间序列数据 比如研究汽车的需求函数,假定收集到车辆出售数量、车辆平均价格和消费者收入的有关数据,并且设定 如果价格和收入之间有
18、高度共线性的趋势,对上面的模型进行回归将会遇到多重共线性问题。为了解决这个问题a)假设我们能够收集到横截面的数据,我们就能比较可靠地估计收入弹性,因为这些数据都产生在同一时间内,价格不至于发生很大变化38现在学习的是第38页,共49页需求函数就可以写成b)再利用时间序列数据,估计价格弹性 这种方法的问题这种方法的问题:这种方法解释起来可能有一定的问题,它假定收入弹性的横截面估计值和从纯粹的时间序列分析中得到的估计值完全一致。当横截面估计在不同截面之间没有多大变化时可以考虑使用这种方法。39现在学习的是第39页,共49页1、向前选择法、向前选择法(Forward)7.6多元回归模型中选择自变量的
19、方法思路:思路:向前选择法从一元线性回归模型开始,找出拟合系数最大的一元线性回归模型和自变量,然后再向模型中增加一个变量,找到拟合系数 或 F 值最大的二元线性回归模型;采用类似方法不停地向模型中增加自变量。当增加的自变量不能使残差平方和明显减少时,结束这一过程。40现在学习的是第40页,共49页问题:问题:这种方法不能反应引入新的自变量后模型的变化情况,某个自变量开始可能是显著的,但是引入其他自变量后也许会变得不显著了,但是没有机会将它剔除出去,只考虑引入变量,没有考虑剔除的方法是不全面的。特点:特点:使用这种方法,变量被增加到模型中,就不容许把它从模型中剔除。41现在学习的是第41页,共4
20、9页2、向后排除法、向后排除法(Backward)思路:思路:这种方法和向前选择法相反,它从包含所有自变量的回归模型开始,然后利用准则从模型中剔除变量,使模型的拟合系数减小最小的自变量会被从模型中剔除出去;这样每次只剔除一个变量,直到剔除的自变量使得模型的拟合系数显著减小为止。特点:特点:使用这种方法,不容许把剔除的变量再增加到模型中。42现在学习的是第42页,共49页思路:思路:这种方法和向前选择法有些相似,但是在每增加一个变量时,会对模型中的所有自变量进行检验,判断是否需要删除某个自变量。如果增加一个新的自变量以后,先前引入的某个自变量对模型的贡献变得不显著了,那么这个自变量将会被剔除。3
21、、逐步回归法、逐步回归法(Stepwise)43现在学习的是第43页,共49页特点:特点:这种方法综合了向前选择法和向后剔除法的特点,它不停地向模型中增加自变量并考虑剔除以前引入的自变量的可能性,直到移入的自变量不能使模型中的拟合系数显著增加为止。使用这种方法,前面步骤中被剔除的自变量随后也有可能重新进入模型。44现在学习的是第44页,共49页选择合适的自变量的检验统计量在将一个或一个以上的自变量增加到模型中是否合适时,可以使用F统计量来确定。它的检验依据是:在一个线性回归模型中,如果增加一个或多个自变量可以使得回归模型的残差平方和减小,那么这个或这几个自变量就可以放到模型中,反之就没有理由增加一个或多个自变量。45现在学习的是第45页,共49页46现在学习的是第46页,共49页自变量X0.99560.7347K0.96705.4954P10.95168.0650p00.97763.7401Forward法选择变量第一步 由于x对应的一元线性回归模型拟合系数最大,forward方法第一步引入的自变量就是x47现在学习的是第47页,共49页第二步自变量引入变量是否显著的检验统计量X,K0.99600.68180.5430X,P10.99580.70170.3286X,P00.99600.66870.677648现在学习的是第48页,共49页49现在学习的是第49页,共49页
限制150内