《计量经济学王万珺课件多重共线性上课讲义.ppt》由会员分享,可在线阅读,更多相关《计量经济学王万珺课件多重共线性上课讲义.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量经济学王万珺课件多重共线性 多重共线性及其产生原因多重共线性及其产生原因 多重共线性的影响多重共线性的影响 多重共线性的检验多重共线性的检验第五章第五章 多重共线性多重共线性 多重共线性的修正多重共线性的修正一、多重共线性的概念一、多重共线性的概念 对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性多重共线性(Multicollinearity)。第一节第一节 多重共线性及其产生原因多重共线性及其产生原因 如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:
2、ci不全为0,即某一个解释变量可以用其他解释变量的线性组合表示,则则称称为为解解释释变变量量间间存存在在完完全共线性全共线性(perfect multicollinearity)。如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为为随随机机误误差差项项,则称为 近近似似共共线线性性(approximate multicollinearity)。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。在矩阵表示的线性回归模型在矩阵表示的线性回归模型完全共完全共线线性指矩性指矩阵阵 X的秩的秩即即近似共近似共线线性意味着性意味着c)情
3、况是不完全相关即解释变量之间的相关系数介于情况是不完全相关即解释变量之间的相关系数介于0和和1之间。之间。需要强调,解释变量之间不存在线性关系,并非不存在非线性需要强调,解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量之间存在非线性关系时,并不违反无多重共线性假定。关系,当解释变量之间存在非线性关系时,并不违反无多重共线性假定。一般来说,解释变量之间的关系可概括为三种情况:一般来说,解释变量之间的关系可概括为三种情况:a)情况是完全相关,即解释变量之间的相关系数为情况是完全相关,即解释变量之间的相关系数为1;b)情况是完全不相关,即解释变量之间的相关系数为情况是完全不相关,即解释变
4、量之间的相关系数为0;在建立计量经济学模型中,大量的问题是属于在建立计量经济学模型中,大量的问题是属于第三种情况第三种情况。二、产生多重共线性的主要原因二、产生多重共线性的主要原因 1经济变量之间的内在联系,是产生多重共线性的经济变量之间的内在联系,是产生多重共线性的根本原因根本原因。2经济变量在时间上有同方向变动的趋势,这也是造成多重共线经济变量在时间上有同方向变动的趋势,这也是造成多重共线 性的性的重要原因重要原因。3模型中滞后变量的引入,也是造成解释变量多重共线的原因之一。模型中滞后变量的引入,也是造成解释变量多重共线的原因之一。4在模型参数的估计过程中,样本之间的相关是不可避免的,这是
5、在模型参数的估计过程中,样本之间的相关是不可避免的,这是 造成多重共线性的造成多重共线性的客观原因客观原因。第二节第二节 多重共线性多重共线性的影响的影响 对存在多重共线性的模型直接用普通最小二乘法估计参数,对存在多重共线性的模型直接用普通最小二乘法估计参数,就会给模型带来严重的不良后果。就会给模型带来严重的不良后果。如果解如果解释变释变量存在完全共量存在完全共线线性,性,则则模型的参数模型的参数 无法估无法估计计;2如果解释变量之间存在近似共线性,则参数如果解释变量之间存在近似共线性,则参数OLS估计量的方差随估计量的方差随 着多重共线程度的提高而增加;着多重共线程度的提高而增加;3变量的显
6、著性检验和模型的预测功能失去意义;变量的显著性检验和模型的预测功能失去意义;4参数估计量经济意义不合理。参数估计量经济意义不合理。如果解如果解释变释变量存在完全共量存在完全共线线性,性,则则模型的参数模型的参数 无法估无法估计计;多元回归模型多元回归模型(5-4)的的OLS估计量为估计量为(5-5)如果出如果出现现完全共完全共线线性,性,则则不存在,无法得到参数不存在,无法得到参数的的估估计计量。量。2如果解释变量之间存在近似共线性,则参数如果解释变量之间存在近似共线性,则参数OLS估计量的方差随估计量的方差随 着多重共线程度的提高而增加;着多重共线程度的提高而增加;在近似共线性下,虽然可以由
7、式(在近似共线性下,虽然可以由式(5-5)得到参数)得到参数OLS估计量,但估计量,但 由于此由于此时时 ,引起,引起 主主对对角角线线元素元素较较大,且随着大,且随着逼近于逼近于0 0而增大。而增大。这这就使得参数估就使得参数估计计量的方差增大,从而不能量的方差增大,从而不能对总对总体体参数做出准确推断。参数做出准确推断。以二元回以二元回归归模型模型为为例,例,的方差的方差为为(5-6)其中其中是是X1与与X2线线性相关系数的平方,性相关系数的平方,11。例:当完全共当完全共线线性性时时,相关系数平方相关系数平方0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0
8、.999方差膨方差膨胀胀因子因子1 2 5 10 20 25 33 50 100 1000可以看出,可以看出,越大,越大,越大,多重共越大,多重共线线性使得参数估性使得参数估计计量量为为方差膨方差膨胀胀因子。其增大因子。其增大趋势趋势如下表所示。如下表所示。方差增大,称方差增大,称当当X1与与X2线线性无关性无关时时,当当X1与与X2 近似共线时,近似共线时,0r1,Var(1)=3变量的显著性检验和模型的预测功能失去意义;变量的显著性检验和模型的预测功能失去意义;存在多重共存在多重共线线性的模型,其参数估性的模型,其参数估计计量方差的量方差的变变大,使得大,使得计计算的算的 t 统统计计量量
9、变变小,从而小,从而检验检验接受原假接受原假设设影响很大影响很大的重要因素的重要因素误误判判为为不不显显著,著,结结果使模型失去可靠性。其次,由于果使模型失去可靠性。其次,由于参数估参数估计计量的方差量的方差变变大,因而大,因而对样对样本本值值的反映十分敏感,即当的反映十分敏感,即当样样本本观测值观测值稍有稍有变变化化时时,模型参数就有很大差异,致使模型,模型参数就有很大差异,致使模型难难以以应应用。另外,由于参用。另外,由于参数估数估计计量的方差增大,使模型的精度大大下降,求出的量的方差增大,使模型的精度大大下降,求出的预测值难预测值难以置信。以置信。的可能性增大,这样会使本来的可能性增大,
10、这样会使本来4参数估计量经济意义不合理。参数估计量经济意义不合理。如果模型中两个解释变量如果模型中两个解释变量X1和和X2具有线性相关性,那么它们中的一具有线性相关性,那么它们中的一个变量就可以由另一个变量表征。这时个变量就可以由另一个变量表征。这时X1和和X2的参数并不反映各自与被的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响,所解释变量之间的结构关系,而是反映它们对被解释变量的共同影响,所以各自的参数已失去了应有的经济意义,于是经常表现出似乎反常的现以各自的参数已失去了应有的经济意义,于是经常表现出似乎反常的现象,例如估计结果本来应该是正的,结果却是负的。
11、经验告诉我们,在象,例如估计结果本来应该是正的,结果却是负的。经验告诉我们,在多元线性回归模型的估计中,如果出现参数估计值的经济意义明显不合多元线性回归模型的估计中,如果出现参数估计值的经济意义明显不合理的情况,应该首先怀疑是否存在多重共线性。理的情况,应该首先怀疑是否存在多重共线性。严重的多重共线性常常会导致下列情形出现:使得用普通最小二乘严重的多重共线性常常会导致下列情形出现:使得用普通最小二乘法得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强法得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长,对参数难以做出精确的估计;造成回归方程高度度的增加而加
12、速增长,对参数难以做出精确的估计;造成回归方程高度显著的情况下,有些回归系数通不过显著性检验;甚至可能出现回归系显著的情况下,有些回归系数通不过显著性检验;甚至可能出现回归系数的正负号得不到合理的经济解释。但是应注意,如果研究的目的仅在数的正负号得不到合理的经济解释。但是应注意,如果研究的目的仅在于预测被解释变量于预测被解释变量Y,而各个解释变量,而各个解释变量X之间的多重共线性关系的性质在之间的多重共线性关系的性质在未来将继续保持,这时虽然无法精确估计个别的回归系数,但可估计这未来将继续保持,这时虽然无法精确估计个别的回归系数,但可估计这些系数的某些线性组合,因此多重共线性可能并不是严重问题
13、。些系数的某些线性组合,因此多重共线性可能并不是严重问题。综上所述综上所述第三节第三节 多重共线性的检验多重共线性的检验1)检验多重共线性是否存在;)检验多重共线性是否存在;多重共线性检验的任务是:2)估计多重共线性的范围,即判断哪些变量之间存在共线性。)估计多重共线性的范围,即判断哪些变量之间存在共线性。一、一、检验多重共线性是否存在检验多重共线性是否存在 1 1简单相关系数检验法简单相关系数检验法 利用解释变量之间的线性相关程度去判断是否存在严重多重利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。共线性的一种简便方法。一般而言,如果每两个解释变量的简单相关系数比较
14、高,如一般而言,如果每两个解释变量的简单相关系数比较高,如大于大于0.8,则可认为存在着较严重的多重共线性。,则可认为存在着较严重的多重共线性。较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。线性的准确判断。注意注意一、一、检验多重共线性是否存在检验多重共线性是否
15、存在 2 2直观判断法直观判断法 根据经验,通常以下情况的出现根据经验,通常以下情况的出现可能提示存在多重共线性的影响可能提示存在多重共线性的影响:(2)从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在 回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。(1)当增加或删除一个解释变量,或者改变一个观测值时,回归参数的估当增加或删除一个解释变量,或者改变一个观测值时,回归参数的估 计值发生较大变化,回归方程可能存在严重的多重共线性。计值
16、发生较大变化,回归方程可能存在严重的多重共线性。(4)解释变量的相关矩阵中,解释变量之间的相关系数较大时,可能会存在解释变量的相关矩阵中,解释变量之间的相关系数较大时,可能会存在 多重共线性问题。多重共线性问题。(3)有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存 在多重共线性。在多重共线性。一、一、检验多重共线性是否存在检验多重共线性是否存在3 3综合统计检验法综合统计检验法 R2与与 F 值较大,但各参数估计量的值较大,但各参数估计量的 t 检验值较小,说明各解释变检验值较小,说明各解释变量对量对Y的联合线性作用
17、显著,但各解释变量间存在共线性而使得它的联合线性作用显著,但各解释变量间存在共线性而使得它们对们对Y的独立作用不能分辨,故的独立作用不能分辨,故t检验不显著。检验不显著。对于多个解释变量(对于多个解释变量(2个以上)的回归模型个以上)的回归模型 若若 在在OLS法下:法下:二、二、估计多重共线性的范围估计多重共线性的范围 1 1判定系数检验法判定系数检验法 2 2行列式检验法行列式检验法 3 3方差膨胀方差膨胀(扩大扩大)因子法因子法4 4逐步回归法逐步回归法 1 1判定系数检验法判定系数检验法 例例:设多元回归模型的解释变量为设多元回归模型的解释变量为 X X1 1、X X2 2、X Xk
18、k,为分析研究它们之间的,为分析研究它们之间的相关关系,需将每个解释变量与其他解释变量进行回归,可得出相关关系,需将每个解释变量与其他解释变量进行回归,可得出k k个回归方程式个回归方程式并并计计算相算相应应的的拟拟合合优优度,即判定系数度,即判定系数 。如果某一回如果某一回归归方程的判定系数方程的判定系数较较大大(接近于接近于1)1),说说明明X Xj j与其他解与其他解释变释变量量X X间存在多重共线性。间存在多重共线性。如果求出的判定系数如果求出的判定系数都比都比较较小,没有一个是接近于小,没有一个是接近于1 1的,的,则则可可认为认为模型的解释变量之间不存在严重的多重共线问题。模型的解
19、释变量之间不存在严重的多重共线问题。析析:可可进进一步一步对对上述出上述出现较现较大判定系数大判定系数 的回的回归归方程作方程作F检验检验:(5-75-7)若存在若存在较较强强的共的共线线性,性,则则 较较大且接近于大且接近于1 1,这时这时 较较小,从而小,从而 的的值较值较大。因此,可以大。因此,可以给给定定显显著性水平著性水平,通,通过计过计算算 的的值值,并与相,并与相应应的的临临界界 与其他解与其他解释变释变量量X X间间不不 ,拒,拒绝绝 ,即,即认为认为X Xj j与其他解与其他解释释,即即认为认为X Xj j与其他解与其他解释变释变量量X X间间不不 值比较来进行检验,判定是否
20、存在相关性。此时值比较来进行检验,判定是否存在相关性。此时存在显著的共线性。如果存在显著的共线性。如果 变量变量X X间存在多重共线性,否则,接受间存在多重共线性,否则,接受存在多重共线性。存在多重共线性。2 2行列式检验法行列式检验法由于回归模型参数估计量的方差由于回归模型参数估计量的方差协方差矩阵为协方差矩阵为而所以说明:说明:说说明模型的解明模型的解释变释变量之量之间间完全相关,因而多重共完全相关,因而多重共线线性最性最为为严严重,即存在完全多重共重,即存在完全多重共线线性。性。(1)(1)当当 较较大大时时,较较小小说明参数估计的精度较高,因而多重共线性不严重。说明参数估计的精度较高,
21、因而多重共线性不严重。(3)(3)当当 =0 =0时时,则则 (2)(2)当当 较较小小时时,较较大大说明参数估计的误差较大,因此表明模型的多重共线性严重。说明参数估计的误差较大,因此表明模型的多重共线性严重。3 3方差膨胀方差膨胀(扩大扩大)因子法因子法 对于多元线性回归模型来说,如果分别以每个解释变量为被解释对于多元线性回归模型来说,如果分别以每个解释变量为被解释变量,做对其他解释变量的回归,这称为变量,做对其他解释变量的回归,这称为辅助回归辅助回归。Var()=以以Xj为为被解被解释变释变量做量做对对其他解其他解释变释变量量辅辅助助线线性回性回归归的可决系数,用的可决系数,用RjJ 的方
22、差可的方差可 表示,则可以证明表示,则可以证明(证明过程从略证明过程从略),解释变量,解释变量XjXj参数估计量参数估计量表示为表示为其中,其中,VIFj是是变变量量Xj的方差膨的方差膨胀胀因子,即因子,即 由于由于RjRj度量了度量了XjXj与其他解释变量的线性相关程度,这种相关程度越强,与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越严重,说明变量间多重共线性越严重,VIFjVIFj也就越大。反之,也就越大。反之,XjXj与其他解释变量的与其他解释变量的线性相关程度越弱,说明变量间的多重共线性越弱,线性相关程度越弱,说明变量间的多重共线性越弱,VIFjVIFj也就越接
23、近于也就越接近于1 1。由此可见,由此可见,VIFjVIFj的大小反映了解释变量之间是否存在多重共线性,可用它来的大小反映了解释变量之间是否存在多重共线性,可用它来度量多重共线性的严重程度。度量多重共线性的严重程度。经验表明,经验表明,VIFjVIFj1010时,说明解释变量时,说明解释变量XjXj与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。过度地影响最小二乘估计。4 4逐步回归法逐步回归法 以以为被解释变量,逐个引入解释变量,构成回归模型,进行模型为被解释变量,逐个引入解释变量,构成回归模型,
24、进行模型估计。根据拟合优度的变化决定新引入的变量是否可以用其他变量的线估计。根据拟合优度的变化决定新引入的变量是否可以用其他变量的线性组合代替,而不是作为独立的解释变量。性组合代替,而不是作为独立的解释变量。如果拟合优度变化显著,则说明新引入的变量是一个独立的解释变量;如果拟合优度变化显著,则说明新引入的变量是一个独立的解释变量;如果拟合优度变化很不显著,则说明新引入的变量不是一个独立的解如果拟合优度变化很不显著,则说明新引入的变量不是一个独立的解释变量,它可以用其他变量的线性组合代替,也就是说它与其他变量之间释变量,它可以用其他变量的线性组合代替,也就是说它与其他变量之间存在多重共线性。存在
25、多重共线性。第四节第四节 多重共线性的修正多重共线性的修正常用的几种修正方法常用的几种修正方法 :一、省略变量法二、利用已知信息克服多重共线性三、通过变换模型形式克服多重共线性四、用增加样本容量来克服多重共线性五、逐步回归法一、省略变量法一、省略变量法找出引起多重共线性的解释变量,将其省略掉找出引起多重共线性的解释变量,将其省略掉 最为有效的修正多重共线问题的方法。最为有效的修正多重共线问题的方法。当省略了某个或某些变量后,保留在模型中的变量的系数的估计值当省略了某个或某些变量后,保留在模型中的变量的系数的估计值及其经济意义均将发生变化。及其经济意义均将发生变化。这种方法虽然简单,但是当解释变
26、量较多时,往往很难选准在模型中比较这种方法虽然简单,但是当解释变量较多时,往往很难选准在模型中比较次要的解释变量以便省略。因此,在用这种方法克服多重共线问题时,又可能次要的解释变量以便省略。因此,在用这种方法克服多重共线问题时,又可能会犯遗漏重要解释变量的错误,以致使模型出现新的问题。所以,在从模型中会犯遗漏重要解释变量的错误,以致使模型出现新的问题。所以,在从模型中去掉某一解释变量时,一定要全面考虑、慎重从事,避免顾此失彼。去掉某一解释变量时,一定要全面考虑、慎重从事,避免顾此失彼。定义定义:注意注意:缺点缺点:二、利用已知信息克服多重共线性二、利用已知信息克服多重共线性已知信息已知信息就是
27、指在建模之前根据经济理论、统计资料或经验分析,就是指在建模之前根据经济理论、统计资料或经验分析,已知的解释变量之间存在的某种关系。已知的解释变量之间存在的某种关系。例例:为了克服多重共线性,可将解释变量按已知关系加以为了克服多重共线性,可将解释变量按已知关系加以合并合并。设消费函数设消费函数 (5-8)(5-8)其中,其中,Y Y为消费支出,为消费支出,X X1 1为消费者的年平均收入,为消费者的年平均收入,X X2 2为消费者的年平均储蓄额。为消费者的年平均储蓄额。三、通过变换模型形式克服多重共线性三、通过变换模型形式克服多重共线性不需要分析每个解释变量对被解释变量影响大小模型对象模型对象例
28、例:设需求函数设需求函数 (5-12)(5-12)其中其中Y Y为需求量,为需求量,X X1 1为居民收入,为居民收入,X X2 2为商品价格,为商品价格,X X3 3为代用品价格。为代用品价格。四、用增加样本容量来克服多重共线性四、用增加样本容量来克服多重共线性 多重共线性的主要问题在于使参数估计量的方差变大,随机干扰项的多重共线性的主要问题在于使参数估计量的方差变大,随机干扰项的方差、变量的变异程度与方差膨胀因子一起决定着参数估计量的方差。方差、变量的变异程度与方差膨胀因子一起决定着参数估计量的方差。如果存在多重共线性,但随机干扰项的方差很小,或变量的变异程度很如果存在多重共线性,但随机干
29、扰项的方差很小,或变量的变异程度很大都可能得到较小的参数估计量的方差。这时,即使有较严重的多重共大都可能得到较小的参数估计量的方差。这时,即使有较严重的多重共线性,也不会带来不良后果。因此,只要回归方程估计的参数标准差较线性,也不会带来不良后果。因此,只要回归方程估计的参数标准差较小,小,t t统计值较大,就没有必要过于关心是否存在多重共线性的问题。统计值较大,就没有必要过于关心是否存在多重共线性的问题。五、逐步回归法(结合第五节案例分析)五、逐步回归法(结合第五节案例分析)具体步骤具体步骤 1 1)先用被解释变量对每一个所考虑的解释变量做简单回归;)先用被解释变量对每一个所考虑的解释变量做简单回归;2 2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础;)以对被解释变量贡献最大的解释变量所对应的回归方程为基础;3 3)逐个引入其余的解释变量。)逐个引入其余的解释变量。好处 将统计上不显著的解释变量剔除,最后保留在模型中的解释变量之间将统计上不显著的解释变量剔除,最后保留在模型中的解释变量之间多重共线性不明显,而且对被解释变量有较好的解释贡献。多重共线性不明显,而且对被解释变量有较好的解释贡献。此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢
限制150内