第八章 多重共线性:解释变量相关会有什么后果.ppt
-
资源ID:82780481
资源大小:174KB
全文页数:35页
- 资源格式: PPT
下载积分:16金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第八章 多重共线性:解释变量相关会有什么后果.ppt
第二部分实践中的回归分析基本假定违背:基本假定违背:不满足基本假定的情况。(1)模型设定有偏误;所选模型是正确设定的(2)解释变量之间存在多重共线多重共线性;(3)随机误差项序列存在异方差异方差性;(4)随机误差项序列存在序列相关序列相关性。所选模型是正确设定的解释变量之间不存在完全线性关系误差项方差为常数误差项之间不相关基本假定基本假定基本假定基本假定第八章 多重共线性Multi-CollinearityMulti-Collinearity一、多重共线性的性质一、多重共线性的性质二、多重共线性的实际后果二、多重共线性的实际后果三、多重共线性的诊断三、多重共线性的诊断四、克服多重共线性的方法四、克服多重共线性的方法五、案例五、案例一、多重共线性的性质1、完全多重共线性2、近似(不完全)多重共线性 对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相如果某两个或多个解释变量之间出现了相关性,则称为关性,则称为多重共线性多重共线性(Multicollinearity)。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。一个怪模型商场销售额=B1营业面积+B2店员人数+B3铺租+B4宣传费用+ui何以怪?这样阐述事物,越说越乱,与其说是“解释”,毋宁是“蛊惑”生产函数的多重共线性如果技術不变,劳动与资本投入会是等比例的。比如,每增加一部缝纫机,就要增加一个工人。此时,投入品之间是完全共线性,即等比例变化。多途径投放广告,销售额的变动到底来自哪种广告形式,无法区分。各广告形式之间经常存在共线性。为什么不能容忍多重共线性?一个模型中的某个变量违背常识。比如某些积极因素被“算”成了消极因素模型应该儘量简捷奥卡姆剃刀:如无必要,毋增实体产生多重共线性的背景经济变量之间具有共同变化趋势哲学观点:事物是普遍联繫的。联繫的紧密程度有所不同。多重共线性会经常出现如果一个回归方程之中,幾个自变量之间具有比较强的相关性,则自变量之间可以互相解释,我们可以只留下一个自变量:设y=x1+x2+c,其中,x1=ax2,则y=ax2+x2+c=(a+1)x2+c模型中包含滞後变量利用截面数据建模也可能出现多重共线性经济学理论有“互补品”与“替代品”样本数据自身的原因心理学家的调查数据经常出自大学生8.1 多重共线性的性质The nature of multicollinearity表8-1中,x2每上升1,x3会下降2,这是完全的共线性,它们之间的函数关係是x3=300-2x2,也就是说,x3一列数字“完全”可以由x2取代,反之亦然。这时,无法按表12-1中的资料对回归方程进行估计当解释变量之间存在完全线性相关或者完全多重共线性时,我们不可能獲得所有参数的惟一估计值。既然我们不能獲得它们的惟一估计值,也就不能根据某一样本做任何统计推论在完全多重共线性的情况下,不可能对多元回归模型中的某一单个回归系数进行估计和假设检验如果在解释变量X1,X2,Xk中,存在线性关係。解释变量间的线性关係存在时,存在不全为零的常数 这種关係为完全多重共线性,变量间的相关係数为1。实际上更多的情况是,解释变量间有不完全的线性关係:存在不全为零的数:其中vi 为随机项。解释变量间存在的完全或不完全的线性关係称为多重共线性。由於经济变量自身的性质,多重共线性或强或弱,普遍存在。假定10,8.2接近或者不完全多重共线性的情形The case of near,or imperfect,multicollinearityX4的绝大部分信息包含在x2中,x2幾乎完全是重複信息这样得到的回归方程很怪:在整体上存在较好的解释能力,但在每一个解释变量上却出现违背常识的现象多重共线性的示意图OLS估计量的方差与协方差OLS估计量的方差与协方差提供了估计量b置信程度的信息。各样本间越是近似,其统计量的变异程度就越小,根据这种样本估计的参数就越准確r23是T个XT2值和XT3值的相关系数影响b2的方差的因素OLS估计量的变异程度受什么因素影响误差项u的方差2越大,OLS估计量的变异程度越大样本量越大,OLS估计量的变异程度越小。var(b2)公式中的T大,分母也大,var(b2)就小自变量对均值的变异程度越大,OLS估计量的变异程度越小X2和X3之间的相关系数越大,b2的方差也越大。如果X2和X3完全相关,r23=1,var(b2)无法计算 如果存在c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:ci不全为0 如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项1、解释变量间存在完全共线性完全共线性(perfect multicollinearity)2、近似(、近似(不完全、高度)不完全、高度)共线性共线性(near/imperfect/high multicollinearity)不可能获得所有参数的唯一估计值及根据样本进行任何统计推断。OLS估计量仍是最优线性无偏估计量 注意:注意:除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。OLS估计量仍是最优线性无偏估计量但这不代表单个样本估计值的性质(如方差最小等)多重共线性本质上是一个样本(回归)现象。多重共线性本质上是一个样本(回归)现象。存在不完全多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大容易使通过样本计算的容易使通过样本计算的t值小于临界值,值小于临界值,误导作出参数为误导作出参数为0的推断的推断可能将重要的解释变量排除在模型之外可能将重要的解释变量排除在模型之外概念:方差膨胀因子概念:方差膨胀因子根据P76第四章有:R2增加 b2和b3的方差(或标准差)增加(或膨胀)多重共线性使参数估计值的方差增大重共线性使参数估计值的方差增大,1/(1-R2)为方差膨胀因子方差膨胀因子(Variance Inflation Factor,VIF)当完全不共线完全不共线时,R2=0 当近似共线近似共线时,0 R2 8或10时,多重共线性显著,且Xi为多餘变量.如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多餘的.8.6 多重共线性必定不好吗Is multicollinearity necessarily bad?如果研究是为了用模型来预测解释变量的未来均值,则多重共线性本身未必是一件坏事如果研究不仅仅是为了预测,而且还要可靠地估计所选模型的各个参数,则严重的共线性将是一件“坏事”,因为它将导致估计量的标准差增大如果是为了比较准確地估计一组系数(例如,两个系数的和或者差),那么,即使存在多重共线性,也能够达到目的三、多重共线性的诊断(1)检验多重共线性是否存在及度量共线性的程度;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。(1)没有度量多重共线性的单一方法;(2)具有的是一些经验法则,即是在具体应用中能够提供判断存在多重共线性的一些线索。任务:注意:1 1、对、对多个解释变量的模型,采用综合统计检验法多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。三、多重共线性的诊断R2值较高,但解释变量t值统计显著的不多。这是共线性的典型特征首先,检验多重共线首先,检验多重共线性是否存在性是否存在(1 1)()(2 2)2 2、对两个解释变量的模型,采用简单相关系数法、对两个解释变量的模型,采用简单相关系数法对对多个解释变量的模型多个解释变量的模型,计算这些解释变量两两之间的相关系数,如果有些相关系数很高相关系数很高(如超过0.8),则可能认为存在较为严重的共线性则可能认为存在较为严重的共线性。三、多重共线性的诊断 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。但是,这一标准并不可靠但是,这一标准并不可靠,有时候,两两相关系数可能较低,但仍可能存在共线性。进一步确定哪些变量引起的3 3、从属回归或辅助回归(判定系数检验法)、从属回归或辅助回归(判定系数检验法)Step1:使模型中每一个解释变量分别以其余解释变量为解释变量进行回归(这些回归称为从属回归或辅助回归Ste:2:首先观察这些辅助回归相应的拟合优度(或判定系数)的大小;然后对这些辅助回归进行F检验H0:Rj.2=0 Xji=1X1i+2X2i+LXLi若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。3 3、从属回归或辅助回归(判定系数检验法)、从属回归或辅助回归(判定系数检验法)Rj2:第j个解释变量对其他解释变量的回归方程的判定系数 若存在较强的共线性 Rj2较大且接近于1 (1-Rj2)较小因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。从而Fj的值较大。四、克服多重共线性的方法1、排除引起共线性的变量、排除引起共线性的变量找出引起多重共线性的解释变量,将它排除出去。(补充)(补充)逐步回归法:逐步回归法:以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计根据拟合优度的变化决定新引入的变量是否独立若拟合优度变化显著若拟合优度变化显著,则说明新引入的变量是一个独立解释变量;若拟合优度变化很不显著若拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系两难:共线性;设定误差2、获取额外的数据或新的样本3、重新考虑模型4、参数的先验信息5、变量变换增加样本可改善共线性问题,但有困难四、克服多重共线性的方法然先验信息难以获得,且其准确性易遭质疑名义变量变为实际变量、采用变量的差分形式作业作业做在书上:8.18.12;自行思考:8.148.18、做在作业本上:8.20、8.23、8.24、8.27上机:8.22、8.28