模型的建立与估计中的问题及对策.pptx
《模型的建立与估计中的问题及对策.pptx》由会员分享,可在线阅读,更多相关《模型的建立与估计中的问题及对策.pptx(155页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1经典假设与违背假设的情况:经典假设与违背假设的情况:异方差异方差自相关自相关多重共线性多重共线性第1页/共155页24.1 误设定误设定模型设定偏误主要有两大类模型设定偏误主要有两大类解释变量选取的偏误解释变量选取的偏误,主要包括漏选相关变量和多选无关变量。主要包括漏选相关变量和多选无关变量。模型函数形式选取的偏误。模型函数形式选取的偏误。当模型设定出现偏误时,模型估计结果也会与“实际”有偏差。这种偏差的性质及程度与模型设定偏误的类型密切相关。第2页/共155页3遗漏相关变量遗漏相关变量(omitting relevant variables)例如,如果例如,如果“正确正确”的模型为的模型为
2、:而我们将模型设定为而我们将模型设定为:即设定模型时漏掉了一个相关的解释变量。即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量。这类错误称为遗漏相关变量。模型中遗漏了对因变量有显著影响的解释变量将使模型参数估计量不再是无偏估计量。第3页/共155页4误选无关变量误选无关变量(including irrevelant variables)例如,如果例如,如果为为“真真”,但我们将模型设定为,但我们将模型设定为:即设定模型时,多选了一个无关解释变量。即设定模型时,多选了一个无关解释变量。这类错误称为误选无关变量。这类错误称为误选无关变量。模型中包括无关的解释变量,参数估计量仍无偏,但
3、会增大估计量的方差,即增大误差。第4页/共155页5错误的函数形式错误的函数形式(wrong functional form)例如,如果例如,如果“真实真实”的回归函数为的回归函数为:但却将模型设定为但却将模型设定为:这就是设定了错误的函数形式。这就是设定了错误的函数形式。这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型当然无法反映所研究现象的实际情况,后果是显而易见的。第5页/共155页6解决解释变量误设定问题的原则在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也就没有多大意义了,因此也不宜
4、随意乱增加解释变量。在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一件容易的事,因为目前还没有行之有效的方法可供使用。第6页/共155页7理论:从理论上看,该变量是否应该作为解释变量包括在方程中?t检验:该变量的系数估计值是否显著?:该变量加进方程中后,是否增大?偏倚:该变量加进方程中后,其它变量的系数估计值是否显著变化?如果对四个问题的回答都是肯定的,则该变量应该包如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;如果对四个问题的回答都是括在方程中;如果对四个问题的回答都是“否否”,则该变则该变量是无关变量,可以安全地从方程中删掉它。这是两种容量
5、是无关变量,可以安全地从方程中删掉它。这是两种容易决策的情形。易决策的情形。选择解释变量的四条准则第7页/共155页8在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后,增大,但该变量不显著。在这种情况下,作出正确判断不是一件容易的事,处理的原则是将理论准则放在第一位,再多的统计证据也不能将一个理论上很重要的变量变成“无关”变量。在选择变量的问题上,应当坚定不移地根据理论而不是满意的拟合结果来作决定,对于是否将一个变量包括在回归方程中的问题,理论是最重要的判断准则。如果不这样做,产生不正确结果的风险很大。第8页/共155页9检验模型误设定的RESET方法拉姆齐(J.
6、B.Ramsey)于1969年提出了一种回归设定误差检验法(RESET法)。RESET检验法的思路是在要检验的回归方程中加进 等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。第9页/共155页10直观地看,这些添加的项是任何可能的遗漏变直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能量或错误的函数形式的替身,如果这些替身能够通过够通过F 检验检验,表明它们改善了原方程的拟合表明它们改善了原方程的拟合状况,则我们有理由说原方程存在误设定问题。状况,则我们有理由说原方程存在误设定问题。等项形成多项式函数形式,
7、多等项形成多项式函数形式,多项式是一种强有力的曲线拟合装置,因而如果项式是一种强有力的曲线拟合装置,因而如果存在误设定,则用这样一个装置可以很好地代存在误设定,则用这样一个装置可以很好地代表它们。表它们。第10页/共155页11(1)用用OLS法估计要检验的方程,得到法估计要检验的方程,得到(2)由由上上一一步步得得到到的的值值 (i=1,2,n),计计算算 ,然后用然后用OLS法估计:法估计:(3)用用F检检验验比比较较两两个个方方程程的的拟拟合合情情况况,如如果果两两方方程程总总体体拟拟合合情情况况显显著著不不同同,则则我我们们得得出出原原方方程程可可能能存存在在误误设设定定的的结结论。使
8、用的检验统计量为:论。使用的检验统计量为:RESET检验法的步骤第11页/共155页12 RSSM为为第第一一步步中中回回归归的的残残差差平平方方和和,RSS为为第第二二步步中中回回归归的的残残差差平平方方和和,M为为约约束束条条件件的的个个数数,这这里是里是M=3。注注意意:拉拉姆姆齐齐RESET检检验验仅仅能能检检验验误误设设定定的的存存在在,而而不不能能告告诉诉我我们们到到底底是是哪哪一一类类的的误误设设定定,或或者者说说,不不能能告告诉诉我我们们正正确确的的模模型型是是什什么么。但但该该方方法法毕毕竟竟能能给给出出模模型型误误设设定定的的信信号号,以以便便我我们们去去进进一一步步查查找
9、找问问题题。另另一一方方面面,如如果果模模型型设设定定正正确确,RESET检检验验使使我我们们能能够够排排除除误误设设定定的的存存在在,转转而而去查找其它方面的问题。去查找其它方面的问题。第12页/共155页13软件实现软件实现EviewsEviews实现的步骤:方程窗口实现的步骤:方程窗口ViewViewStability TestsStability TestsRamsey RESET Ramsey RESET TestTest输入输入Number of fittedNumber of fittedOKOK。第13页/共155页144.2 多重共线性多重共线性 多重共线性的概念 多重共线性
10、产生的原因及后果 多重共线性的检验 解决多重共线性问题的方法 实例第14页/共155页15一、多重共线性的概念一、多重共线性的概念 定义:如果某两个或多个解释变量高度线性相关,定义:如果某两个或多个解释变量高度线性相关,则称模型中存在则称模型中存在多重共线性多重共线性(Multicollinearity)。对于模型 Yi=0+1X1i+2X2i+kXki+ui,i=1,2,n,其基本假设之一是解释变量是互相独立的。表示为矩阵的秩,有rank(X)=k+1n,即解释变量之间不存在严格的线性关系,观测值个数大于待估参数的个数。第15页/共155页16 如果存在c1X1i+c2X2i+ckXki=0
11、,i=1,2,n,其中 ci 不全为0,则称为解释变量间存在完全的多重共线性(perfect multicollinearity)如果存在c1X1i+c2X2i+ckXki+vi=0,i=1,2,n,其中ci不全为0,vi 为随机误差项,则称为近似的多重共线性(approximate multicollinearity)第16页/共155页17 在矩阵表示的线性回归模型在矩阵表示的线性回归模型Y=X +u中,完全的多重共线性指:中,完全的多重共线性指:rank(X)k+1,即,即中,至少有一列向量可由其他列向量(不包括第中,至少有一列向量可由其他列向量(不包括第一列)线性表出。一列)线性表出。
12、如:如:X2=X1,则,则 X2 对对 Y 的作用可由的作用可由 X1 代替。代替。第17页/共155页18二、多重共线性产生的原因及后果二、多重共线性产生的原因及后果主要原因包括以下三个方面:主要原因包括以下三个方面:经济变量共同的变动趋势 时间序列数据:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。第18页/共155页19 滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如:消费=f(当期收入,前期收入)显然,两期收入间
13、具有较强的线性相关性。第19页/共155页20 样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。例如:消费=f(收入,财富水平),当我们获得收入和财富的样本数据时,两个自变量可能高度相关。我们很难找到足够多的财富少而收入高的样本。第20页/共155页21 一般来说,简单线性模型中涉及到时间序列数据样本时往往会存在多重共线性;而对于截面数据样本,问题不那么严重,但多重共线性仍然是存在的。在多元线性回归模型中,我们关心的并不是多重共线性的有无,而是多重共线性的程度。当多重共线性的程度较高时,会给最小二乘估计量带来严重的后果。如何看待多重共线性呢?
14、如何看待多重共线性呢?第21页/共155页22多重共线性的后果多重共线性的后果的的OLS估计量为:估计量为:完全共线性下参数估计量不存在 如果存在完全共线性,则必有 ,故(XX)1 不存在,因此无法得到参数的估计量。第22页/共155页23例:对于二元线性回归模型例:对于二元线性回归模型 如果两个解释变量完全相关,如如果两个解释变量完全相关,如X2=X1,则二元模型就会退化为一元线性回归模型:则二元模型就会退化为一元线性回归模型:这时,只能确定综合参数这时,只能确定综合参数 1+2 的估计值:的估计值:第23页/共155页24 近近似似共共线线性性下下,可可以以得得到到OLS参参数数估估计计量
15、,但参数估计量方差的表达式为:量,但参数估计量方差的表达式为:由由于于|XX|0,引引起起(XX)-1 主主对对角角线线元元素素较较大大,即即使使得得参参数数估估计计值值的的方方差差增增大大,估估计计值值的的精精度降低。度降低。近似共线性下OLS估计量的方差增大第24页/共155页25仍以二元线性模型仍以二元线性模型 为例为例:恰为恰为 X1与与 X2的线性相关系数的平方的线性相关系数的平方r 2由于由于 r 2 1,故,故 1/(1-r2)1。第25页/共155页26 多重共线性使参数估计值的方差增大,多重共线性使参数估计值的方差增大,1/(1-r 2)为方差膨胀因子为方差膨胀因子(Vari
16、ance Inflation Factor,VIF)当完全不共线时当完全不共线时,r 2=0 当近似共线时,0 r 2 10作为存在严重多重共线作为存在严重多重共线性的标准性的标准,特别在解释变量多的情形应当如此。特别在解释变量多的情形应当如此。需要指出的是,所有VIF值都低,并不能排除严重多重共线性存在的可能性。第34页/共155页35 条件指数高,表明存在多重共线性。条件指数高,表明存在多重共线性。“经经验法则验法则”告诉我们:告诉我们:CI在在5到到10之间为弱相关性;之间为弱相关性;在在10到到30之间为中强度多重共线性,而大于之间为中强度多重共线性,而大于30表明存在严重的多重共线性
17、。表明存在严重的多重共线性。3.通过条件指数检验通过条件指数检验第35页/共155页36四、四、解决多重共线性问题的方法解决多重共线性问题的方法方法一、增加数据多重共线性实质上是样本的问题,或者说是数据问题,因此,增加数据就有可能消除或减缓多重共线性。具体方法包括增加观测值、将时间序列数据与截面数据并用或采用新的样本等。当然,如果解释变量的总体存在多重共线性,那么增加样本容量就不能降低解释变量之间的线性关系。第36页/共155页37在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小系数估计量的方差。最典型的例子是在CobbDouglas生产函数中加进规模报酬不变的约束,可以解决资本
18、和劳动的高度相关而引起的多重共线性问题。方法二、对模型施加某些约束条件方法二、对模型施加某些约束条件第37页/共155页38这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除哪些变量,可根据经典理论和假设检验的结果确定。另一种思路就是在建模的过程中避免引入共线性较大的变量,具体可以采用逐步回归的方法。方法三、略去一个或几个共线变量方法三、略去一个或几个共线变量第38页/共155页39逐步回归法逐步回归法 以以 Y 为被解释变量,逐个引入解释变量,为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度构成回归模型,进行模型估计。根
19、据拟合优度的变化决定新引入的变量是否独立。的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。之间存在共线性关系。第39页/共155页401.用被解释变量分别对每个解释变量进行线性回归,根据经济理论和统计检验从中选择一个最合适的回归方程作为基本回归方程,通常选取拟合优度最大的回归方程。2.在基本回归方程中逐个增加解释变量,重新进行线性回归:若新变量的引入提高了R2,并且
20、回归方程中的其他参数统计上仍然显著,就在模型中保留该解释变量;若新变量的引入未能改进R2,则不在模型中保留该解释变量;若新变量的引入提高了R2,且显著地影响了其他回归参数估计值的符号与数值,说明模型中存在多重共线性,对该解释变量同与之相关的其他解释变量进行比较,在模型中保留对被解释变量影响较大的,略去较小的。逐步回归法的一般步骤:逐步回归法的一般步骤:第40页/共155页41如果某些解释变量之间高度相关,可以根据研究目的等实际情况,通过改变模型的形式来避免多重共线性。方法四、改变模型的形式方法四、改变模型的形式例如:例如:某商品的需求函数为:某商品的需求函数为:其其中中Q为为需需求求量量,X
21、为为收收入入,P是是该该商商品品的的价价格格,P*为为替替代代商商品品的的价价格格。通通常常P和和P*往往往往呈呈同同方方向向变变动动,它它们们之之间间高高度度相关。相关。如如果果研研究究目目的的只只是是预预测测该该商商品品的的需需求求量量,则则可可以以用用相相对价格来替代两个价格对对价格来替代两个价格对Q的影响,即:的影响,即:这样就可以解决多重共线性问题。这样就可以解决多重共线性问题。第41页/共155页42 时间序列数据、线性模型:将原模型变换时间序列数据、线性模型:将原模型变换为差分模型为差分模型:Yi=1 X1i+2 X2i+k Xki+ui可以有效地消除原模型中的多重共线性。可以有
22、效地消除原模型中的多重共线性。一般来说,增量之间的线性关系远比总量一般来说,增量之间的线性关系远比总量之间的线性关系弱得多。之间的线性关系弱得多。使用差分形式的模型第42页/共155页43 例如:例如:个人消费取决于现期收入和过去的收入,模个人消费取决于现期收入和过去的收入,模型为:型为:用被解释变量的滞后值替代解释变量的滞后值:如果多重共线性是由解释变量的现期值与过去值高度相关引起的,则可以使用被解释变量的一期滞后值替代解释变量的滞后值,来避免多重共线性。第43页/共155页44 对于多项式回归模型,即模型中包含解释对于多项式回归模型,即模型中包含解释变量的不同次幂,它们之间一般存在较高的相
23、关变量的不同次幂,它们之间一般存在较高的相关性。在实践中,如果将解释变量表达为离差的形性。在实践中,如果将解释变量表达为离差的形式,即原值减去均值,多重共线性就可大为降低。式,即原值减去均值,多重共线性就可大为降低。使用离差形式的模型第44页/共155页45思路:将共线变量组合在一起形成一个或几个综合指数(变量),用它来代表这组变量。构造综合指数的最常用方法是主成分法。主成分的特点是,各主成分之间互不相关,并且,用很少几个主成分就可以解释全部解释变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。关于主成分分析的
24、方法参考多元统计分析中有关主成分分析的内容。方法五、主成分回归方法五、主成分回归第45页/共155页46运用多元统计技术的其他方法,如因子分析岭回归构造联立方程模型无为而治、置之不理其他方法其他方法第46页/共155页47 根根据据理理论论和和经经验验分分析析,影影响响粮粮食食生生产产(Y)的的主要因素有:主要因素有:农业化肥施用量(农业化肥施用量(X1)粮食播种面积粮食播种面积(X2)受灾面积受灾面积(X3)农业机械总动力农业机械总动力(X4)农业劳动力农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮已知中国粮食生产的相关数据,建立中国粮食生产函数:食生产函数:Y=0+1 X1+2
25、X2+3 X3+4 X4+4 X5+u五、实例五、实例第47页/共155页481.1.用用OLS法估计上述模型:法估计上述模型:R2 接近于接近于1;给定;给定 =5%,得,得 F 的临界的临界值值F0.05(5,12)=3.11,F=638.4 15.19,故认上述粮食生产的总体线性关系显著成立。,故认上述粮食生产的总体线性关系显著成立。但但X4、X5 的参数未通过的参数未通过 t 检验,且符号不正检验,且符号不正确,说明解释变量间可能存在多重共线性。确,说明解释变量间可能存在多重共线性。(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)第48页/共155页49
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模型 建立 估计 中的 问题 对策
限制150内