第五章-模型的建立与估计中的问题及对策.ppt
第五章第五章 模型的建立与估计中模型的建立与估计中的问题及对策的问题及对策2本章内容本章内容第一节第一节 误设定误设定第二节第二节 多重共线性多重共线性第三节第三节 异方差性异方差性第四节第四节 自相关自相关第五节第五节 随机解释变量随机解释变量3 OLS估估计计量量令令人人满满意意的的性性质质,是是根根据据一一组组假假设设条条件件而而得得到到的的。在在实实践践中中,如如果果某某些些假假设设条条件件不不能能满满足足,则则OLS就就不不再再适适用用于于模模型型的的估估计计。下下面列出实践中可能碰到的一些常见问题:面列出实践中可能碰到的一些常见问题:4 误设定误设定(Misspecification 或或specification error)多重共线性多重共线性(Multicollinearity)异方差性异方差性(Heteroscedasticity或或Heteroskedasticity)自相关自相关(Autocorrelation)随机解释变量随机解释变量(Stochastic explanatory variables)5第一节第一节 误设定误设定 采采用用OLS法法估估计计模模型型时时,实实际际上上有有一一个个隐隐含含的的假假设设,即即模模型型是是正正确确设设定定的的。这这包包括括两两方方面面的的含含义义:函函数数形形式式正正确确和和解解释释变变量量选选择择正正确确。在在实实践践中中,这这样样一一个个假假设设或或许许从从来来也也不不现现实实。我我们们可可能犯下列三个方面的错误:能犯下列三个方面的错误:选择错误的函数形式选择错误的函数形式遗漏有关的解释变量遗漏有关的解释变量包括无关的解释变量包括无关的解释变量从而造成所谓的从而造成所谓的“误设定误设定”问题。问题。6 经济理论通常不会告诉我们因变量和解释变量之间的经济理论通常不会告诉我们因变量和解释变量之间的具体函数形式是什么,解决这个问题,很大程度上要靠计具体函数形式是什么,解决这个问题,很大程度上要靠计量经济工作者在实践中不断摸索。量经济工作者在实践中不断摸索。函数形式选择错误,所建立的模型当然无法反映所研函数形式选择错误,所建立的模型当然无法反映所研究现象的实际情况,后果是显而易见的。这类错误中比较究现象的实际情况,后果是显而易见的。这类错误中比较常见的是有意或无意地将非线性关系作为线性关系处理;常见的是有意或无意地将非线性关系作为线性关系处理;还有一类是非线性关系的选择,比如变量之间是双对数还还有一类是非线性关系的选择,比如变量之间是双对数还是半对数等。这些都需要我们不断实践。是半对数等。这些都需要我们不断实践。函数形式误设定一般都会导致系数的函数形式误设定一般都会导致系数的OLS估计量有偏估计量有偏和不一致。和不一致。一、函数形式误设定一、函数形式误设定7二、二、模型中遗漏有关的解释变量模型中遗漏有关的解释变量 模模型型中中遗遗漏漏了了对对因因变变量量有有显显著著影影响响的的解解释释变变量量的的后后果果是是:将将使使模模型型参参数数估估计计量量不不再再是是无无偏偏估估计计量量。下面用一个简单例子说明。下面用一个简单例子说明。89而由(而由(5-1)有:)有:(5-4)入()入(5-3),得:),得:1011三、三、模型中包括无关的解释变量模型中包括无关的解释变量 模型中包括无关的解释变量,模型中包括无关的解释变量,参数估计量仍无偏,但会参数估计量仍无偏,但会增大估计量的方差,即增大误差增大估计量的方差,即增大误差。我们同样用一个简单例子说明之。我们同样用一个简单例子说明之。设正确模型为:设正确模型为:(5-6)而实际估计的模型是:而实际估计的模型是:(5-7)也就是说,也就是说,X2 与与Y无关,因而应有无关,因而应有 。可以证明可以证明 ,即,即 是真实参数是真实参数 的无偏估计量。的无偏估计量。但是但是由于由于r12一般不等于一般不等于0,因此我,因此我们们有:有:结论结论:模型中包括无关的解:模型中包括无关的解释变释变量,量,参数估参数估计计量量仍无偏,但会增大估仍无偏,但会增大估计计量的方差,即增大量的方差,即增大误误差。估差。估计计参数的置信区参数的置信区间进间进而而变宽变宽,从而使得我,从而使得我们们无法无法认认识识到被解到被解释变释变量与解量与解释变释变量之量之间间的的显显著关系。著关系。而:而:14四、四、选择解释变量的四条原则选择解释变量的四条原则 在模型设定中的一般原则是尽量不漏掉有关的解在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也就没有多大意义果方差很大,得到的无偏估计量也就没有多大意义了,因此也不宜随意乱增加解释变量。了,因此也不宜随意乱增加解释变量。在回归实践中,有时要对某个变量是否应该作为在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一解释变量包括在方程中作出准确的判断确实不是一件容易的事,因为目前还没有行之有效的方法可供件容易的事,因为目前还没有行之有效的方法可供使用。尽管如此,还是有一些有助于我们进行判断使用。尽管如此,还是有一些有助于我们进行判断的准则可用,它们是:的准则可用,它们是:15选择解释变量的四条准则选择解释变量的四条准则1.理论:理论:从理论上看,该变量是否应该作为解释变从理论上看,该变量是否应该作为解释变量包括在方程中?量包括在方程中?2.t检验:该变量的系数估计值是否显著检验:该变量的系数估计值是否显著?3.:该变量加进方程中后,:该变量加进方程中后,是否增大?是否增大?4.偏倚:偏倚:该变量加进方程中后,其它变量的系数估该变量加进方程中后,其它变量的系数估计值是计值是否显著变化?否显著变化?如果对四个问题的回答都是肯定的,则该变量应该包如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;如果对四个问题的回答都是括在方程中;如果对四个问题的回答都是“否否”,则该变则该变量是无关变量,可以安全地从方程中删掉它。量是无关变量,可以安全地从方程中删掉它。16 但但根根据据以以上上准准则则判判断断并并不不总总是是这这么么简简单单。在在很很多多情情况况下下,这这四四项项准准则则的的判判断断结结果果会会出出现现不不一一致致。例例如如,有有可可能能某某个个变变量加进方程后,量加进方程后,增大,但该变量不显著。增大,但该变量不显著。因因此此,当当这这四四项项用用于于判判断断一一个个变变量量是是否否应应加加进进回回归归方方程程的的准准则则出出现现不不一一致致的的情情况况时时,应应当当特特别别小小心心。在在这这种种情情况况下下,作作出出正正确确判判断断不不是是一一件件容容易易的的事事,但但可可以以让让事事情情变变得得容容易易一一些些,办办法法是是将将理理论论准准则则放放在在第第一一位位,再再多多的的统统计计证证据据也也不不能能将一个理论上很重要的变量变成将一个理论上很重要的变量变成“无关无关”变量。变量。在在选选择择变变量量的的问问题题上上,应应当当坚坚定定不不移移地地根根据据理理论论而而不不是是满满意意的的拟拟合合结结果果来来作作决决定定,对对于于是是否否将将一一个个变变量量包包括括在在回回归归方方程程中中的的问问题题,理理论论是是最最重重要要的的判判断断准准则则。如如果果不不这这样样做做,产产生不正确结果的风险很大。生不正确结果的风险很大。17*五、模型的选择五、模型的选择 上一段讨论了某个解释变量应否包括在模型中的上一段讨论了某个解释变量应否包括在模型中的几条原则。实践中,几条原则。实践中,要解决的一个问题是如何从大量要解决的一个问题是如何从大量的潜在解释变量的集合中选择一个最合适的子集,以的潜在解释变量的集合中选择一个最合适的子集,以得到一个正确设定的模型。得到一个正确设定的模型。上个世纪六十年代后相当一段时间,人们使用逐上个世纪六十年代后相当一段时间,人们使用逐步回归法来解决解释变量的选择问题。这种由计算机步回归法来解决解释变量的选择问题。这种由计算机机械挑选变量的做法如今已不流行了。目前比较通行机械挑选变量的做法如今已不流行了。目前比较通行的做法是从少量精心设定的备选模型中选择一个。的做法是从少量精心设定的备选模型中选择一个。计量经济学家就此提出了很多基于统计学的选择标计量经济学家就此提出了很多基于统计学的选择标准,我们这里讨论其中几种,如表准,我们这里讨论其中几种,如表51所示所示。18令RSSj表示第j个模型(有kj个解释变量)的残差平方和,并定义为第j个模型的的估计值。我们用表示包含全部k个解释变量的模型的估计值。19表51 选择回归模型的准则准则 计算公式 20 1.准则准则希尔(Theil)的准则基于如下假设:所考虑的模型中有一个是正确模型。对于正确模型,对于不正确模型,。因此,选择最小的模型一般就能选出正确模型。由于最小化与最大化是一回事,我们习惯上称该准则为最大准则。这个准则的主要问题是,一个正确模型包括所有解释变量但同时也包括一些无关变量的模型也会给出,在这种情况下,我们所选择的其实并非正确模型。当备选模型包含大量无关变量时,选出正确模型的概率较低。21 2.基于预测的均方误差最小的三个准则基于预测的均方误差最小的三个准则希尔的准则是基于回归的标准误差最小,下列三个准则则是基于预测的均方误差(MSE)最小。这三个准则是:马娄斯(Mallows)的准则霍金(Hocking)的准则阿美米亚(Amemiya)的PC准则假设正确的方程有k个解释变量,我们考虑的方程有个解释变量,问题是如何选择k1以及具体的k1个解释变量的集合。在上述三个预测准则中,这是通过使的均方误差达到最小实现的,其中是Y的未来值,而是预测值。22上述三个准则都是基于预测的均方误差最小,但在估计预测的均方误差时采用的假设有所不同,因而形成各自的计算公式,孰优孰劣,并无定论,在实践中可根据所用软件提供的输出结果选用其中一个作为模型选择的准则。具体做法是比较备选的几个模型的、或PC值,选其中最小的即可。在三个预测准则的情况下,我们感兴趣的是改善预测的MSE,只要能改善,可以去掉某些变量,即便是正确模型中包括它们也在所不惜。23 3.赤池信息准则(赤池信息准则(AIC)赤池信息准则(AkaikesInformationCriterion,AIC)是一个更一般的准则,它可以应用于任何一个可用极大似然法估计的模型。对于我们这里的应用,AIC的计算公式为与赤池信息准则类似的还有施瓦茨信息准则(Schwarzinformationcriterion,SIC或SC):上述两个准则与前述准则一样,可用于模型选择,其值也是越小越好。24六、六、检验误设定的检验误设定的RESET方法方法 前前面面给给出出了了选选择择解解释释变变量量的的四四条条原原则则。可可是是,有有时时这这些些原原则则不不能能提提供供足足够够的的信信息息使使研研究究人人员员确确信信其其设设定定是是最最恰恰当当的的,在在这这种种情情况况下下,可可考考虑虑使使用用一一些些更更正正规规的的检检验验方方法法来来比比较较不不同同估估计计方方程程的的性性质质。这这类类方方法法相相当当多多,这这里里就就不不一一一一列列出出,仅仅介介绍绍拉拉姆姆齐齐(J.B.Ramsey)的的回回归归设设定定误误差差检检验验法法(RESET法法,Regression Specification Error Test)。)。25 RESET检验法的思路检验法的思路 RESET检验法的思路是在要检验的回归方程中检验法的思路是在要检验的回归方程中加进加进 等项作为解释变量,然后看结果是否等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。变量的问题或其它的误设定问题。直观地看,这些添加的项是任何可能的遗漏变直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通量或错误的函数形式的替身,如果这些替身能够通过过F检验检验,表明它们改善了原方程的拟合状况,则我表明它们改善了原方程的拟合状况,则我们有理由说原方程存在误设定问题。们有理由说原方程存在误设定问题。等项形成多项式函数形式,多项式是一等项形成多项式函数形式,多项式是一种强有力的曲线拟合装置,因而如果存在误设定,种强有力的曲线拟合装置,因而如果存在误设定,则用这样一个装置可以很好地代表它们则用这样一个装置可以很好地代表它们。26RESET检验法的步骤检验法的步骤 拉姆齐拉姆齐RESET检验的具体步骤是:检验的具体步骤是:(1)用用OLS法估计要要检验的方程,得到法估计要要检验的方程,得到 (2)由由 上上 一一 步步 得得 到到 的的 值值 (i=1,2,n),计计 算算 ,然后用,然后用OLS法估计:法估计:(3)用用F检检验验比比较较两两个个方方程程的的拟拟合合情情况况(类类似似于于上上一一章章中中联联合合假假设设检检验验采采用用的的方方法法),如如果果两两方方程程总总体体拟拟合合情情况况显显著著不不同同,则则我我们们得得出出原原方方程程可可能能存存在在误误设设定定的的结结论论。使用的检验统计量为:使用的检验统计量为:27其其中中:RSSM为为第第一一步步中中回回归归(有有约约束束回回归归)的的残残差差平平方方和和,RSS为为第第二二步步中中回回归归(无无约约束束回回归归)的的残残差差平方和,平方和,M为约束条件的个数,这里是为约束条件的个数,这里是M=3。应应该该指指出出的的是是,拉拉姆姆齐齐RESET检检验验仅仅能能检检验验误误设设定定的的存存在在,而而不不能能告告诉诉我我们们到到底底是是哪哪一一类类的的误误设设定定,或或者者说说,不不能能告告诉诉我我们们正正确确的的模模型型是是什什么么。但但该该方方法法毕毕竟竟能能给给出出模模型型误误设设定定的的信信号号,以以便便我我们们去去进进一一步步查查找找问问题题。另另一一方方面面,如如果果模模型型设设定定正正确确,RESET检检验验使使我我们们能能够够排排除除误误设设定定的的存存在在,转转而而去去查查找找其其它它方方面面的的问题。问题。28例例5.1 凯恩斯的绝对收入假说消费函数(例凯恩斯的绝对收入假说消费函数(例3.7)现代经济学家针对消费和储蓄行为提出了许多假现代经济学家针对消费和储蓄行为提出了许多假说,包括凯恩斯的绝对收入假说、杜生贝的相对收入说,包括凯恩斯的绝对收入假说、杜生贝的相对收入假说、莫迪利安尼的生命周期假说和弗里德曼的持久假说、莫迪利安尼的生命周期假说和弗里德曼的持久收入假说等等。在本例中,我们用我国收入假说等等。在本例中,我们用我国19922009年城镇居民人均食品消费和人均可支配收入的实际数年城镇居民人均食品消费和人均可支配收入的实际数据来估计凯恩斯消费函数。据来估计凯恩斯消费函数。方程形式:方程形式:其中:其中:foodp代表食品消费,代表食品消费,yup代表收入。原代表收入。原始数据如下表所示。始数据如下表所示。29年份年份城镇居民家城镇居民家庭人均食品庭人均食品消费(元)消费(元)城镇居民家庭城镇居民家庭人均可支配收人均可支配收入(元)入(元)城镇居民消费城镇居民消费价格指数价格指数(1992=100)城镇居民食品城镇居民食品消费价格指数消费价格指数(1992=100)Cu_foodyupuPu_food1992883.652026.610010019931058.22577.4116.101116.519941422.493496.2145.146153.54719951771.994283169.534187.63419961904.714838.9184.451202.08219971942.595160.3190.174202.08219981934.55425.1189.029195.81819991941.85854186.582187.20220001971.326280188.082182.33520012027.996859.6189.384182.51720022271.847702.8187.49181.60420032416.928472.2189.187187.77920042709.69421.6195.422204.86720052914.410493198.54211.21820063111.9211759.5201.5216.49820073628.0313785.8210.576241.82820084259.8115780.8222.376276.89320094478.517174.7220.363279.66230由上表可计算出不变价数据由上表可计算出不变价数据(按按1992年不变价年不变价)。年份年份人均食品消费(元)人均食品消费(元)人均可支配收入(元)人均可支配收入(元)foodpyup1992883.652026.601993908.332219.961994926.422408.751995944.382526.331996942.542623.401997961.292713.471998987.912869.9819991037.283137.4920001081.163338.9720011111.123622.0520021250.984108.3820031287.114478.2120041322.624821.1520051379.815285.0820061437.395835.9920071500.256546.7020081538.437096.4420091601.407793.803132为了检验上述模型设定是否正确,采用为了检验上述模型设定是否正确,采用RESET方方法,法,EViews结果如下结果如下(括号内数字为标准误差):括号内数字为标准误差):33由于P=0.00000.05,拒绝无误设定的原假设。34 为了解决例为了解决例5.1模型的误设定,我们把价格指数作为模型的误设定,我们把价格指数作为解释变量加入方程,重新估计模型,得:解释变量加入方程,重新估计模型,得:35对上述模型重新进行对上述模型重新进行RESET检验,结果如下检验,结果如下 经检验,可知,模型无误设定。经检验,可知,模型无误设定。36第一个方程第一个方程第二个方程第二个方程第一个方程表明:收入每增加一元,平均而言,用于食品第一个方程表明:收入每增加一元,平均而言,用于食品上的支出将会增加上的支出将会增加0.135元;也就是说,食品消费的边际元;也就是说,食品消费的边际倾向为倾向为0.135元元。第二个方程表明:由于考虑到价格指数。第二个方程表明:由于考虑到价格指数的影响,因而,收入每增加一元,平均而言,用于食品的的影响,因而,收入每增加一元,平均而言,用于食品的支出将会增加大约支出将会增加大约0.152元元。在这个例子中,第一个方程。在这个例子中,第一个方程低估低估了真实的食品消费边际倾向,也就是说,它有一个了真实的食品消费边际倾向,也就是说,它有一个向向下的偏差下的偏差。如果作。如果作Pt对对yup的回归,得到斜率系数,则很的回归,得到斜率系数,则很容易得到这一向下的偏差:容易得到这一向下的偏差:37 斜率系数为斜率系数为0.000034。从式第二方程可知,估计。从式第二方程可知,估计的的 =0.152,=-5.02。因此有:。因此有:0.152-501.81*0.000034=0.1349,与第一方程中得,与第一方程中得到的值大致相等。注意:到的值大致相等。注意:(遗漏变量的真实值遗漏变量的真实值)和(遗漏和(遗漏变量对模型中变量回归的斜率系数)的乘积决定了偏变量对模型中变量回归的斜率系数)的乘积决定了偏差的性质,是向上或者向下。因而,错误地从模型中差的性质,是向上或者向下。因而,错误地从模型中略去变量,如第一方程及第二方程,不仅忽略了略去变量,如第一方程及第二方程,不仅忽略了价格价格对食品需求的影响,而且也忽略了收入对价格的影响。对食品需求的影响,而且也忽略了收入对价格的影响。因此,因此,“单独的单独的”变量收入就不得不肩负起遗漏变量变量收入就不得不肩负起遗漏变量价格对食品的影响,从而无法表现变量对食品的真实价格对食品的影响,从而无法表现变量对食品的真实影响。影响。两方程的截距项和标准差也明显不同,都有偏两方程的截距项和标准差也明显不同,都有偏差。差。38第二节第二节 多重共线性多重共线性 应应用用OLS法法的的一一个个假假设设条条件件是是;矩矩阵阵X的的秩秩=K+110作为存在严重多重共线性的作为存在严重多重共线性的标准标准,特别在解释变量多的情形应当如此。特别在解释变量多的情形应当如此。需要指出的是,所有需要指出的是,所有VIF值都低,并不能排除严值都低,并不能排除严重多重共线性的存在,这与使用相关系数矩阵检验重多重共线性的存在,这与使用相关系数矩阵检验的情况相似。的情况相似。50四四、解决多重共线性的方法、解决多重共线性的方法 思路;加入额外信息。思路;加入额外信息。具体方法有以下几种:具体方法有以下几种:1增加数据增加数据 多多重重共共线线性性实实质质上上是是数数据据问问题题,因因此此,增增加加数数据据就就有有可可能能消消除除或或减减缓缓多多重重共共线线性性,具具体体方方法法包包括括增增加加观观测测值值、利利用用不不同同的的数数据据集集或或采采用用新的样本。新的样本。例:需求函数例:需求函数Yt=1+2Xt+3Pt+ut 51 在时间序列数据中,收入(在时间序列数据中,收入(X)和价格()和价格(P)往往是高度相关的,用时间序列数据估计往往会往往是高度相关的,用时间序列数据估计往往会产生多重共线性。然而,在横截面数据中,则不产生多重共线性。然而,在横截面数据中,则不存在这个问题,因为某个特定时点存在这个问题,因为某个特定时点P为常数。如为常数。如果取一横截面样本(如从果取一横截面样本(如从5000个家庭取得的数据)个家庭取得的数据),则可用来估计,则可用来估计 Yi=1+2Xi+ui 然后将得到的估计值然后将得到的估计值 作为一个约束条件作为一个约束条件(2=)施加于时间序列数据的回归计算中,)施加于时间序列数据的回归计算中,即估计即估计 Yt-Xt =1+3Pt+ut,得到,得到 ,。522对模型施加某些约束条件对模型施加某些约束条件 在在存存在在多多重重共共线线性性的的模模型型中中,依依据据经经济济理理论论施施加加某某些些约约束束条条件件,将将减减小小系系数数估估计计量量的的方方差差,如如在在CobbDouglas生生产产函函数数中中加加进进规规模模效效益益不不变变的的约约束束,可可解解决决资资本本和和劳劳动动的的高高度度相相关关而而引引起起的的多重共线性问题。多重共线性问题。53 3删除一个或几个共线变量删除一个或几个共线变量 这样做,实际上就是利用给定数据估计这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除哪些变量,可以解决多重共线性问题。删除哪些变量,可根据假设检验的结果确定。根据假设检验的结果确定。应注意的是,这种做法可能会使得到的应注意的是,这种做法可能会使得到的系数估计量产生偏倚,因而需要权衡利弊。系数估计量产生偏倚,因而需要权衡利弊。544将模型适当变形将模型适当变形例例1 某商品的需求函数为:某商品的需求函数为:其中:其中:Q=需求量,需求量,X=收入,收入,P=该商品的价格,该商品的价格,P*=替代商品的价格替代商品的价格 在在实实际际数数据据中中,P和和P*往往往往呈呈同同方方向向变变动动,它它们们之间高度相关,模型存在多重共线性。之间高度相关,模型存在多重共线性。如如果果我我们们仅仅要要求求在在知知道道两两种种商商品品的的相相对对价价格格变变动时,对需求量进行预测,则可将需求函数变为:动时,对需求量进行预测,则可将需求函数变为:就可以解决多重共线性问题。就可以解决多重共线性问题。55例例2 有滞后变量的情形有滞后变量的情形 Yt=1+2Xt+3 Xt-1+ut 一一般般而而言言,Xt和和Xt 1往往往往高高度度相相关关,将将模模型型变变换换为:为:Yt=1+2(Xt-Xt 1)+3 Xt-1+ut 其中其中3=3+2 经经验验表表明明:Xt和和Xt 1的的相相关关程程度度要要远远远远小小于于和和Xt和和Xt 1的的相相关关程程度度,因因而而这这种种变变换换有有可可能能消消除除或或减减缓多重共线性。缓多重共线性。56五、五、处理多重共线性问题的原则处理多重共线性问题的原则1.多多重重共共线线性性是是普普遍遍存存在在的的,轻轻微微的的多多重重共共线线性问题可不采取措施。性问题可不采取措施。2.严重的多重共线性问题,一般可根据经验严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数的符号,或通过分析回归结果发现。如影响系数的符号,重要的解释变量重要的解释变量t 值很低。要根据不同情况采取值很低。要根据不同情况采取必要措施。必要措施。3.如果模型仅用于预测,则只要拟合好,可如果模型仅用于预测,则只要拟合好,可不处理多重共线性问题,存在多重共线性的模不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。型用于预测时,往往不影响预测结果。57第三节第三节 异方差性异方差性 上上面面我我们们讨讨论论了了误误设设定定和和多多重重共共线线性性问问题题。回回顾顾我我们们应应用用OLS法法所所需需假假设设条条件件,其其中中大大部部分分是是有有关关扰扰动项的统计假设,它们是:动项的统计假设,它们是:(1)E(ut)=0,t=1,2,n.扰动项均值为扰动项均值为0(2)Cov(ui,uj)=E(uiuj)=0,ij.扰动项相互独立扰动项相互独立(3)Var(ut)=E(ut)=2,t=1,2,n.常数方差常数方差(4)ut N(0,2).).正态性正态性 58 对于(对于(1 1),我们可论证其合理性。而第(),我们可论证其合理性。而第(4 4)条,也没有多大问题。大样本即可假定扰动项服从条,也没有多大问题。大样本即可假定扰动项服从正态分布。而对于(正态分布。而对于(2 2),(),(3 3)两条,则无法论证)两条,则无法论证其合理性。实际问题中,这两条不成立的情况比比其合理性。实际问题中,这两条不成立的情况比比皆是。下面即将讨论它们不成立的情况,即异方差皆是。下面即将讨论它们不成立的情况,即异方差性和自相关的情形。性和自相关的情形。59一一 、异方差性及其后果、异方差性及其后果1 1定义定义 若若Var(ui)=常数的假设不成立,即常数的假设不成立,即 Var(ui)=常数,则称扰动项具有异方差性。常数,则称扰动项具有异方差性。2什么情况下可能发生异方差性问题?什么情况下可能发生异方差性问题?解解释释变变量量取取值值变变动动幅幅度度大大时时,常常数数方方差差的的假假设设往往往往难难以以成成立立。异方差性主要发生在横截面数据的情况,时间序列问题中一般不会发生,除非时间跨度过大。例例 Yi=+Xi+ui 其中:其中:Y=指定规模和组成的家庭每月消费支出指定规模和组成的家庭每月消费支出 X=这样的家庭的每月可支配收入这样的家庭的每月可支配收入 设设X的的N个个观观测测值值取取自自一一个个家家庭庭可可支支配配收收入入的的横横截截面面样样本本。某某些些家家庭庭接接近近于于勉勉强强维维持持生生存存的的水水平平,另另一一些些家家庭庭则则有有很很高高的收入。的收入。不难设想,低收入家庭的消费支出不大可能离开他们的均不难设想,低收入家庭的消费支出不大可能离开他们的均值值E(Y)过远,太高无法支持,太低则消费将处于维持生存的过远,太高无法支持,太低则消费将处于维持生存的水平之下。因此,低收入家庭消费支出额的波动应当较小,水平之下。因此,低收入家庭消费支出额的波动应当较小,因而扰动项具有较小的方差。而高收入家庭则没有这种限制,因而扰动项具有较小的方差。而高收入家庭则没有这种限制,其扰动项可能有大得多的方差。这就意味着异方差性其扰动项可能有大得多的方差。这就意味着异方差性。61 3异方差性的后果异方差性的后果(1)参数估计量不再具有最小方差的性质参数估计量不再具有最小方差的性质 异异方方差差性性不不破破坏坏OLS估估计计量量的的无无偏偏性性和和一一致致性性(证证明明无无偏偏和和一一致致不不需需要要常常数数方方差差的的假假设设,用用到到的的是是扰扰动动项项均均值值为为0和和X为为非非随随机机变变量量的的假假设设),但但不不再是有效的。再是有效的。事事实实上上,异异方方差差性性的的存存在在导导致致OLS估估计计量量既既不不是是有有效效的的,也不具有渐近有效性。也不具有渐近有效性。这这有有两两层层含含义义。首首先先,小小样样本本性性质质BLUE的的丧丧失失意意味味着着存存在在着着另另外外的的线线性性无无偏偏估估计计量量,其其抽抽样样方方差差小小于于OLS估估计计量量的的方方差差。其其次次,渐渐近近有有效效性性这这一一大大样样本本性性质质的的丧丧失失,意意味味着着存存在在着着另另外外的的一一致致估估计计量量,其其抽抽样样分分布布当当样样本本容容量量增增大大时时,向被估计的回归参数收缩的速度要比向被估计的回归参数收缩的速度要比OLS估计量快。估计量快。62(2)系数的显著性检验结果不可信赖)系数的显著性检验结果不可信赖 更为严重的是,在异方差性的情况下,矩阵更为严重的是,在异方差性的情况下,矩阵 主对角元素不再是主对角元素不再是OLS估计量方差的无估计量方差的无偏估计量,从而导致系数的置信区间和假设检验偏估计量,从而导致系数的置信区间和假设检验结果不可信赖。结果不可信赖。63二、二、异方差性的检验异方差性的检验 异异方方差差性性后后果果的的严严重重性性意意味味着着我我们们在在实实践践中中必必须须了了解是否存在异方差性。解是否存在异方差性。常用的检验方法有:常用的检验方法有:格里瑟检验法格里瑟检验法(Glesjer testGlesjer test)帕克检验法帕克检验法(Park testPark test)怀特检验法怀特检验法 (White(Whites General Heteroscedasticity test)s General Heteroscedasticity test)布鲁奇帕根检验法布鲁奇帕根检验法(Breusch-Pagan Test)(Breusch-Pagan Test)641.怀特检验法怀特检验法(Whites General Heteroscedasticity Test)怀特提出的检验异方差性的方法在实践中用起来怀特提出的检验异方差性的方法在实践中用起来很方便,下面用一个三变量线性模型扼要说明其检很方便,下面用一个三变量线性模型扼要说明其检验步骤。设模型如下:验步骤。设模型如下:65White检验步骤如下:检验步骤如下:(1)用)用OLS法估计(法估计(1)式,得到残差)式,得到残差e i;(2)进行如下)进行如下辅助回归辅助回归即残差平方对所有原始变量、变量平方以及变即残差平方对所有原始变量、变量平方以及变量交叉积回归,得到量交叉积回归,得到R2值值;66(3)进行假设检验原假设H0:不存在异方差性(即方程(2)全部斜率系数均为零)备择假设H1:存在异方差性(即H0不成立)怀特证明了下面的命题:在原假设H0成立的情况下,从(2)式得到的R2值与观测值数目(n)的乘积(nR2)服从自由度为k的2分布,自由度k为(2)式中解释变量的个数。即nR22(k)因此,怀特检验的检验统计量就是nR2,其抽样分布为自由度为k的2分布。检验步骤类似于t检验和F检验。672布鲁奇布鲁奇-帕根检验法帕根检验法 设模型满足扰动项均值为0的假设,因而OLS估计量无偏且一致。检验该模型是否存在异方差性的原假设为:68如果不成立,则的期望值可以表示为诸解释变量的函数,简单的方法是假定线性函数:其中v是均值为0的误差项。这里的因变量是原回归方程(5.15)中误差项的平方。69同方差性的原假设(5.16)转换为:要检验此假设,可用我们在第四章中介绍的检验全部斜率系数为0的F检验,唯一的问题是作为因变量的无法观测,可以用原模型(5.15)回归得到的OLS残差平方代替之,要估计的方程变为:70相应的检验统计量为其中是(5.19)式回归得到的决定系数,以区别于原方程(5.15)回归的决定系数。我们也可以计算LM检验统计量来检验原假设(5.18):此检验通常称为布鲁奇布鲁奇-帕根异方差性检验帕根异方差性检验(BP检验)。71下面总结一下BP检验的步骤:(1)用OLS法估计模型(5.15),得到OLS残差序列,计算序列;(2)对方程(5.19)执行OLS回归,保存该回归的值;(3)计算F或LM统计值,若大于临界值,则拒绝原假设,判断存在异方差性。72三三、广广义义最最小小二二乘乘法法(generalized(generalized least least squares,GLSsquares,GLS法)法)1 1消除异方差性的思路消除异方差性的思路 基基本本思思路路:变变换换原原模模型型,使使经经过过变变换换后后的的模模型具有同方差性,然后再用型具有同方差性,然后再用OLSOLS法进行估计法进行估计。73 对于模型对于模型 Yt=0+1X1t+k Xkt+ut (1)若扰动项满足若扰动项满足 E(ut)=0,E(uiuj)=0,ij,但但 E(ut2 2)=t2 常数常数.也也就就是是说说,该该模模型型只只有有同同方方差差性性这这一一条条件件不不满满足足,则则只只要要能能将将具具有有异异方方差差性性的的扰扰动动项项的的方方差差表表示成如下形式:示成如下形式:74由于由于 其其中中 为为一一未未知知常常数数,表表示示一一组组已已知知数数值值,则用则用t t去除模型各项,得变换模型去除模型各项,得变换模型:75 所所以以变变换换后后模模型型的的扰扰动动项项的的方方差差为为常常数数,可可以以应应用用OLS法法进进行行估估计计,得得到到的的参参数数估估计计量量为为BLUE。但但这这里里得得到到的的OLS估估计计量量是是变变模模后后模模型型(2)的的OLS估估计计量量。对对于于原原模模型型而而言言,它它已已不不是是OLS估估计量,称为计量,称为广义最小二乘估计量(广义最小二乘估计量(GLS估计量)估计量)。762 广义最小二乘法广义最小二乘法(Generalized least squares)下下面面用用矩矩阵阵形形式式的的模模型型来来推推导导出出GLS估估计计量量的的一一般计算公式。般计算公式。设设GLS模型为模型为 Y=X+u (1)满足满足 E(u)=0,E(uu)=2,X 非随机,非随机,X的秩的秩=K+1n,n,其中其中为正定矩阵。为正定矩阵。77 根据矩阵代数知识可知,对于任一正定矩阵根据矩阵代数知识可知,对于任一正定矩阵,存在着一个满秩(非退化,非奇异)矩阵存在着一个满秩(非退化,非奇异)矩阵P P,使得,使得用用P-1左乘原模型(左乘原模型(1)(对原模型进行变换):)(对原模型进行变换):令令 Y*=P-1Y,X*=P-1X,u*=P-1u,得到,得到 Y*=X*+u*(2)下面的问题是,模型(下面的问题是,模型(2)的扰动项)的扰动项u*是否是否 满足满足OLS法的基本假设条件。法的基本假设条件。78我们有79这这表表明明,模模型型(2 2)中中的的扰扰动动项项u*满满足足OLS法法的的基基本本假设,可直接用假设,可直接用OLS估计,估计量向量估计,估计量向量 这就是广义最小二乘估计量(这就是广义最小二乘估计量(GLS估计量)估计量)的的公式,该估计量是公式,该估计量是BLUE。从上述证明过程可知,我们可将从上述证明过程可知,我们可将GLS法应用于法应用于为为任意正定矩阵的情形。任意正定矩阵的情形。80如果只存在异方差性,则如果只存在异方差性,则其中其中我们