第九 设定误差与测量误差.pptx
1 有人根据“简单优于复杂”原则,得到以下方程:(2)(2)进行比较:两个方程的检验结果都较理想;方程(2)GDP的t检验值似乎优于方程(1);方程(2)函数形式也更为简单;然而,能否根据“Occamsrazor”原则,判断方程(2)比方程(1)好?第1页/共53页2 对模型的设定是计量经济研究的重要环节。前面各章除了对随机扰动项 分布的基本假定以外,还强调:假定设定的模型对变量和函数形式的设定假定设定的模型对变量和函数形式的设定是正确地描述被解释变量与解释变量之间的真是正确地描述被解释变量与解释变量之间的真实关系,假定模型中的变量没有测量误差。实关系,假定模型中的变量没有测量误差。但是在实际的建模实践中,对模型的设定不一定能够完全满足这样的要求,从而会使模型出现设定误差。第2页/共53页3第九章第九章 设定误差与测量误差设定误差与测量误差 本章主要讨论本章主要讨论:设定误差设定误差 设定误差的检验设定误差的检验 测量误差测量误差第3页/共53页4 第一节第一节 设定误差设定误差本节基本内容本节基本内容:设定误差及类型设定误差及类型变量设定误差的后果变量设定误差的后果 第4页/共53页5一、设定误差及类型一、设定误差及类型 计量经济模型是对变量间经济关系因果性的设想,若所设定的回归模型是“正确”的,主要任务是所选模型参数的估计和假设检验。但是如果对计量模型的各种诊断或检验总不能令人满意,这时应把注意力集中到模型的设定方面:考虑所建模型是否遗漏了重要的变量?考虑所建模型是否遗漏了重要的变量?是否包含了多余的变量?是否包含了多余的变量?所选模型的函数形式是否正确?所选模型的函数形式是否正确?随机扰动项的设定是否合理?随机扰动项的设定是否合理?变量的数据收集是否有误差?变量的数据收集是否有误差?所有这些,计量经济学中被统称为设定误差。第5页/共53页6从误差来源看,设定误差主要包括:(1)变量的设定误差,包括相关变量的遗漏 (欠拟合)、无关变量的误选(过拟合);(2)变量数据的测量误差;(3)模型函数形式的设定误差;(4)随机扰动项设定误差。本章主要讨论的两类变量设定误差:(1)相关变量的遗漏(欠拟合);(2)无关变量的误选(过拟合)。设定误差的类型设定误差的类型第6页/共53页7 1.相关变量的遗漏相关变量的遗漏(OmittingRelevantVariables)例如,如果“正确”的模型为而我们将模型设定为 即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量(“欠拟合”)。第7页/共53页8 2.2.无关变量的误选无关变量的误选 (IncludingIrrevelantVariables)例如,如果“真实模型”为:但我们却将模型设定为 即设定模型时,多选了一个无关解释变量。这类错误称为无关变量的误选(“过拟合”)。第8页/共53页9数据来源渠道可能不畅。例如,数据很难取得被迫将具有重要的经济意义变量排斥在模型之外。不知道变量应当以什么确切的函数形式出现在回归模型中。事先并不知道所研究的实证数据中所隐含的真实模型究竟是什么。设定误差在建模中较容易出现。设定误差的存在可能会对模型形成不良的后果。设定误差的原因设定误差的原因第9页/共53页10二、变量设定误差的后果二、变量设定误差的后果 当模型设定出现误差时,模型估计结果也会与“实际”有偏误;偏误的性质与程度与模型设定误差的类型密切相关。从实质上看,变量设定误差的主要后果,是一个或多个解释变量与随机扰动项之间存在着相关性,进而影响参数估计的统计特性。第10页/共53页111.1.遗漏相关变量(欠拟合)偏误采用遗漏了重要解释变量的模型进行估计而带来的偏误,称为遗漏相关变量偏误。设正确的模型为:正确模型离差形式为:第11页/共53页12却对方程进行回归,得:取期望第12页/共53页13遗漏变量设定误差的后果由此可以看出,由此可以看出,的遗漏将产生如下后果。的遗漏将产生如下后果。两边取概率极限,有:两边取概率极限,有:第13页/共53页141.如果漏掉的与相关,则分别在小样本下求期望、在大样本下求概率极限,有:2.如果 与 不相关,则 的估计满足无偏性与一致性;但这时 的估计却是有偏的。即OLS估计量在小样本下有偏,在大样本下非一致。第14页/共53页153.的方差是的方差是方差的有偏估计:方差的有偏估计:由由 得得由由 得得第15页/共53页16如果如果与与相关,显然有相关,显然有如果如果 与与 不相关,也有不相关,也有4.遗漏变量遗漏变量 ,式中的随机扰动项,式中的随机扰动项 的方差估计的方差估计量将是有偏的,即:量将是有偏的,即:5.与方差相关的检验,包括假设检验、区间估计,与方差相关的检验,包括假设检验、区间估计,在关于参数的统计显著性方面,都容易导出错误的在关于参数的统计显著性方面,都容易导出错误的结论。结论。第16页/共53页17(1)若但实际情形并不完全如此。可以注意到残差平方和RSS的计算因此,有可能:第17页/共53页18(2)若 不相关,有 似乎分别有:若这两个等式成立,意味着尽管变量 ,在理论上分析是有关的变量,但从所选模型中略去似乎也不会导致什么危害。这种认识实际也不正确。第18页/共53页19因为的有偏估计,即使 不相关,也有致使假设检验程序很有可能是可疑的。必须清楚,一旦根据相关理论把模型建立起来,再从中遗漏变量需要充分地谨慎。第19页/共53页202.2.包含无关变量偏误包含无关变量偏误定义:模型中包括了不重要的解释变量,即采用误选了无关解释变量的模型进行估计而带来的偏误,称为包含无关变量偏误设正确模型但却估计了如果 ,则(2)与(1)相同,因此,可将(1)式视为以 为约束的(2)式的特殊形式。采用OLS法对(2)进行估计,有:第20页/共53页21将(1)式的离差形式代入,整理得:期望和方差:第21页/共53页22 无关变量的设定误差的后果1.可以证明,(2)式参数的OLS估计量是无偏,且为一致性的。即:同理,可证明:第22页/共53页232.不是有效估计量:此结论对 也成立。3.随机误差项的方差的估计仍为无偏估计。4.通常的区间估计和假设检验程序依然有效,但 方差增大,接受错误假设的概率会较高。第23页/共53页24(1)遗漏相关变量 将导致参数估计量和假设检验有偏且不一致;(2)误选无关变量 虽参数估计量具无偏性、一致性,又会损失有效性。(3)注重检验的无偏性、一致性 宁愿误选无关变量也不愿遗漏相关变量;(4)注重估计量的有效性,宁愿删除相关变量。通常误选无关变量不如遗漏相关变量的后果严重。因此,模型的设定实际是对偏误与有效进行权衡,偏爱哪一方取决于模型的研究目的。遗漏相关变量和误选无关变量的比较遗漏相关变量和误选无关变量的比较第24页/共53页25第二节第二节 设定误差的检验设定误差的检验本节基本内容本节基本内容:DWDW检验检验拉各朗日乘数检验拉各朗日乘数检验一般性检验一般性检验第25页/共53页26对变量设定误差进行检验必须在经济理论指导下进行,不可抛弃经济理论而进行假设检验。对于是否误选无关变量的检验,只要针对无关变量系数的期望值为零的假设,用t检验或F检验,对无关变量系数作显著性检验即可。对于遗漏变量设定误差的检验有多种方法,例如DW检验、拉格朗日乘数检验、豪斯曼检验、RESET一般性检验等。这里只讨论设定误差的一些最常用的检验方法。第26页/共53页27基本思想:遗漏的相关变量应包含在随机扰动项中,那么回归所得的残差序列就会呈现单侧的正(负)相关性,因此可从自相关性的角度检验相关变量的遗漏。从遗漏变量的模型看,可以认为遗漏变量模型是无遗漏变量模型的一个特例:被遗漏变量的系数为0。一、一、DW检验检验第27页/共53页28,DW检验的具体步骤检验的具体步骤1.对回归模型运用对回归模型运用OLS法得残差序列法得残差序列2.设定设定 按遗漏解释变量的递增次序对残差序列,进行按遗漏解释变量的递增次序对残差序列,进行 排序,对排序后的残差序列,计算排序,对排序后的残差序列,计算d统计量统计量:第28页/共53页29 3.3.查Durbin-Watson表,若为显著,则拒绝原假设,受约束回归模型不成立,存在模型设定误差,否则接受原假设,受约束回归模型成立,模型无设定误差。第29页/共53页30对下表的数据设定总生产成本函数,准备使用如下三个备选模型:有(1)为真实模型,试用DW法检验模型设定误差。举例举例第30页/共53页31总成本(总成本()产出(产出()1193122262324034244452575626067274782978935091042010第31页/共53页32三个模型分别代入数据回归(1)(2)第32页/共53页33本例中遗漏变量已按递增次序排列,此时的 值等于 值,无需重新计算d统计量。(3)第33页/共53页34对上述模型的对上述模型的DW统计量的分析及查表情况如下:统计量的分析及查表情况如下:1.模型模型(1):有有=2.70,当,当时时=0.525,=2.016,不能表明存在显著的正相关关系,接受,不能表明存在显著的正相关关系,接受H0,表示没,表示没有遗漏的变量。有遗漏的变量。2.模型模型(2):有:有=1.038,当,当时时=0.697,=1.641。显然有显然有0.6971.0381.641,属于无法确定的区域。,属于无法确定的区域。采用修正的采用修正的DW检验法进行检验即扩大拒绝区域,宁可判别残检验法进行检验即扩大拒绝区域,宁可判别残差中存在正的自相关,认为也存在遗漏变量。差中存在正的自相关,认为也存在遗漏变量。第34页/共53页35 3.模型(3):有 =0.716,当 时,=0.879,=1.320,显然存在正的自相 关,拒绝 ,表明存在遗漏变量;第35页/共53页36二、拉格朗日乘数(二、拉格朗日乘数(LM)检验)检验 基本思想:模型中遗漏的相关变量包含在随机扰动项中,因此随机扰动项或回归所得的残差序列应与遗漏的相关变量呈现出某种依存关系。可以进行残差序列与相关变量的回归,在一定显著水平下若相关变量具有统计显著性,则认为存在遗漏变量形成的设定偏误,若相关变量不具有统计显著性,则认为没有遗漏变量形成的设定误差。第36页/共53页37 具体步骤 1.对存在遗漏变量设定偏误的模型(受约束回归模型)进行回归,得残差序列 ;2.用残差序列 对全部的解释变量(包括遗漏变量)进行回归,得可决系数 ;3.设定 :受约束回归模型 :无约束回归模型。在大样本情况下,构造检验统计量 ,渐近地遵从 (约束个数)4.进行显著性检验的判断:若 (约束个数),则拒绝 ,认为受约束模型不成立,存在遗漏变量;否则,接受 ,认为受约束模型成立,无遗漏变量。第37页/共53页38第四节第四节 案例分析案例分析问题:以引子中所提出的问题为例,分析影响中国进口量的主要因素(数据见教材第255256页)。设定模型 (1)其中:是进口总额,是国内生产总值。分析模型是否有变量设定误差,进行变量设定误差检验。第38页/共53页39有人认为,货物与服务的进口量受到一国的生产规模、货物与服务的进口价格、汇率等其他影响因素,而不能只仅用GDP来解释商品进口的变化。因此,设定的回归模型应该为:其中:GDP为国内生产总值,为GDP的线性函数;Exchange为美元兑换人民币的汇率,为Exchange的线性函数。如果是这样,回归模型(1)的设定式中可能遗漏了变量GDP、Exchange以及两者的线性组合。那么两者的线性组合是否被遗漏的重要变量呢?第39页/共53页40基本关系图基本关系图第40页/共53页41对模型(1)(1)进行回归,有回归结果:第41页/共53页42显然,存在自相关现象,其主要原因可能是建模显然,存在自相关现象,其主要原因可能是建模时遗漏了重要的相关变量造成的。时遗漏了重要的相关变量造成的。作模型作模型(1)回归的残差图回归的残差图 第42页/共53页431.DW检验 模型(1)的=0.5357,表明存在正的自相关。由于遗漏变量Exchange或GDP已经按从小到大顺序排列,因此,无需重新计算d统计量。对=24,=1,5%的德宾-沃森d统计量的临界值为=1.273和=1.466,表明存在显著的遗漏变量现象。第43页/共53页44DependentVariable:IMMethod:LeastSquaresDate:08/06/05Time:23:41Sample(adjusted):19812003Includedobservations:23afteradjustmentsVariable CoefficientStd.Errort-StatisticProb.C-224.36321892.132-0.1185770.9069GDP1.1482590.1514337.5826060.0000GDP(-1)-0.8224440.147359-5.5812130.0000EXCHANGE-4.2907468.348744-0.5139390.6135EXCHANGE2-0.0186370.008353-2.2311620.0386R-squared0.978691Meandependentvar 8434.222AdjustedR-squared0.973956S.D.dependentvar9025.326S.E.ofregression 1456.525Akaikeinfocriterion 17.59515Sumsquaredresid38186370Schwarzcriterion17.84200Loglikelihood-197.3443F-statistic206.6799Durbin-Watsonstat1.962659Prob(F-statistic)0.000000其中,其中,Exchange系数的统计意义不显著,剔除。再次系数的统计意义不显著,剔除。再次回归,结果见下页表。回归,结果见下页表。第44页/共53页45DependentVariable:IMMethod:LeastSquaresDate:08/06/05Time:23:53Sample(adjusted):19812003Includedobservations:23afteradjustmentsVariableCoefficient Std.Errort-StatisticProb.C-1159.179 511.0396-2.2682760.0352GDP1.142897 0.1481197.7160700.0000GDP(-1)-0.8158420.143928-5.6684200.0000EXCHANGE2-0.0225690.003291-6.8578440.0000R-squared0.978378 Meandependentvar8434.222AdjustedR-squared 0.974965 S.D.dependentvar9025.326S.E.ofregression1428.041 Akaikeinfocriterion17.52277Sumsquaredresid38746720 Schwarzcriterion17.72024Loglikelihood-197.5118 F-statistic286.5846Durbin-Watsonstat 2.047965 Prob(F-statistic)0.000000可以认为,这时模型设定无变量设定误差。可以认为,这时模型设定无变量设定误差。第45页/共53页462.LM检验按照LM检验步骤,首先生成残差序列(用EE表示),用EE对全部解释变量(包括遗漏变量)进行回归,有:第46页/共53页47再计算查表,显然,接受无约束回归模型的假设,即确实存在遗漏变量。因此,在本章的引子中,不能判断虽然简单但遗漏了重要变量的方程(1 1)比复杂的方程(2 2)更好。结 论第47页/共53页48第九章第九章 小小 结结 1.计量经济学模型中的古典假设不是无条件的假设,而是有条件的假设。一是所设定的条件期望方程没有方程设定误差;二是所设定的回归模型没有模型设定误差。2.方程设定误差主要指:(1)真实变量的遗漏;(2)无关变量的引入;(3)解释变量、被解释变量中存在观测误差。此外还有错误函数形式的误设和随机扰动项的非正确设定等。第48页/共53页49 3.当模型中遗漏了真实的变量时,模型的参数估计是有偏且不一致;参数估计的方差估计不正确,随机扰动项方差的估计也是不正确的,将使得假设检验、区间估计失效。4.当模型包含无关变量,后果不如遗漏变量那么严重,模型的参数估计仍然是无偏且一致的,随机扰动项的方差将被正确估计,但所估计的方差将趋之于过大,从而使得参数估计的有效性降低,参数估计较为不准确,区间估计的精度下降。第49页/共53页50 5.检验方程设定误差的常用方法有:(1)DW检验;(2)LM检验;(3)Husman检验;(4)RESET检验。6.测量误差分为被解释变量测量误差和解释变量测量误差。测量误差使参数的OLS估计有偏且不一致,常常低估真正的回归参数。第50页/共53页51主要公式表 拉格朗日乘数检验DW检验均方误差与方差的关系均方误差(简记作MSE)第51页/共53页52第第 九九 章章 结结 束束 了!了!第52页/共53页53感谢您的观看!第53页/共53页