chapter模型设定实用.pptx
9.1函数形式的误设回忆经典线性模型中一个隐含的假设:回归模型是正确设定的 如果模型未被正确设定,那么我们就遇到“模型设定误差”或“模型设定偏误”.1.我们如何发现模型是“正确的”?2.我们经常会遇到哪些类型的“模型设定误差”?3.设定误差的后果有哪些?4.如何检验设定误差?5.采取那些补救措施?6.如何评价几个表现不相上下的模型的优劣?第1页/共46页9.1.1模型选择准则p数据容纳性:从模型所作出的预测符合逻辑p与理论一致p回归元的弱外生性:解释变量与误差不相关p参数不变性:参数值稳定,否则预测会困难p表现出数据的协调性:残差必须完全随机p模型具有包容性:其他模型都不可能再改进我们的模型。第2页/共46页9.1.2模型设定误差的类型及危害遗漏有关变量很可能产生偏误包含一个无关变量估计量方差变大采用了错误的函数形式测量误差对随机误差项不正确的设定 随机误差项是以乘积形式进入模型,还是以相加形式进入模型。第3页/共46页9.1.3模型设定误差的检验9.1.3.1检验是否含有无关变量通过t-检验去检验一个变量参数的显著性。通过F-检验去检验一组变量参数的显著性。注意,并不能完全依赖统计检验,还要注意经济或实际上的显著性。第4页/共46页9.1.3.2检验遗漏变量和函数形式误设残差分析:可用于检验遗漏变量和函数形式误设逐渐趋于真实模型第5页/共46页回归设定误差检验(RESET)思路:如果下面的模型满足MLR.4 那么如果在模型中添加自变量的非线性关系应该是不显著的。第6页/共46页RESET检验的过程:考虑扩大方程y=b0+b1x1+bkxk+d12+d13+up检验H0:d1=0,d2=0 注意:FF2,n-k-3 or LM22自由度:n-k-1-2第7页/共46页Example:住房价格方程比较两个模型的RESET统计量:Price=b0+b1lotsize+b2sqrft+b3bdrms+uF=4.67,p=0.012lPrice=b0+b1llotsize+b2lsqrft+b3bdrms+uF=2.56,p=0.084被拒绝不能被拒绝9.1第8页/共46页小结:RESET检验的优势是不需要设立对立模型RESET检验的重要缺陷是如果方程被拒绝,它不能告诉我们应该如何修正我们的错误模型。第9页/共46页9.1.4对非嵌套模型的检验如果我们要在下列两个非嵌套模型中选择:我们可以使用两类方法判别方法检验方法第10页/共46页判别方法两个模型优劣判断必须基于相同的因变量然后基于R2或调整的R2来判断还有其他准则可以用以判断:赤池信息准则(AIC)、施瓦兹信息准则(SIC)和马娄斯的Cp准则第11页/共46页赤池信息准则(AIC)对模型中增加回归元施加了更严厉的惩罚在比较两个模型时,具有最低AIC的模型优先AIC的优越性在于,不仅适用于样本内预测,还适用于预测样本外模型的表现。嵌套模型、非嵌套模型都适用。第12页/共46页施瓦兹信息准则(SIC)对模型中增加回归元施加了比AIC更严厉的惩罚SIC的值越低越好SIC也可以用于比较模型在样本内与样本外的预测表现。第13页/共46页马娄斯的Cp准则(软件不能给出)若模型有p个回归元,则若模型是正确设定的,则注:上述几个准则,不存在谁更优于谁第14页/共46页检验方法方法一:(Mizon and Richard,1986)分别检验:综合模型检验(2)检验(1)第15页/共46页这种检验程序存在的问题(1)(2)两模型中的回归元如果存在高度相关,则综合模型就存在高度多重共线性。这可能使正确模型中的参数检验不显著。第16页/共46页(2)的拟合值方法二:戴维森-麦金农 J检验思想:如果(1)正确,那么(2)中的拟合值y在(1)中作为解释变量时应该是不显著的。对模型检验:对模型检验:不能拒绝则说明1兼容2(1)的拟合值不能拒绝则说明2兼容1第17页/共46页评价J检验:可能两个模型都被拒绝,或都没有被拒绝。那么我们就得不到明确的答案。检验中拟合值的t统计量是渐近的服从t分布的,因此,在小样本中,J检验会过多的拒绝真模型。第18页/共46页9.2对无法观测的解释变量使用代理变量9.2.1代理变量和植入解考虑工资模型如果因为无法观测而放入误差项,则可能会导致严重偏误,这时考虑代理变量IQ可以测量,与无法观测的变量高度相关第19页/共46页无法观测的变量遗漏变量问题的植入解是无偏估计量吗?第20页/共46页植入解得到无偏估计量的假设:u与x1、x2、x3*以及x3都不相关v3与x1、x2、x3都不相关E(x3*|x1,x2,x3)=E(x3*|x3)=d0+d3x3 y=(b0+b3d0)+b1x1+b2x2+b3d3x3+(u+b3v3)新截距代理变量的斜率新误差项无偏估计量代理变量只与x3有关,与其他自变量无关第21页/共46页如果代理变量与其他自变量也相关,则会出现偏误!偏误9.3第22页/共46页9.2.2用滞后因变量作为代理变量如果无法确定遗漏变量的代理变量究竟应该是什么,那么可以选择较早时期的因变量作为代理变量。例如,某些城市过去有较高的犯罪率,同时导致现在和过去犯罪率很高的无法观测因素中,许多都是相同的。第23页/共46页预计它们的符号应该是?Example:城市犯罪率Crime表示人均犯罪次数,unem表示城市失业率,expend表示执法的人均支出,crime-1表示以前某个年度的犯罪率第24页/共46页自变量自变量(1)(2)unem-0.029(0.032)0.009(0.020)Log(expend)0.203(0.173)-0.140(0.109)Log(crime-1)_1.194(0.132)截距截距3.34(1.25)0.076(0.821)n4646R20.0570.680第25页/共46页9.3随机斜率模型如果一个变量的偏效应是随某些无法观测的因素而变化的,这就会产生随机斜率模型。例如:工资方程对于不同的人,多读一年书的偏效应是不同的取决于个人能力对于没有读过书的人,工资水平是不同的取决于个人能力第26页/共46页对于我们的n个观测者:我们有n个ai,=E(ai)我们有n个bi,=E(bi)对于某个观测者,如果ai=+ci,bi=+di其随机斜率模型为:y=ai+bixi=+ci+(+di)xi=+xi+ui其中ui=ci+dixi平均边际效应平均截距随机斜率模型可以写为常系数模型,但是其误差与x有关异方差第27页/共46页随机斜率模型是否有偏?E(ui|x)=E(ci|x)+xi E(di|x)=E(ai|x)-+xi E(bi|x)-如果E(ai|x)=,E(bi|x)=则E(ui|x)=0ui=ci+dixi注意到:ai=+ci,bi=+di注意=E(ai),=E(bi)允许斜率因人而异,但只要他们的均值独立于解释变量,则OLS估计量就是无偏的第28页/共46页9.4有测量误差时OLS的性质测量误差是模型设定偏误的又一种情况测量误差来自于两种情况1.因变量的测量误差2.自变量的测量误差第29页/共46页9.4.1因变量中的测量误差测量误差的例子:我们想要“家庭年收入”,但是被调查者只为我们提供了家庭成员的工资总收入,实际上投资收益被忽略了,此时产生了测量误差。令y*表示因变量的真实值,y表示观测值测量误差e=y-y*存在测量误差会导致OLS估计量的性质发生什么变化?第30页/共46页测量误差的均值为0,且测量误差和解释变量无关对于真实情况(满足高斯-马尔科夫假定)而我们回归的方程为如果也满足满足高斯-马尔科夫假定,则估计量是有效地,即 E(e|x)=0存在测量误差时,误差方差会增大。第31页/共46页小结:如果因变量的测量误差与解释变量系统相关,则会导致OLS的偏误。如果测量误差只是一个与解释变量无关的随机误差,则OLS完全适用,但会加大估计量的方差。第32页/共46页9.4.2解释变量中的测量误差令x*表示因变量的真实值,x表示观测值对于解释变量x1的测量误差e1=x1-x1*假设E(e1)=0E(u-1 1e1|x)=0?第33页/共46页0(根据假定)e1=x1-x1*自变量测量误差在两类假定下的影响保证了估计量的一致性误差方差加大假定一:Cov(x1,e1)=0E(u-1e1|x1)=0Var(u-1e1)Var(u)假定二(经典变量误差假定CEV):Cov(x1*,e1)=0Cov(x1,e1)=E(x1e1)=E(x1*e1)+E(e12)=Var(e1)Cov(x1,u-1e1)=-1 Var(e1)在CEV假定下,OLS将给出有偏的不一致的估计量第34页/共46页在CEV假定下的偏误回忆第5章渐进偏误的定义:在CEV假定下的偏误衰减偏误第35页/共46页小结:如果自变量存在测量误差,且满足CEV,则估计量会产生衰减偏误。但如果测量误差的方差Var(e1)相对于自变量真实值的方差Var(x1*)很小的话,则测量误差不会导致很大偏差。这时,我们可以忽略自变量测量误差导致的偏误。但困难在于Var(e1)和Var(x1*)不易观测。第36页/共46页另一种方法是使用工具变量或代理变量,它们与观测值X高度相关,但与方程误差和测量误差(、e)都不相关。那么我们就能得到的一致估计。因此,自变量的观测值要尽量准确。也比较困难第37页/共46页9.5数据缺失、非随机样本和异常观测9.5.1数据缺失(missing data)如果一个观测缺失了其因变量或一个自变量,那么这个观测就不能用于多元回归分析。如果数据是随机缺失的,那么除了减少了样本容量而导致估计量没有那么准确以外,不会引起任何偏误。第38页/共46页9.5.2非随机样本如果数据缺失是非随机的,那么将导致样本变为非随机样本。在婴儿出生的数据集中,如果受教育程度低的人缺失数据的概率大。违背MLR.2外生样本选择不会有偏误内生样本选择会有偏误第39页/共46页外生样本选择:基于自变量例如内生样本选择:基于因变量例如假设我们针对35岁以上的人群调查,则得到非随机样本不会导致偏误假设我们针对财富不足25万的人群调查,也得到非随机样本导致偏误第40页/共46页9.5.3异常观测p异常观测值也可以定义为残差很大的观测值。p如果将一个观测从数据集中去掉会使得OLS估计量发生很大变化,则这个观测就是异常观测。这个很大的残差会因为它和回归线的垂直距离很大而把回归线向自己拉近,从而改变回归线的斜率。第41页/共46页异常数据的性质对所有数据的OLS线除去异常观测值的OLS线不是异常观测值是异常观测值第42页/共46页由于OLS是对残差平方进行最小化,所以OLS估计量对异常观测值十分敏感。一组观测值中可能不止一个异常观测值。不加思索的将异常观测值从样本中去掉不是明智的选择。除非异常观测是由于记录发生错误而导致,否则异常观测值可能记录了其他观测值不具备的信息。一些检验可以帮助筛选异常值第43页/共46页定义一个虚拟变量,当使用异常观测值时取值为1.这个虚拟变量的系数用以度量是否使用异常值所得到的回归线之间的差异。对这个系数检验显著性。学生化残差第44页/共46页异常观测值的处理既然OLS由于对残差平方最小化而导致对异常观测值比较敏感,那么对残差的绝对值最小化而得到的估计值将对异常观测值不那么敏感。但这种估计值不总是一致估计量,且不可能是无偏估计量。最小绝对离差估计某些函数形式对异常观测值不敏感第45页/共46页感谢您的欣赏!第46页/共46页