东北财经的大学 2016级博士研究生 计量经济学 复习备考资料(22页).doc
-
资源ID:35325527
资源大小:815.50KB
全文页数:21页
- 资源格式: DOC
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
东北财经的大学 2016级博士研究生 计量经济学 复习备考资料(22页).doc
-计量经济学 复习资料一、虚拟变量:(20分) (给出实际经济问题,根据目标设计虚拟变量,写出模型。考察一种群体异质。完整考察如何设计,如何运用到模型中。)注意事项: (1)注意虚拟变量陷阱是指一般在引入时要求如果有m个定性变量,在中引入m-1个虚拟变量。否则,如果引入m个,就会导致模型解释变量间出现完全共线性的情况。我们一般称由于引入个数与定性因素个数相同出现的模型无法估计的问题,称为"虚拟变量陷阱"。 (2)虚拟变量的应用分为两种情况:虚拟变量做解释变量和虚拟变量做被解释变量(定性相应模型)。(3)要掌握虚拟变量引入模型的三种方法,即加法模型、乘法模型和既加又乘模型。1、举例说明如何引进加法模式、乘法模式和既加且乘模型建立虚拟变量模型。 答案:设Y为个人消费支出;X表示可支配收入,定义 (1)如果设定模型为 虚拟变量单独做解释变量,此时模型仅影响截距项,差异表现为截距项的和,因此也称为加法模型。(2)如果设定模型为虚拟变量与一个数值变量相乘后做解释变量,此时模型仅影响斜率,差异表现为截距项的和,因此也称为乘法模型。(3)如果设定模型为此时模型不仅影响截距项,而且还影响斜率项。差异表现为截距和斜率的双重变化,因此也称为既加且乘模型。 例题1 考虑下面的模型:其中,Y表示大学教师的年薪收入,X表示工龄。为了研究大学教师的年薪是否受到性别、学历的影响。按照下面的方式引入虚拟变量:(10分)1. 基准类是什么?2. 解释各系数所代表的含义,并预期各系数的符号。3. 若B4>B3,你得出什么结论?答案:(1)基准类是本科学历的女教师。(2)B0表示刚参加工作的本科学历女教师的收入,所以B0的符号为正。B1表示在其他条件不变时,工龄变化一个单位所引起的收入的变化,所以B1的符号为正。B2表示男教师与女教师的工资差异,所以B2的符号为正。B3表示硕士学历与本科学历对工资收入的影响,所以B3的符号为正。B4表示博士学历与本科学历对工资收入的影响,所以B4的符号为正。 (3)若B4>B3,说明博士学历的大学教师比硕士学历的大学教师收入要高。 例题2 性别因素可能对年薪和工龄之间的关系产生影响。试问这种影响可能有几种形式,并设定出相应的计量经济模型。性别因素可能对年薪和工龄之间的关系的影响有三种方式。 第一种,性别只影响职工的初始年薪,设定模型为:例题3 考虑下面的模型:其中,YMBA毕业生收入,X工龄。所有毕业生均来自清华大学,东北财经大学,沈阳工业大学。(1)基准类是什么?基准类是东北财经大学MBA毕业生。你预期各系数的符号如何? 预期B1的符号为正;B2的符号为正;B3的符号为负。(1)如何解释截距B2 、B3? 截距B2反应了清华大学MBA毕业生相对于东北财经大学MBA毕业生收入的差别;截距B3反应了沈阳工业大学MBA毕业生相对于东北财经大学MBA毕业生收入的差别。)(2)若B2>B3,你得出什么结论?(3)如果B2>B3,我们可以判断清华大学MBA毕业生的收入平均高于沈阳工业大学MBA毕业生的收入。二、异方差和自相关问题(25分)(一)异方差问题模型,如果出现,对于不同的样本点,随机扰动项的方差不再是常数,而且互不相同,则认为出现了异方差。在现实经济中,异方差性经常出现,尤其是采用截面数据作样本的计量经济学问题。例如:工业企业的研究与发展费用支出同企业的销售和利润之间关系的函数模型;服装需求量与季节、收入之间关系的函数模型;个人储蓄与个人可支配收入之间关系的函数模型等。检验异方差的主要思路就是检验随机扰动项的方差与解释变量观察值的某种函数形式之间是否存在相关性。 1. 异方差的三大后果:一是最小二乘估计不再是有效估计量,最小二乘法做出的估计量是无偏、线性但不是有效估计量;二是相关参数的t检验、模型F检验失效;三是估计量的方差是有偏的,参数或因变量预测的置信区间的估计精度下降(甚至这种区间估计是失效的)。2、异方差的检验识别:异方差的产生机制:截面数据的异方差是由解释变量决定的,因此要找到解释变量与残差方差之间的函数关系,即White检验的具体步骤如下。以二元回归模型为例,yt = b0 +b1 xt1 +b2 xt2 + ut (1)首先对上式进行OLS估计参数,求残差。做如下辅助回归式,(包括截距项、一次项、平方项、交叉项)= a0 +a1 xt1 +a2 xt2 + a3 xt12 +a4 xt22 + a5 xt1 xt2 + vt (2)即用对原回归式(1)中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。求辅助回归式(2)的拟合系数R2。White检验的零假设和备择假设是 H0: (1)式中的ut不存在异方差, H1: (1)式中的ut存在异方差在不存在异方差假设条件下构造LM统计量 LM=n R 2 c 2(5) 其中n表示样本容量,R2是辅助回归式(2)的OLS估计式的拟合系数。nR 2属于LM统计量。判别规则是若 n R 2 £ c2a (5), 接受H0 (ut 具有同方差)若 nR 2 > c2a (5), 拒绝H0 (ut 具有异方差)说明:(1)white检验本质上是一个大样本检验,如果实证样本较少(100-300),由于nR 2渐进服从c2分布,white检验的可信度不佳,计量经济学暂时没有好办法;(2)在多元回归中,为了节省自由度,white检验可以省略交叉项,当x>4、n在(100-300)之间时省略交叉项。3、 异方差的消除(WLS:加权最小二乘估计)由于异方差使OLS被破坏,不是有效估计量,因此使用WLS。加权最小二乘法是通过模型变换控制异方差。WLS的思想:假设回归方程 var()=已知记 同乘以方程两边,记作而 var() 异方差消除因此对上式进行OLS估计是BLUE。如果未知(通常情况下,都是未知的,此时用进行估计,用进行加权)记对角阵 注:(1)由于仅仅是cov()的估计,因此用进行加权,可能加权后依然存在异方差,此时继续做二次加权;(2)对于界面数据频发的异方差,且var()=已知时同方差:ols等价于WLS异方差:WLS好于OLS故可以直接用WLS(但是不推荐)最好先用OLS估计,计算如果存在异方差,再用WLS (二) 自相关问题 残差相关问题1. 定义:经典回归假设中是一个白噪声,即残差时零均值、同方差和无序列相关的。如果cov()0,即残差相关。2. 产生原因模型中随机误差项存在序列相关的原因很多,但主要是经济变量自身特点、数据特点、变量选择及模型函数形式选择引起的。(1)经济变量惯性的作用引起随机误差项自相关(2)经济行为的滞后性引起随机误差项自相关(3)一些随机因素的干扰或影响引起自相关(4)模型引起随机误差项自相关(5)观测数据处理引起随机误差项序列相关3. 产生的影响(与异方差相似)(1)最小二乘估计不再是有效估计量,最小二乘法做出的估计量是无偏、线性但不是有效估计量;(2)相关参数的方差失真,导致相关参数的t检验失效;4. 残差相关的生成机制(时序数据)时序数据的自相关 建立P阶自回归模型时序数据有顺序,用时序刻画因果5. 自相关的识别(1)DW检验 德斌沃森检验构造一个DW统计量: 样本的相关系数DW值在0-4之间 刻画自相关的程度德斌沃森用穷举法计算了不同的N与解释变量X下DW统计量的两个临界值(DL和Du)细节见附录表格DW检验法的缺陷:(1)DW只刻画了之间的关系,仅适用于一阶自相关,忽视了这种跳跃式的结构;(2)DW对模型形式本身有要求,要求原始方程必须含有截距项,模型中不能含有之后被解释变量Yt-1(因变量之后刻画刚性,例如投资;工具变量经常引入因变量的滞后变量;政策分期效应)DW的优点:在小样本情况下,DW检验比较可靠。(2)LM检验 拉格朗日乘数检验(针对DW的缺点提出)重点思想:用OLS估计原模型的参数,得到用做一个辅助回归假定, 代入原模型中得到假设 TR2服从的分布 其中T代表样本容量 R2是辅助回归的拟合优度进行显著性检验问题:P的确定,制定的阶数P只需要比真实的阶数高就可以了小样本(500以内)P=4大样本(大于500)P=6关于LM检验有点:适用于各种自相关(高阶),对模型无限制;LM本质上是一个大样本检验,n绩效的时候,LM检验的势偏高。此时用DW。6. 自相关的修正 GLS广义最小二乘法思想:原回归模型:假设存在一阶自相关(1) (2)(1)-(2)得 变换为满足经典假设用OLS估计 注:1. 自相关阶数P的确定(推荐试错法)用试错法,先做一个一阶差分,判断拟差分后的方程是否存在自相关,若存在自相关,做二姐拟差分,再验证是否存在自相关2. 系相关系数的确定(迭代的思想)(1)用OLS估计原模型参数,进而得到;(2)做一个P阶自回归,=(3)用OLS做估计得到(4)用做GLS,估计GLS后的方程,得到代入原方程,计算(5)重复(2)(4),直到前后两次得到高度接近,三、定性相应模型(LPM模型 Logit模型 Probit模型)定性响应模型是虚拟变量做被解释变量的情形。(这一块理论性挺强,觉得掌握基本原理、概率的含义、如何将概率方程还原为y关于x的方程就行)这类模型处理的问题是因变量是离散数据,即二元选择数据(因变量不是取1就是取0)。例如家庭买房的决策,是否买房。1线性概率模型(LPM) 模型的形式如下, yi = a + b xi + ui (1)其中ui为随机误差项,xi为定量解释变量。yi为二元选择变量。 1 (若是第一种选择) yi = 0 (若是第二种选择)对yi取期望, E(yi) = a + b xi (2)下面研究yi的分布。因为yi只能取两个值,0和1,所以yi 服从两点分布。把yi的分布记为: P ( yi = 1) = pi P ( yi = 0) = 1 - pi 则 E(yi) = 1 (pi) + 0 (1 - pi) = pi (3)由(2)和(3)式有 pi = a + b xi (yi的样本值是0或1,而预测值是概率。) (4)则回归系数b 的含义为x增加一个单位,采用第一种选择的概率增加b。假设用这个模型进行预测,当预测值落在 0,1 区间之内时,则没有什么问题;但当预测值落在0,1 区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 0,1,所以此时必须强令预测值(概率值)相应等于0或1。线性概率模型常写成如下形式。 1, a + b xi ³ 1 pi = a + b xi , 0 < a + b xi < 1 (5) 0, a + b xi £ 0 然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。线性概率模型的估计:使用OLS估计;检验:当n极大的时候,残差服从标准正态分布 系数也服从标准正态 用T检验当n不好的时候,残差服从两点分布 系数服从韦氏分布 用Z检验由于线性概率模型的上述缺点,希望能找到一种变换方法:(1)使解释变量Xi所对应的所有预测值(概率值)都落在(0,1)之间;(2)同时对于所有的Xi,当Xi增加时,希望Yi也单调增加或单调减少。显然累积概率分布函数F(zi) 能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。2Probit(概率单位)模型 仍假定 yi = a + b xi , 而 pi = F ( yi) = (6)对应yi在实轴上的值,相应概率值永远大于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定yi 服从正态分布。3logit模型 其形式是 pi = F(yi) = F(a + b xi) = = (7)对于给定的xi,pi表示相应个体做出某种选择的概率。Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用。对上式作如下变换, pi (1+ ) = 1 (8)对上式除以pi ,并减1得 e-yi = -1 = 取倒数后,再取对数, yi = log ()所以 log () = yi = a + b xi (9)由上式知回归方程的因变量是对数的某个具体选择的机会比。logit模型的一个重要优点是把在 0,1 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit累积概率分布函数的斜率在pi = 0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于pi = 0.5附近的解释变量xi的变化对概率的变化影响较大,而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小。对于Logit模型使用极大似然法估计参数是一个很好的选择。首先分析含有两个参数(a 和b)的随机试验。假设被估计的模型如下 pi = = (10)在样本中pi是观测不到的。相对于xi的值,只能得到因变量yi取值为0或1的信息。极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的a 和 b 的估计值。从样本看,如果第一种选择发生了n次,第二种选择发生了N-n次。设采取第一种选择的概率是pi。采取第二种选择的概率是(1- pi)。重新将样本数据排列,使前n个观测值为第一种选择,后N-n个观测值为第二种选择,则似然函数是 L(a, b) = P (y1, y2, , yN) = P (y1) P (y2) P (yN) = p1 pn (1 - pn + 1) (1 pN ) = (11)对数似然函数是 log L(a, b) = log pi +log (1- pi) (12)分别求上式对a 和b 的偏导数,并令其为0,即 = - = 0 (13) = - = 0 (14)便可求到a 和b 的极大似然估计值。a 和b 的极大似然估计量具有一致性和渐近有效性,且都是渐近正态的。四、标准化回归1. 标准化变量的回归在多元回归中存在解释变量系数不可比的问题,因为量纲与系数大小有直接的关系,排除量纲影响后,系数可比。例如柯布道格拉斯函数 想要比较劳动和资本对产出的影响大小。对于多元线性回归需要对各个自变量进行标准化,排除单位的影响。标准化方法:即将原始数据减去相应变量的均数后再除以该变量的标准差,而标准化得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。在Y对X的回归中,把变量重新定义为标准化变量: 标准化变量的特征是均值为0,标准差总是1,标准化使所有变量都处于同一标准之下。对于双变量线性回归来说,我们对标准化变量做回归: 因为对标准化的被解释变量和解释变量做回归,所以截距项为0.2. Wald检验(此处不甚理解 见谅 按照潘老师将的内容整理)例如柯布道格拉斯函数 想要比较劳动和资本对产出的影响大小。原假设:H0:(约束条件)若约束条件成立: RSS受若约束条件不成立: RSS无构造统计量 k是无约束代入参数的个数该统计量服从F分布进行显著性检验接受原假设时,二者相等拒绝原假设时,二者不等,可以根据的估计值判断其对Y的贡献大小。五、建模问题 给定经济现象,请选择解释变量,设定模型。(15分)主要考点:(1)被解释变量(注意被解释变量的测量问题);(2)解释变量有哪些;(3)为什么引入这些变量;(4)解释变量如何度量?(虚拟 or 数值);(5)写出具体的模型形式;(6)判断经济显著性,即预期符号。举例子:博学楼6:00-9:00自习室上座率。1. 变量选取和数据获得被解释变量:y :博学楼6:00-9:00自习室上座率 y=上自习人数/座位数*100% 测度方法:调查取得; X1:在校研究生人数(博士+硕士) X1=在校博士生人数+在校硕士生人数选取理由:因为博学楼主要是研究生的学习场所 测度方法:根据入学注册人数-毕业人数-辍学人数;X2:居住地离博学楼距离 选取理由:在校研究生分为住校和不住校,原则上居住地离学校过远,则一般情况不会选择来博学楼上自习X2=具体里程数测度方法:调查取得;D1:是否假期 选取理由:与学期相比,假期在校的学生人数明显减少; 1 正常学期D1= 0 寒暑假根据学校校历D2:是否临近考试 选取理由:临近考试,自习室上座率会增加 1 每学期16周-19周D2= 0 其他根据学校校历2. 模型构建 3. 判断经济显著性,即预期符号:X1: 预期符号为正,理论上在校研究生人数越多,上座率越高;X2: 预期符号为负,理论上居住地离博学楼距离越远,上座率越低;D1: 预期符号为正,理论上正常学期与假期相比,上座率高;D2: 预期符号为正,理论上越是临近考试,上座率越高。根据下面例子练习一下:试指出在目前建立中国宏观计量经济模型时,下列内生变量应由哪些变量来解释,简单说明理由,并拟定关于每个解释变量的待估参数的正负号。(1)轻工业增加值;(2)衣着类商品价格指数;(3)农业生产资料进口额 答:(1)轻工业增加值应该由反映需求的变量解释。包括居民收入(反映居民对轻工业的消费需求,参数符号为正)、国际市场轻工业品交易总额(反映国际市场对轻工业的需求,参数符号为正)等。 (2)衣着类商品价格指数应该由反映需求和反映成本的两类变量解释。主要包括居民收入(反映居民对衣着类商品的消费需求,参数符号为正)、国际市场衣着类商品交易总额(反映国际市场对衣着类商品的需求,参数符号为正)、棉花的收购价格指数(反映成本对价格的影响,参数符号为正)等。 (3)农业生产资料进口额应该由国内第一产业增加值(反映国内需求,参数符号为正)、国内农业生产资料生产部门增加值(反映国内供给,参数符号为负)、国际市场价格(参数符号为负)、出口额(反映外汇支付能力,参数符号为正)等变量解释。 六、简答题(一)工具变量在模型估计过程中被作为工具使用,以替代模型中与误差项相关的随机解释变量的变量,称为工具变量。作为工具变量 ,必须满足下述四个条件:(1)与所替的随机解释变量高度相关;(2)与不相关;(3)与模型中其他不相关;(4)同一模型中需要引入多个工具变量时,这些工具变量之间不相关。工具变量在解决内生性问题、多重共线性问题方面都有应用。在时间序列模型中,经常使用滞后一期的因变量作为工具变量,这也会导自相关问题中使用DW(德斌沃森)检验时因为模型形式不符合而使DW检验存在缺陷。工具变量的选择只要掌握一个关键点就行:找一个和内生性变量有数据相关的,但是和残差没有关系的东西,这就是你的IV了。例如贸易量如果是内生的,那么你找地理距离作为IV。北京到纽约的距离,那是自然形成的,你会发现贸易量和地理距离在数据上具有相关性。这就很好。这种数据相关性越强,IV的效果就越好。(二)共线性问题 1. 定义多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确或高度相关关系而使模型估计失真或难以估计准确。2. 产生原因(1)经济变量之间的内在联系是多重共线性产生的根本原因,例如许多经济变量变现为同向化的趋势(消费、收入、储蓄、投资、就业都随着经济的增长或衰退产生同向化的变化)、在时间序列模型中回归元之间也经常存在着相同的时间趋势;(2)模型设定时将滞后变量作为解释变量,易产生多重共线性;(3)模型中解释变量的个数大于观测次数,例如在医药研究中从少数的病人身上搜集大量的信息,易产生共线性问题。3. 不良后果(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量方差变大,非有效(方差膨胀);(3)变量的显著性检验失去意义(由于估计量的方差膨胀,导致其标准差增大,从而T检验的T值降低,估计值不显著的概率上升,进而导致关键变量不显著,使假设检验失去意义。)4. 识别方法(1)经验识别:对模型估计后,R2极高,多个变量不显著,出现与理论预期相悖的情况,有理由怀疑存在多重共线性。(2)相关系数法:计算解释变量间两两相关系数。只要其中一个大等于0.65-0.7,则表明可能存在严重的共线性。注意:不要计算简单相关系数,目前推荐使用佩尔森相关系数。不足之处是只能证有,不能证无。(3)膨胀因子法:计算每个解释变量的VIF,若某一个VIF10, 则表明存在严重的共线性。(4)Klein法则:每个解释变量对其余所有解释变量做辅助回归,如Max(R2辅)>R2原,则共线性严重到要处理。5、修正方法:()共线性的修正方法有很多,按照优劣程度排序,主要有五种方法:方法1:扩充样本以减弱共线性。主要通过增加自由度来提高精度,如将时序数据或截面数据变为面板数据,从而将一维数据变为二维。评价:这种方法最理想,但存在的缺点是:效果不定;不可行(一般情况下,研究者在研究时已经找到能够着的样本,扩大样本通常不是可行办法。)。方法2:工具变量法(IV+2SLS)。主要通过工具变量,运用两阶段最小二乘完成。评价:这种方法目前最受欢迎,高质量的期刊论文通常都采用该方法。缺点是:由于相关关系具有传导性,工具变量S很难找;用S替代X,有时经济正当性不足。方法3:变量变换法。可以通过对数变换、绝对转相对和方程变换(差分)进行变量变换。评价:这种方法最简单易行,但存在的缺点是:简单相关系数描述的是线性关系,而对数是非线性化过程;功效不足;不是所有变量都能用来做变换,必须有明确的经济学指代。方法4:逐步回归法。主要是通过降维减少变量来减弱共线性。评价:这种方法要慎用,最大的缺点是:虽然能很好地解决共线性问题,但是却引发了更严重的内生性问题。方法5:主成份分析法或因子分析法。具有降维的作用,主要用于多指标评价。评价:该方法很好地消除了共线性。但这种方法要慎用,最大的缺点是:经济含义伤害过大。(三)回归模型中,如果遗漏了重要解释变量,其后果是什么?模型设定偏误的后果有:(1)如果遗漏了重要的解释变量,会造成OLS估计量在小样本下有偏,在大样本下非一致;对随机干扰项的方差估计也是有偏的。(2)如果包含了无关的解释变量,尽管OLS估计量具有无偏性与一致性,但不具有最小方差性。(3)如果选择了错误的函数形式,则后果是全方位的,不但会造成估计的参数具有完全不同的经济意义,而且估计结果也不同。补充:内生性问题1. 内生性是指:模型中的解释变量与扰动项相关。通常我们做古典假设为白噪声,E()=0,var()=,cov()=0;X是非随机变量(微观可以通过固定抽样得到解决,宏观则不可),则cov(X,)=0成立。但是当cov(X, )0时上述假设便不再成立,我们称之为内生性,进而导致OLS失效,是非一致性的。2. 内生性产生的原因:(1)X与Y 存在双向因果,即X影响Y的同时,Y 也影响X;如金融发展与经济增长;外商直接投资FDI与经济增长;犯罪率与警备投入。(2)模型遗漏重要解释变量。无论是缺失重要解释变量导致,还是无法获取数据导致,被遗漏的重要变量进入了残差项,如果与其他解释变量相关,就会出现cov(Ut,Xt)0,也就是内生性问题。(3)度量误差:由于关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差的一部分,从而导致内生性问题。3. 解决方法:针对双向因果产生的内生性问题,比较容易解决,通过联立方程组即可。难处理的是遗漏重要解释变量的情况,通常采用的方法有:工具变量法(IV):就是找到一个变量和内生化变量相关,但是和残差项不相关。通常采用2SLS方法进行回归。这种方法是找到影响内生变量的外生变量,连同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。(假如我们考察一个工资决定模型首先,用Probit模型估计,得到其次,构建模型进行估计)得分匹配与DID模型(双差分模型):思想是按照一定的标准,找到与样本match的控制组。在假设外在冲击同时影响两个组别的情况下,做差来剔除掉外界冲击的影响。第一步,该方法关键在于得分匹配的确定,配对样本的选择原则是保证两个样本随时间自然变化的部分是相同的,一般根据距离最近作为配对的样本点的方法进行匹配得分。第二步是估计方法,采用双重差分法(DID)。在假设外在冲击同时影响两个组别的情况下,做差来剔除掉外界冲击的影响。(在样本选择上,控制不可观测变量,然后利用双差分模型进行估计Eg:(1)样本抽取时,将ablity相等或相近的观测值进行配对(匹配标准IQ/双胞胎)(2)用双差分模型(DID)进行参数估计 估计出,等价于原模型中的 不足:样本要求非常大,尤其是用多重标准进行匹配时,样本要求更大。)潘老师举得例子 替代变量例如利用教育水平解释工资收入的模型,该回归模型遗漏了“能力”变量,因为观测不到,将其放入了残差中。可以寻找可观测的替代变量替代能力变量。Archer使用了IQ、EQ、父母收入、儿时居住地的平均房价来替代“能力”替代变量的本质:对“能力”做一个粗略的测度,替代导致了误差,也会导致内生性。其无法完全消除内生性。-第 21 页-