计量经济学简单回归模型课件.ppt
第二章 简单回归模型2.1简单回归模型的定义简单回归模型(即一元线性回归)用来研究两个变量之间的关系。y和x是两个代表某个总体的变量,我们感兴趣的是用x来解释y,或研究y如何随x而变化。在建立计量经济学模型前,我们会面临三个问题:y y和和x x的函数关系是怎样的呢?的函数关系是怎样的呢?我们应该如何考虑其他影响我们应该如何考虑其他影响y y的因素呢?的因素呢?我们何以确定我们在其他条件不变的情况下刻画了我们何以确定我们在其他条件不变的情况下刻画了y y和和x x之间的关系之间的关系?术语注解y 通常被称通常被称为:DependentVariable因变量Left-HandSideVariable左边变量ExplainedVariable被解释变量ResponseVariable响应变量PredictedVariable被预测变量Regressand回归子x通常被称通常被称为:IndependentVariable自变量Right-HandSideVariable右边变量ExplanatoryVariable解释变量Regressor回归元ControlVariable控制变量PredictorVariable预测变量Covariate协变量术语注解例一个简单的工资方程 wage=b b0+b b1 educ+u上述简单工资函数描述了工资和受教育年限,以及其他不可观测因素u之间的关系.b1 衡量的是,在其他因素(包含在误差项u里面)不变的情况下,多接受一年教育,可以增加多少工资.其他因素包括:劳动力市场经验、内在的能力、目前所从事工作的工龄、职业道德,以及其他许多因素。包含在u中.几点说明简单回归模型的一个重要假定:零条件均零条件均值假定假定 ZeroConditionalMeanAssumption一个重要问题在简单回归模型中,y=b0+b1x+u,b1衡量的是,在其他因素(包含在误差项u中)不变的情况下,x对于y的影响(ceterisparibuseffectofxony).y=b1x,if u=0l但是,在实际中,包含于误差项u中的其他因素往往是不确定的,也就是说,u是一个随机变量。一个重要问题l如果我们忽略包含于误差项u中的其他因素,能否通过简单回归模型,得到x对于y的其他因素不变情况下的影响(ceterisparibuseffectofxony)呢?l不能。l需要对u和x的关系作出假定,或者是说,假定x与y的关系符合一定的条件,才能通过上述模型估计x对于y的其他因素不变情况下的影响(ceterisparibuseffectofxony)。关于关于u的一个的一个简单假定假定假定总体(population)中误差项u的平均值为零,即:E(u)=0(2.5)Isitveryrestrictive?该假定对于模型是否具有很大的限制性呢?关于u的一个简单假定:一个例子只要简单回归模型中包含常数项,我们总可以等价变换,使得误差项u均值为0举一个例子:对于一个简单回归模型:y=b0+b1x+u,(a)假如E(u)=1,则可以进行如下变换:y=(b0+1)+b1x+(u-1)=b0+b1x+u (b)这里,E(u)=E(u-1)=E(u)-1=0.上述推导说明,我们总可以通过调整常数项b0,来实现误差项u的均值为零,因此,假定E(u)=0,对于模型的限制性不大。ZeroConditionalMeanAssumption零条件均值假定单纯对u作出零值假定是不够的。我们需要对u和x之间的关系做一个关键假定。我们所希望的状况是,u的期望值不依赖于x的数值,也就是,无论x的取值是多少,u的期望值不变。即:E(u|x)=E(u)换句话说,我们需要u 和x 完全不相关。零条件期望假定在前面我们已经假定了E(u)=0,因此,零条件均值假定可以表述为:E(u|x)=E(u)=0(2.6)Whatdoesitmean?该假定是何含义?零条件均值假定:例1在简单工资-教育方程中:工资=b0+b1 教育年限+u假定u 代表“内在能力”,零条件均值假定则表示,E(内在能力|教育年限=6)=E(内在能力|教育年限=18)=E(内在能力)即:对于不同教育年限的人,他们的内在能力的平均值相同。零条件均值假定:例2假设期末成绩分数(score)取决于出勤次数(attend),以及其他不可观测的因素u。则可以写出一个简单二元回归模型,成绩=b0+b1 出勤次数+u假定u 代表“心理素质”,零条件均值假定则表示,E(心理素质|出勤次数=1)=E(心理素质|出勤次数=18)=E(心理素质)即:对于不同出勤次数的同学,他们的心理素质的平均值相同。零条件均值假定:对b1的另一种解释对于简单二元回归模型:y=b0+b1x+u对y求关于x的条件期望,则E(y|x)=E(b0+b1x+u)|x =b0+b1x+E(u|x)注:E(b1x|x)=b1x由零条件均值假定E(u|x)=0,得E(y|x)=b0+b1x.该方程是x的线性函数,即y对于x的条件期望是x的线性函数。又称总体回归函数(Populationregressionfunction,PRF)b1表示,在零条件均值假定的条件下,相对于x的一个单位的变化,y的期望值的变化数量.x1=1x2=2E(y|x)=b0+b1xyE(y|x=x2)E(y|x=x1)总体回归线(PRF):E(y|x)=b0+b1xx2.2普通最小二乘法(OLS)的推导普通最小二乘法(OLS)的推导:方法一:矩估计方法零条件均值假定:E(u|x)=E(u)=0有两个意义:(1)E(u)=0(2)E(u|x)=E(u),根据本书附录中条件期望性质5(PropertyCE.5,p.719),由(2)可得:Cov(u,x)=0因为:Cov(u,x)=E(u-E(u)x-E(x)=E(ux)-E(u)E(x)=E(ux)由(1)得故有:E(ux)=0总体矩条件假定对于一个总体(population),存在简单回归方程:y=b0+b1x+u假定零条件均值假定成立:E(u|x)=E(u)=0于是有:(1)E(u)=0,(2)E(ux)=0将u=y-b0-b1x代入上述等式(1)(2):(3)E(y-b0-b1x)=0(4)Ex(y-b0-b1x)=0(3)(4)称为总体的矩条件。将总体矩条件应用于样本从总体中随机抽取一个样本容量为n的随机样本,用(xi,yi):i=1,n,i表示单个样本(observation)的编号,n是样本总量。xi,yi表示第i个样本的相应的变量。每一观测样本i均应满足:yi=b0+b1xi+ui将前面所假定的总体矩条件(3)(4)应用于样本中,这种方法称为矩估计法(method of moments).选择参数值b0,b1,使得样本的矩条件成立与总体中的矩条件(3)(4)相对应,在样本中相应的矩条件(samplecounterparts)为:现在的问题就是,通过选择参数值,使得样本相应的矩条件(3)(4)成立。即:求解关于的方程组(3)(4)。普通最小二乘法的推普通最小二乘法的推导根据样本均值的定义以及加总的性质,可将第一个条件变换为代入到第二个矩条件中,普通最小二乘法的推普通最小二乘法的推导因此,OLS估计的斜率为关于OLS斜率估计量斜率估计量b1等于样本中x和y的协方差除以x的方差。若x和y正相关,则斜率为正;反之,为负。唯一需要假定的是,x的样本方差不为零,或者说,在样本中,x的观测值必须要有变化。拟合值(fittedvalue)与残差(residual)用样本观测值估计出的回归方程的参数记作根据样本估计参数值和样本观测值xi,我们可计算相应的yi的拟合值(fittedvalue):实际样本观测值yi与其拟合值之间的差值,称为残差残差(residual).它可以看作是利用样本回归后,估计出来的误差项。样本回归函数(sampleregressionfucntion,SRF)同时,根据特定样本估计出的参数,我们可以写出一个与总体回归函数(PRF)相对应的样本回归函数(sampleregressionfucntion,SRF):对于一个特定的总体而言,总体回归函数(PRF)是固定的,是未知的。样本回归函数(SRF)则是根据实际的样本数据回归所得到的,是总体回归函数(PRF)的一个估计形式。它随着样本的不同而不同。用不同的方法所得到的样本回归函数,可能也会有差异。家庭人均消费=395.96+0.48 家庭人均收入2003年四川省农户调查样本,n=100;消费和收入单位:元.y4y1y2y3x1x2x3x41234xy理解:样本回归线,样本数据点和残差y3关于OLS的一点说明残差平方和OLS估计方法实际上就是,找到一条直线,使得残差的平方和(Q)最小。(因此,得名“普通最小二乘法”(OrdinaryLeastSquares,OLS)OLS推导方法二经典OLS估计方法:解一个最小化问题,即通过选取参数,使下列残差平方和最小:推导方法二对上述残差平方和Q分别对求偏导数,可以得到此最小化问题的一阶条件:这两个方程与前面的矩条件完全一致,可以用相同的方法求解参数总结介绍简单线性回归模型的结构、术语、含义零值条件期望假定如何利用矩估计法和经典普通最小二乘法,估计简单回归模型的截矩和斜率参数2.3OLS的操作技巧OLS的操作技巧拟合值和残差OLS的操作技巧OLS统计量的代数性质OLS残差和及其残差和及其样本均本均值均均为零零代数表示代数表示由由OLS的一的一阶条件得出条件得出OLS的操作技巧OLS统计量的代数性质回回归元和元和OLS残差的残差的样本本协方差方差为零零代数表示代数表示由由OLS的一的一阶条件得出条件得出OLS的操作技巧OLS统计量的代数性质点点 总在在OLS回回归线上上代数表示代数表示可以由可以由 推推导出出OLS的操作技巧OLS统计量的代数性质OLS的操作技巧的操作技巧拟合合优度度定定义总平方和平方和SST解解释平方和平方和SSE残差平方和残差平方和SSR总平方和SST总平方和:总平方和(SST),是y在样本中所有变动的测度指标,即它度量了y在样本中的总分散程度。将总平方和除以n-1,可得到y的样本方差。解释平方和SSE回归模型所解释的平方和(SSE):回归模型所解释的平方和(SSE),是yi的拟合值yi的在样本中的变动程度的测度指标。有时记作:MSS残差平方和SSR残差平方和(SSR)残差平方和(SSR)是残差ui的样本变异程度的测度指标,表示模型所未解释的y的变动。有时记作:RSSSST=SSE+SSRy 的总变动SST等于模型所解释的变动SSE与模型所未解释的变动SSR之和,即SST=SSE+SSROLS的操作技巧的操作技巧拟合合优度度SST=SSE+SSR的的证明明拟合优度的定义(Goodness-of-Fit)想要衡量样本回归线是否很好地拟合了样本数据。R-平方:回归模型所解释的平方和SSE占总平方和SST的比例:R2=SSE/SST=1SSR/SSTR-平方(R2,R-squared)决定系数(coefficientofdetermination)拟合优度的意义R2是模型所解释的变动SSE占所有变动SST的比例.可以看作是y的样本变动中可以被x解释的部分的比例.R2的取值在0和1之间.一个接近于1的判定系数表明OLS给出了一个良好的拟合,一个于0的判定系数表明OLS给出了一个糟糕的拟合一点说明:拟合优度在社会科学中,尤其是在截面数据分析中,一些回归方程的R2,有时很低。但是,较低的R2,不一定说明OLS回归方程没有价值的。2.4 度量度量单位和函数形式位和函数形式改改变度量度量单位位对OLS统计量的影响量的影响在在简单回回归中加入非中加入非线性因素性因素“线性性”回回归的含的含义改变度量单位对OLS统计量的影响一般而言,当因一般而言,当因变量乘上常数量乘上常数c,而自,而自变量量不改不改变时,OLS 的截距和斜率估的截距和斜率估计量也要乘量也要乘上上c例:用千美元来计算年薪salary=963.191+18.501roesalardol=963191+18501roe(千美元)若自若自变量被除以或乘以一个非零常数量被除以或乘以一个非零常数c,则OLS斜率系数也会分斜率系数也会分别被乘以或者除以被乘以或者除以c定义roedec=roe/100,那么样本回归线将会从(estimatedsalary)=963.191+18.501roe改变到(estimatedsalary)=963.191+1850.1roedec可可见,改,改变自自变量的度量量的度量单位一般不改位一般不改变截截距距值在简单回归中加入非线性因素非非线性因素的必要性:性因素的必要性:线性关系并不适合性关系并不适合所有的所有的经济学运用学运用通通过对因因变量和自量和自变量量进行恰当的定行恰当的定义,我我们可以在可以在简单回回归分析中非常容易地分析中非常容易地处理理许多多y和和x之之间的非的非线性关系性关系例子:工例子:工资教育模型,教育模型,见下下页在简单回归中加入非线性因素自然对数形式例:工资与教育之间的非线性关系:9初中 12高中 15大专Y3Y2y1wage=exp(b0+b1edu+u),with b10对数工资方程对数工资方程:假定每增加一年的教育,工资的增长率都相同。log(工资)=b0+b1教育+u半弹性模型(semi-elasticity)(log-level):b1衡量的是(其他不变)每增加一年的教育,工资的增长率。y/y=b1 x,ifu=0比较:在以前所举的工资方程中,工资=b0+b1教育+u,工资=b1教育,ifu=0b1衡量的是(其他不变)每增加一年的教育,工资的增长数量(元)。估计弹性有时,我们想要知道:y对于x的弹性,即x变化1个百分点时,y变化多少个百分点。(y/y)/(x/x)=b1=?不变弹性模型(constantelasticity):假定y对x的弹性为常数,对x和y进行对数变换,建立简单回归模型:log(y)=b0+b1log(x)+u y/y=b1x/x,ifu=0例:收入增加1%,消费增加b1%?log(消费)=b0+b1log(收入)+u在简单回归中加入非线性因素自然对数形式例:消费与收入的关系收入增加1元,消费增加多少元(1)?Level-level:y=b0+b1x+u收入增加1%,消费增加多少元(1)?level-log:y=b0+b1 log(x)+u收入增加1元,消费增加比率是多少(1100%)?半弹性:Log-level:log(y)=b0+b1x+u收入增加1%,消费增加1%?不变弹性:Log-log:log(y)=b0+b1 log(x)+u问题:什么是线性?“线性”回归的含义OLS估计量的期望值和方差OLS的无偏性的无偏性OLS估估计量的方差量的方差OLS的无偏性的无偏性我们首先在一组简单假定的基础上构建OLS的无偏性。假定假定SLR.1(线性于参数性于参数)在总体模型中,因变量y与自变量x的误差项u的关系如下:其中,和分别表示总体的截矩和斜率参数。OLS的无偏性的无偏性假定假定SLR.2(随机抽随机抽样)我们具有一个服从从整体模型方程的随机样本:i=1,2n,其样本容量为n.OLS的无偏性的无偏性假定假定SLR.3(解解释变量的量的样本有本有变异异)x的样本结果即,i=1,n不是完全相同的数值。OLS的无偏性的无偏性假定假定SLR.4(零条件均零条件均值)给定解释变量的任何值,误差的期望值都是零。换言之,E(u|x)=0恒成立OLS的无偏性的无偏性定理定理2.1 OLS的无偏性的无偏性 利用假定SLR.1-SLR.4,对的任何值,我们都有,换言之公式的推导:引理:OLS的无偏性的无偏性OLS的无偏性的无偏性于是有OLS的无偏性的无偏性OLS估估计量的方差量的方差除了知道除了知道 的抽的抽样分布是以分布是以 为中心的以中心的以外,知道我外,知道我们预期的期的 究竟离究竟离 多多远也非也非常重要。在其他条件不常重要。在其他条件不变的情况下,的情况下,这就容就容许我我们从所有的无偏估从所有的无偏估计量中量中选择一个最佳估一个最佳估计量。度量估量。度量估计量量 分布的分布的分散程度,最容易操作的一个指分散程度,最容易操作的一个指标就是就是其方差或者其方差或者标准差。准差。为了便于表示出估了便于表示出估计量的方差,量的方差,这里我里我们加入条假加入条假设SLR.5OLS估估计量的方差量的方差假定假定SLR.5(同方差性同方差性)给定解释变量的任何值,误差都具有相同的方差,换言之:Var(u|x)=同方差的假定简化了方差的计算,而且还意味着OLS具有某种有效性。然而当Var(u|x)是x的函数事,往往就会出现异方差的情形。一个工一个工资方程中的异方差性方程中的异方差性其他条件不变情况下,educ对wage的影响时无偏估计量,我们假定E(u|educ)=0,若同时假定Var(u|x)=,即工资相对于其均值的波动不依赖于受教育水平。在现实中这或许不太可能。这是因为接受了更多教育的人可能有更广泛的兴趣和更多的就业机会,从而导致收教育程度越高,工资变异越大;受教育水平越低,工资变异越小。图形见下张PPT OLS估估计量的方差量的方差误差方差的估差方差的估计由前面我们知道OLS的残差满足两个约束:如果我们知道了残差中的n-2个,就能够通过以上约束求出剩余两个残差。因此OLS的残差只有n-2个自由度,我们得到的无偏估计:误差方差的估差方差的估计定理2.3的无偏估计在假定下,我们有2.6 过原点的回原点的回归某些情形下,我们希望如下约束:x=0时,y的期望值也是0.此时原本有非零截距的回归模型就变换成无截距的模型。回归模型:此时估计值例如:若收入(x)为零时,那么所得税(y)也必须是零,此时适用于无截距线性回归。作业:2.2、2.3、2.4、2.5、2.9C2.2、C2.4、C2.6