多元线性回归分析估计讲稿.ppt
多元线性回归分析估计1第一页,讲稿共四十八页哦第2章内容回顾1.Definition of the Simple Regression Model 简单回归模型的定义2.Deriving the Ordinary Least Squares Estimates 推导普通最小二乘估计量3.Mechanics of OLS OLS相关的代数性质4.Unites of Measurement and Functional Form 测量单位和函数形式5.Expected Values and Variances of the OLS estimators OLS估计量的期望值和方差6.Regression through the Origin 过原点的回归2第二页,讲稿共四十八页哦本章大纲1.为什麽使用多元回归 Motivation for Multiple Regression2.普通最小二乘法的操作和解释 Mechanics and Interpretation of Ordinary Least Squares 3.OLS估计量的期望值 The Expected Values of the OLS Estimators 4.OLS估计量的方差 The Variance of the OLS Estimators5.OLS的有效性:高斯马尔科夫定理 Efficiency of OLS:The Gauss-Markov Theorem3第三页,讲稿共四十八页哦本课大纲1.多元回归模型的结构2.为什么使用多元回归3.多元回归模型中的零值条件期望假定4.多元回归模型的OLS 估计及代数性质5.解释多元回归模型参数6.简单回归模型与多元回归模型的比较4第四页,讲稿共四十八页哦1.多元线性回归模型结构:5第五页,讲稿共四十八页哦多元线性回归模型结构:含有k个自变量的模型多元线性回归模型一般可以写作:x1xk,k=2,K,多个解释变量。6第六页,讲稿共四十八页哦多元回归模型的结构 b0 仍是截距(intercept)b1到bk仍然都称为斜率参数(slope parameters)u仍是误差项(或干扰项)(error term(or disturbance):除了x1xk之外,影响y的其他因素。7第七页,讲稿共四十八页哦多元回归模型的结构因变量自变量被解释变量解释变量响应变量控制变量被预测变量预测元变量回归子回归元8第八页,讲稿共四十八页哦多元回归模型的结构线性:参数线性:对于回归模型参数是线性的。9第九页,讲稿共四十八页哦2.为什么使用多元回归模型?10第十页,讲稿共四十八页哦为什么使用多元回归?1.为获得其它因素不变的效应,控制更多的因素在实证工作中使用简单回归模型,首要的困难在于:要得到在其它因素不变的情况下,x1对y的影响(ceteris paribus effect),非常困难。在简单线性回归中,是否能够获得在其它条件不变情况下,x1对y的影响(ceteris paribus effects of x on y),完全取决于零值条件期望假设是否符合现实。如果影响y的其它因素,与x1不相关,则改变x1,可以确保u(均值)不变,从而识别出在其它条件不变情况下x对y的影响。不幸的是,影响y的其它因素(包含在u中),往往与x1相关:改变x1,u(均值)也往往发生变化,从而使得仅仅利用简单回归模型,无法识别出在其它条件不变情况下x1对y的影响。11第十一页,讲稿共四十八页哦为什么使用多元回归?1.控制更多的因素一个策略就是,将与x1相关的其他因素从误差项u中取出来,放在方程里,作为新的解释变量,这就构成多元回归模型。多元回归分析可以明确地控制许多其它同时影响因变量的因素,而不是放在不可观测的误差项中,故多元回归分析更适合于其它条件不变情况下(ceteris paribus)的特定因素x对y的影响。多元回归模型能容许很多解释变量,而这些变量可以是相关的。在使用非实验数据时,多元回归模型对推断y与解释变量x间的因果关系很重要。12第十二页,讲稿共四十八页哦为什么使用多元回归?2.更好地预测一个变量y的变化,不仅与一种因素有关,可能决定于许多因素。预测一个变量的变化,往往需要尽可能多地知道影响该变量变化的因素。简单回归模型,只包含一个解释变量,有时只能解释y的变动的很小部分。(如,拟合优度很低)多元回归模型由于可以控制更多地揭示变量,因此,可以解释更多的因变量变动。13第十三页,讲稿共四十八页哦为什么使用多元回归?3.表达更多的函数关系多元回归模型,可以包含多个解释变量,因此,可以利用变量的函数变换,在模型中表达多种函数关系。因此,多元线性回归模型,是实证分析中应用最广泛的分析工具。14第十四页,讲稿共四十八页哦为什么使用多元回归模型?例1:教育对工资的影响教育educ对工资wage的影响一个简单回归模型:Wage=b0+b1 educ+u然而,上述工资方程中,许多影响工资,同时又与教育年限相关的变量,被包含于误差项u中,如劳动力市场经验等。一方面,他们影响工资,但又不同于教育,故包含于u中。另一方面,他们又与教育相关。如教育年限越长,则参与劳动市场的时间就相对越短。因此,零值条件期望假定不成立,会导致OLS估计量b1 有偏。15第十五页,讲稿共四十八页哦例1:教育对工资的影响一个策略就是,最好能够将这些与教育相关的变量找出来,放在模型中,进行控制。一个多元回归模型:Wage=b0+b1 educ+b2 exper+uwage:工资对数;educ:教育年限;exper:劳动力市场经验(年)。在此例中,劳动力市场经验exper,由于与感兴趣变量教育educ相关,而被从误差项u中取出。16第十六页,讲稿共四十八页哦例2:预测高考成绩预测高考成绩:一个简单模型:成绩=b0+b1 师资+u一个学生的期末成绩不仅决定于师资,还决定于其他多种因素:成绩=b0+b1 师资+b2 心理+b3 方法+b4 内在能力+b5 家庭+b6 早恋+u17第十七页,讲稿共四十八页哦为什么使用多元回归?例3:收入与消费假定存在一个模型:家庭消费cons是家庭收入inc的二次方程,则模型可写作:cons=b0+b1 inc+b2 inc2+u尽管该模型表述的是消费与收入两个变量之间的关系,但是,简单回归方程无法实现。这里,边际消费倾向(marginal propensity to consume)可以近似表达为:MPC=cons/inc=b1+2b2inc 18第十八页,讲稿共四十八页哦3.零值条件期望假定19第十九页,讲稿共四十八页哦多元回归模型中的零值条件期望假定多元回归的零值条件期望假定:E(u|x1,x2,xk)=0两层含义:(1)E(u)=0 (2)E(u|x1,x2,xk)=E(u),即,cov(u,xj)=0,j=1,k注意:在上面例3中,零值条件期望假定可以表述为:E(u|inc,inc2)=E(u|inc)=020第二十页,讲稿共四十八页哦4.多元回归模型的OLS 估计与代数性质21第二十一页,讲稿共四十八页哦4.多元回归模型的OLS 估计普通最小二乘法(OLS):选择能最小化残差平方和的参数估计值:22第二十二页,讲稿共四十八页哦4.多元回归模型的OLS 估计如何得到OLS估计值23第二十三页,讲稿共四十八页哦4.多元回归模型的OLS 估计零值条件期望假定与距条件一阶条件也是相关的总体矩在样本中的对应。E(u|x1,x2,xk)=0 E(u)=0 Cov(u,xj)=0,j=1k在估计之后,得到样本回归函数(SRF),或称为OLS回归线:24第二十四页,讲稿共四十八页哦OLS的代数性质残差之和与平均值为零OLS残差与每个自变量之间的样本协方差为零。OLS残差与因变量拟合值之间的样本协方差为零。点 总位于OLS样本回归线上。25第二十五页,讲稿共四十八页哦5.解释多元回归模型:其他因素不变;剔除其他变量的影响;26第二十六页,讲稿共四十八页哦解释多元回归模型估计一个两自变量回归方程,得到:是当x1=0,x2=0时,y的(平均值)预测值(predicted value),或拟合值(fitted value).则可以解释为局部效应(partial effect),或其他因素不变效应(ceteris paribus)27第二十七页,讲稿共四十八页哦解释多元回归 可解释为:当x2保持不变,即x2=0时,x1变化所引起的y的变化。相应地,可解释为:当x1保持不变,即x1=0时,x2变化所引起的y的变化。28第二十八页,讲稿共四十八页哦解释多元回归对于所估计的一个多元回归函数:进行差分,得到:保持x2xk不变,意味着:此时:故,解释为在其他解释因素不变的情况下,x1变化1单位,所引起的y的(平均值)的变化数量。因此,每一个均可解释为局部效应(partial effect),或其他情况不变效应(ceteris paribus effect)29第二十九页,讲稿共四十八页哦解释多元回归教育对工资的影响估计教育-经验-工资方程:wage=b0+b1 educ+b2 experwage:工资拟合值;educ:教育年限;exper:劳动力市场经验(年)。差分得到:wage=b0+b1 educ+b2 experb1衡量的就是,在工作经验exper不变的情况下,教育每增加1年,工资增加多少元;b2衡量的是,在教育水平educ不变的情况下,工作经验每增加1年,工资增加多少元;30第三十页,讲稿共四十八页哦关于多元回归中的“保持其它因素不变”(Holding other factors fixed)多元回归中,所得到的“其他因素不变的效应”,并非是通过在实际抽样中,固定其他因素不变。在教育-经验-工资一例中,在获得教育对的工资其他条件不变影响时,在实际抽样中,也并非是固定工作经验,收集不同教育年限的样本,来分析教育年限变化,对于工资的影响。对个体进行随机抽样,就可通过多元回归分析得到“其他因素不变的效应”。多元回归分析的优势,在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素不变。31第三十一页,讲稿共四十八页哦一个“剔除其它变量影响”的解释A“Partialling Out”Interpretation对于估计的样本回归线 可以表示为:?32第三十二页,讲稿共四十八页哦 一个“剔除其它变量影响”的解释A“Partialling Out”Interpretation首先,将第一个自变量x1对第二个自变量x2进行回归,得到样本回归函数 ,根据xi和拟合值 ,得到残差 。残差表示剔除了x2的影响之后,x1的其他部分。它与x2不相关,样本均值为0。然后,将y对 进行简单回归得到 。衡量的是,剔除了其他自变量的影响之后,x1对于y的净影响。33第三十三页,讲稿共四十八页哦“剔除其它变量影响”“Partialling Out”上述过程表明:将y同时对x1和x2回归得出的x1的影响,与先将x1对x2回归得到残差,再将y对此残差回归得到的x1的影响相同。同时说明,在多元回归模型中,x1的系数衡量的是,x1中与其他自变量不相关的部分,与y的相关关系。即,在多元回归模型中,所估计的是,在其他自变量对于x1的影响“被剔除(partialled out)”后,x1对y的影响。34第三十四页,讲稿共四十八页哦“剔除其它变量影响”“Partialling Out”在一个含有k个解释变量的一般模型中,仍然可以写成(3.22)式(证明见本章附录3A.2):残差 是来自x1对x2,xk的回归。因此,度量的是,在排除x2,xk等变量的影响之后,x1对y的影响。35第三十五页,讲稿共四十八页哦证明(3.22)式:36第三十六页,讲稿共四十八页哦例子:剔除其他变量的影(partialling out)A.多元回归的系数lwage=5.5027096+.07778197*educ+.0197768*exper37第三十七页,讲稿共四十八页哦B.剔除其他变量的影响后简单回归的系数(1)剔除工作经验exper对教育educ的影响(1)educ 对exper进行回归,求残差educ_uhat38第三十八页,讲稿共四十八页哦B.剔除其他变量的影响后简单回归的系数(2)用lwage回归教育残差educ_uhat(2)lwage 对残差educ_uhat回归,依然得到回归系数1=.07778197!与多元回归完全相同!39第三十九页,讲稿共四十八页哦6.简单回归和多元回归估计值比较40第四十页,讲稿共四十八页哦用同一个样本:估计一个最简单的线性回归模型,得到:估计一个最简单的多元线性回归模型,得到:存在一个简单关系:是x2对x1进行简单回归所得到的斜率系数估计值。证明上式41第四十一页,讲稿共四十八页哦42第四十二页,讲稿共四十八页哦一般而言,两种特殊情况下,两者相等:在第(1)种情况下,x2对于y没有局部效应(partial effect)在(2)种情况下,x2与x1在样本中不相关。43第四十三页,讲稿共四十八页哦用同一个样本:估计一个最简单的线性回归模型,得到:估计一个最简单的多元线性回归模型,得到:存在一个关系:是x2,xk分别对x1进行简单回归所得到的斜率系数估计值。44第四十四页,讲稿共四十八页哦一般而言,两种特殊情况下,两者相等:在第(1)种情况下,x2,xk对于y均没有局部效应(partial effect)在(2)种情况下,x2,xk中每一个均与x1不相关。45第四十五页,讲稿共四十八页哦例子:简单回归与多元回归(1)多元回归:lwage=b0+b1 educ+b2 exper+u lwage=5.5027096+.07778197*educ+.0197768*exper b1=.07778197,b2=.0197768(2)简单回归:lwage=b0+b1 educ+u lwage=5.9730625+.0598392*educ b1=.0598392(3)自变量exper对educ回归:exper=0+21 educ+u exper=23.783069+-.90726353*educ 21=-.90726353(4)b1=.0598392=b1+b2*21 =.07778197+.0197768*-.90726353 =.059839246第四十六页,讲稿共四十八页哦总结多元回归模型的结构为什么使用多元回归模型多元回归模型的条件期望零值假定、OLS估计及其性质多元回归模型的解释:其他因素不变;剔除其他变量影响多元回归模型与简单回归模型参数估计值的关系47第四十七页,讲稿共四十八页哦思考题与作业思考题:3.2,3.348第四十八页,讲稿共四十八页哦