ets3 双变量线性回归模型.ppt
《ets3 双变量线性回归模型.ppt》由会员分享,可在线阅读,更多相关《ets3 双变量线性回归模型.ppt(107页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 双变量线性回归模型双变量线性回归模型 (简单线性回归模型)(Simple Linear Regression Model)第一节第一节 双变量线性回归模型的估计双变量线性回归模型的估计第二节第二节 最小二乘估计量的性质最小二乘估计量的性质第三节第三节 拟合优度的测度拟合优度的测度第四节第四节 双变量回归中的区间估计和假设检验双变量回归中的区间估计和假设检验第五节第五节 预测预测第六节第六节 有关最小二乘法的进一步讨论有关最小二乘法的进一步讨论 这意味着这意味着 Y=+X (1)我们写出计量经济模型我们写出计量经济模型 如下如下 Y=+X+u (2)其中其中 u=扰动项或扰动项或
2、误差项误差项 Y为因变量或被解释变量为因变量或被解释变量,X为自变量或解释变量。为自变量或解释变量。和和 为未知参数。为未知参数。第一节第一节 双变量线性回归模型的估计双变量线性回归模型的估计一、一、双变量线性回归模型的概念双变量线性回归模型的概念XY图1*设设 Y=消费消费,X=收入收入,我们根据数据画出散点图如我们根据数据画出散点图如下下 (3)式称为式称为双变量线性回归模型双变量线性回归模型或或简单线性回归模型简单线性回归模型或或一元线性回归模型一元线性回归模型。其中。其中 和和 为未知的总体参数,为未知的总体参数,也也称为称为回归模型的系数(回归模型的系数(coefficients)。
3、)。下标下标 i是是观测值的序号。观测值的序号。设我们有设我们有Y和和X的的n对观测值数据,则根据对观测值数据,则根据(2)式,变式,变量量Y的每个观测值应由下式决定:的每个观测值应由下式决定:Yi=+Xi+ui,i=1,2,.,n (3)当数据为时间序列时,往往用当数据为时间序列时,往往用下标下标 t来表示来表示观测值的观测值的序号,从而(序号,从而(3)式变成)式变成 Yt=+Xt+ut,t=1,2,.,n (3*)为何要在模型中包括扰动项为何要在模型中包括扰动项u 我我们们在在上上一一章章中中已已初初步步介介绍绍了了为为什什么么要要在在模模型型中中包包括扰动项括扰动项u,下面进一步说明之
4、:下面进一步说明之:(1)真真正正的的关关系系是是Y=f(X1,X2,),但但X2,X3,相对不重要,用相对不重要,用u代表之。代表之。(2)两两变变量量之之间间的的关关系系可可能能不不是是严严格格线线性性的的,u反反映了与直线的偏差。映了与直线的偏差。(3)经济行为是随机的,我们能够用)经济行为是随机的,我们能够用 Y=+X 解释解释“典型典型”的行为,而用的行为,而用u来表示个体偏差。来表示个体偏差。(4)总总会会出出现现测测量量误误差差,使使得得任任何何精精确确的的关关系系不不可能存在可能存在。(一)关于最小二乘法的历史回顾(一)关于最小二乘法的历史回顾 最小二乘法最早称为回归分析法。由
5、著名的英国最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(生物学家、统计学家道尔顿(F.Gallton,18221911)-达尔文的表弟所创达尔文的表弟所创。早年,道尔顿致力于化。早年,道尔顿致力于化学和遗传学领域的研究。道尔顿研究英国男子中父亲学和遗传学领域的研究。道尔顿研究英国男子中父亲们的身高与儿子们的身高之间的关系时,创立了回归们的身高与儿子们的身高之间的关系时,创立了回归分析法。分析法。二、二、普通最小二乘法普通最小二乘法(OLS法法,Ordinary Least squares)1.F.Gallton关于父亲们的身高与儿子们的身高之间关于父亲们的身高与儿子们的身
6、高之间关系的研究关系的研究 1889年年F.Gallton和和他的学生、现代统计学的奠基者他的学生、现代统计学的奠基者之一之一K.PearsonK.Pearson(1856185619111911)收集了收集了10781078个家庭的身个家庭的身高、臂长和腿长的记录。企图寻找出儿子们身高与父亲们高、臂长和腿长的记录。企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。在观看散点图时,发现近身高之间关系的具体表现形式。在观看散点图时,发现近乎于一条直线。计算出的回归直线方程为:乎于一条直线。计算出的回归直线方程为:这种趋势及回归方程表明父母平均身高这种趋势及回归方程表明父母平均身高x每增加一
7、每增加一个单位时,其成年儿子的身高个单位时,其成年儿子的身高y也平均增加也平均增加0.516个单个单位。位。这个结果表明,虽然高个子父辈确有生高个子儿这个结果表明,虽然高个子父辈确有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。平均说来,一群高个子父辈的增加半个单位左右。平均说来,一群高个子父辈的儿子们的平均高度要低于他们父辈的平均高度。儿子们的平均高度要低于他们父辈的平均高度。低个子父辈的儿子们虽然仍为低儿子,平均身高低个子父辈的儿子们虽然仍为低儿子,平均身高却比他们的父辈增加了,也就是说,子代的平均身却比他们的父辈增加了
8、,也就是说,子代的平均身高没有比他们的父辈更低。高没有比他们的父辈更低。正是因为子代的身高有回归到父辈平均身高的这正是因为子代的身高有回归到父辈平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子低其子没有出现父辈个子高其子女更高,父辈个子低其子女更低的两极化现象。女更低的两极化现象。这个例子生动地说明了生物学中这个例子生动地说明了生物学中“种种”的概念的概念的稳定性。正是为了描述这种有趣的现象,的稳定性。正是为了描述这种有趣的现象,Galton引进了引进了“回归回归”这个名词来描述父辈身高这个名词来描述父辈
9、身高x与子代身高与子代身高y的关系。的关系。尽管尽管“回归回归”这个名称的由来具有特定的含义,这个名称的由来具有特定的含义,人们在研究大量的问题中变量人们在研究大量的问题中变量x与与y之间的关系并之间的关系并不具有这种不具有这种“回归回归”的含义,但借用这个名词把的含义,但借用这个名词把研究变量研究变量x与与y之间统计关系的数学方法称为之间统计关系的数学方法称为“回回归归”分析。分析。2.最小二乘法的地位与作用最小二乘法的地位与作用(1 1)现在回归分析法已远非道尔顿的本意(儿子身现在回归分析法已远非道尔顿的本意(儿子身高向平均身高回归,以保持种族身高的稳定性),已高向平均身高回归,以保持种族
10、身高的稳定性),已经成为探索变量之间关系最重要的方法,用以找出变经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。量之间关系的具体表现形式。(2)后来,回归分析法从其方法的数学原理后来,回归分析法从其方法的数学原理残残差平方和最小(平方乃二乘也)出发,改称为最小二差平方和最小(平方乃二乘也)出发,改称为最小二乘法。乘法。(二)二)最小二乘法的思路最小二乘法的思路 1为了精确地描述为了精确地描述Y与与X之间的关系,必须使用这两之间的关系,必须使用这两个变量的每一对观察值,才不至于以个变量的每一对观察值,才不至于以“点点”概面(作到概面(作到同步与全面)。同步与全面)。2Y与
11、与X之间是否是直线关系(用协方差或相关系数之间是否是直线关系(用协方差或相关系数衡量)?若是,将用一条直线描述它们之间的关系。衡量)?若是,将用一条直线描述它们之间的关系。3 3在在Y Y与与X X的散点图上的散点图上找出一条能够最好地描述找出一条能够最好地描述Y与与X(代表所有点)之间关系的直线。代表所有点)之间关系的直线。4 4什么是最好?什么是最好?找出判断找出判断“最好最好”的原则。的原则。最好指的是找这么一条直线,使得所有点到该直线的最好指的是找这么一条直线,使得所有点到该直线的纵向距离的和(平方和)最小。纵向距离的和(平方和)最小。我们的模型是:我们的模型是:Yt=+Xt+ut,t
12、=1,2,.,n 这里这里 和和 为未知总体参数,下一步的任务是应用为未知总体参数,下一步的任务是应用统计学的方法,由统计学的方法,由Y和和X的观测值(即样本数据)来的观测值(即样本数据)来估计估计 和和 的总体值,常用的估计方法就是的总体值,常用的估计方法就是最小二乘最小二乘法。为了应用最小二乘法,得到好的估计量,法。为了应用最小二乘法,得到好的估计量,双变双变量线性回归模型需要满足一些统计假设条件,这些量线性回归模型需要满足一些统计假设条件,这些统计假设是:统计假设是:1.双变量线性回归模型的统计假设双变量线性回归模型的统计假设(三)最小二乘法原理三)最小二乘法原理 (1)E(ut)=0,
13、t=1,2,.,n 即各期扰动项的均值即各期扰动项的均值(期望值期望值)为为0.(2)COV(ui,uj)=E(uiuj)=0 i j 即各期扰动项互不相关即各期扰动项互不相关.(3)Var(ut)=E(ut2)=2 ,t=1,2,.,n 即各期扰动项方差是一常数即各期扰动项方差是一常数.(4)解释变量解释变量Xt 为非随机量为非随机量 即即Xt的取值是确定的的取值是确定的,而不是随机的而不是随机的.(5)ut N(0,2),t=1,2,.,n 即各期扰动项服从正态分布即各期扰动项服从正态分布.满足条件满足条件(1)-(4)的线性回归模型称为古典线性回归的线性回归模型称为古典线性回归模型模型
14、(CLR模型模型)双变量线性回归模型的统计假设双变量线性回归模型的统计假设下面简单讨论一下上述假设条件。下面简单讨论一下上述假设条件。(1)E(ut)=0,t=1,2,n 即各期扰动项的均值(期望值)均为即各期扰动项的均值(期望值)均为0。均均值值为为0的的假假设设反反映映了了这这样样一一个个事事实实:扰扰动动项项被被假假定定为为对对因因变变量量的的那那些些不不能能列列为为模模型型主主要要部部分分的的微微小小影影响响。没没有有理理由由相相信信这这样样一一些些影影响响会会以以一一种种系系统统的的方方式式使使因因变变量量增增加加或或减减小小。因因此此扰扰动动项项均均值值为为0的的假假设设是是合理的
15、。合理的。(2)E(uiuj)=0,ij 即即各各期期扰扰动动项项互互不不相相关关。也也就就是是假假定定它它们们之之间间无无自相关或无序列相关。自相关或无序列相关。实际上该假设等同于:实际上该假设等同于:cov(ui,uj)=0,ij这是因为:这是因为:cov(ui,uj)=Eui-E(ui)uj-E(uj)=E(uiuj)根据假设(根据假设(1)(3)E(ut2)=2,t=1,2,n 即即各各期期扰扰动动项项的的方方差差是是一一常常数数,也也就就是是假假定定各各扰扰动项具有同方差性。动项具有同方差性。实际上该假设等同于:实际上该假设等同于:Var(ut)=2,t=1,2,n这是因为:这是因为
16、:Var(ut)=Eut-E(ut)2=E(ut2)根根据据假假设设(1)(4)Xt为非随机量为非随机量 即即Xt的取值是确定的的取值是确定的,而不是随机的。而不是随机的。事事实实上上,我我们们后后面面证证明明无无偏偏性性和和时时仅仅需需要要解解释释变变量量X与与扰扰动动项项u不不相相关关,但但不不容容易易验验证证之之,因因而而通通常常采采用非用非随机量的假设随机量的假设。(5)ut N(0,2),t=1,2,.,n 即扰动项服从正态分布。即扰动项服从正态分布。满满足足条条件件(1)(4)的的线线性性回回归归模模型型称称为为古古典典线线性回归模型(性回归模型(CLR模型)。模型)。我们的任务是
17、,我们的任务是,在给定在给定X和和Y的一组观测值的一组观测值 (X1,Y1),(X2,Y2),.,(Xn,Yn)的情况下的情况下,如何求出如何求出 Yt=+Xt+ut 中中 和和 的估计值的估计值,使得拟使得拟合的直线为最佳合的直线为最佳。2.2.最小二乘原理最小二乘原理 直观上看,也就是要求在直观上看,也就是要求在X和和Y的散点图上穿过的散点图上穿过各观测点画出一条各观测点画出一条“最佳最佳”直线,如下图所示。直线,如下图所示。*et *YXXt 图图 2 YtYt 拟合的直线拟合的直线 称为称为拟合的回归线拟合的回归线.对于任何数据点对于任何数据点(Xt,Yt),此直线将此直线将Yt 的总
18、值的总值 分成两部分。分成两部分。第一部分是第一部分是Yt的的拟合拟合值或预测值值或预测值 :,t=1,2,n 第二部分,第二部分,et 代表观测点对于回归线的误差,称代表观测点对于回归线的误差,称为为拟合拟合或预测的残差或预测的残差(residuals):):t=1,2,n 即即 t=1,2,n残差残差 我们的目标是使拟合出来的直线在某种意我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使直线尽可能地靠近各观测点,这意味着应使各残差尽可能地小。要做到这一点,就必须各残差尽可能地小。要做到这一点
19、,就必须用某种方法将每个点相应的残差加在一起,用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,使其达到最小。理想的测度是残差平方和,即即 如何决定估计值如何决定估计值 和和?残差平方和残差平方和 最小二乘法就是选择一条直线,使其残差平方和最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择达到最小值的方法。即选择 和和 ,使得,使得达到最小值。达到最小值。运用微积分知识,使上式达到最小值的必要条件为:运用微积分知识,使上式达到最小值的必要条件为:即即整理,得:整理,得:此二式称为正规方程。解此二方程,得:此二式称为正规方程。解此二方程,得:.其中:其中
20、:离差离差样本均值样本均值估计量估计量(5)式和()式和(6)式给出了)式给出了OLS法计算法计算 和和 的的公式,公式,和和 称为线性回归模型称为线性回归模型 Yt=+Xt+ut 的参数的参数 和和 的普通最小二乘估计量的普通最小二乘估计量(OLS estimators)。)。这两个公式可用于任意一组观测值数据,以求出这两个公式可用于任意一组观测值数据,以求出截距和斜率的截距和斜率的OLS估计值(估计值(estimates),估计值是估计值是从一组具体观测值用公式计算出的数值。从一组具体观测值用公式计算出的数值。一般说来,好的估计量所产生的估计值将相当接一般说来,好的估计量所产生的估计值将相
21、当接近参数的真值,即好的估计值。可以证明,对于近参数的真值,即好的估计值。可以证明,对于CLR模型,普通最小二乘估计量正是这样一个好模型,普通最小二乘估计量正是这样一个好估计量。估计量。拟合直线的性质拟合直线的性质1.1.残差和为零残差和为零 2.Y Y的真实值和拟合值有共同的均值的真实值和拟合值有共同的均值3.残差与自变量不相关残差与自变量不相关4.残差与拟合值不相关残差与拟合值不相关3 例子例子 例例1 对于第一段中的消费函数,若根据数据对于第一段中的消费函数,若根据数据得到:得到:n=10,=23,=20 则有则有因而因而例例2 设设Y和和X的的5期观测值如下表所示,试估计方程期观测值如
22、下表所示,试估计方程 Yt=+Xt+ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算。计算过程如下:解:我们采用列表法计算。计算过程如下:序号序号YtXtyt=Yt-xt=Xt-xt ytxt211410-8-2016040021820-4-1040100323301000425403103010053050820160400n=5110150003901000表表31估计方程为:估计方程为:又解又解表表32序号序号Yttt tt21141014010021820360400323306909004254010001
23、6005305015002500n=511015036905500Eviews创建工作文件,输入数据并进行回归:Create u 1 5data x yls y c x 对于满足统计假设条件对于满足统计假设条件(1)-(4)的线性回归模型的线性回归模型 Yt=+Xt+ut ,,普通最小二乘估计量普通最小二乘估计量 (OLS估估计量计量)是最佳线性无偏估计量(是最佳线性无偏估计量(BLUE)。)。或或 对于古典线性回归模型(对于古典线性回归模型(CLR模型)模型)Yt=+Xt,普通最小二乘估计量(普通最小二乘估计量(OLS估计量)是最佳线性无估计量)是最佳线性无偏估计量(偏估计量(BLUE)。)
24、。3.高斯高斯-马尔柯夫定理马尔柯夫定理(Gauss-Markov Theorem)我们已在前面证明了无偏性,此外,由于:我们已在前面证明了无偏性,此外,由于:由上段结果,由上段结果,=其中其中 这这表表明明,是是诸诸样样本本观观测测值值Yt(t=1,2,n)的的线线性性函函数数,故故 是线性估计量。是线性估计量。剩剩下下的的就就是是最最佳佳性性了了,即即 的的方方差差小小于于等等于于的的其其他他任任何何线线性性无无偏偏估估计计量量的的方方差差,我我们们可可以以证证明明这这一一点点,但但由由于于时时间间关关系系,从从略略。有有兴兴趣趣的的同同学学请请参参见见教教科科书书(P46-47)我们在前
25、面列出的假设条件(我们在前面列出的假设条件(5)表明,)表明,ut N(0,2),t=1,2,.,n 即各期扰动项服从均值为即各期扰动项服从均值为0、方差为、方差为 2的正态分布。的正态分布。考虑到假设条件(考虑到假设条件(4),即),即Xt为非随机量,则由前面结果:为非随机量,则由前面结果:=其中,其中,4.和和 的分布的分布 这这表表明明,是是N个个正正态态分分布布变变量量u1,u2,,un的的线线性函数,因而亦为正态分布变量,即性函数,因而亦为正态分布变量,即 类似的有:类似的有:用最小二乘法得到的回归直线用最小二乘法得到的回归直线 至至少少从从残残差差平平方方和和为为最最小小这这一一意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ets3 双变量线性回归模型 变量 线性 回归 模型
限制150内