《计量经济学第2章一元线性回归模型说课讲解.ppt》由会员分享,可在线阅读,更多相关《计量经济学第2章一元线性回归模型说课讲解.ppt(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量经济学第2章一元线性回归模型2 Y 0 XY Yi i=1 1+2 2X Xi i表示表示X X与与Y Y之间的线性部分,称作总体回归直线。之间的线性部分,称作总体回归直线。样本值与回归直线的偏离样本值与回归直线的偏离u ui i表示对这种线性关系的随机扰动。表示对这种线性关系的随机扰动。即即u ui i=Y=Yi i-Y-Yi i (i=1,2,i=1,2,n,n)33.3.随机误差项的假定条件随机误差项的假定条件(1)E(u(1)E(ui i)=0)=0,i=1,2,i=1,2,(2)Var(u(2)Var(ui i)=Eu)=Eui i-E(u-E(ui i)2 2=E(u=E(ui
2、 i2 2)=)=u u2 2,i=1,2,i=1,2,(3)Cov(u(3)Cov(ui iu uj j)=)=EuEui i-E(u-E(ui i)E)Ej j-E(u-E(uj j)=E(u =E(ui iu uj j)=)=0 0,ijij(4)Cov(u(4)Cov(ui i,X,Xi i)=Eu)=Eui i-E(u-E(ui i)EX)EXi i-E(X-E(Xi i)=E(u =E(ui iX Xi i)=0)=0,i=1,2,i=1,2,(5)u(5)ui i服从正态分布服从正态分布,即即u ui iN(0,N(0,u u2 2)前五条称为线性回归分析的前五条称为线性回归分析
3、的经典假设条件,经典假设条件,是古典线性回是古典线性回归模型的基本假定。归模型的基本假定。42.2 一元线性回归模型的参数估计一元线性回归模型的参数估计1.1.普通最小二乘法普通最小二乘法(OLSOLS)总体回归模型:总体回归模型:总体回归方程:总体回归方程:样本回归模型:样本回归模型:样本回归方程:样本回归方程:5下面用最小二乘法求总体回归系数下面用最小二乘法求总体回归系数1 1、2 2的估计的估计值值 。即令。即令根据微积分多元函数极值原理,要使上式达到最根据微积分多元函数极值原理,要使上式达到最小,对小,对 的一阶偏导数都等于零,即的一阶偏导数都等于零,即6正规方程组正规方程组7求解得到
4、:求解得到:82.2.几个常用的结果几个常用的结果(1)(2)(3)(4)93.3.截距为零的一元线性回归模型的参数估计截距为零的一元线性回归模型的参数估计一元线性回归模型的一般形式为一元线性回归模型的一般形式为当当u ui i满足假定条件时,满足假定条件时,的最小二乘估计量为的最小二乘估计量为102.3 最小二乘估计量的统计性质最小二乘估计量的统计性质1.1.线性性线性性最小二乘估计量最小二乘估计量 均是均是Y Yi i的线性函数,即可以表示为的线性函数,即可以表示为Y Yi i的线性组合。的线性组合。证明:证明:其中其中11前面的式子可记为前面的式子可记为 表明是表明是Y Yi i的线性组
5、合,其中的线性组合,其中b bi i不全为零,线性性得证。不全为零,线性性得证。的线性性可利用的线性性可利用 的线性性得到。的线性性得到。可记为可记为 这表明这表明 同样是同样是Y Yi i的线性组合,其中的线性组合,其中W Wi i也不全为零,线性也不全为零,线性性也得到证明。性也得到证明。122.2.无偏性无偏性无偏性指无偏性指 的数学期望分别等于总体回归系数的值的数学期望分别等于总体回归系数的值1 1和和2 2,即,即证明:证明:即即 是参数真实值是参数真实值2 2的无偏估计得到了证明。的无偏估计得到了证明。推导推导13同样地,证明同样地,证明 的无偏性。的无偏性。即即 是是1 1的无偏
6、估计。的无偏估计。143.3.最小方差性最小方差性最小方差性,即在最小方差性,即在1 1和和2 2所有可能的线性无偏估所有可能的线性无偏估计中,最小二乘估计计中,最小二乘估计 的方差最小。的方差最小。证明思路:假设证明思路:假设 是是1 1和和2 2的任意其他线性的任意其他线性无偏估计,设法证明满足无偏估计,设法证明满足Var()Var()Var()Var()和和Var()Var()Var()Var()。这两个不等式的证明相似,。这两个不等式的证明相似,因此只证明其中第二个不等式。因此只证明其中第二个不等式。15因为因为 是是2 2的线性无偏估计,因此根据线性性,的线性无偏估计,因此根据线性性
7、,可以写成下列形式:可以写成下列形式:其中其中i i是线性组合的系数,为确定性的数值。则有是线性组合的系数,为确定性的数值。则有由于由于 是是2 2的无偏估计,因此不管的无偏估计,因此不管X Xi i的取值如何,的取值如何,上式都必须等于上式都必须等于2 2。这就要求。这就要求 必须成立。必须成立。16因此因此再计算方差再计算方差Var()Var(),得,得为了比较为了比较Var()Var()和和Var()Var()的大小,可以对上述表达式做一的大小,可以对上述表达式做一些处理:些处理:17前面式子中的第三项前面式子中的第三项因此因此这样这样 的最小方差性就得到了证明。的最小方差性就得到了证明
8、。18由于最小二乘估计量由于最小二乘估计量 具有线性性、无偏性、具有线性性、无偏性、最小方差性,因此被称为最佳线性无偏估计量最小方差性,因此被称为最佳线性无偏估计量(The Best Linear Unbiased EstimatorThe Best Linear Unbiased Estimator),简),简称称BLUEBLUE性质。性质。192.4用样本可决系数检验回归方程的拟合优度用样本可决系数检验回归方程的拟合优度本节要检验的是样本回归线对样本观测值的拟合优本节要检验的是样本回归线对样本观测值的拟合优度。样本观测值距回归线越近,拟合优度越好,度。样本观测值距回归线越近,拟合优度越好,
9、X X对对Y Y的解释能力越强。的解释能力越强。判断回归结果好坏的基本标准,是回归直线对样本数据的拟判断回归结果好坏的基本标准,是回归直线对样本数据的拟合程度,称为合程度,称为“拟合优度拟合优度”。回归直线的拟合优度一方面取。回归直线的拟合优度一方面取决于回归直线的选择,这是由参数估计方法决定的,另一方决于回归直线的选择,这是由参数估计方法决定的,另一方面取决于样本数据的分布。当参数估计方法固定时,主要取面取决于样本数据的分布。当参数估计方法固定时,主要取决于样本数据的分布。决于样本数据的分布。样本数据的分布在本质上是由变量关系决定的。因此回归拟样本数据的分布在本质上是由变量关系决定的。因此回
10、归拟合度也是检验模型变量关系真实性,判断模型假设是否成立合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。的重要方法。201.1.总离差平方和的分解总离差平方和的分解YYiOXXi(Xi,Yi)21仅仅考察个别仅仅考察个别Y Yi i由回归直线或解释变量决定的程度,或者对由回归直线或解释变量决定的程度,或者对Y Yi i逐点进行离差分解,仍然难以判断总体拟合情况。为此进逐点进行离差分解,仍然难以判断总体拟合情况。为此进一步考察所有一步考察所有Y Yi i离差平方和的分解问题。所有离差平方和的分解问题。所有Y Yi i离差的平方离差的平方和记为和记为 ,称,称“总离差平方和总离差平
11、方和”。分解可得。分解可得 22 下证明最后一项等于零。下证明最后一项等于零。即即 所以所以 也可写为也可写为 即总离差平方和可分解为两部分,一部分为:即总离差平方和可分解为两部分,一部分为:称为称为“回归平方和回归平方和”,记为记为ESSESS;另一部分为:;另一部分为:称为称为“残差平方和残差平方和”,记为,记为RSSRSS。23因此有因此有 TSS=ESS+RSSTSS=ESS+RSS即即 总离差平方和总离差平方和=回归平方和回归平方和+残差平方和残差平方和前一部分前一部分ESSESS相对于后一部分相对于后一部分RSSRSS越大,说明回越大,说明回归拟合程度越好,归拟合程度越好,Y Y与
12、与X X之间的线性决定关系越之间的线性决定关系越明显。明显。242.2.样本可决系数样本可决系数将将TSS=ESS+RSSTSS=ESS+RSS两端同除以两端同除以TSSTSS,得到,得到 或或式中的式中的 正是反映解释变量对被解释变量决定程正是反映解释变量对被解释变量决定程度的指标,称之为度的指标,称之为“样本可决系数样本可决系数”(determined(determined coefficient)coefficient),也叫决定系数、判定系数,通常用,也叫决定系数、判定系数,通常用R R2 2表示。表示。25这个指标的计算公式是这个指标的计算公式是或或R R2 2是样本回归线与样本观测
13、值拟合优度的度量指标,其是样本回归线与样本观测值拟合优度的度量指标,其数值在数值在0 0到到1 1之间。之间。R R2 2=0=0,解释变量,解释变量X X与与Y Y没有线性关系;没有线性关系;R R2 2=1=1,样本回归线与样本观测值重合,样本回归线与样本观测值重合,X X与与Y Y在一条直线在一条直线上;上;0R0R2 211,R R2 2越接近越接近1 1,样本回归线对样本值的拟合优度越,样本回归线对样本值的拟合优度越好,好,X X对对Y Y的解释能力越强。的解释能力越强。263.3.样本相关系数样本相关系数样本相关系数是变量样本相关系数是变量X X与与Y Y之间线性相关程度的度量指标
14、。定之间线性相关程度的度量指标。定义为义为其取值范围为其取值范围为|r|1|r|1,即,即-1r1-1r1。27当当r=-1r=-1时,表示时,表示X X与与Y Y之间完全负线性相关;之间完全负线性相关;当当r=1r=1时,表示时,表示X X与与Y Y之间完全正线性相关;之间完全正线性相关;当当r=0r=0时,表示时,表示X X与与Y Y之间无线性相关关系,即说明之间无线性相关关系,即说明X X与与Y Y可能无相关关系或可能无相关关系或X X与与Y Y之间存在非线性相关关系;之间存在非线性相关关系;当当0|r|10|r|1时,时,X X与与Y Y之间存在一定的线性相关关系。之间存在一定的线性相
15、关关系。282.5回归系数估计值的显著性检验回归系数估计值的显著性检验检验检验 的统计可靠性,为此,首先考虑其概率分布。的统计可靠性,为此,首先考虑其概率分布。假定假定i i服从正态分布,因此服从正态分布,因此Y Yi i也服从正态分布,也服从正态分布,也也服从正态分布。服从正态分布。即即291.1.随机变量随机变量u u的方差的方差随机变量随机变量u ui i的方差的方差u u2 2是一个不可能测量计算出的量。因此,是一个不可能测量计算出的量。因此,我们只能用它的估计值我们只能用它的估计值e e的方差,作为它的方差估计值。的方差,作为它的方差估计值。即即并且可证明,它还是并且可证明,它还是u
16、 u2 2的无偏估计量,即的无偏估计量,即由此可知,由此可知,的标准差估计值分别为的标准差估计值分别为302.2.回归系数估计值的显著性检验回归系数估计值的显著性检验t t检验检验模型回归系数估计值的显著性检验,即检验模型回归系数是模型回归系数估计值的显著性检验,即检验模型回归系数是否显著异于否显著异于0 0,是基本的一种假设检验。,是基本的一种假设检验。一元线性回归模型的基本出发点就是两个变量之间存在因果一元线性回归模型的基本出发点就是两个变量之间存在因果关系,认为解释变量是影响被解释变量变化的主要因素,而关系,认为解释变量是影响被解释变量变化的主要因素,而这种变量关系是否确实存在或者是否明
17、显,会在回归系数这种变量关系是否确实存在或者是否明显,会在回归系数1 1的估计值中反映出来。若的估计值中反映出来。若1 1的估计数值较大,说明两变的估计数值较大,说明两变量的关系是明显的,若量的关系是明显的,若1 1的估计数值较小,甚至无法排除的估计数值较小,甚至无法排除它等于它等于0 0的可能性,说明这两个变量之间的关系不明显,模的可能性,说明这两个变量之间的关系不明显,模型的基本设定不成立。因此显著性检验对于确定变量关系和型的基本设定不成立。因此显著性检验对于确定变量关系和模型的真实性非常重要。模型的真实性非常重要。31对回归系数估计值的显著性检验用对回归系数估计值的显著性检验用t t检验
18、。根据检验。根据 的概率分的概率分布,由数理统计知,来自单一样本的估计值布,由数理统计知,来自单一样本的估计值 的的t t统计量为统计量为对于对于 可以通过下列变换转化为服从标准正态分布的随机变可以通过下列变换转化为服从标准正态分布的随机变量量用用 代上式中未知的代上式中未知的2 2得到的统计量为得到的统计量为 服从的分布是自由度为服从的分布是自由度为n-2n-2的的t t分布。分布。32具体检验步骤如下:具体检验步骤如下:提出原假设提出原假设H H0 0:1 1=0=0,备择假设,备择假设H H1 1:1 100。计算计算t t统计量,统计量,给出显著水平给出显著水平(一般常用(一般常用0.
19、050.05或或0.010.01),查自由度),查自由度n-2n-2的的t t分布表,得临界值分布表,得临界值t t/2/2(n-2)(n-2)。做出判断。如果做出判断。如果|t|t|t|t|t|t/2/2(n-(n-2)2),拒绝,拒绝H H0 0,接受,接受H H1 1:1 100,表明,表明X X对对Y Y有显著影响。有显著影响。33补充:补充:F F检验检验与与t t检验相对比,检验相对比,t t检验属于回归系数估计值的统计显著性检检验属于回归系数估计值的统计显著性检验,是对个别参数感兴趣的检验。而验,是对个别参数感兴趣的检验。而F F检验属于回归方程的检验属于回归方程的显著性检验,它
20、是对所有参数感兴趣的一种显著性检验。显著性检验,它是对所有参数感兴趣的一种显著性检验。其检验步骤如下:其检验步骤如下:第一步:提出假设。第一步:提出假设。原假设原假设H H0 0:0 0=1 1=0=0,备择假设,备择假设H H1 1:0 01 1不同时为零。不同时为零。第二步:构造第二步:构造F F统计量。统计量。即统计量即统计量F F服从第一自由度为服从第一自由度为1 1,第二自由度为,第二自由度为n-2n-2的的F F分布。分布。34第三步:给定显著性水平第三步:给定显著性水平,查,查F F分布临界值得到分布临界值得到F F(1,n-(1,n-2)2)。第四步:做出统计决策。若第四步:做
21、出统计决策。若FFFF(1,n-2)(1,n-2)时,拒绝原假设时,拒绝原假设H H0 0,接受备择假设,则认为,接受备择假设,则认为X X与与Y Y的线性相关关系显著,即的线性相关关系显著,即回归方程显著;若回归方程显著;若F FF F(1,n-2)(1,n-2)时,接受原假设时,接受原假设H H0 0 ,则,则认为认为X X与与Y Y的线性相关关系不显著,即回归方程不显著。的线性相关关系不显著,即回归方程不显著。35补充:四种检验的关系补充:四种检验的关系前面介绍的拟合优度前面介绍的拟合优度(R(R2 2)检验、相关系数检验、相关系数(r)(r)检验、检验、t t检验检验和和F F检验,对
22、于一元线性回归方程来说,这四种检验是等检验,对于一元线性回归方程来说,这四种检验是等价的。价的。可以了解:可以了解:因此,对于一元线性回归方程,我们只需作其中的一种检因此,对于一元线性回归方程,我们只需作其中的一种检验即可。但对于多元线性回归方程这四种检验有着不同的验即可。但对于多元线性回归方程这四种检验有着不同的意义,并不是等价的,需分别进行检验。意义,并不是等价的,需分别进行检验。36补充:回归方程的标准记法补充:回归方程的标准记法为了方便,我们往往将回归方程的参数估计和系数的显著为了方便,我们往往将回归方程的参数估计和系数的显著性检验统计量结果放在一起。性检验统计量结果放在一起。例如:例
23、如:注:注:t t统计量右上角的星号表示显著性水平的大小,一个统计量右上角的星号表示显著性水平的大小,一个星号表示在显著性水平星号表示在显著性水平5%5%下显著,两个星号表示在显著性下显著,两个星号表示在显著性水平水平1%1%下显著,无星号表示下显著,无星号表示5%5%下不显著。下不显著。372.6 6 一元线性回归方程的预测一元线性回归方程的预测1.点预测点预测根据一元线性回归模型的回归直线进行预测,只要把根据一元线性回归模型的回归直线进行预测,只要把解释变量解释变量X X的一个特定值的一个特定值X X0 0代入回归方程,就可以得到代入回归方程,就可以得到被解释变量被解释变量Y Y的一个相应
24、的预测值的一个相应的预测值我们称我们称 为被解释变量的为被解释变量的“点预测点预测”。38由于回归直线与真实的变量关系不可能完全相同,而且变由于回归直线与真实的变量关系不可能完全相同,而且变量关系本身是随机函数关系,因此预测与将来实际出现的量关系本身是随机函数关系,因此预测与将来实际出现的结果之间必然存在误差。设结果之间必然存在误差。设Y Y将来实际出现的对应将来实际出现的对应X X0 0的被解的被解释变量值为释变量值为Y Y0 0,预测值,预测值 与与Y Y0 0之间的偏差之间的偏差e e0 0=Y=Y0 0-=Y-=Y0 0-(-(+X+X0 0),),称为称为“预测误差预测误差”。由于在
25、预测的当时。由于在预测的当时Y Y0 0是未知的,是未知的,因此预测误差因此预测误差e e0 0也是未知的,是一个随机变量。也是未知的,是一个随机变量。39无偏性无偏性即即 是是Y Y0 0的无偏预测,的无偏预测,E()=YE()=Y0 0。证明如下:证明如下:因此因此 是是Y Y0 0的无偏预测性质得证。的无偏预测性质得证。40X0是可任意给定的。是可任意给定的。如果如果X0在样本区间内,即为在样本区间内,即为X1,X2,Xn样本点之样本点之一,则点预测的过程称为一,则点预测的过程称为“内插预测内插预测”。如果如果X0是样本区间之外的点,则预测过程称为是样本区间之外的点,则预测过程称为“外推
26、外推预测预测”。412.区间预测区间预测(1)单个值的预测区间)单个值的预测区间令令e e0 0=Y=Y0 0-且可知且可知即可知即可知e e0 0服从均值为零,方差为服从均值为零,方差为2 2(e(e0 0)的正态分布。的正态分布。用用S Se e2 2代代2 2(e(e0 0)中未知的中未知的u u2 2得到得到2 2(e(e0 0)的估计值的估计值构造构造t t统计量统计量给出置信度给出置信度1-,1-,查自由度为查自由度为n-2n-2的的t t分布表,得临界值分布表,得临界值t t/2/2(n-2),t(n-2),t值落在值落在(-t(-t/2/2,t,t/2/2)的概率是的概率是1-
27、1-,即,即P-P-t t/2/2tttt/2/2=1-=1-整理得整理得即在置信度即在置信度1-1-下,下,Y Y0 0的置信区间为的置信区间为42因此,当置信水平因此,当置信水平1-1-给定之后,给定之后,Y Y0 0预测区间的大小由预测区间的大小由e e0 0的标准差的标准差 决定。实际由决定。实际由 绝对值的大小决定。绝对值的大小决定。X X0 0越接近样本区间内的解释变量越接近样本区间内的解释变量X X的平均值,的平均值,Y Y0 0的置信区间的置信区间就越小,预测结果就越可靠;反之,预测值就越不可靠。就越小,预测结果就越可靠;反之,预测值就越不可靠。当我们进行外推预测时,当我们进行外推预测时,X X0 0的值一般比的值一般比n n个样本点个样本点X X1 1,X,X2 2,X,Xn n都远离样本均值,且外推期越长,都远离样本均值,且外推期越长,X X0 0越远离样越远离样本均值,预测区间也就越大。本均值,预测区间也就越大。43(2 2)均值的预测区间)均值的预测区间44此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢
限制150内