第四章-多元线性回归模型.ppt
《第四章-多元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《第四章-多元线性回归模型.ppt(125页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 多元线性回归模型多元线性回归模型2 在在许许多多实实际际问问题题中中,我我们们所所研研究究的的因因变变量量的的变变动动可可能能不不仅仅与与一一个个解解释释变变量量有有关关。例例如如,对对某某商商品品的的需需求求量量不不仅仅与与该该商商品品的的价价格格有有关关,而而且且与与其其它它因因素素有有关关,如如与与消消费费者者的的可可支支配配收收入入和和该该商商品品的的替替代代品品的的价价格格有有关关。因因此此,有有必必要考虑线性模型的更一般形式,即多元线性模型。要考虑线性模型的更一般形式,即多元线性模型。t=1,2,n 在在这这个个模模型型中中,Y由由X1,X2,X3,XK所所解解释释,
2、有有K+1个个未未知知参参数数0 0、1 1、2 2、K K.其其中中,“斜斜率率”j j的的含含义义是是其其它它变变量量不不变变的的情情况况下下,X Xj j改改变变一一个个单单位位对对因因变变量量所所产产生生的影响,也称为的影响,也称为偏回归系数偏回归系数。第一节第一节 多元线性回归模型的概念多元线性回归模型的概念34上例中斜率系数的含义说明如下:上例中斜率系数的含义说明如下:价价格格不不变变的的情情况况下下,个个人人可可支支配配收收入入每每增增加加1元元,人均食品消费支出增加人均食品消费支出增加0.152元。元。人人均均可可支支配配收收入入不不变变的的情情况况下下,价价格格指指数数每每上
3、上升一个点,人均食品消费支出减少升一个点,人均食品消费支出减少5.02元。元。多元线性回归模型中斜率系数的含义多元线性回归模型中斜率系数的含义5例例2:其中,其中,Ct=消费,消费,Dt=居民可支配收入居民可支配收入 Lt=居民拥有的流动资产水平居民拥有的流动资产水平 2的的含含义义是是,在在流流动动资资产产不不变变的的情情况况下下,可可支支配配收收入入变变动动一一个个单单位位对对消消费费额额的的影影响响。这这是是收收入入对对消消费费额额的的直直接接影响。影响。收入变动对消费额的收入变动对消费额的总影响总影响=直接影响直接影响+间接影响。间接影响。(间接影响:收入(间接影响:收入流动资产拥有量
4、流动资产拥有量消费额)消费额)但但在在模模型型中中这这种种间间接接影影响响应应归归因因于于流流动动资资产产,而而不不是是收收入,因而,入,因而,2只包括收入的直接影响。只包括收入的直接影响。在下面的模型中:在下面的模型中:这这里里,是是可可支支配配收收入入对对消消费费额额的的总总影影响响,显显然然和和2的的含含义义是是不不同同的的。偏偏回回归归系系数数b bj j就就是是x xj j本本身身变变化化对对y y的的直直接接(净)影响。(净)影响。6即对于即对于n组观测值,有组观测值,有回到一般模型回到一般模型 t=1,2,,7其矩阵形式为其矩阵形式为:其中其中8 一、假设条件一、假设条件(1)E
5、(ut)=0,t=1,2,n (2)E(ui uj)=0,ij (3)E(ut2)=2,t=1,2,n (4)Xjt是非随机量,是非随机量,j=1,2,k t=1,2,n 第二节第二节 多元线性回归模型的估计多元线性回归模型的估计 多元线性回归模型的估计与双变量线性模型类似,仍多元线性回归模型的估计与双变量线性模型类似,仍采用最小二乘法。当然,计算要复杂得多,通常要借助采用最小二乘法。当然,计算要复杂得多,通常要借助计算机。理论推导需借助矩阵代数。下面给出最小二乘计算机。理论推导需借助矩阵代数。下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所法应用于多元线性回归模型的假设条件、
6、估计结果及所得到的估计量的性质。得到的估计量的性质。9 除除上上面面4条条外外,在在多多个个解解释释变变量量的的情情况况下下,还还有有两个条件需要满足:两个条件需要满足:(5)()(K+1)n;即观测值的数目要大于待估计的参数的个数即观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。(要有足够数量的数据来拟合回归线)。(6)各解释变量之间不存在严格的线性关系。)各解释变量之间不存在严格的线性关系。10上述假设条件可用矩阵表示为以下四个条件:上述假设条件可用矩阵表示为以下四个条件:(1)E(u)=0 (2)这两个条件成立时才成立,因此,这两个条件成立时才成立,因此,此条件
7、相当前面条件此条件相当前面条件(2),(3)两条,即各期扰动项互不相关,并具有常数方差。两条,即各期扰动项互不相关,并具有常数方差。E(ui uj)=0,ij E(ut2)=2,t=1,2,n显然,显然,仅当仅当由于由于11(3)X 是是一个非随机元素矩阵。一个非随机元素矩阵。(4)Rank(X)=(K+1)n.-相当于前面相当于前面(5)、(6)两条两条 即矩阵即矩阵X的秩的秩=(K+1)n 当然,为了后面区间估计和假设检验的需要,还要加当然,为了后面区间估计和假设检验的需要,还要加 上一条:上一条:(5),t=1,2,n12我们的模型是:我们的模型是:二、最小二乘估计二、最小二乘估计残差为
8、:残差为:问题是选择问题是选择 ,使得残差平方和最小。,使得残差平方和最小。t=1,2,n13要使残差平方和要使残差平方和我们得到如下我们得到如下K+1个方程(即正规方程):个方程(即正规方程):为为最小最小,则应有:,则应有:14按矩阵形式,上述方程组可表示为:按矩阵形式,上述方程组可表示为:15即=16 我们的模型为我们的模型为 三、三、最小二乘估计量最小二乘估计量 的性质的性质1 的均值的均值估计式为估计式为17 这表明,这表明,OLS估计量估计量 是无偏估计量。是无偏估计量。(由假设由假设3)(由假设由假设1)即即 182 的方差的方差 这这是是一一个个(K+1)*(K+1)矩矩阵阵,
9、其其主主对对角角线线上上元元素素即即构构成成 Var(),非非主主对对角角线线元元素素是是相相应应的的协协方方差差,如如下下所所示示:为求为求Var(),我们考虑我们考虑19下面推导此矩阵的计算公式下面推导此矩阵的计算公式.20由上一段的结果,我们有由上一段的结果,我们有因此,因此,21 如前所述,我们得到的实际上不仅是如前所述,我们得到的实际上不仅是 的方差,而且是的方差,而且是一一个个方方差差-协协方方差差矩矩阵阵,为为了了反反映映这这一一事事实实,我我们们用用下下面面的的符号表示之:符号表示之:展开就是:展开就是:22与双变量线性模型相似,与双变量线性模型相似,2的无偏估计量是的无偏估计
10、量是这是因为我们在估计这是因为我们在估计 的过程中,失去了的过程中,失去了(K+1)个自由度。)个自由度。3 2 的估计的估计23 对于对于 以及标准假设条件(以及标准假设条件(1)-(4),),普普通通最最小小二二乘乘估估计计量量 是是最最佳佳线线性性无无偏偏估估计计量量(BLUE),具具有有无无偏偏性性、具具有有最最小小方方差差特特性性、具具有有一一致致性性,渐渐近近无无偏偏性性和渐近有效性。和渐近有效性。4 高斯高斯-马尔科夫定理马尔科夫定理24 我们已在上一段中证明了无偏性,下面证明我们已在上一段中证明了无偏性,下面证明最小方差性。证明的思路与双变量模型中类似,最小方差性。证明的思路与
11、双变量模型中类似,只不过这里我们采用矩阵和向量的形式。只不过这里我们采用矩阵和向量的形式。25 现设现设 为为 的任意一个线性无偏估计量,即的任意一个线性无偏估计量,即其中其中 是一个是一个(K+1)*n非随机元素矩阵。则非随机元素矩阵。则显然显然,若要,若要 为无偏估计量,即为无偏估计量,即 ,只有,只有 ,为(为(K+1)阶单位矩阵。)阶单位矩阵。26 的方差为:的方差为:从而将从而将 的任意线性无偏估计量与的任意线性无偏估计量与OLS估计量估计量 联系联系起来。起来。我们可将我们可将 写成写成27由由 可推出:可推出:由由 从而从而 ,因此上式中间两项为,因此上式中间两项为0,我们有,我
12、们有因而有因而有即即28 因此因此 最最后后的的不不等等号号成成立立是是因因为为 为为半半正正定定矩矩阵阵。这这就就证证明明了了OLS估估计计量量 是是 的的所所有有线线性性无无偏偏估估计计量量中中方方差差最最小小的。至此的。至此,我们证明了高斯我们证明了高斯-马尔科夫定理。马尔科夫定理。29 对于双变量线性模型对于双变量线性模型 Y=+X+u其中,其中,=残差平方和残差平方和我们有我们有第三节第三节 拟合优度拟合优度一、决定系数一、决定系数R230对于多元线性模型对于多元线性模型为方便计算,我们也可以用矩阵形式表示为方便计算,我们也可以用矩阵形式表示R2.我们可用同样的方法定义决定系数:我们
13、可用同样的方法定义决定系数:31 我们有:残差我们有:残差 ,其中,其中,残差平方和:残差平方和:32而而这就是决定系数这就是决定系数R2 的矩阵形式。的矩阵形式。将上述结果代入将上述结果代入R2的公式,得到:的公式,得到:33 残残差差平平方方和和的的一一个个特特点点是是,每每当当模模型型增增加加一一个个解解释释变变量量,并用改变后的模型重新进行估计,残差平方和的值会减小。并用改变后的模型重新进行估计,残差平方和的值会减小。由由此此可可以以推推论论,决决定定系系数数是是一一个个与与解解释释变变量量的的个个数数有有关关的的量:量:解释变量个数增加解释变量个数增加 减小减小 R2 增大增大也也就
14、就是是说说,人人们们总总是是可可以以通通过过增增加加模模型型中中解解释释变变量量的的方方法法来来增增大大 R2 的的值值。因因此此,用用 R2 来来作作为为拟拟合合优优度度的的测测度度,不不是是十十分令人满意的。分令人满意的。为此,我们定义修正决定系数为此,我们定义修正决定系数 (Adjusted )如下:)如下:二、修正决定系数二、修正决定系数:34 是经过自由度调整的决定系数,称为修正决定系数。是经过自由度调整的决定系数,称为修正决定系数。我们有:(我们有:(1)(2)仅当)仅当K=0时,等号成立。即时,等号成立。即 (3)当)当K增大时,二者的差异也随之增大。增大时,二者的差异也随之增大
15、。(4)可能出现负值。可能出现负值。35 下下面面我我们们给给出出两两个个简简单单的的数数值值例例子子,以以帮帮助助理理解解这这两节的内容两节的内容.例例1 Yt=1+2X2 t+3X3 t+u t 设观测数据为:设观测数据为:Y:3 1 8 3 5 X2:3 1 5 2 4 X3:5 4 6 4 6 试求各参数的试求各参数的OLS估计值,以及估计值,以及 。解:我们有解:我们有三、例子三、例子3637383940 例例2.设设 n=20,k=3,R2=0.10 求求 。解:解:由本例可看出,由本例可看出,有可能为负值。这与有可能为负值。这与R2不同不同 ()。)。41 例例2.设设 n=20
16、,k=3,R2=0.10 求求 。解:解:由本例可看出,由本例可看出,有可能为负值。这与有可能为负值。这与R2不同不同 ()。)。迄今为止,我们已解决了线性模型的估计问题。但在迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布间的非线性关系比比皆是。如大家所熟悉的柯布-道格拉斯道格拉斯生产函数生产函数:就是一例。就是一例。在在这这样样一一些些非非线线性性关关系系中中,有有些些可可以以通通过过代代数数变变换换变变为为线线性性关关系系处处理理,另另一一些些则则不
17、不能能。下下面面我我们们通通过过一一些些例例子子来讨论这个问题。来讨论这个问题。第四节第四节 非线性关系的处理非线性关系的处理一、一、线性模型的含义线性模型的含义 线性模型的基本形式是线性模型的基本形式是:其特点是可以写成每一个解释变量和一个系数相乘的其特点是可以写成每一个解释变量和一个系数相乘的形式。形式。线性模型的线性包含两重含义:线性模型的线性包含两重含义:(1 1)变量的线性)变量的线性 变量以其原型出现在模型之中,而不是以变量以其原型出现在模型之中,而不是以X X2 2或或X X之之类的函数形式出现在模型中。类的函数形式出现在模型中。(2 2)参数的线性)参数的线性 因变量因变量Y
18、Y是各参数的线性函数。是各参数的线性函数。对对于于线线性性回回归归分分析析,只只有有第第二二种种类类型型的的线线性性才才是是重重要要的的,因因为为变变量量的的非非线线性性可可通通过过适适当当的的重重新新定定义义来来解解决决。例如,对于例如,对于 此此方方程程的的变变量量和和参参数数都都是是线线性性的的。如如果果原原方方程程的的扰扰动动项项满满足足高高斯斯马马尔尔可可夫夫定定理理条条件件,重重写写的的方方程程的的扰扰动动项项也将满足。也将满足。二、线性化方法二、线性化方法1.解释变量非线性解释变量非线性 参参数数的的非非线线性性是是一一个个严严重重得得多多的的问问题题,因因为为它它不不能能仅仅凭
19、凭重重定定义义来来处处理理。可可是是,如如果果模模型型的的右右端端由由一一系系列列的的X或或e eXX项项相相乘乘,并并且且扰扰动动项项也也是是乘乘积积形形式式的的,则则该该模模型型可可通通过过两两边取对数线性化。边取对数线性化。例如,需求函数例如,需求函数 其中,其中,Y=对某商品的需求对某商品的需求 X=收入收入 P=相对价格指数相对价格指数 =扰动项扰动项可转换为:可转换为:2.参数非线性参数非线性 用用X,Y,PX,Y,P的的数数据据,我我们们可可得得到到logY,logXlogY,logX和和logP,logP,从从而可以用而可以用OLSOLS法估计上式。法估计上式。logXlogX
20、的的系系数数是是的的估估计计值值,经经济济含含义义是是需需求求的的收收入入弹弹性性,logPlogP的的系系数数将将是是的的估估计计值值,即即需需求求的的价价格弹性。格弹性。注释注释 弹弹性性(elasticity):一一变变量量变变动动1%所所引引起起的的另另一一变变量量变变动动的百分比:的百分比:需需求求的的收收入入弹弹性性:收收入入变变化化1%,价价格格不不变变时时,所所引引起起的的商品需求量变动的百分比。商品需求量变动的百分比。需需求求的的价价格格弹弹性性:价价格格变变化化1%,收收入入不不变变时时,所所引引起起的的商商品需求量变动的百分比。品需求量变动的百分比。不可以化为线性的包含参
21、数非线性的问题不可以化为线性的包含参数非线性的问题 例例1 需求函数需求函数 本本章章1中中,我我们们曾曾给给出出一一个个食食品品支支出出为为因因变变量量,个个人人可可支支配配收收入入和和食食品品价价格格指指数数为为解解释释变变量量的的线线性性回回归归模模型型例例子子。现现用用这这三三个个变变量量的的对对数数重重新新估估计计(采采用用同同样样的的数数据据),得得到如下结果(括号内数字为标准误差):到如下结果(括号内数字为标准误差):回回归归结结果果表表明明,需需求求的的收收入入弹弹性性是是0.64,需需求求的的价价格格弹弹性是性是0.48,这两个系数都显著异于,这两个系数都显著异于0。三、例子
22、三、例子 例例2柯布柯布-道格拉斯生产函数道格拉斯生产函数 生生产产函函数数是是一一个个生生产产过过程程中中的的投投入入及及其其产产出出之之间间的的一一种关系。著名的柯布种关系。著名的柯布-道格拉斯生产函数(道格拉斯生产函数(C-D函数)为函数)为 用用柯柯布布和和道道格格拉拉斯斯最最初初使使用用的的数数据据(美美国国1899-1922年年制造业数据)估计经过线性变换的模型制造业数据)估计经过线性变换的模型得到如下结果:得到如下结果:从从上上述述结结果果可可以以看看出出,产产出出的的资资本本弹弹性性是是0.230.23,产产出出的的劳动弹性为劳动弹性为0.810.81。50 上上面面讨讨论论了
23、了因因变变量量和和解解释释变变量量都都采采用用对对数数的的双双对对数数模模型型,下下面面再再介介绍绍几几种种比比较较常常见见的的函函数数形形式式的的模模型型,为为读读者者的的回回归归实实践践多多提提供供几几种种选选择择方方案案。这这几几种种模模型型是:是:半对数模型半对数模型 双曲函数模型双曲函数模型 多项式回归模型多项式回归模型四、几种有用的变量非线性模型四、几种有用的变量非线性模型511.半对数模型半对数模型 半半对对数数模模型型指指的的是是因因变变量量和和解解释释变变量量中中一一个个为为对对数数形形式式而而另另一一个个为为线线性性的的模模型型。因因变变量量为为对对数数形形式式的的称称为为
24、对对数数-线线性性模模型型(log-lin model)。解解释释变变量量为为对对数数形式的称为形式的称为线性线性-对数模型对数模型(lin-log model)。52我们先介绍前者,其形式如下:我们先介绍前者,其形式如下:对数对数-线性模型中,斜率的含义是线性模型中,斜率的含义是Y的百的百分比变动,即解释变量分比变动,即解释变量X变动一个单位引起变动一个单位引起的因变量的因变量Y的百分比变动。这是因为,利用的百分比变动。这是因为,利用微分可以得出:微分可以得出:53 这这表表明明,斜斜率率度度量量的的是是解解释释变变量量X的的单单位位变变动动所所引引起起的的因因变变量量Y的的相相对对变变动动
25、。将将此此相相对对变变动动乘乘以以100,就就得得到到Y的的百百分分比比变变动动,或或者者说说得得到到Y的的增增长长率率。由由于于对对数数-线线性性模模型型中中斜斜率率系系数数的的这这一一含含义义,因因而而也也叫叫增增长长模模型型(growth model)。增增长长模模型型通通常常用用于于测测度度所所关关心心的的经经济济变变量量(如如GDP)的的增增长长率率。例例如,我们可以通过估计下面的半对数模型如,我们可以通过估计下面的半对数模型 得得到到一一国国GDP的的年年增增长长率率的的估估计计值值,这这里里t为为时时间间趋势变量。趋势变量。54例例3 测算测算1978-2010中国国内生产总值的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 多元 线性 回归 模型
限制150内