第三章多元线性回归模型(西财教材.doc
第三章 多元线性回归模型 第一节 多元线性回归模型及基本假定问题:只有一个解释变量的线性回归模型能否满足分析具体问题的需要?怎样在一元回归的基础上引入多元变量的回归?一、多元线性回归模型的意义1、建立多元线性回归模型的意义,即一元线性回归模型的缺陷,多个主要影响因素的缺失对模型的不利影响。在一元回归模型中,如果总体回归函数的设定是正确的,那么,根据样本数据得到的样本回归模型就应该有较好的拟合效果,这时,可决系数就应该较大。相反,如果在模型设定时忽略了影响被解释变量的某些重要因素,则拟合效果会较差,此时可决系数可能会偏低,并且由于忽略了一些重要变量而对误差项的影响会加大,这时的残差项会表现出违背假定的情况。2、从一个解释变量到多个解释变量的演变。一个商品需求函数的例子,一个生产函数的例子,(教材第51页)。二、多元线性回归模型及其矩阵表示1、一般线性回归模型的数学表达式。设 i=1,2,3,n(1)在模型表达式里,仍是截距项,它反映的是当所有解释变量取值为零时,应变量Y的取值;(j=2,3,k)为斜率系数,它的经济含义是,在其它变量不变的情况下,第j个解释变量每变动一个单位,Y平均增加(或减少)个单位,这就是所谓的运用边际分析法对多元变量意义下回归参数的解释称为偏回归系数,它反映了第j个解释变量对Y的边际影响程度。2、总体回归函数,即 (2)3、样本回归函数,即 (3)4、将n个样本观测值代入上述表达式(1),可得到从形式上看,像似方程组的形式。并在此基础上,转化成矩阵表达的形式,即三、模型的基本假定在一元线性回归模型的基础上,可将在第一章中提出的基本假定平行地推到多元回归模型中去,但对多个解释变量之间还需做出新的假定。下面给出多元线性回归模型的基本假定。1、零均值假定2、同方差和无自相关假定 3、随机扰动项与解释变量不相关假定4、无多重共线性假定解释变量之间要求无多重共线性的意义。5、正态性假定独立同分布,且。 第二节 多元线性回归模型的估计一、参数的最小二乘估计1、构造残差平方和。设为一组样本观测值,按残差的定义,有进一步得到残差平方和, 2、最小二乘准则。求这样的,使得函数Q有最小值。按照极值原理,求上述参数的偏导数,得这样可以如下正规方程组 注意方括弧里的表示,即 用矩阵表示为 由回归模型的样本估计形式 对上式两端同时乘以X,得 由前述知Xe=0,所以得到如下表示根据无多重共线性假定,这时有存在,从而解出,得 即参数估计的矩阵表达式,中各分量就是参数的估计值,即。这样,我们便得到样本回归模型 3、偏回归系数。对模型的中参数估计值的解释。(j=2,3,k)表明的是(j=2,3,k)对的边际影响。多元线性回归模型的标准化形式。对变量进行标准化变换可得到模型的标准化形式,用标准化形式能够真实地反映每一个解释变量对应变量的直接影响。标准化变换过程如下,例3.2.1根据表3.1的数据,用EViews软件计算得线性回归模型如下,其中Y表示家庭书刊消费水平,X表示家庭收入,T表示户主受教育年限。Dependent Variable: YMethod: Least SquaresSample: 1 18Included observations: 18VariableCoefficientStd. Errort-StatisticProb. C-50.0163849.46026-1.0.3279X0.0.2.0.0101T52.370315.10.067020.0000R-squared0. Mean dependent var755.1222Adjusted R-squared0. S.D. dependent var258.7206S.E. of regression60.82273 Akaike info criterion11.20482Sum squared resid55491.07 Schwarz criterion11.35321Log likelihood-97.84334 F-statistic146.2974Durbin-Watson stat2. Prob(F-statistic)0.下表为各变量描述统计的一些数字特征: YXT Mean 755.1222 1942.933 12.16667 Median 637.3500 1989.900 11.00000 Maximum 1253.000 3624.600 20.00000 Minimum 450.0000 1027.200 7. Std. Dev. 258.7206 698.8325 3. Skewness 0. 0. 0. Kurtosis 2. 3. 2. Jarque-Bera 2. 1. 1. Probability 0. 0. 0. Observations181818下表为变量经过标准化后的回归估计结果:Dependent Variable: YYMethod: Least SquaresDate: 10/21/01 Time: 20:38Sample: 1 18Included observations: 18VariableCoefficientStd. Errort-Statistic Prob. XX0.0.2.0.0101TT0.0.10.067020.0000R-squared0. Mean dependent var8.59E-08Adjusted R-squared0. S.D. dependent var1.S.E. of regression0. Akaike info criterion0.Sum squared resid0. Schwarz criterion0.Log likelihood2. F-statistic146.2974Durbin-Watson stat2. Prob(F-statistic)0.可以看出,户主受教育时间的长短对家庭书刊消费水平的直接影响最大,其次才是家庭的收入,这一实证结论与现实情况一致。例如,分析房屋售价(PRICE)与住房面积(SQFT)、卧房间数(BEDRMS)、洗澡间数(BATHS)之间得关系。数据由下表给出 TABLE Data for Single Family Houses回归估计结果如下:书写格式为: = 60.817 + 0.0866*SQFT - 24.577*BEDRMS+31.006*BATHS t= (0.823) (2.948) (-1.465) (1.026) se=(73.922) (0.029) (16.733) (30.226)Prob=(0.4298) (0.0146) (0.1736) (0.3292) R2=0.652 =0.548 F=6.248变量经标准化后的估计结果PRICE1 = 0.6923SQFT1-0.2991BEDRMS1+0.2496BATHS1二、参数最小二乘估计的最优性质关于在多元线性回归模型中参数估计的最优性质,可根据一元线性回归模型的情况平行得到,这里不再详细给予说明。这些性质是1、线性性。2、无偏性。3、有效性(方差最小性)。4、一致性(大样本)。三、随机扰动项方差的估计随机扰动项方差的估计和标准差的估计分别是在EViews的回归估计结果中,这一估计已直接计算出。第三节 多元线性回归模型的检验一、拟合优度检验1、多重可决系数。多重可决系数用表示。其推导过程与一元回归模型的情况一致。公式为: 2、修正的可决系数。为什么要用修正的可决系数?参见一例(教科书第71页4题)。实际上,从的计算也可看出:(1)在方程中增加一个解释变量,TSS不发生变化,而ESS会明显增大,这是因为方程的解释力增强了,这就造成一种错觉,只要增加解释变量就会提高方程的解释力;(2)在样本容量一定的情况下,增加解释变量会使自由度减小,从而降低模型的可靠性。 式中k为参数的个数,n为样本容量。 3、与的关系 或者 (与之关系的数学推导作为课外练习)。当k=1时,即只有截距项时,。当k1时,。有时可能会出现负值,这时令=0。(即当时,会出现0的情况,如果仍然用去判断拟合优度,将会失去意义。因此,只适用于Y与的整体相关程度比较高的情况。赵国庆,2001,pp.66-pp.67)。利用修正的可决系数可以判断新增加的解释变量对应变量的影响程度,当模型中增加一个解释变量时,如果变小,则会增大,便可认为这个解释变量是对Y有显著性影响,这时可将该变量放进模型,否则,应于放弃(于俊年,2000,pp60)。二、F检验1、F检验的意义(1)检验的不足。尽管具有对模型整体拟合状况的判断,但它并不能得到到底要多大时回归方程才算通过了拟合优度检验。虽然R2能够给出了评价模型拟合好坏的度量,但不能回答只有当R2=0时,才表明X完全不能解释Y。根据可决系数与相关系数之间的关系可知,即使总体相关系数为零,未必样本相关系数就正好是零。这就提出了一个问题,X与Y的样本相关系数不为零(),是否表示了X与Y的总体相关系数也不为零()。所以要精确地回答这一问题,就需要F检验来解决。(2)F检验的目的。F检验正是基于的不足而提出的对回归方程整体的精确检验。它的目的是,对于多元线性回归模型,从整体上看,多个解释变量与应变量之间是否存在显著的线性关系,或者说Y的变动是否依赖于这些解释变量的变化。;不全为零 F(k-1,n-k)由F统计量的构成可以看出(可以证明ESS服从自由度为k-1的分布,RSS服从自由度为n-k的分布),如果ESS显著地大于RSS,则表明不能认为所有的全为零,这时在很大程度上要拒绝。则在该意义下,说明回归方程中的解释变量对应变量存在影响。因此,给定显著性水平,查F分布表,得临界值,其中k为参数的个数,n为样本容量。若F,则拒绝原假使,表明回归函数从整体上看是显著的,即所有解释变量对应变量有显著性影响。2、F检验与t检验的联系与区别(1) 联系,在一元回归模型中有t2=F,即t检验与F检验是一致的,但在多元回归模型中,则无这一关系,甚至有的时候它们之间存在完全相反的检验结果(参见教科书第68页例3.5.2)。(2)区别,t检验是针对个别参数的显著性,而F检验是针对模型整体的显著性。3、F检验与可决系数R2的关系根据这一关系式,我们做了如下测算,来看F统计量与R2的实证基础。如果当n=30,k=6,=0.05时,查F分布表,得临界值,则只须R20.3531;当n=20, k=6, =0.05时, 得,则只须R20.5139。可见当样本容量较大时,拟合优度可低一些,但当样本容量较小时,则拟合优度要求就高。否则显著性检验难以通过。练习:试讨论F检验与可决系数R2 的区别。 三、t检验关于t检验在第二章已经作了详细介绍,而且在多元线性回归模型里与一元的情况是一致的。需要注意的是在多元线性回归模型对参数的t检验中,即 t(n-k)这里是服从的自由度为(n-k)的t分布。因此,在多元的情况下,运用t检验的操作过程如下(1)提出假设(2)构造检验统计量在H0成立的情况下,有t(n-k)(3)计算t统计量值,。(4)根据t分布,给定显著性水平,查表得临界值。(5)比较判断,若>,则拒绝H0,同时接受H1。表明第j个解释变量xj对被解释变量y存在显著性影响;否则,表明第j个解释变量xj对被解释变量y不存在显著性影响。统计检验归纳如下表:类型1、假设条件2、检验统计量3、自由度4、临界值比较判断参数n-k2>4拒绝H0模型k-1n-k2>4拒绝H0拟和优度一元用,多元用0<<1,0<<1第四节 多元线性回归模型的预测一、点预测二、区间预测三、建立样本多元线性回归模型的步骤1、 估计多元回归参数。2、 写出样本回归模型表达式。3、 计算残差。4、 计算参数估计值的标准差。5、 检验。(1) 计算与;(2) 计算t统计量与F统计量(3) 对模型进行评价(参数个体、模型整体)第五节 如何运用计量经济学模型分析经济问题 计量经济学建立模型的三个要素:理论、数据、方法。一、选题 选题 发现问题 阅读文献1、查阅文献,确定研究问题的对象,即选题(解决怎样发现问题、发现什么问题)。2、分析有关理论和现实,设定理论函数,包括确定模型中的变量和模型的函数形式。对所研究对象的行为理论进行分析,它是计量经济分析的基础。如研究宏观经济问题,则需要研究宏观经济理论和运行机制,各行为主体的行为理论;如研究消费问题,则要认识消费理论,分析各类消费者的消费行为。在选择变量中要注意两点:(1)能否正确体现所研究经济活动的经济学内涵,变量的引入必须要慎重。(2)从技术上讲,变量的选择不是一次性完成的,需要经过多次反复地测算、实验和检验才能完成。例如,研究生产活动中产出量与影响产出量的诸因素之间的关系,在供给环境下,应考虑各种投入要素如资本、劳动力、能源等作为解释变量;在需求环境下,应考虑反映需求的因素如收入、人口等。但应用不同的方程进行反映,原因是产出量与需求量并不一定相等(有均衡与非均衡之分)。再例如,研究消费活动,选择消费额作为被解释变量,在不同的消费理论下,解释变量的选择是不同的。如绝对收入假说、相对收入假说、持久收入假说等,还有消费结构、消费类型等问题。下面是几个存在问题的样本估计模型。 确定模型函数形式的几点经验:(1)计量经济模型的建立(或确定变量之间的关系形式)主要依据经济行为理论。在经济学原理中已有较成熟的行为理论如生产函数、消费函数、需求函数、投资函数等。任何建立在一定经济学理论基础之上的理论模型,如果依据样本估计得到的函数不能很好地解释过去,尤其是历史统计数据,则它就不能被人们所接受。因此,从此意义上讲,模型的建立要在参数估计、检验的全过程中不断地反复修改,以得到一个能有较好的经济学解释,同时又能较好地反映历史上已发生的各变量之间关系的数学模型。(2)根据样本数据对解释变量与被解释变量之间关系做出散点图,通过散点图显示变量之间的函数关系作为模型的数学形式。例如教科书第42页的实例。(3)如果无任何先验信息,则可采用不同的形式进行模拟实验,以选择出模拟效果较好的一种。3、收集有关数据,对数据的预处理。即收集、处理反映研究对象的活动水平、相互间联系以及外部环境的数据。对数据的要求主要是针对数据的质量问题。包括:完整性、准确性、可比性、一致性。除此之外,对数据还要考虑它的可得性和可用性,即根据研究问题的目的不同,来确定对数据的要求。如模型是用来进行预测,则对参数估计值的最小方差性要求就较高;如果模型是用来进行结构分析或政策评价,则参数估计值的无偏性就很重要。在存在多种数据可供选择时,应比较参数估计值的统计性质(通过统计检验)以选择较好的样本数据。 二、估计未知参数三、检验1、经济意义检验。(1)符号问题。此例中,电力消耗量前的符号不正确,应考虑模型的函数形式、变量的选取等是否存在不足,数据在口径上是否一致,是否存在异常值。(2)参数估计值的大小问题。工业部门新增固定资产与上年国有工业固定资产原值前的系数均应小于1。(3)判断经济行为确定的参数之间的关系是否存在的问题。在该方程种收入弹性为1.2,价格弹性为-6.4。但根据需求原理,在齐次性条件下,当需求量用价值量表示时,推得的所有弹性之和应等于1。2、统计检验。针对样本回归模型对总体回归模型的推断。3、计量经济学检验。针对违背基本假定情况的检验。4、模拟检验。针对模型与样本数据或外推数据的配合的检验。四、运用模型解释经济问题、应用本单元小结(包括第一、二、三章内容):一、基本概念计量经济学模型:变量、数据、模型(定义及类型)总体回归函数、样本回归函数、随机误差项的引入、基本假定(六条)二、基本方法计量经济分析步骤、最小二乘法、参数的区间估计、检验(模型的整体检验和局部检验)、预测(点预测和区间预测)三、基本理论样本回归线的性质、参数估计的最佳线性无偏性质四、计算机操作正确解释Eviews的计算结 (由变量的关系所引出)。2、总体回归函数与样本回归函数(由推断统计的思想所导出)。3、随机误差项(建立计量经济模型的重要切入点)。4、最小二乘法(经典计量经济学的核心方法)。5、对参数估计的最佳线性无偏性质的理解(基本假定与这些性质成立的联系)。6、t检验(一元与多元相一致)。7、(一元与多元不一致)。8、F检验(更强调多元情况下的使用)。9、预测。