计量经济学-3多元线性回归模型.pptx
第第3章章 多元线性回归模型多元线性回归模型第一节:概念和基本假定第一节:概念和基本假定第二节:参数的最小二乘估计第二节:参数的最小二乘估计第三节:最小二乘估计的基本性质第三节:最小二乘估计的基本性质第四节:模型检验第四节:模型检验第五节:预测第五节:预测第一节第一节 概念和基本假定概念和基本假定一、基本概念:一、基本概念: 设某经济变量设某经济变量Y 与与P个解释变量:个解释变量:X1,X2,XP存在线性依存在线性依存关系。存关系。 1.总体回归模型总体回归模型:niuXXXYPRFiippiii, 2 , 1,:22110其中其中 0为常数项,为常数项, 1 P 为解释变量为解释变量X1 XP 的系数,的系数,u为随机扰动项。为随机扰动项。 总体回归函数总体回归函数PRF给出的是给定解释变量给出的是给定解释变量X1 XP 的值的值时,时,Y的期望的期望值:值:E ( Y | X1,X2,XP )。 假定有假定有n组观测值,则可写成矩阵形式:组观测值,则可写成矩阵形式:uXY或:nPnPPPnnnuuuXXXXXXXXXYYY2110212221212111211112.样本回归模型的样本回归模型的SRFnieXXXYSRFiiPPiii, 2 , 1,:22110二、基本假定:二、基本假定: 1、u零均值。所有的零均值。所有的ui均值为均值为0,E(ui)=0。 2、u同方差。同方差。Var(ui)=2,i=1,2,nIuu2222222122212121212121000000000000nnnnnnnTuuuuuuuuuuuuuuuEuuuuuuE 11nX 111X 6050214ji 0 321222211121121212pXRankpXXXXXXXXXiXXXXXXNuuuXCovupjXuuEEuuEuuEuuCovunPnnPPPiPiiiijijjijjiiji)()矩阵,且(为:则记:个观测值,)的第,)为(,、无多重共线。设(),(服从正态分布,、),(不相关,即)与随机扰动项,(、解释变量)(),(无自相关,、 第二节第二节 参数的最小二乘估计参数的最小二乘估计PnPnnPPXXXXXXXXX 10212222111211,如何由:一、参数的最小二乘估计一、参数的最小二乘估计02 02012 1101110111002110210)()()(由极值的必要条件有:)()(),(iPiPPiiPiiPPiiiPPiiiPPiiiiPXXXYQXXXYQXXYQXXYYYQMiniiPPipiiPiiPiPiiPiPiiiiiiiPiPiiiiiiPiPiiYXXXXXXXYXXXXXXXYXXXXXXXYXXXn 2221102222211202112211210122110整理得:iiPiiiiiPipiiPiiPiPiPiiiiiiPiiiiiiPiiYXYXYXYXXXXXXXXXXXXXXXXXXXXXn2111022122212212121121写成矩阵形式:iiPiiiiinknkkknnTipiiPiiPiPiPiiiiiiPiiiiiiPiiTYXYXYXYYYYYXXXXXXXXXXXXYXXXXXXXXXXXXXXXXXXXXXXnXX2132132133332312232221221222122121211211111容易证明:P1021T1TTTB )( )( nYYYYYXXXBYXBXX其中,也可直接对向量微分,求得结果:也可直接对向量微分,求得结果:YXXXBBXXYXBQBXXBYXBBXYYBXYBXYeeeBQMinTTTTTTTTTTTi1T2022Y )()()()(YXXXBXXYXXXYXTTTTT11)(;),(,计算;,由样本值写出矩阵求多元回归的步骤:例例1,某厂利润,某厂利润Y(百万元)主要取决于百万元)主要取决于A、B两种产品的销两种产品的销售量售量X1(万吨)、万吨)、X2(万吨),现有万吨),现有19811990年的数据,年的数据,求该厂利润求该厂利润Y随随A、B两种产品销售量变化的回归方程。两种产品销售量变化的回归方程。年份年份 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Y 13.5 15 16.5 13 17.5 14 16 18 19 21 X1 3 3.5 4 2.5 4 3 4 4.5 5 6 X2 5 6 7 5 8 5 7 8 9 10 解解:设定模型为设定模型为: Yi=0+1Xi1+2Xi2+ui 5966. 09816. 02991. 09816. 07178. 10859. 02991. 00859. 08543. 1)(11855 .6695 .1635185 .292705 .29275.1655 .39705 .391021155 .13Y 106565 . 33111121221222121121TXXYXYXYYXXXXXXXXXXXnXXXTiiiiiTiiiiiiiiiiTT.41.92,1;41.91,1,9241. 09141. 027. 69241. 09141. 027. 611855 .6695 .1635966. 09816. 02991. 09816. 07178. 10859. 02991. 00859. 08543. 1)(211万元其利润增加吨万产品销量每增加万元其利润增加万吨产品销量每增加下在其他条件不变的情况表明BAXXYYXXXBiiiTT三、最小二乘估计的性质三、最小二乘估计的性质12111130E B 2YBLYB L B YB线性性。1)()(其方差为:,小二乘估计的方差最小的线性无偏估计中,最、最小方差性。在所有)()()()(证:。)(即的一个线性无偏估计,是真实参数、无偏性。的线性组合。是,且是常数矩阵,则)(令,)(由证:的线性组合。是数据、XXBVarBBBLUBUXBXXXYXXXBBEBBLXXXYXXXTTTTTTTTTPPPPTEBVarBEBBEBEB)( )(Var B 11001100)(的方差:先求21100112110011001100200)()()()()()()()()(PPPPPPPPPPEp,0,1,2,j )Var( :)()()()()( )( )()( )()(:)(),(),(),()(),(),(),()(112j212112221011010100jjijTTTTTnTTTTTTPPPPPCBVarCXXXXXXXXLLIUUELUULELLUUEBEBBEBEBVarVarCovCovCovVarCovCovCovVar有比较另一方面0 )()()(L )()(L E B 1121122112*1121111*111*111*11*TTTTTTTTTTTPLLLLLLLLLLLLBVarBVarLLLUUELUULEEBBEBBEBVarIXBXBLBULXBLUXBLLYLBBVarBVarBB)(有:,)(由)(是常数矩阵)(设)()(计算的任一线性无偏估计,是设下证最小方差性:111T111111T111111)()(LL )()(L )(LL )( :XXLXXXXXXXXLLXXLLLLLLLLLLLLTTTTTTTTTTTTT事实上2的无偏估计量:的无偏估计量:11222pneepneSETi四、模型检验四、模型检验(一)经济意义检验(一)经济意义检验 主要是检验模型参数的符号和大小是否符合经济理论。主要是检验模型参数的符号和大小是否符合经济理论。(二)统计检验(二)统计检验 1、拟合优度、拟合优度R2检验检验 总的离差平方和的分解:总的离差平方和的分解: TSS 1R ESSRSS 222222222YnYYYnYYYTSSRSSTSSESSYYYYYYYYYYTSSTiiiiiiiii)(计算:拟合优度:)()()()(1111 111111 )()(22222pnnRpnnTSSRSSnTSSpnRSSR RRnpYnYXBRSSTSSESSYXBYYYXBYXBYXBYY BXXBYXBBXYYYBXYBXYeeRSSTTTTTTTTTTTTTTTTTTTT)(:修正的拟合优度的影响,引入对和样本容量为了消除解释变量个数.pn 1222222RRnpRRRRp较大时,相对当;相对较小时,较大,当;,当9902.079)9923.01 (111)1 (19923.0525.59067.59067.5911855 .6695 .1639241.09141.027.6525.5935.16105 .273222222pnnRRTSSESSRYXBESSYnYYTSSTTT例例2,对例,对例1进行拟合优度检验进行拟合优度检验2、相关系数检验、相关系数检验之间的相关与,考虑表示扣除变量,代表,代表用,代表,用阶偏相关就是简单相关阶偏相关。,阶,阶,阶,为变量数目的多少,可分在偏相关中,根据固定之间的关系与仅考虑如果其他变量不变,仅偏相关:。1220121i2100 210XY XYXrXXYk 11 11 11 2213220321320320123013212201120102102212202120201201。:,则可定义二阶偏相关如果增加变量同理:rrrrrrXrrrrrrrrrrrr例例3,对例,对例1进行偏相关检验进行偏相关检验 解:解: Y X1 X1 0.984 X2 0.992 0.970709. 0970. 01992. 01970. 0992. 0984. 011 970. 0r 992. 0r 984. 022212202120201201120201rrrrrrr。因此,0.6660.866 666. 0709. 0 666. 01210%5866. 0970. 01984. 01970. 0984. 0992. 011 05022212201120102102)(,查相关系数表得:给定。rrrrrrr3、F检验(总体回归方程显著性检验)检验(总体回归方程显著性检验),(成立时,有:当)()()(不成立:,备选假设:原假设11111RSS ESS 1022022222201210pnpFnpnRSSESSpnRSSpESSFHpnpnTSSRSSESSTSSHHHpF检验的步骤检验的步骤成立则认为回归方程不显著若立则认为回归方程显著成若,和,比较分布表,得临界值,查给定显著水平;统计量的观测值由样本值计算),(成立,则有若不成立;:,备选假设:提出原假设,FF 111F 0*001210FFFFFFFFpnpFnpnRSSESSHHHHp1-n )Y-(YTSS 1-p-nRSS 1-p-n )Y-(YRSS /* * F 1_RSSESS pESS p )(ESS F F 2i2ii2总和残差回归显著性临界值值平均平方和自由度表达式方差来源方差分析表ppnYYiFFRppnRRppnRSSESSF1R 001112222;F检验与检验与R2检验具有一致性:检验具有一致性:例例4,对例,对例1进行进行F检验检验55. 9)7 , 2(F 74. 4)7 , 2(2 .45121210458. 0067.5910.1005. 0*FppnESSTSSESSF4、t检验(解释变量的显著性检验)检验(解释变量的显著性检验)()(:,备选假设:原假设1100222210pnSEpnRSSHHjjp,0,1,2,j )1(1)1()1 ,0(),(11221111112pntCSEpnSEpnCtNCCNjjjjjjjjjjjjjjjjjt检验的步骤:检验的步骤:。的观测值由样本值计算统计量成立,则:若;:,备选假设:提出原假设*11010) 1(00jjjjjjjjttpntCSEtHHH;,|;,|12*2*2无显著影响对则认为若有显著影响对则认为若);(分布表,得临界值,查给定显著水平YXttYXttpnttjjjj例例5,对例,对例1进行进行t检验检验365.2)1210(,68.45966.02558.027.673.27178.12558.09141.0.188543.12558.027.62558.01210458.01205.0*2*1*0332*2221*1110*0ttttCSEtCSEtCSEtpnRSSSE均大于最后的回归模型:最后的回归模型: 451.2F 0.9902R 0.9923R (4.68) (2.73) (18) 9241. 09141. 027. 62221iiiXXY五、预测五、预测BXY XXXuBXuXXXYiiiPiiiiiiPpiii 1 122110其中,(一)(一)点预测点预测ppiiXXBXYXXXBXY0020201100000101时,有当的估计。作为总体个别值把)的估计;(的均值作为把000000|YYXYEYY点预测的两种解释:点预测的两种解释:(二)区间预测(二)区间预测TTTTXXXXddXXXX BXVarYVarXYEYVarUVarUEXYEYUXYEBXYBXYXYE010201200000000000000000 |0|E |1)(其中,)()()()()()()(令)()(,)的区间预测(、总体均值) 1()|(1) 1()|() 1() 1() 1 , 0(dU ), 0(000200022222pntdSEXYEYpnpndXYEYtpnSEpnRSSNdNU1|1)|(P 12020200020200022),为:故总体均值的区间预测)(即:)(),有:(分布表,得临界值,查给定dSEtYdSEtYdSEtYXYEdSEtYPtdSEXYEYtpntt)()(),()(),()()()(),()()()()()(令:的区间预测、总体个别值11RSS 10110 1 20 22222002222000000000000000000pnSEpnNdYYdNMddYVarYVarYYCovYVarYVarYYVarMVarMEYYMEYY EuBX YBXY Y) 1(11) 1(100200pntdSEYYpnpndYYt1111111)P 120202002020022dSEtYdSEtYdSEtYYdSEtYPtdSEYYtpntt,测为:故总体个别值的区间预)(即:)(),有:(分布表,得临界值,查给定例例5,在例,在例1中,若中,若X01=10,X02=10,求总体均值求总体均值E(Y0|X0)和总体个别值和总体个别值Y0的区间预测。的区间预测。365. 2) 1210( t 2558. 0165.249241. 09141. 027. 6)10101 (Y )10101 (X 20.05000pnRSSSEBX解:28.2 21.1, 7132.3212558. 0365. 265.24,7132.3212558. 0365. 265.24 28.1 21.2, 7132.322558. 0365. 265.24,7132.322558. 0365. 265.24| 7132.32101015966. 09816. 02991. 09816. 07178. 10859. 02991. 00859. 08543. 110101 )(000010的预测区间为:总体个别值)的预测区间为:(总体均值YXYEXXXXdTT 1pESSF CSE t5 4B 3 2111jjj*j2211pnRSSRSS SE RSS TSS ESSYXXXXXYXXXYXTTTTT、计算:、计算:)(、计算:)(,、计算:;,矩阵、根据样本观测值写出多元回归分析总结:解释变量的选择解释变量的选择 在回归模型中的解释变量,除非有明确的理论指导或其他原因,在回归模型中的解释变量,除非有明确的理论指导或其他原因,在选择上具有一定的主观性,如何正确选择解释变量是非常重要在选择上具有一定的主观性,如何正确选择解释变量是非常重要的。的。1、解释变量的边际贡献分析、解释变量的边际贡献分析 在建立回归模型时,假定我们顺序引入变量。在建立了在建立回归模型时,假定我们顺序引入变量。在建立了Y与与X1的回归模型,并进行回归分析后,再加入的回归模型,并进行回归分析后,再加入X2,考虑加入的变量考虑加入的变量X2是否有贡献:是否有贡献:X2加入后是否显著地提高了回归的解释程度加入后是否显著地提高了回归的解释程度ESS或决或决定系数定系数R2。ESS提高的量称为变量提高的量称为变量X2的边际贡献。的边际贡献。 决定一个变量是否引入回归模型,就要先研究它的边际贡献,决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确地建立模型。如果变量的边际贡献较小,说明改变量没有以正确地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。必要加入模型。分析变量的边际贡献,可以使用方差分析表为工具,根据变量分析变量的边际贡献,可以使用方差分析表为工具,根据变量引入前、后的引入前、后的RSS的变化量及其显著性检验(扣除原来引入模的变化量及其显著性检验(扣除原来引入模型的解释变量的贡献),确定该变量的边际贡献是否显著。型的解释变量的贡献),确定该变量的边际贡献是否显著。 一个简单的检验方法,就是对引入新变量后的一个简单的检验方法,就是对引入新变量后的RSS增量增量与新的与新的ESS的比值做显著性检验。的比值做显著性检验。可以利用方差分析表来进行分析。可以利用方差分析表来进行分析。 设设ESS为引入变量前的回归平方和,为引入变量前的回归平方和,ESS 为引入为引入m个新个新变量后,得到的回归平方和,变量后,得到的回归平方和,RSS为引入变量后的残差平方为引入变量后的残差平方和。和。 ANOVA表如下:表如下:平方和自由度均方差引入变量前的ESSU1pU1/p引入变量后的ESSU2p+mU2/(p+m)添加变量的边际贡献(U2-U1)m(U2-U1)/m添加变量后的RSSQn-(p+m)-1Q/( n-p-m-1)TSSn-1并检验其显著性。定义统计量:)1,()1/(/)(mpnmFmpnRSSmESSESSF显著则新增变量的边际贡献不显著则新增变量的边际贡献,若) 1,() 1,(mpnmFFmpnmFF 在新引入变量的系数为在新引入变量的系数为0的原假设下,的原假设下,) 1,() 1/(/ )(mpnmFmpnRSSmESSESSF统计量把计算出的该统计量的值与把计算出的该统计量的值与 显著水平下的临界值进行比较:显著水平下的临界值进行比较: 若引入的新变量的边际贡献显著,则应该把这些变量纳入若引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否则这些变量不应引入回归模型。回归模型,否则这些变量不应引入回归模型。2、逐步回归法、逐步回归法 如果根据理论,因变量如果根据理论,因变量Y与与k个变量个变量X1, X2,X3,Xk 有有因果关系,我们要建立的回归模型就是要在这些变量中选择正确因果关系,我们要建立的回归模型就是要在这些变量中选择正确的解释变量,根据变量的边际贡献大小,把贡献大的变量纳入回的解释变量,根据变量的边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归的过程。归的过程。 首先,分别建立首先,分别建立Y与与k个变量个变量X1, X2 ,X3,Xk 的回归模型:的回归模型:ikikkkiiiiiiiuXYuXYuXY10222102111101回归后,回归后,得到各得到各回归方回归方程的平程的平方和方和)()()( )()()()()()(222111kkkXRSSXESSXTSSXRSSXESSXTSSXRSSXESSXTSS 选择其中选择其中ESS最大并通过最大并通过F检验的变量作为首选解释变量,检验的变量作为首选解释变量,假定是假定是X1。此时可确定一个基本的回归方程:此时可确定一个基本的回归方程: 在此基础上进行第二次回归,在剩下的变量中寻找最佳在此基础上进行第二次回归,在剩下的变量中寻找最佳的变量的变量,建立建立k 1 个二元回归方程:个二元回归方程:iiuXY11101ikikkikkiiiiiiiiiuXXYuXXYuXXY1133311332221122回归后,得到各回归方程的平方和回归后,得到各回归方程的平方和:),(),(),(),(),(),(),(),(),(111313131212121kkkXXRSSXXESSXXTSSXXRSSXXESSXXTSSXXRSSXXESSXXTSS 同样,选择其中同样,选择其中ESS最大并通过最大并通过F检验的变量作为新增解释变量,假检验的变量作为新增解释变量,假定是定是X2 。此时可确定一个基本的回归方程:此时可确定一个基本的回归方程:iiiiuXXY22110 重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归模型中为止,得到最终的回归式:模型中为止,得到最终的回归式:iimmiiiuXXXY22110 也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定回归模型包括的变量,最终的结果是一致的。回归模型包括的变量,最终的结果是一致的。