《多元线性回归模型课件.pptx》由会员分享,可在线阅读,更多相关《多元线性回归模型课件.pptx(106页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 经典单方程计量经济学模型:经典单方程计量经济学模型:多元线性回归模型多元线性回归模型Multiple Linear Regression Model1一元回归分析一元回归分析1 1总体回归函数总体回归函数 线性总体回归函数线性总体回归函数:2 2总体回归模型或总体回归函数的随机设定形式总体回归模型或总体回归函数的随机设定形式3 3样本回归函数样本回归函数4 4样本回归样本回归模型模型或样本回归函数或样本回归函数的随机设定形式的随机设定形式2回归分析的主要目的:回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。32.3 2.3 一元线性回归模型的参数估计一元线性回
2、归模型的参数估计一、参数的普通最小二乘估计(一、参数的普通最小二乘估计(OLSOLS)二、参数估计的最大似然法二、参数估计的最大似然法(ML)(ML)三、参数估计的距估计法三、参数估计的距估计法42.3 2.3 一元线性回归模型的参数估计一元线性回归模型的参数估计5四、最小二乘估计量的性质四、最小二乘估计量的性质 一元线性回归模型的统计检验一元线性回归模型的统计检验 一、拟合优度检验一、拟合优度检验 二、变量的显著性检验二、变量的显著性检验 F F检验、检验、t t检验、检验、Z Z检验检验 三、参数的置信区间三、参数的置信区间 6多元线性回归多元线性回归模型内容模型内容 多元线性回归模型概述
3、多元线性回归模型概述 多元线性回归模型的参数估计多元线性回归模型的参数估计 多元线性回归模型的统计检验多元线性回归模型的统计检验案例案例73.1 3.1 多元线性回归模型概述多元线性回归模型概述(Regression Analysis)一、多元线性回归模型一、多元线性回归模型二、多元线性回归模型的基本假设二、多元线性回归模型的基本假设8一、多元线性回归模型一、多元线性回归模型9总体回归模型总体回归模型(i=1,2,n)总体回归模型总体回归模型:k为解释变量的为解释变量的数目数目;习惯习惯上,把常数项看成为虚变量的系数,该虚变量的样本观测值上,把常数项看成为虚变量的系数,该虚变量的样本观测值始终
4、取始终取1 1。于是,模型中解释变量的数目为。于是,模型中解释变量的数目为(k+1+1)。;j j称为称为回归参数回归参数(regression coefficient)。)。10总体回归模型还可以写成:总体回归模型还可以写成:总体回归函数:总体回归函数:描述在给定解释变量描述在给定解释变量Xi条件下条件下被解释变量被解释变量Yi的条件均值。的条件均值。j也也被被称称为为偏偏回回归归系系数数(partial regression coefficients),表表示示在在其其他他解解释释变变量量保保持持不不变变的的情情况况下下,Xj每每变变化化1个个单单位位时时,Y的的均均值值E(Y)的变化。的
5、变化。或或者者说说j给给出出了了Xj的的单单位位变变化化对对Y均均值值的的“直直接接”或或“净净”(不不含含其他变量)影响。其他变量)影响。总体回归函数总体回归函数11总体回归模型的矩阵表示总体回归模型的矩阵表示12样本回归函数与样本回归模型样本回归函数与样本回归模型从一次抽样中获得的总体回归函数的近似,称为从一次抽样中获得的总体回归函数的近似,称为样样本回归函数(本回归函数(sample regression function)。样本回归函数的随机形式,称为样本回归函数的随机形式,称为样本回归模型样本回归模型(sample regression model)。13样本回归函数的矩阵表示样本回
6、归函数的矩阵表示14二、多元线性回归模型的基本假设二、多元线性回归模型的基本假设151 1、关于模型关系的假设、关于模型关系的假设(与一元回归模型基本相同)与一元回归模型基本相同)假设假设1.回归模型设定是正确的。回归模型设定是正确的。假设假设2.解释变量具有变异性解释变量具有变异性假设假设3.各自变量之间不存在严格线性相关性(无完全各自变量之间不存在严格线性相关性(无完全多重共线性)多重共线性)假设假设4.随机干扰项具有条件零均值性随机干扰项具有条件零均值性假设假设5.随机干扰项具有条件同方差及不序列相关性随机干扰项具有条件同方差及不序列相关性假设假设6.随机干扰项满足正态分布随机干扰项满足
7、正态分布163.2 3.2 多元线性回归模型的估计多元线性回归模型的估计 一、普通最小二乘估计一、普通最小二乘估计 二、二、最大似然估计最大似然估计 三、矩估计三、矩估计 四、参数估计量的性质四、参数估计量的性质 五、样本容量问题五、样本容量问题六、估计实例六、估计实例 17说说 明明估计方法:估计方法:三大类方法:三大类方法:OLS、ML或者或者MM在经典模型中多应用在经典模型中多应用OLS在非经典模型中多应用在非经典模型中多应用ML或者或者MM18一、普通最小二乘估计一、普通最小二乘估计(OLS)(OLS)191 1、普通最小二乘估计、普通最小二乘估计最小二乘原理:最小二乘原理:根据被解释
8、变量的所有观测值根据被解释变量的所有观测值与估计值之差的平方和最小的原则求得参数估与估计值之差的平方和最小的原则求得参数估计量。计量。20已知已知假定假定 步骤:步骤:2122正规方程组正规方程组的的矩阵形式矩阵形式条件?条件?23 OLSOLS估计的矩阵表示估计的矩阵表示 242 2、正规方程组的另一种表达、正规方程组的另一种表达253 3、随机误差项、随机误差项 的方差的方差 2 2的的无偏估计无偏估计 M为等幂矩阵为等幂矩阵2627二、最大似然估计二、最大似然估计281 1、最大似然法、最大似然法最大似然法最大似然法(Maximum Likelihood,ML),也称,也称最最大或然法大
9、或然法,是不同于最小二乘法的另一种参数,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。其它估计方法的基础。基本原理:基本原理:当从模型总体随机抽取当从模型总体随机抽取n组样本观组样本观测值后,最合理的参数估计量应该使得从模型测值后,最合理的参数估计量应该使得从模型中抽取该中抽取该n组样本观测值的概率最大。组样本观测值的概率最大。ML必须已知随机项的分布。必须已知随机项的分布。292 2、估计步骤、估计步骤:以一元模型为例以一元模型为例Yi的分布Yi的概率函数 Y的所有样本观测值的联合概率似然函数 30对数似然函
10、数 对数似然函数极大化的一阶条件结构参数的ML估计量31分布参数的ML估计量323 3、似然函数、似然函数 334 4、MLML估计量估计量由对数似然函数求极大,得到参数估计量由对数似然函数求极大,得到参数估计量结果与参数的结果与参数的OLSOLS估计相同估计相同34分布参数估计结果与分布参数估计结果与OLS不同不同35注意:注意:ML估计必须已知估计必须已知Y的分布。的分布。只有在正态分布时只有在正态分布时ML和和OLS的结构参数估计结果的结构参数估计结果相同。相同。如果如果Y不服从正态分布,不能采用不服从正态分布,不能采用OLS。例如:选。例如:选择性样本模型、计数数据模型等。择性样本模型
11、、计数数据模型等。36三、矩估计三、矩估计Moment Method,MM371、参数的矩估计、参数的矩估计参数的矩估计就是用样本矩去估计总体矩。参数的矩估计就是用样本矩去估计总体矩。用样本的一阶原点矩作为期望的估计量。用样本的一阶原点矩作为期望的估计量。用样本的二阶中心矩作为方差的估计量。用样本的二阶中心矩作为方差的估计量。从样本观测值计算样本一阶(原点)矩和二阶从样本观测值计算样本一阶(原点)矩和二阶(原点)矩,然后去估计总体一阶矩和总体二阶(原点)矩,然后去估计总体一阶矩和总体二阶矩,再进一步计算总体参数(期望和方差)的估矩,再进一步计算总体参数(期望和方差)的估计量。计量。38样本的一
12、阶样本的一阶矩和二阶矩矩和二阶矩 总体一阶矩和总体总体一阶矩和总体二阶矩的估计量二阶矩的估计量 总体参数总体参数(期望和(期望和方差)的方差)的估计量估计量 392 2、多元线性、多元线性计量经济学模型的矩估计计量经济学模型的矩估计 如果模型的设定是正确如果模型的设定是正确,则存在一些为,则存在一些为0的条件矩。的条件矩。矩估计的基本思想是利用矩条件估计模型参数。矩估计的基本思想是利用矩条件估计模型参数。一组矩条件,等同于一组矩条件,等同于OLS估计的正规方程组。估计的正规方程组。40四、参数估计量的性质四、参数估计量的性质41说明说明在满足基本假设的情况下,多元线性模型结构在满足基本假设的情
13、况下,多元线性模型结构参数参数 的的普通最小二乘估计普通最小二乘估计、最大或然估计最大或然估计及及矩估计矩估计具有具有线性性线性性、无偏性无偏性、有效性有效性。同时,随着样本容量增加,参数估计量具有同时,随着样本容量增加,参数估计量具有渐渐近无偏性、渐近有效性、一致性近无偏性、渐近有效性、一致性。利用矩阵表达可以很方便地证明利用矩阵表达可以很方便地证明,注意证明过注意证明过程中利用的基本假设。程中利用的基本假设。421、无偏性、无偏性这里利用了假设这里利用了假设:E(X)=0432、有效性(最小方差性)、有效性(最小方差性)44五、样本容量问题五、样本容量问题451 1、最小样本容量最小样本容
14、量 所谓所谓“最小样本容量最小样本容量”,即从最小二乘原理和,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。质量如何,所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量的样本最小容量必须不少于模型中解释变量的数目(包括常数项)数目(包括常数项),即 n k+1462 2、满足基本要求的样本容量、满足基本要求的样本容量 从统计检验的角度从统计检验的角度:n30 时,Z检验才能应用;n-k8时,t分布较为稳定。一般经验认为一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。
15、模型的良好性质只有在大样本下才能得到理论模型的良好性质只有在大样本下才能得到理论上的证明。上的证明。47六、例题六、例题48地区城镇居民消费模型地区城镇居民消费模型被解释变量:地区城镇居民人均消费被解释变量:地区城镇居民人均消费Y解释变量:解释变量:地区城镇居民人均可支配收入地区城镇居民人均可支配收入X1前一年地区城镇居民人均消费前一年地区城镇居民人均消费X2样本:样本:2006年,年,31个地区个地区49数据数据50变量间关系变量间关系51变量间关系变量间关系52OLSOLS估计估计53OLSOLS估计结果估计结果54MLML估计估计55MLML估计结果估计结果56MMMM估计估计57MMM
16、M估计结果估计结果583.3 3.3 多元线性回归模型的统计检验多元线性回归模型的统计检验 Statistical Test of Multiple Linear Regression Model 一、拟合优度检验一、拟合优度检验 二、方程的显著性检验二、方程的显著性检验(F(F检验检验)三、变量的显著性检验(三、变量的显著性检验(t t检验)检验)四、参数的置信区间四、参数的置信区间 59一、拟合优度检验一、拟合优度检验 Goodness of Fit602 2、可决系数与调整的可决系数、可决系数与调整的可决系数 总离差平方和的分解总离差平方和的分解61 可决系数(可决系数(Coeffici
17、ent of Determination)该统计量越接近于1,模型的拟合优度越高。从R2的表达式中发现,如果在模型中增加解释变量,R2往往增大。这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,由增加解释变量引起的R2的增大与拟合好坏无关,所以R2需调整。62 调整的可决系数调整的可决系数(adjusted coefficient of determination)其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。调整的可决系数多大才是合适的?调整的可决系数多大才是合适的?63二、方程的显著性检验二、方程的显著性检验(F(F检验检验)Testing the Ov
18、erall Significance of a Multiple Regression(the F test)641 1、假设检验(、假设检验(Hypothesis Testing)所谓所谓假设检验假设检验,就是事先对总体参数或总体分,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原是否有显著差异,从而决定是否接受或否定原假设。假设。假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假先假定原假
19、设正确,然后根据样本信息,观察由此定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接假设而导致的结果是否合理,从而判断是否接受原假设。受原假设。判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易小概率事件不易发生发生”这一原理的。这一原理的。652、方程显著性的、方程显著性的F检验检验 方程的显著性检验,旨在对模型中被解释变量方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系与解释变量之间的线性关系在总体上在总体上是否显著成是否显著成立作出推断。立作出推断。在多元模型中,即检验模型在多元模型中,即检验模型中的中的参数参数 j是否显是否显
20、著不为著不为0。66 F F检验的思想检验的思想来自于总离差平方和的分解式来自于总离差平方和的分解式 TSS=ESS+RSS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此因此,可通过该比值的大小对总体线性关系进行推可通过该比值的大小对总体线性关系进行推断断。67地区城镇居民消费模型地区城镇居民消费模型拒绝0假设,犯错误的概率为068 3、关于拟合优度检验与方程显著性检验关于拟合优度检验与方程显著性检验关系的讨论关系的讨论 69 对于一般的实际问题,在对于一般的实际问题,在5%5%的显著性水平下,的显著性水平下,F F统计量的临界值所
21、对应的统计量的临界值所对应的R R2 2的水平是较低的。的水平是较低的。所以,不宜过分注重所以,不宜过分注重R R2 2值,应注重模型的经济意值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该义;在进行总体显著性检验时,显著性水平应该控制在控制在5%5%以内。以内。70三、变量的显著性检验(三、变量的显著性检验(t t检验)检验)Testing the Significance of Variables(the t test)71方程的方程的总体线性总体线性关系显著关系显著不等于不等于每个解释变量每个解释变量对被解释变量的影响都是显著的。对被解释变量的影响都是显著的。必须对每个解
22、释变量进行显著性检验,以决定必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。是否作为解释变量被保留在模型中。这一检验是由对变量的这一检验是由对变量的 t 检验完成的。检验完成的。721、t统计量统计量 以cii表示矩阵(XX)-1 主对角线上的第i个元素732 2、t t检验检验 设计原假设与备择假设:H1:i0 给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过|t|t/2(n-k-1)或|t|t/2(n-k-1)判断拒绝或不拒绝原假设H0,从而判定对应的解判定对应的解释变量是否应包括在模型中。释变量是否应包括在模型中。H0:i=0 (i
23、=1,2k)74地区城镇居民消费模型地区城镇居民消费模型75四、参数的置信区间四、参数的置信区间 Confidence Interval of Parameter761 1、区间估计、区间估计回归分析希望通过样本得到的参数估计量能够回归分析希望通过样本得到的参数估计量能够代替总体参数。代替总体参数。假设检验假设检验可以通过一次抽样的结果检验总体参可以通过一次抽样的结果检验总体参数可能的假设值的范围(例如是否为零),但数可能的假设值的范围(例如是否为零),但它并没有指出在一次抽样中样本参数值到底离它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多总体参数的真值有多“近近”。要判断样本参数
24、的估计值在多大程度上要判断样本参数的估计值在多大程度上“近似近似”地替代总体参数的真值,需要通过构造一个地替代总体参数的真值,需要通过构造一个以样本参数的估计值为中心的以样本参数的估计值为中心的“区间区间”,来考,来考察它以多大的可能性(概率)包含着真实的参察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的数值。这种方法就是参数检验的置信区间估计置信区间估计。77 如果存在这样一个区间,称之为如果存在这样一个区间,称之为置信区间置信区间;1-1-称为称为置信系数(置信度)(置信系数(置信度)(confidence coefficient),称为称为显著性水平显著性水平;置信区
25、间的端;置信区间的端点称为点称为置信限(置信限(confidence limit)。782、参数的置信区间、参数的置信区间在在(1-(1-)的的置信水平下置信水平下793 3、如何才能缩小置信区间?、如何才能缩小置信区间?增大样本容量增大样本容量n n,因为在同样的样本容量下,因为在同样的样本容量下,n n越越大,大,t t分布表中的临界值越小,同时,增大样本容分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小。量,还可使样本参数估计量的标准差减小。提高模型的拟合优度提高模型的拟合优度,因为样本参数估计量的标,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,
26、残差准差与残差平方和呈正比,模型优度越高,残差平方和应越小。平方和应越小。提高样本观测值的分散度提高样本观测值的分散度,一般情况下,样本观一般情况下,样本观测值越分散测值越分散,(XX)-1的分母的的分母的|XX|的值越大,致的值越大,致使区间缩小。使区间缩小。8081GPA=1.392-0.0135hsper+0.00148sat例题:=1500,2=0.273,Hsper:在高中班上的名次的百分数Sat:学习能力测验中数学与英语的综合成绩问题1:hsper的系数为负数能讲得通?问题2:评论各变量之间关系3.4 3.4 回归模型的其他函数形式回归模型的其他函数形式 82说说 明明在实际经济活
27、动中,经济变量的关系是复杂的,在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。直接表现为线性关系的情况并不多见。如著名的如著名的恩格尔曲线恩格尔曲线(Engle curves)表现为表现为幂函幂函数曲线数曲线形式、宏观经济学中的形式、宏观经济学中的菲利普斯曲线菲利普斯曲线(Pillips cuves)表现为)表现为双曲线双曲线形式等。形式等。但是,大部分非线性关系又可以通过一些简单但是,大部分非线性关系又可以通过一些简单的数学处理,使之化为数学上的线性关系,从的数学处理,使之化为数学上的线性关系,从而可以运用线性回归模型的理论方法。而可以运用线性回归模型的理论方法。
28、83一、模型的类型与变换一、模型的类型与变换 1 1、倒数模型、多项式模型与变量的直接置换法、倒数模型、多项式模型与变量的直接置换法 例如,例如,描述税收与税率关系的拉弗曲线拉弗曲线:抛物线 s=a+b r+c r2 c0 s:税收;r:税率设X1=r,X2=r2,则原方程变换为 s=a+b X1+c X2 c0。2、固定投入比例生产函数(也被称为里昂剔夫生产函数)固定投入比例生产函数是指在每一个产量水平上任何一对要素投入量之间的比例都是固定的。92函数的通常形式为 Q=min cL,dK,其中Q是产量,L、K分别表示劳动和资本,常数c、d0,分别为劳动和资本的生产技术系数,它们分别表示生产每
29、一单位的产品所需要的固定的劳动投入量和资本投入量。L3、柯布-道格拉斯生产函数933、柯布-道格拉斯生产函数 柯布道格拉斯生产函数被认为是一种很实用的生产函数,因为该函数以其简单的形式具备了经济学家所关心一些性质,它在经济理论的分析和应用中都具有一定意义。9495增加技术因素之后,可变为:96 从这个模型看出,决定工业系统发展水平的主要因素是投入的劳动力数、固定资产和综合技术水平(包括经营管理水平、劳动力素质、引进先进技术等)。根据 和的组合情况,它有三种类型:+1,称为递增报酬型,表明按技术用扩大生产规模来增加产出是有利的。+1,称为递减报酬型,表明按技术用扩大生产规模来增加产出是得不偿失的
30、。+=1,称为不变报酬型,表明生产效率并不会随着生产规模的扩大而提高,只有提高技术水平,才会提高经济效益。9798案例:表1列出了2010年中国39个制造业的工业总产值(Y)与固定资产净值(K1)、流动资产(K2)以及年均的从业人员(L)。建立2010年中国制造业的生产函数。99100Y(亿元)K(亿元)L(万人)编号行业YKL1煤炭开采和洗选业22109217855272石油和天然气开采业9917129041063黑色金属矿采选业59994182674有色金属矿采选业37992317555非金属矿采选业30931424576其他矿采选业31140.57木材及竹材采运业349281437336
31、98食品加工业1135061141769食品制造业9153652713010饮料制造业584245702111烟草加工业285081625364712纺织业12331604544713服装及其他纤维制品制造业7897341127614皮革、毛皮、羽绒及其制品业7393303814215木材加工及竹、藤、棕、草制品业4415226111216家具制造业10434794915817造纸及纸制品业356328028518印刷业、记录媒介的复制3135160212819文教体育用品制造业29239133619220石油加工及炼焦业479203194747421化学原料及化学制品制造业117419017
32、17322医药制造业495435264423化学纤维制造业5907359610324橡胶制品业13872803328325塑料制品业320572149154526非金属矿物制造业518343710234627黑色金属冶炼及压延加工业281191699319228有色金属冶炼及压延加工业201351147734529金属制品业351332400653930普通机械制造业215621687933431专用设备制造业554534022557432交通运输设备制造业433442745560433电气机械及器材制造业549713400577334电子及通信设备制造业6399456612535仪器仪表及文
33、化办公用机械制造业5663290514036其它制造业23068301437电力、蒸汽、热水的生产和供应业405515898927638煤气生产和供应业239422641939自来水的生产和供应业1137420846101根据Stata回归,输出结果如下:102资本K的散点图劳力l的散点图103lnY=1.818+0.677(lnK)+0.290(lnL)R2=0.9408回归结果表明,在2010年,lnY变化的94.1%可由资本与劳动投入的变化来解释。在5%的显著水平下,模型的线性关系显著成立。104有lnY的参数估计来看,2010年,中国工业总产出关于资本投入的产出弹性为0.677,表明当其他因素保持不变时,工业的资本投入增加1%,总产出将增加0.677%。同样的,当其他因素保持不变时,劳动力投入每增长1%,工业总产出将增加0.29%。105可见资本投入的增加对工业总产出的增加起到了更大的作用。与C-D函数中参数的差别?估计的资本投入与劳动投入的产出弹性之和为0.967,接近于1.106
限制150内