第八章:多元线性回归模型.pptx
一、多元线性回归模型一、多元线性回归模型 多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:i=1,2,n其中:k为解释变量的数目,j称为回归参数(regression coefficient)。第1页/共62页也被称为总体回归函数的随机表达形式。它 的非随机(即确定)表达式为:表示:各变量X值固定(即给定)时Y的平均响应(即均值)。习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。于是:模型中解释变量的数目为(k+1)第2页/共62页 j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,X j每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了X j的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。用来估计总体回归函数的样本回归函数为:第3页/共62页其随机表示式:ei称为残差或剩余项(residuals),可看成是总体回归模型中随机扰动项i的近似替代。第4页/共62页二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定(注意和一元线性回归模型的基本假定相比较)(注意和一元线性回归模型的基本假定相比较)假设1,解释变量是非随机的或固定的,且各X之间不存在完全共线性(即无多重共线性,或解释变量之间不完全线性相关)(注:这一假设只有在多元线性回归模型的基本假定中才有,而在一元线性回归模型中没有,为什么?)。假设2,随机误差项具有零均值、同方差及不序列相关性。第5页/共62页 假设3,解释变量与随机项不相关 假设4,随机项满足正态分布 如果X是非随机机的(即为固定值),则该假设自动满足。因为一个固定值与一个随机变量之间当然不相关。推导:误差项代表了没有纳入回归模型的其他所有影响因素。因为这些影响因素中,每种因素对Y的影响都很微弱。如果所有这些影响因素都是随机的,并用代表所有这些影响因素之和,那么根据中心极限定理,可以假设误差项服从正态分布第6页/共62页3.2 3.2 多元线性回归模型的估计多元线性回归模型的估计 一、普通最小二乘估计*二、最大或然估计(Maximum Likelihood)*三、矩估计(Moment Method)四、参数估计量的性质*五、样本容量问题 六、估计实例 第7页/共62页说说 明明(注:参数有两类:结构参数和分布参数,分布参数是指随机误差项的均值和方差)估计方法:3大类方法:OLS、ML或者MM在经典模型中多应用OLS在非经典模型中多应用ML或者MM我们只学习OLS第8页/共62页一、普通最小二乘估计一、普通最小二乘估计对于随机抽取的n组观测值如果样本函数的参数估计值已经得到,则有:i=1,2n 根据最小二乘原理,参数估计值应该是右列方程组的解 其中第9页/共62页 于是得到关于待估参数估计值的正规方程组:解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值$,jj=012L。kS=+SS=+SS=+SS=+SkiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110LMLLL第10页/共62页注 意(特别重要)经济计量学精要(古亚拉提 著)将多元回归分析中的解释变量限定在2个(该类多元回归模型也称为三变量模型)。但实际中的多元回归模型的解释变量往往多于2个(有3个或3个以上),那么估计公式会更复杂。在这种情况下,必须使用矩阵代数知识。当然,本书没有使用矩阵代数知识。不过现在很少有人手工计算了,还是让计算机做这些复杂的工作吧。初学者只需先掌握含两个解释变量的多元回归模型(以避免复杂的矩阵代数运算),以下的分析都建立在以2个解释变量为前提的多元回归模型基础上。第11页/共62页三变量模型回归系数的OLS估计量(教材P156)第12页/共62页偏回归系数的含义偏回归系数体现的是解释变量对因变量的净影响或直接影响。一元回归模型中的回归系数体现的是解释变量对因变量的总影响,包括直接影响和间接影响。第13页/共62页j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。第14页/共62页埋伏笔:三变量模型参数的OLS估计量是随机变量解释:因为给定一个具体的样本,就能求出一个特定的估计值。再换过一个样本,又可以求出不同的估计值。所以参数的估计量取值随着样本的改变而改变。既然是随机变量,就可以求方差。第15页/共62页三变量模型OLS估计量方差的代数公式(教材P157)第16页/共62页总体回归模型的随机误差项 是一个随机变量,既然是随机变量,就可以求方差。将随机误差项 的方差记为 2 2客观存在,但往往未知。只能对其进行估计。第17页/共62页随机误差项 的方差 2的估计 2 表示总体误差项 的方差,这个未知方差的OLS估计量是:其中第18页/共62页实例 美国1980-1995年(非农业未偿还)抵押贷款数额Y(亿美元)、个人收入X2(亿美元)、新住宅抵押贷款费用X3(%).利用以下样本数据对多元线性回归模型进行估计。第19页/共62页第20页/共62页EVIEWS演示过程:第21页/共62页第22页/共62页第23页/共62页第24页/共62页第25页/共62页第26页/共62页 四、参数估计量的性质四、参数估计量的性质 在满足基本假设的情况下,其结构参数 的普通最小二乘估计量“尖”仍具有:线性性、无偏性、有效性。同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。第27页/共62页3.3 3.3 多元线性回归模型的统计检多元线性回归模型的统计检验验 一、一、拟合优度检验拟合优度检验 二、二、方程的显著性检验方程的显著性检验(F(F检验检验)三、三、变量的显著性检验(变量的显著性检验(t t检验)检验)四、四、参数的置信区间参数的置信区间 第28页/共62页一、拟合优度检验一、拟合优度检验1、可决系数与调整的可决系数、可决系数与调整的可决系数 总离差平方和的分解第29页/共62页 离差分解示意图第30页/共62页 可决系数该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大(Why?)。这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。第31页/共62页 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,我们不能这样做。这是因为,在R2的定义中R2=ESS/TSS并没有考虑到自由度。因此,比较相同被解释变量,但不同个数解释变量的两个回归模型的R2,就像是拿苹果和桔子比较(不具有可比性)。校正(或调整)后的判定系数可以对相同被解释变量、不同解释变量(个数不同)的两个回归模型进行比较。回归平方和的自由度=模型中偏斜率系数的个数残差平方和的自由度=n-待估计的(结构)参数的个数总体平方和的自由度=回归平方和的自由度+残差平方和的自由度=n-1第32页/共62页 调整的可决系数(adjusted coefficient of determination)在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度,此处的k表示模型中偏斜率系数的个数,。)1/()1/(12-=nTSSknRSSR第33页/共62页1)1(122-1-=knnRR 校正(或调整)后的判定系数有如下性质:1.如果模型中待估计的(结构)参数个数大于1,则校正后的判定系数 3.81,所以拒绝原假设H0,即认为抵押贷款债务与个人收入和抵押贷款费用之间总体上存在线性关系给定显著性水平0.05,可得到临界值F0.05(2,13)=3.81.第44页/共62页 2、关于拟合优度检验与方程显著性检关于拟合优度检验与方程显著性检验关系的讨论验关系的讨论 注意:此处的k表示模型中偏斜率系数的个数.第45页/共62页第46页/共62页 答:有时方程通过总体线性关系的显著性检验(F检验),但计算得到的校正(或调整)后的拟合优度值比较小,比如0.2左右。此时,我们不应对校正后的拟合优度值过分苛求,更重要的是要考察模型的经济关系是否合理。第47页/共62页三、变量的显著性检验(三、变量的显著性检验(t t检验)检验)方程的总体线性总体线性关系显著 每个解释变量每个解释变量对被解释变量的影响都是显著的。因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。第48页/共62页 设计原假设与备择假设:H1:i0 给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过|t|t/2(n-k-1)或|t|t/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。H0:i=0 (i=1,2k)注意:此处的k表示模型中偏斜率系数的个数.第49页/共62页注意:一元线性回归中,变量的显著性t检验与方程的显著性F检验是一回事。t检验与F检验都是对相同的原假设H0:1=0 进行检验.(假设常数项为0)所以,一元线性回归中,t检验与F检验一致。(如果你是光棍,别人问你全家可好,和问你一人可好是同一回事,因为你全家只有你一个解释变量)第50页/共62页 检验步骤:(1)对总体参数提出假设 H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表得临界值t/2(n-3)第51页/共62页 (4)比较,判断 若|t|t/2(n-3),则拒绝H0,接受H1;若|t|t/2(n-3),则拒绝H1,接受H0;第52页/共62页Eviews检验结果:第53页/共62页 给定显著性水平=0.05,查得相应临界值:t0.025(16-3)=2.160。可见,计算的t值(12.9910)大于该临界值,所以拒绝原假设。即:解释变量(个人收入)在95%的水平下显著,对贷款债务有显著影响。注:对解释变量“贷款费用”的显著性检验逻辑思路一样。第54页/共62页四、参数的置信区间四、参数的置信区间 参参数数的的置置信信区区间间用来考察:在在一一次次抽抽样样中所估计的参数值离参数的真实值有多中所估计的参数值离参数的真实值有多“近近”。注意:此处的k表示模型中偏斜率系数的个数.第55页/共62页第56页/共62页第57页/共62页如何才能缩小置信区间?增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。第58页/共62页在什么时候增加新的解释变量第59页/共62页第60页/共62页第61页/共62页感谢您的观看!第62页/共62页