应用统计学 第12章 多元线性回归.ppt
本章教学目标:本章教学目标:l了解回归分析在经济与管理中的广泛应用;l掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;l熟练掌握使用软件求解回归方程及其运行输出结果的分析与使用;l能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制)第第12章章 多元线性回归多元线性回归1 本章主要内容:本章主要内容:12.1 多元线性回归的数学模型12.2 参数的最小二乘估计12.3 多元回归模型的显著性检验12.4 预测与控制 本章内容重点:本章内容重点:回归方程和回归系数的显著性检验;多元线性回归及其预测和控制;软件的求解分析。2 在许多实际问题中,对某一变量 Y 有重要影响的解释变量不止一个,此时就需要研究一个随机变量 Y 与多个普通变量 X1,X2,XP 之间的回归关系,这就是多元回归问题。多元线性回归分析的原理与一元线性回归是类似的。12.1 多元线性回归的数学模型多元线性回归的数学模型3设被解释变量 Y 与 P 个解释变量 X1,X2,XP 之间存在线性相关关系。则 Y 与 X1,X2,XP 之间的多元线性回归模型为:Y=0+1 X1+2 X2+P XP+(12.4-1)设第 i 次试验数据为(xi1,xi2,xip,yi),则多元线性回归有如下数据结构:yi=0+1 xi1+2 xi2+p xip+i (12.4-2)i N(0,2),且相互独立 i=1,2,N 一一.多元线性回归的数学模型多元线性回归的数学模型4设 在多元线性回归中,同样使用最小二乘法进行参数估计。则多元线性回归方程为为参数 0,1,P 的最小二乘估计,同样称为回归方程的回归系数。二二.参数参数 的最小二乘估计的最小二乘估计5如果变量 Y 与 X1,X2,Xp 之间并无线性关系,则模型(12.4-1)式中各一次项系数应全为零。因此要检验的原假设为H0:1=2=p=0为构造检验 H0 的统计量,同样需要对总的偏差平方和 ST 作如下分解:=SE+SR同样称 SR 为回归平方和,SE 为剩余平方和。三回归方程的显著性检验三回归方程的显著性检验6检验检验 H0 的统计量的统计量可以证明,当 H0 为真时,统计量F(P,N-P-1)检验过程同样可以列成一张方差分析表。多元回归方差分析表的格式与一元回归完全相同。7在多元回归中,回归方程显著的结论仅表明模型中各 j 不全为零,但并不说明它们全不为零。也即并不能保证每个解释变量都对 Y 有重要影响。如果模型中含有对 Y 无显著影响的变量,就会降低回归方程的预测精度和稳定性。因此,需要从回归方程中剔除对 Y 无显著影响的变量,重新建立更为简单的回归方程。如果某个变量 Xk 对 Y 的作用不显著,则模型中 k 就可以为零。故要检验的原假设为 H0k:k=0,k=1,2,P四四.回归系数的显著性检验回归系数的显著性检验8 记 tk 为检验 H0k 的统计量,则当 H0k为真时,统计量 tk t(N-P-1),k=1,2,P 因此,在给定水平 下,若 tk t(N-P-1)就拒绝 H0k,说明 Xk 的作用显著。反之,则说明 Xk 的作用不显著。92.存在不显著变量后的处理存在不显著变量后的处理若经检验,Xk 的作用不显著,则应从模型中剔除Xk,并重新求解 Y 对余下的 P-1 个变量的回归方程。若检验中同时存在多个不显著的变量,则每次只能剔除一个显著性水平最低的变量,重新求解新的回归方程。再对新的回归系数进行检验,直至所有变量都显著为止。当模型中解释变量很多时,通常会存在较多的不显著变量,以上步骤就非常繁琐。更为有效的方法是采用“逐步回归”来求解多元线性回归方程。10逐步回归的基本思想是:采用一定的评价标准,将解释变量一个一个地逐步引入回归方程。每引进一个新变量后,都对方程中的所有变量进行显著性检验,并剔除不显著的变量,被剔除的变量以后就不再进入回归方程。采用逐步回归方法最终所得到的回归方程与前述方法的结果是一样的,但计算量要少得多。在 SPSS 软件的线性回归功能中就提供了逐步回归的可选项。逐步回归方法简介逐步回归方法简介11 家电商品的需求量 Y 与其价格 X1 及居民家庭平均收入 X2 有关。下表给出了某市 10 年中某家电商品需求量与价格和家庭年平均收入水平间的数据。求该商品年需求量 Y 关于价格 X1和家庭年平均收入 X2 的回归方程。【案例案例3 3】需求量与价格及收入间的关系需求量与价格及收入间的关系12 由方差分析表,Significance F=0.0001,因而回归方程极高度显著。对回归系数的显著性检验结果为:X1 的P-value=0.0268,X2 的 P-value=0.0262都是一般显著。此外还得到回归方程的标准误差:用 Excel 求解案例 3,可得回归方程如下:该值在求预测区间和控制范围时要用到。案例案例 3 3 分析分析13 预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,希望预测该商品下一年的需求量。假定下一年度居民家庭年平均收入估计在30000-31000元之间。若要以90%的概率使该商品的年需求量不低于12万台,则应将价格控制在什么范围内?案例案例3 3 需要进一步分析的问题需要进一步分析的问题14 1.预测预测 在给定解释变量的一组取值(x01,x02,x0P),由回归方程可得回归值 它是 Y0=0+1X01+2X02+pX0p+0 的一个点估计。可以证明,Y0 的置信度为 1-的预测区间为五五.预测和控制预测和控制 15 预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,求该商品年需求量的置信度为90%的预测区间。解解:由所得回归方程,可求得 该商品在该市下一年的年需求量的置信度为90%的预测区间为案例案例3 3的预测分析的预测分析=t0.05(7)0.8618=1.63=(11.20万台,14.46万台)162.2.控制控制在多元回归情况下,由于解释变量有多个,若控制问题的提法是:当要求以 1-的概率将 Y 控制在某一给定范围内,问应将各解释变量控制在什么范围内?显然此问题可以有无穷多个解。因此多元回归控制问题的一般提法是:若要将 Y 控制在某给定范围内,在给定其中 P-1 个解释变量的取值范围时,应将另一个解释变量控制在什么范围之内?多元回归的控制分析方法与一元回归是完全类似的。17 假定下一年度居民家庭的年平均收入估计在30000-31000元之间,若要以90概率使该商品在的年需求量不低于12万台,问应将价格控制在什么范围内?。解解:此问题仍是单测控制问题,即要控制 X1 的取值范围,使其中案例案例3 3的控制要求分析的控制要求分析=t0.1(7)0.8618=1.2194 18 可解得:x1 1211.167-1.903x1+0.169531-1.2194 12案例案例3 3的控制要求分析的控制要求分析(续续)19 根据我国自 1975 年到 1986 年 12 年间上述各项经济指标数据,建立计划经济时期影响我国钢材产量最合适的回归模型。【案例案例4 4】宏观经济模型宏观经济模型在计划经济时期,我国钢材产量 Y 主要与以下因素有关:原油产量 X1,生铁产量 X2,原煤产量 X3,电力产量 X4,固定资产投资 X5,国民收入消费额 X6,铁路运输能力 X7。20 即在计划经济时期,我国钢材产量主要受原油产量X1,生铁产量 X2,电力产量 X4的影响。其中原油产量与钢材产量之间是负相关的,这主要是因当时资金有限的原故。如果使用 SPSS 软件中的“逐步回归”求解,可直接得到上述结果。用用 Excel 求解本案例的分析步骤求解本案例的分析步骤 第一次回归的结果是:回归方程极高度显著,但回归系数的检验结果中除X4(电力产量)外,其他变量都不显著。经过4轮逐个剔除t统计量最小的变量后,得到最优回归方程如下:=-35.1453-0.1275 X1+0.37914 X2+0.87506 X421