第四章 多元回归分析.ppt
第四章第四章 多元回归分析多元回归分析在许多实际问题中,一元线性回归只不过是回在许多实际问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种现归分析中的一种特例,它通常是对影响某种现象的许多因素进行了简化考虑的结果。象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣时,研究认为影响销售额的因素不只是广告宣传费传费x1,还有个人可支配收入还有个人可支配收入x2,价格价格x3,研究与研究与发展费用发展费用x4,各种投资各种投资x5,销售费用销售费用x6.因此我们需要进一步讨论多元回归问题。因此我们需要进一步讨论多元回归问题。第一节第一节 多元线性回归多元线性回归第二节第二节 可化为多元线性回归的问题可化为多元线性回归的问题第三节第三节 曲线回归曲线回归第四节第四节 逐步回归逐步回归第五节第五节 岭回归岭回归第一节第一节 多元线性回归多元线性回归 Yi=b0+b1x1i+b2x2i+bpxpi+i Y1=b0+b1x11+b2x21+bpxp1+1 Y2=b0+b1x12+b2x22+bpxp2+2 Yn=b0+b1x1n+b2x2n+bpxpn+n令令 y1 1 x11 x21 xp1Y=y2 x=1 x12 x22 xp2 yn 1 x1n x2n xpn b0 1 b1 2B=e=bp n则则 Y=XB+e一、多元线性回归模型的基本假定一、多元线性回归模型的基本假定解释变量解释变量x1,x2,xp是确定性变量,不是随机变量,是确定性变量,不是随机变量,而且解释变量之间互不相关而且解释变量之间互不相关随机误差项具有零均值和同方差随机误差项具有零均值和同方差 E(i)=0 var(i)=E(i-E(i)2=E(i)2=2随机误差项在不同样本点之间是相互独立的,不存在随机误差项在不同样本点之间是相互独立的,不存在序列相关序列相关 cov(i,j)=0 ij i,j=1,2,n cov(i,j)=E(i-E(i)(j-E(j)=E(i j)=E(i)E(j)=0 随机误差项与解释变量之间不相关随机误差项与解释变量之间不相关 cov(xi,i)=0随机误差项服从零均值,同方差的正态分布随机误差项服从零均值,同方差的正态分布 iN(0,2)二、建立回归方程二、建立回归方程设设令令 即即多元线性回归矩阵形式多元线性回归矩阵形式多元线性回归模型多元线性回归模型 Y=XB+其中,其中,Y=(y1,y2,ym)T,B=(b0,b1,bp)T,=(1,2,.,m)T,Nm(0,2 En)最小二乘法最小二乘法选择选择B使使误差平方和误差平方和 Q(B)=T=(YXB)T(YXB)达到最小。利用微积分的极值求法得达到最小。利用微积分的极值求法得正规方程正规方程 XT XB=XT YB的的估计量估计量B=(XTX)-1 XTY.称称 y=b0+b1 x1+b2 x2+bp xp 为为经验回归方程经验回归方程.称称Y=X B 为为因变量的估计值因变量的估计值.残差向量残差向量e=YY=(En H)Y 其中其中 H=X(XTX)-1XT.残差平方和残差平方和(SSE)eTe=YTY(B)T XT Y 估计量性质估计量性质(1)B=(XTX)-1XTY是是B的线性无偏估计,的线性无偏估计,D(B)=2(XTX)-1(2)E(e)=0,D(e)=2(EH).(3)Cov(e,B)=0.(4)E(SSE)=(mp1)2.(5)在假设在假设 E(Y)=X B、D(Y)=2 E时,B的任一线性函数的任一线性函数ATB(6)的最小方差线性无偏估计为的最小方差线性无偏估计为aTB,其中,其中 A 是任一是任一p+1维向维向量量.(6)当当 Y Nm(XB,2 E)时,有以下结论时,有以下结论B Nm(B,2(XTX)-1),SSE与与B相互独立,相互独立,SSE/2 2(mp1).三、多元线性回归模型的建模方法三、多元线性回归模型的建模方法1.打开文件或新建文件打开文件或新建文件2.Analyze regression liner 3.建模方法建模方法 (1)enter:强迫进入法强迫进入法 (2)stepwise:逐步选择法逐步选择法 (3)remove:强迫消除法强迫消除法 (4)backward:向后剔除法向后剔除法 (5)forward:向前引入法向前引入法 回归统计量回归统计量 (1)estimates:显示回归系数及相关的指标显示回归系数及相关的指标 (2)confidence intervals:显示未标准化回显示未标准化回归系数的置信区间归系数的置信区间 (3)covariance matrix:未标准化回归系数未标准化回归系数的方差的方差协方差矩阵协方差矩阵 (4)model fit:模型检验模型检验 (5)R squared change (6)descriptive:显示变量的均值、标准差等显示变量的均值、标准差等 (7)Part and partial correlations:(8)collinearity diagnostics:共线性诊断共线性诊断 (9)Durbon_waston:D.w.检验统计量检验统计量举例(一)举例(一)根据我国某地区乡镇企根据我国某地区乡镇企业总产值、从业劳动者业总产值、从业劳动者人数和固定资产原值的人数和固定资产原值的历年资料,求回归方程。历年资料,求回归方程。(总产值(总产值-y,从业劳动者从业劳动者人数人数-x1,固定资产原值固定资产原值-x2)yearyx1x21988490.62826.5229.601989543.42909.3280.201990649.92999.7326.301991722.32969.6375.501992840.43112.9429.301993999.03234.7475.7019941433.03848.1575.00举例(二)卫生陶瓷是我国住宅建筑、卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、饭店、宾馆、医疗卫生、体育、办公设施等建筑必体育、办公设施等建筑必不可少的卫生设备。合理不可少的卫生设备。合理地发展卫生陶瓷生产是国地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷民经济的需要。卫生陶瓷产量产量y与城镇住宅建筑面与城镇住宅建筑面积积x1,医疗卫生机构建筑医疗卫生机构建筑面积面积x2,办公室建筑面积办公室建筑面积x3有关。试根据历史资有关。试根据历史资料建立回归方程。料建立回归方程。yx1x2x34.009.001.402.906.009.001.102.804.0010.001.103.103.0017.001.004.105.0016.001.105.007.0018.001.404.5010.0010.000.801.804.009.000.400.605.009.000.500.807.0010.000.902.1011.0012.001.102.108.0014.002.204.009.0019.002.204.0010.0021.002.403.6014.0020.002.204.2018.0022.002.304.6020.0021.002.104.0024.0028.002.304.3022.0033.002.404.7026.0050.002.606.00 Y=0.488+0.576x1+4.769x2-2.145x3 (4.245)(2.404)(-2.111)举例(三)举例(三)在研究国家财政收入时,我们把财政收入按收入形式在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家能源分为各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入政收入回归模型,我们以财政收入y为因变量。自变为因变量。自变量如下:量如下:x1工业总产值,工业总产值,x2农业总产值,农业总产值,x3建筑业总建筑业总产值,产值,x4人口数,人口数,x5社会商品零售总额,社会商品零售总额,x6受灾面积受灾面积(数据见(数据见spssex/例子例子3)yearyx1x2x3x4x5x619781121.1042371397569962591558.60507619791103.3046811698645975421800.00393719801085.2051541923767987052140.00445319811089.50540021817471000722350.00397919821124.00581124839121016542570.00331319831249.006461275010351030082849.40347119841501.907617321412631043573376.40318919851866.409716361916561058514305.00443719862260.3011194401320381075074950.00471419872368.9013813417624311093005820.00420919882628.0018224586529671110267440.00508719892947.9022017653528341127048101.40469919903244.8023851766230351143338300.103847 Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6 (3.292)(-0.416)(2.341)(2.703)(-2.932)(2.595)五、回归方程的效果的检验五、回归方程的效果的检验方程显著性检验方程显著性检验参数显著性检验参数显著性检验拟合优度检验(复相关系数、偏相关系数)拟合优度检验(复相关系数、偏相关系数)对假设理论的检验对假设理论的检验例2中,方差分析表为:y1.方程显著性检验方程显著性检验(F检验检验)F检验是以方差分析为基础检验是以方差分析为基础,对回归总体线性关系对回归总体线性关系是否显著的一种假设检验是否显著的一种假设检验,是解释模型中是解释模型中被解释变被解释变量与所有解释变量之间量与所有解释变量之间的线性关系在总体上是否的线性关系在总体上是否显著的方法显著的方法利用利用F统计量进行总体线性显著性检验的步骤如下统计量进行总体线性显著性检验的步骤如下:(1)提出关于提出关于P个总体参数的假设个总体参数的假设 H0:b0=b1=b2=bp=0,H1:至少有一个至少有一个bi非零非零 (3)检验检验 给定显著性水平给定显著性水平,查查F分布表分布表 若若FF,拒绝拒绝H0,表明回归总体有显著性关系表明回归总体有显著性关系.若若Ft /2,说明拒绝原假设说明拒绝原假设若若tregression-linearPlot子对话框中选子对话框中选Histogram或或p-p图图残差残差序列的随机性分析:序列的随机性分析:可以绘制残差序列和对应的预测值序列的散可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下。地分布在经过零的一条直线上下。在线性回归在线性回归Plots对话框中的源变量表中,选对话框中的源变量表中,选择择SRESID(学生氏残差)做学生氏残差)做Y轴,选轴,选ZPRED(标准化预测值)做标准化预测值)做X轴轴残差残差序列的独立性分析:序列的独立性分析:如果回归模型中的误差项不是不相关,则称为自相关或序如果回归模型中的误差项不是不相关,则称为自相关或序列相关。列相关。Durbin-Watson检验是最常见的自相关检验方法,检验是最常见的自相关检验方法,但它仅适用于一阶自相关,即形如但它仅适用于一阶自相关,即形如i=i-1+ui。由于。由于i 未知,未知,就用残差就用残差 ei 挖代替来判断是否自相关。挖代替来判断是否自相关。H0:=0检验统计量检验统计量判别准则判别准则:当当0DWdl时,正自相关;当时,正自相关;当4dlWD4时,负自相关;时,负自相关;当当dlWDdu或或4duDWregression-statistics-case diagnostics异异方差诊断:方差诊断:线性回归模型要求残差序列服从等方差的正态分布线性回归模型要求残差序列服从等方差的正态分布一般通过绘制一般通过绘制SRESID与因变量预测值的散点图或与因变量预测值的散点图或计算计算SRESID和因变量预测值间的相关系数。和因变量预测值间的相关系数。如果残差序列和预测值的平方根成正比例变化,可如果残差序列和预测值的平方根成正比例变化,可以对因变量作开方处理;如果残差序列与预测值成以对因变量作开方处理;如果残差序列与预测值成比例变化,可以对因变量取对数;如果残差序列与比例变化,可以对因变量取对数;如果残差序列与预测值的平方成比例的变化,可以对因变量求倒数。预测值的平方成比例的变化,可以对因变量求倒数。还可以用还可以用WLS法消除异方差。法消除异方差。Box-Cox变换是通过对因变量做适当变换,达到对原始数变换是通过对因变量做适当变换,达到对原始数据的据的“综合治理综合治理”,使其尽可能满足线性回归模型的假设条,使其尽可能满足线性回归模型的假设条件。件。BoxCox变换变换确定确定值,使得值,使得 Y()满足满足 Y()=X+,N(0,2 E).利用最大似然方法可确定利用最大似然方法可确定值。值。七、预测和控制七、预测和控制所谓预测就是给定解释变量所谓预测就是给定解释变量x样本外的某一特样本外的某一特征值征值x0=(1,x10,x20,xp0),对因变量的值对因变量的值y0以及以及E(y0)进行估计。进行估计。1、y0的点预测:的点预测:2、y0的(的(1-)的预测区间:的预测区间:例例5 继例继例1,预测从业劳动者为,预测从业劳动者为3000万人,固万人,固定资产原值为定资产原值为400亿元时该地区的总产值,并亿元时该地区的总产值,并给出给出=0.05时的预测区间时的预测区间.例例6 中国民航客运量的回归模型中国民航客运量的回归模型.为了研究我国民航为了研究我国民航客运量的变化趋势及成因客运量的变化趋势及成因,我们以民航客运量作为因我们以民航客运量作为因变量变量y,以国民收入、消费额、铁路客运量、民航航线以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要里程、来华旅游入境人数为影响民航客运量的主要因素。因素。Y-民航客运量(万人),民航客运量(万人),x1-国民收入(亿元)国民收入(亿元),x2-消费额(亿元),消费额(亿元),x3-铁路客运量(万人),铁路客运量(万人),x4-民航航线里程(万公里),民航航线里程(万公里),x5-来华旅游入境人来华旅游入境人数数第二节第二节 可化为多元线性回归的问题可化为多元线性回归的问题在自然科学中,在自然科学中,y关于关于x 的数量关系多数的数量关系多数都不是简单的线性关系,而是各种各样的非都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。线性模型求得参数的估计值。多项式函数多项式函数设设则多项式化为则多项式化为:多元幂函数多元幂函数 令令 则多项式化为则多项式化为:指数函数指数函数取取则则多元对数函数多元对数函数取取则则指数函数与幂函数的积指数函数与幂函数的积 令令则则例例7 某企业在某企业在15年中每年的年产量年中每年的年产量x和总和总成本成本y,试建立试建立y对对x,x2和和x3的多项式回归方的多项式回归方程程.(数据见数据见spssex/例子例子7)如果自变量相邻数值之间大小间隔相等如果自变量相邻数值之间大小间隔相等,而且而且相邻样本点对应的因变量相邻样本点对应的因变量y的二次差分大致的二次差分大致相同相同,则该总体可配合则该总体可配合二次多项式函数二次多项式函数如果是三次差分大致相同如果是三次差分大致相同,则可配合则可配合三次多项三次多项式函数式函数例例8 根据某地根据某地1985-1993年间农产品收购额年间农产品收购额,建建立回归方程立回归方程.(数据见数据见spssex/例子例子8)MODEL:MOD_2.MODEL:MOD_2.Independent:xIndependent:xDependentDependentMthMthRsqRsqd.f.Fd.f.FSigfSigfb0b1b0b1b2b2yQUA1.0006202698.000178.0955.2238yQUA1.0006202698.000178.0955.22383.88103.8810例例9 某制造厂表面处理车间试验将铬后污水某制造厂表面处理车间试验将铬后污水同电解污泥混合同电解污泥混合,使之生成无毒溶液使之生成无毒溶液,效果很效果很好好.但实际排出污水的浓度不完全相同但实际排出污水的浓度不完全相同,而且而且一定浓度的定量铬后污水只有同定量的电解一定浓度的定量铬后污水只有同定量的电解污泥混合后污泥混合后,才能反应完全才能反应完全.现通过试验现通过试验,找找出铬后污水用量与电解污泥用量之比对于铬出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系后污水浓度之间的关系.(spssex/例子例子9)第三节第三节 曲线回归曲线回归Analyze-regression-curve estimationLinear:y=b0+b1xQuadratic:y=b0+b1x+b2x2Compound:y=b0b1xGrowth:y=e(b0+b1x)Logarithmic:y=b0+b1lnxCubic:y=b0+b1x+b2x2+b3x3S:y=e(b0+b1/x)Exponential:y=b0eb1xInverse:y=b0+b1/xPower:y=b0 xb1Logistic:y=1/(1/u+b0b1x)第四节第四节 逐步回归逐步回归在多元线性回归中,最难的是如何选择自变量的问题,在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对如果自变量选的太少,则自变量对Y的决定系数太小,的决定系数太小,导致过大的偏差,如果把与导致过大的偏差,如果把与Y有关的自变量都选入是有关的自变量都选入是不可能的,一般来讲,选的自变量愈多,不可能的,一般来讲,选的自变量愈多,ESS愈大,愈大,然而多个自变量中有相当一部分对然而多个自变量中有相当一部分对Y影响不显著,反影响不显著,反而会因自由度的减少而增大了误差。另外,多个自变而会因自由度的减少而增大了误差。另外,多个自变量间的相关会给回归方程的实际解释上造成麻烦,即量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。因此我们提出最优方程的概念,多重共线性的影响。因此我们提出最优方程的概念,要求进入回归方程的自变量都是显著的,未进入回归要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。方程的自变量都是不显著的。一、一、“最优最优”回归方程的选择回归方程的选择1.回归方程中包含尽量多的信息回归方程中包含尽量多的信息2.回归方程中包含尽量少的变量回归方程中包含尽量少的变量方法方法:逐步剔除的回归分析方法逐步剔除的回归分析方法逐步引入的回归分析方法逐步引入的回归分析方法“有进有出有进有出”的回归分析方法的回归分析方法(逐步回归分析方逐步回归分析方法法)逐步剔除法(backward)1、用全部变量建立一个回归方程用全部变量建立一个回归方程2、对每个变量进行检验,剔除偏回归平方、对每个变量进行检验,剔除偏回归平方和最小的变量。和最小的变量。3、对剩余变量再作回归,再检验、对剩余变量再作回归,再检验直至方程中没有可剔除的变量为止。直至方程中没有可剔除的变量为止。逐步引入法(逐步引入法(forward)1、将所有自变量分别与因变量建立一元线性将所有自变量分别与因变量建立一元线性回归方程,比较各自的回归平方和,将回归回归方程,比较各自的回归平方和,将回归平方和最大的变量引入回归方程。平方和最大的变量引入回归方程。2、再分别将剩余变量与因变量、再分别将剩余变量与因变量y、及已引入及已引入的变量建立二元线性回归方程,再比较回归的变量建立二元线性回归方程,再比较回归平方和,选择回归平方和最大的变量引入方平方和,选择回归平方和最大的变量引入方程。程。直至方程检验不显著为止。直至方程检验不显著为止。“逐步剔除逐步剔除”法与法与“逐步引入逐步引入”法都有明显法都有明显的不足之处的不足之处:(1)“逐步剔除逐步剔除”法计算量大法计算量大,且一旦某个自且一旦某个自变量被剔除变量被剔除,没有机会重新进入方程没有机会重新进入方程.(2)“逐步引入逐步引入”法一旦引入某个变量法一旦引入某个变量,就不就不再改变再改变.逐步回归法(逐步回归法(stepwise)1、将所有自变量分别与将所有自变量分别与y建立一元线性回归方建立一元线性回归方程,将偏回归平方和最大及通过显著性检验程,将偏回归平方和最大及通过显著性检验的变量引入方程。的变量引入方程。2、将剩余变量再分别与、将剩余变量再分别与y、及已引入方程的变及已引入方程的变量建立二元回归方程,并检验方程,剔除不量建立二元回归方程,并检验方程,剔除不显著变量。显著变量。二、偏回归平方和二、偏回归平方和设设S回回是是p个自变量个自变量x1,x2,xp所引起的回归平所引起的回归平方和,方和,Si回回是是p-1个变量个变量 x1,x2,x i-1,x i+1,xp所引起的回归平方和,那么它们的差所引起的回归平方和,那么它们的差 Qi=S回回S i回回,Qi称为自变量称为自变量xi的偏回归平方的偏回归平方和和三、逐步回归分析方法的应用三、逐步回归分析方法的应用如果要在回归方程中剔除不显著的变量,则首先应从如果要在回归方程中剔除不显著的变量,则首先应从已引入的变量中剔除对因变量贡献最小的,也就是偏已引入的变量中剔除对因变量贡献最小的,也就是偏回归平方和最小的一个变量。回归平方和最小的一个变量。设模型中已引入设模型中已引入L个自变量,个自变量,xi的偏回归平方和为的偏回归平方和为Qi(L),再假设偏回归平方和最小的变量为再假设偏回归平方和最小的变量为xk,作检验为:作检验为:在回归计算的某一步需要引进的变量应该是所有未进在回归计算的某一步需要引进的变量应该是所有未进入回归方程的变量中最显著的一个,也就是偏回归平入回归方程的变量中最显著的一个,也就是偏回归平方和最大的一个。方和最大的一个。例例10 假定某地区某个历史时期对某种消费品假定某地区某个历史时期对某种消费品的销售量为的销售量为y,居民或支配收入为居民或支配收入为x1,该类消该类消费品的价格指数费品的价格指数x2,社会保有量社会保有量x3,以及其它消以及其它消费品平均价格指数费品平均价格指数x4.试研究该地区对这种消试研究该地区对这种消费品的需求函数。费品的需求函数。(数据见数据见spssex/例子例子10)例例11 对例对例6用逐步回归法建模。用逐步回归法建模。(取(取 F剔剔=F引引=2)第五节第五节 岭回归岭回归一、岭回归的方法原理一、岭回归的方法原理用用XX+KI代替代替XX,人为降低均方误差,人为降低均方误差二、一个简单选择二、一个简单选择K值的方法值的方法三、步骤三、步骤 1.进行最小二乘估计进行最小二乘估计,2.寻找正交矩阵寻找正交矩阵U,使得使得U(XX)U=,3.利用利用U,对最小二乘估计量进行变换对最小二乘估计量进行变换,4.产生方差产生方差 2,5.令令Kt=2/max i2,6.最后利用最小二乘估计量最后利用最小二乘估计量,得到岭估计量得到岭估计量.