第十一章 多元线形回归分析.doc





《第十一章 多元线形回归分析.doc》由会员分享,可在线阅读,更多相关《第十一章 多元线形回归分析.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十一章 多元相关与回归分析第一节 多元线性回归模型多元线性回归即多个自变量对一个因变量的线性回归。一、多元线性回归模型概念以两个自变量的二元回归为例,如X1、X2和Y的关系存在关系式:E(Y) =+1X1+2X2,则Y与X1和X2之间存在多元线性相关关系,这一方程即多元线性回归模型。多元线性回归是多维空间中的超平面,如二元回归是三维空间中的一个平面。对于任意的 (X1, X2),Y的期望值就是该平面上正对(X1, X2)的那个点的Y轴值,其与实际观测点之间存在随机误差,实际观测点Yi=+1X1+2 X2+i。二、模型的建立总体未知情况下,以样本构造出一个平面来估计总体真实平面,即以平面= a
2、+b1x1+ b2x2去拟合原始观测数据。拟合的准则是最小二乘法原理,使各观测值距离拟合值的偏差平方和最小,即(yi-)2最小。由此计算出的a,b1, b2是对, 1, 2的最佳估计。例如对施肥量X1、降雨量X2和产量Y的数据,SPSS输出结果(表1):VariableBSE.BBetaTX13.810.5830.596.532X23.330.6170.495.4Constant266.732.0778.313即得到= 266.7+3.81x1+3.33x2三、回归系数的意义对于模型= a+b1x1+ b2x2,b1可以解释为:当X2不变的情况下,X1每变化一个单位,Y将平均发生b1个单位的变
3、化。如果所有自变量都同时变化,那么Y= b1X1+ b2X2+. biXi。例题:如果对产量、施肥量、降雨量做出了简单回归和多元回归模型:A模型:产量=287+5.9施肥量;B模型:产量=400+6.0降雨量;C模型:产量=267+3.81施肥量+3.33降雨量;请计算:(1)如果在每亩土地上多施10斤肥料,可以期望产量增加多少?(2)如果在每亩土地上多灌溉5厘米的水,可以期望产量增加多少?(3)如果同时在每亩土地上多施10斤肥料,并且多灌溉5厘米的水,可以期望产量增加多少?(4)由原始数据发现较高的施肥量和较高的降雨量是有联系的,如果照这样的趋势下去,那么在每亩土地上多灌溉5厘米的水,可以期
4、望产量增加多少?解:(1)Y=3.81(10)=38.1斤。(2)Y=3.33(5)=16.65斤。(3)Y=3.81(10)+ 3.33(5)= 38. 1+16.65=54.75斤(4)Y=6.0(5)=30斤。采用B模型中的简单回归系数6.0,它表示当施肥量也变化时,产量怎样随着降雨量的变化而变化。比较题2和题4,30斤的增产不只归功于降雨量,也包含施肥量的影响;而16.65斤的增产则是在施肥量不变的情况下,伴随着降雨量的增加而产生的。四、自变量为定类变量时回归系数的解释线形回归要求自变量和因变量都是定距变量,但当自变量为二项变量或定类变量时,可以将其转化为0-1变量/虚拟变量后再进行回
5、归。1、自变量为二项变量时:如研究存款额Y(百元)和年龄X1、性别X2之间的关系,令男性=1,女性=0(对照组)。如果得到如下多元回归方程:= 33+12x1-9.1x2,则x2的回归系数-9.1表示,对于同年龄的人来说,男性的存款额比女性平均减少910元。1, 中学0,其他1,大学0,其他2、自变量为定类变量时:如研究收入Y(百元)和文化程度X之间的关系,假设文化程度包括小学、中学、大学,可将文化程度转化为两个虚拟变量,D1= D2= ,D1=D2=0代表小学程度(对照组),D1=1,D2=0表示中学文化程度;D1=0,D2=1表示大学文化程度。假如得到回归方程= 33+12D1+30D2,
6、D1的回归系数表示中学文化程度的人比小学文化程度的人收入平均多1200元;D2的回归系数表示大学文化程度的人比小学文化程度的人收入平均多3000元。3、如果自变量为连续变量,但其与因变量的关系并不是线形关系,例如年龄X和身高Y的关系,可以把年龄划分成年龄段做为定类变量。对于有个水平的定类变量,需要设计n-1个虚拟变量来描述。第二节 多元线性回归模型检验一、回归系数的估计和检验在多元回归中,各个回归系数的估计值b1,b2都围绕总体回归系数1,2近似正态波动,所以可以用样本回归系数的标准误差来构造总体回归系数的置信区间。标准误差为表1中的第二列输出结果SE.B。总体回归系数置信区间公式:i= bi
7、t/2SEi,其中,i=1,2,.k;查t分布表时的自由度为n-k-1。例题:以表1为例,计算每个回归系数的95%的置信区间(k=1,2),已知n=7:解:df=7-2-1=4;查表得t0.025=2.776;1= 3.812.776(0.583)=3.811.618;2= 3.332.776(0.617)=3.331.713对回归系数进行检验即检验H0:i=0;H1:i0,即检验自变量和因变量之间是否存在线形相关关系。检验方法:计算检验统计量为t= bi-0/ SEi,计算出相应概值。SPSS可以输出t值和概值P。二、回归模型的检验即检验H0:1=2=i= 0。对多元回归做方差分析及显著性检
8、验:将总偏差平方和分解为i)2(不能由回归解释的偏差)和i-)2(可以由对X1,X2Xk的回归解释的偏差)。计算F值=可以由回归解释的方差/不能解释的方差,然后对F值与临界值进行比较,也可计算F值的概值。表2:对改革时间Y与公司规模X1和公司类型X2的二元回归作出方差分析表,包括求出概值和进行95%置信水平下的检验。SSdfMSF概值回归误差1504.412752.2072.470.001残差176.391710.38总误差1680.8019在95%的置信水平下可以拒绝原假设,说明回归效果是显著的,即回归模型有意义。 第三节 相关系数和决定系数一、复相关系数和决定系数决定系数R22=可以由回归
9、解释的偏差/总偏差=(i-)2/;R2的平方根R为复相关系数,取值范围0-1。R2=1时,说明Y的全部偏差都可以用回归方程解释,以二元回归为例,表明全部观测点正好落在拟合的回归平面上。R2越大,能用回归来解释的部分就越大,表示Y和X1,X2, Xi的线形关系越强,回归效果越好,R2也具有消减误差比例的意义。例如根据表2计算出:R2=1504.41/1680.80=0.8950559;R=0.9460739解释:应用二元回归可以解释总偏差中的89.5%,以改革时间对公司规模和公司类型作二元回归,效果是很好的。二、偏相关系数和偏决定系数决定系数反映了一组自变量对回归模型的贡献。如果想知道某一个自变
10、量的贡献,需计算引进这个变量后,所减少的残差的相对比例。以二元回归为例,设=a+b1x1+b2x2,用RSS(X1,X2)表示残差;如果只对自变量X2做简单回归模型=a+b2x2,用RSS(X2) 表示残差。则RSS(X2)肯定大于RSS(X1,X2),在已有X2的模型中再引入X1变量后,所减少的残差为RSS(X2)- RSS(X1,X2)。减少的相对残差R2Y1.2=(RSS(X2)- RSS(X1,X2) )/ RSS(X2)就是偏决定系数,表示X2已在模型当中时,再引入变量X1后,能够减少百分之多少的残差。偏决定系数的平方根为偏相关系数,其符号与拟合回归函数中相应的回归系数符号一致。偏相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十一章 多元线形回归分析 第十一 多元 线形 回归 分析

限制150内