利用SPSS进行线性回归分析的一个实例.pdf
《利用SPSS进行线性回归分析的一个实例.pdf》由会员分享,可在线阅读,更多相关《利用SPSS进行线性回归分析的一个实例.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:!#!$%&(&$&)$&$&%$利用()(进行线性回归分析的一个实例!喻开志(重庆师范学院 数学与计算机系,重庆$#)摘要:通过建立一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资,说明*)(在建立回归方程中的巨大作用。关键词:()(;线性回归;相关;方差;显著性水平中图分类号:+!,!-&文献标识码:.回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎是所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。但是回归分析对数据的处理是一大难题,且一般的社会工作者不可能也不必要
2、对数理统计有深入的了解。()(针对这个问题应运而生,它只要社会工作者掌握一定的/0 1 23 4 5 6操作技能,粗通统计学原理,就可以使用该软件进行回归分析。下面,我们用!%!%#!年美国某银行职员情况调查的数据,建立了一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资。从中我们将看到()(在建立回归方程中的巨大作用。!选变量变量的选取是很重要的,如果自变量和被预测的变量根本没有关系,则不能线性回归来预测,所以我们必须看一下变量相关性和偏相关性。因为一般认为初始工作与当前工资存在较大的相关性,我们通过图!散点图来观察一下,是否存在这种关系。否则,将不能继续我们讨论的问题。图
3、!初始工资与当前工资散点图收稿日期:&$!7!$7&8作者简介:喻开志(!%#7),男(汉族),四川新都人,在读硕士研究生,主要从事随机经济系统分析与模糊数学研究-从图!明显可以看出存在线性关系,因此同样可判定建立线性回归方程。从图中明显可以看出!,#$,#%&,#!,#(,)(),($是奇异点或影响点。对此我们可以在以后的线性回归时,注意一下这些点。看是把这些点剔出,还是保留。我们还想了解工作经验、工作种类、受教育年限对当前工资是否存在影响。即我们试图建立一个使用初始工资、工作经验、工作种类、受教育年限作自变量的回归方程来预测当前工资。这就需要我们看一下当前工资是否与工作经验、工作种类受教育
4、年限存在相关关系。那么,我们就得检验一下它们的偏相关关系(控制了初始工资),表!至表)是它们的检验结果。表!工作经验与当前工资偏相关关系检验表*+,-.+/0 1,2/+-.1 3 0 1 2 4 4.0.2 3-50 6 7 8 9 6:;7 5+/?2 .35+/+,A*,2 B 2 C*5+/+,A!%(%)*DE%#$)((!)*D%*,2 B 2 C*E%#$)((!)*D%!%(%)*D(0 6 F=;G;F 7 8(H 4)#E 8 I;:F J5;”;K L 9;7 8 F J;=I G 6 F=;G;F 7 8 G I 7 7 6 8 M F G 6 N L O 8 F J表
5、#工作种类与当前工资偏相关关系检验表*+,-.+/0 1,2/+-.1 3 0 1 2 4 4.0.2 3-50 6 7 8 9 6:;7 5+/?2 .35+/+,AP 1?0+-5+/+,A!%(%)*DE%)#((!)*D%P 1?0+-E%)#((!)*D%!%(%)*D(0 6 F=;G;F 7 8(H 4)#E 8 I;:F J5;”;K L 9;7 8 F J;=I G 6 F=;G;F 7 8 G I 7 7 6 8 M F G 6 N L O 8 F J表)受教育年限与当前工资偏相关关系检验表*+,-.+/0 1,2/+-.1 3 0 1 2 4 4.0.2 3-50 6 7
6、 8 9 6:;7 5+/?2 .35+/+,A2 H Q 05+/+,A!%(%)*DE%#!%((!)*D%2 H Q 0E%#!%((!)*D%!%(%)*D(0 6 F=;G;F 7 8(H 4)#E 8 I;:F J5;”;K L 9;7 8 F J;=I G 6 F=;G;F 7 8 G I 7 7 6 8 M F G 6 N L O 8 F J从中我们看出工作经验、工作种类、受教育年限与当前工资的偏相关系数分别为:E%#$),E%)#,%#!都与当前工资有相关关系,所以可以建立一个使用工作经验、工作种类、受教育年限作自变量的回归方程来预测当前工资。图#5 G I 8 8 F 9
7、L:6 8散点图图)*E*概率图图(残差直方图#选数据经过步骤!以后,马上进行回归分析就错了。我们进行回归分析是在若干假定之下,即对数据是有要求的。这就需要我们需要考虑:(!)是否满足方差齐性的要求。从图#的5 G I 8 8 F 9 L:6 8散点图(以回归预测值为C轴,以标准%)!重 庆 工 学 院 学 报化残差为!轴)看,如果它的大部分都落在(#,#)范围之内,就可以认为它满足这个条件;($)是否满足正态性的要求。从图#的%概率图,和图&残差直方图都可以明显看出它满足这个假设。此外还可以用描述统计分析过程(()*+,-.中的/.0 1+,2 3,4.0来检验它是否满足正态性的要求,利用峰
8、度和偏度,本文没有。对于不满足的情形只有进行数据变换,目前还没有有效的方法)接下来我们就需要考虑奇异值和影响点的问题:从表&的奇异值数据表中明显可以看出我们的判断是正确的,5 6,#$,$7 8,$5 6,$9&,#,&:的确可能是令人生疑的。此外,可以从;*1.,?A0,/,0 3*1.,?.3.+.BC*=(.的值中判断它们是否为奇异值。例如第5 6个观测值,它的;*1.(与一般的距离的区别在于它主要从概率意义上来讲)值为9 D 7#E 7 E适中,与中心值适中,故第5 6个观测值不是影响点;?A0/,0 3*1.,值为7 D 5 7 E E 9,故这个值被删除以后以其他观测量进行回归
9、,回归方程的残差变化不大,所以可以认为这个值不为影响点;?.3.+.BC*=(.值为7 D 7 5&6 6,故第5 6这个观测值和所有&9&次值的平均数之间的距离为7 D7 5&6 6,即中心很近,故可以认为它不是影响点。以上#种系数都说明第5 6个观测值不是影响点。这的确让我们大吃一惊,与我们直观不符。所以我没有把第5 6个观测值排除在回归方程之外。从输出的数据;*1.,?A0,/,0 3*1.,?.3.+.BC*=(.值,我认为没有影响点(若有,则可以剔除它;或者用响应变量均值漂移的方法或者方差漂移的方法$,#)。故我让全部数据参与了回归分析。表&奇异值数据表?*0.F()G.+3 B D
10、 H.0,B(*=?(+.3 *=*+I%+.B,1 3.BC*=(.H.0,B(*=5 6E D 7#&!5 7#9 8 7!E$#9&D#!&5#9 8 D E 9#$#D&6#!5 5 7E$8!6 E9&$D$!$#6 6$D 9 65 7#D&8 7!:97 7 7!9#&D 6 6!$#E 8 8 D 5$5 7 E#D 8 6$!:5$8 7!E EE 6 9 D E 7!$&8 E$D&7$7 8#D&6 E!E E9 8 7!:7E 8&D E 5!$#:7&D E 5$5 6E D:#E!6 77 7 7!#$&5 D 8&!&98 8 6 D&E$9&D 8 7 8!6#
11、9 8 7!8$6 8 6 D:6!#76:5 D 7$&E#D 7&:!5 77 7 7!9:7:9 D 7 E!$7:7$D:&8D 9 5#!:7E$8!E 85 E E D#6!$8&8 6 D E$*/.2.B.3C*+,*G=.:?(+.3 *=*+I#进行回归回归分析中如果只注重模型的一些描述性的统计量或只注重结果,那就错了。其实%是怎样在回归的过程中剔除变量的,回归方程中系数的含义倒底是什么?这些问题很容易让人忽略但却是相当重要的。下面我们着重通过表8、表E、表9、表6来说明问题。表E回归分析基本情况表;B.=()B+IJ;B.=HH K(*+.L B M(0 3.BH K
12、(*+.B D N+J3 0 3*3),O.P,P*=*+IG D%+.B,1 3 +0:(?0 3*3),O.P,P*=*+I,N)2=I).3?*3.P +I1 D%+.B,1 3 +0:(?0 3*3),O.P,P*=*+I,N)2=I).3?*3.P +I,%+.4,(0N Q 2.+,.1.()3 0 3*3),O.P,P*=*+I,N)2=I).3?*3.P +I,%+.4,(0N Q 2.+,.1.()3 3 1.R,+.D%+.B,1 3 +0:(?0 3*3),O.P,P*=*+I,N)2=I).3?*3.P +I,%+.4,(0N Q 2.+,.1.()3 3 1.R,+.
13、,N B(1*3,*=S.4.=(I.*+0)J D/.2.B.3C*+,*G=.:?(+.3 *=*+I(5)回归方程编号(第5列)($)复相关系数(第$列)都较大,即自变量或自变量的线性组合能多大程度上解释因变量。看来它们都大于9 8 T,所以比较令人满意。(#)复相关系数平方值(第#列)。说明回归模型自变量的变异在因变量中所占比率,接近5 7 7 T最好。(&)修正的复相关系数平方值(第&列)第二列给人5#喻开志:利用%!进行线性回归分析的一个实例一个印象是引入的变量越多,复相关系数越大。为了消除这种影响,给出修正的复相关系数平方值。从中可以看出:引入!#$%&()%*+,-,*后,该值
14、增长不大。即该变量对方程的贡献不大,可以不引入方程。(.)估计的标准误(第.列)说明了因变量还有好多不能被回归方程所解释。它也是只有相对意义,没有绝对意义。还是与所带单位有关。从.个模型中比较,它的值变化不大。表.相关检验验表/#0 0,)&1%*%0 2!#$%&()%*+,-,*(2,%0 3)!4 5*(2 4,)&/%&,6(0 27,6 )61%*%0 28()&9 33 )$,:0,;0,-(#3!?A A?B C?C C?C DE?F B!#$%&()%*+,-,*(2,%0 3)?A A?.D?A G G?D BE?H.H!4 5*(2 4,)&/%&,6(0 2?B C?.D
15、?B.?.?A G7,6 )61%*%0 2?C C?A G G?B.?E?H?D.8()&9 3 3 )$,:0,?C D?D B?.E?H?G;0,-(#3!?1 6?(E&%*,)/#0 0,)&1%*%0 2?G D?B!#$%&()%*+,-,*(2,%0 3)?.H?!4 5*(2 4,)&/%&,6(0 2?D.D?C B7,6 )61%*%0 2?G G D?A G8()&9 3 3 )$,:0,?G D?.H?D.D?G G D?D B D;0,-(#3!B?C B?A G?D B D?I/#0 0,)&1%*%0 2D B DD B DD B DD B DD B DD B
16、D!#$%&()%*+,-,*(2,%0 3)D B DD B DD B DD B DD B DD B D!4 5*(2 4,)&/%&,6(0 2D B DD B DD B DD B DD B DD B D7,6 )61%*%0 2D B DD B DD B DD B DD B DD B D8()&9 3 3 )$,:0,D B DD B DD B DD B DD B DD B D;0,-(#3!5,0 ,)$,(4()&9 3)D B DD B DD B DD B DD B DD B D(检验/#0 0,)&1%*%0 2,7,6 )61%*%0 2,;0,-(#3!5,=0 ,)$,,8
17、()&9 3 3 )$,:0,!#$%&()%*+,-,*(2,%0 3),!4 5*(2=4,)&/%&,6(0 2之间的相关性)7,6 )6 1%*%0 2,;0,-(#3!A G;7,6 )6 1%*%0 28()&9 3 3 )$,:0,,显著性水平为?G G D;;0,-(#3!.H;8()&9 3 3 )$,:0,!4 5*(2 4,)&/%&,6(0 2显著性水平为?D.D。以上的显著性水平均大于?.,故它们是相关的。(所以在分析下面的回归方程时要消除它们影响的话,不妨考虑因子分析和聚类分析,或考虑变换数据,这里没有这样做,因为它的影响不是太严重)HG!重 庆 工 学 院 学 报
18、表!变量剔除或进入过程表#$%&()*+,*-%(./0 (%1(2*3 425,6 78*+2,*%9 0+(%*2,0 49 0%,4(*+,2:5 2*2,.2,$.;0%(+*4$()3&$*2,4*%?(%(:(*+.)A 7 !B*C 7 D E CA 7 A A AA 7 B F A 7 E G G 7 C C GA 7 E G G/0 4 2 H.5,4$(I,+(A 7 A B*J 7!E AA 7 A A AA 7 B J 7 A A A 7 A A A 7 A A A=K%0:=(4 29*2(6(A 7 B C G*F 7!A BA 7 A A AA 7 D!BA 7
19、J D AB 7 D B DA 7 J D A8+(,0&.#K(+,(+(=0 4 2 H.)L A 7 D!*L C 7 E E FA 7 A A AL A 7 B F GA 7 G G F 7 A A BA 7 G G FB&$*2,4*%?(%(:(*+.)A 7 E!-C 7 B A BA 7 A A AA 7 B!EA 7 E G C 7 C!FA 7 D J G/0 4 2 H.,4$(I,+(A 7 A G C-J 7 F J JA 7 A A AA 7 B FA 7 G G G 7 A A A 7 J D A8+(,0&.#K(+,(+(=0 4 2 H.)L A 7 J E
20、-L!7 E C EA 7 A A AL A 7 D B GA 7 G G C 7 A A JA 7 J D AD&$*2,4*%?(%(:(*+.)A 7 A B$D 7 F E CA 7 A A AA 7 !EA 7 E E 7 G J AA 7 D D G/0 4 2 H.,4$(I,+(A 7 A G!$E 7 C BA 7 A A AA 7 B D BA 7 G G G 7 A A A 7 J B GJ&$*2,4*%?(%(:(*+.)A 7 A G D 7 E D DA 7 A A AA 7 C A 7 E B 7 G E DA 7 D D!*7 8+(,$2 0+.,4 2 H
21、(/0 (%:(9 0 4.2*4 2),1(6,4 4,4 65*%*+:-7 8+(,$2 0+.,4 2 H(/*(%:(9 0 4.2*4 2),1(6,4 4,4 65*%*+:,=K%0:=(4 29*2(6 0+:$7 8+(,$2 0+.,4 2 H(/*(%:(9 0 4.2*4 2),1(6,4 4,4 65*%*+:,=K%0:=(4 29*2(6 0+:,8+(,0&.#K(+,(4$((=0 4 2 H.)7 8+(,$2 0+.,4 2 H(/*(%:(9 0 4.2*4 2),1(6,4 4,4 65*%*+:,=K%0:=(4 29*2(6 0+:,8+(,0&
22、.#K(+,(4$((=0 4 2 H.),/0 4 2 H.,4$(I,+(7 M(K(4 (4 2)*+,*-%(:9&+(4 2 5*%*+:表F回归系数表9 0(N N,$,(4 2.*/0 (%O 4.2*4 *+,P(9 0(N N,$,(4 2.15 2 7 +0+5 2*4 *+,P(9 0(N N,$,(4 2.1(2*25,6 79 0%,4(*+,2:5 2*2,.2,$.;0%(+*4$()3(9 0 4.2*4 2)G B F 7 B A CF F F 7 C F AB 7 !AA 7 A D 1(6,4 4,4 65*%*+:7 G A GA 7 A J!A 7 F
23、 F AJ A 7 B!CA 7 A A A 7 A A A 7 A A AB(9 0 4.2*4 2)A D C 7 G D F D B 7 A E 7 B J CA 7 B D1(6,4 4,4 65*%*+:7 J C GA 7 A C!A 7 C!B 7 F!DA 7 A A AA 7 J D AB 7 D B D=K%0:=(4 29*2(6 0+:E G J!7 A A AC F D 7 J D AA 7 B C GF 7!A BA 7 A A AA 7 J D AB 7 D B DD(9 0 4.2*4 2)DA D G 7 B A EF B G 7!F DD 7 C C DA
24、7 A A A1(6,4 4,4 65*%*+:7 J C!A 7 A C DA 7 C!CB D 7 !A 7 A A AA 7 J D AB 7 D B D=K%0:=(4 29*2(6 0+:C C A 7 B G JC J C 7 E!A 7 B!GG 7 E B FA 7 A A AA 7 J D AB 7 D B!8+(,0&.#K(+,(4$((=0 4 2 H.)L B D 7!J GD 7 D GL A 7 J EL!7 E C EA 7 A A AA 7 G G C 7 A A JJ(9 0 4.2*4 2)A DA A A 7 C!B!A!7 F DD 7 F A JA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 SPSS 进行 线性 回归 分析 一个 实例
限制150内