《多元线性回归分析xin讲稿.ppt》由会员分享,可在线阅读,更多相关《多元线性回归分析xin讲稿.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元线性回归分析xin第一页,讲稿共四十三页哦(一)对多变量资料进行多元分析的优点:1、减少假阳性错误;2、可以得到一个综合结论;3、考虑了变量间的相互关系。总而言之,是对多个相关变量同时进行分析。第二页,讲稿共四十三页哦(二)多元线性回归分析的应用条件1.应变量与自变量之间的关系是线性的(linear)2.各自变量之间相互独立(indedpendent)3.各变量满足正态性(此条件可以放宽)(normality)4.方差齐性(homogeneity or equal variance)简称为LINE第三页,讲稿共四十三页哦多元线性回归 多元线性回归是用线性方程表达一个因变量与多个多元线性回归
2、是用线性方程表达一个因变量与多个自变量之间数量关系的统计分析方法。如:儿童的心自变量之间数量关系的统计分析方法。如:儿童的心象面积,除与年龄有关外,还与性别、身高、体重、象面积,除与年龄有关外,还与性别、身高、体重、胸围等因素有关。胸围等因素有关。第四页,讲稿共四十三页哦复习直线回归(一)直线回归是研究一个因变量与一个自变量之间线性趋势数量关系的回直线回归是研究一个因变量与一个自变量之间线性趋势数量关系的回归分析方法。归分析方法。1 1、直线回归方程为、直线回归方程为=a+b*x=a+b*x,反映的是,反映的是x x和和y y之间数量依存变化之间数量依存变化关系;关系;2 2、a a是截距,是
3、截距,b b是回归系数,是回归系数,a a和和b b是利用最小二乘法原理计算而来;是利用最小二乘法原理计算而来;3 3、用决定系数、用决定系数R R2 2来说明回归模型的好坏,来说明回归模型的好坏,R R2 2=SS=SS回回/SS/SS总总。第五页,讲稿共四十三页哦复习直线回归(二)PAN.savPAN.sav数据库是某地数据库是某地29名1313岁男童的体重岁男童的体重x(kg)(kg)和肺活量和肺活量y(L)资料,试建立体重与肺活量的直线回归方程。资料,试建立体重与肺活量的直线回归方程。SPSSSPSS程序:程序:Analyze Regression Regression Linear
4、Linear,打开对话框,打开对话框,把肺活量把肺活量y y放入应变量栏中,体重放入应变量栏中,体重x x放入自变量栏中。放入自变量栏中。建立的直线回归方程为:建立的直线回归方程为:=-0.009+0.060 xa=-0.009;b=0.0600.060,表示体重每增加1kg 1kg,肺活量平,肺活量平均增加均增加0.060L0.060L。R R2 2=0.542=0.542。经经t t检验,体重对肺活量有影响,检验,体重对肺活量有影响,P=0.000 0.05P=0.000 0.05。第六页,讲稿共四十三页哦多元线性回归模型(一)举例(见举例(见 PAN.sav):):根据某地根据某地29名
5、名1313岁男童的身高x x1 1(kg)(kg)、体重、体重x x2(cm)(cm)和肺活量y(L)y(L)建立的二元线性回归方程为:建立的二元线性回归方程为:=-0.577+0.005=-0.577+0.005x1 1+0.054+0.054x2 2 a=-0.577 a=-0.577;b b1 1=0.0050.005,表示在体重不变的情况下,身高每增加,表示在体重不变的情况下,身高每增加1cm 1cm,肺活量平均增加,肺活量平均增加0.005L;b b2 2=0.054,表示在身高不变的情况下,体重每增加,表示在身高不变的情况下,体重每增加1kg,肺活量平均增加,肺活量平均增加0.05
6、4L0.054L。第七页,讲稿共四十三页哦多元线性回归模型(二)设因变量为y y,自变量为xi i(i=1,.,m.,m),),mm元线性元线性回归方程为:回归方程为:=a+b=a+b1 1*x*x1 1+b+b2 2*x*x2 2+.+b.+bmm*x*xmm,或,或 y=+e e。是是y的估计值或预测值;的估计值或预测值;e e是残差,不能由现有的自变量决定的部分;是残差,不能由现有的自变量决定的部分;a a为常数项或截距;b bi i为样本偏回归系数,即在其它自变量固定不变情况,即在其它自变量固定不变情况下,下,x xi改变一个单位,因变量平均改变改变一个单位,因变量平均改变b bi 个
7、单位。对应个单位。对应的总体偏回归系数为的总体偏回归系数为 i,若,若 i i=0,则该自变量,则该自变量xi i与因变与因变量量y y之间无线性关系,即之间无线性关系,即x xi对因变量对因变量y无影响无影响 。第八页,讲稿共四十三页哦回归分析的步骤1、建立线性回归方程;、建立线性回归方程;2 2、回归方程的假设检验;、回归方程的假设检验;3 3、偏回归系数的假设检验与区间估计;、偏回归系数的假设检验与区间估计;4 4、比较自变量对因变量的作用大小;、比较自变量对因变量的作用大小;5 5、因变量的区间估计;、因变量的区间估计;6、残差分析。AnalyzeRegression AnalyzeR
8、egression LinearLinear 第九页,讲稿共四十三页哦建立线性回归方程(一)即计算截距a和回归系数bi,应用最小二乘法原理,即要求残差平方和达到最小。以 PAN.sav为例,作身高、体重对肺活量影响的多元线性回归分析。选择变量的方法有强迫引入法(系统默认)、强迫剔除法、向前引入法、向后剔除法、逐步回归法。第十页,讲稿共四十三页哦建立线性回归方程(二)前进法前进法:事先给一个挑选自变量进入方程的标准:事先给一个挑选自变量进入方程的标准,开始时方程中除常数项外没有自变量开始时方程中除常数项外没有自变量,然后按然后按自变量对自变量对Y Y的贡献大小依次挑选进入方程的贡献大小依次挑选进
9、入方程,一直到方程外没有变量进入为止一直到方程外没有变量进入为止,进入变量不进入变量不再删除再删除;后退法后退法:事先给一个剔除自变量的标准:事先给一个剔除自变量的标准,开始时自变量全部在方程中开始时自变量全部在方程中,然后按自变量对然后按自变量对Y Y的贡的贡献从小到大依次删除献从小到大依次删除,一直到方程内没有变量删除入为止;删除变量不再进入方程一直到方程内没有变量删除入为止;删除变量不再进入方程;逐步向前法逐步向前法:每进入一个变量都要对已经在模型中的变量进行检验:每进入一个变量都要对已经在模型中的变量进行检验,对低于剔除标准的变量要逐对低于剔除标准的变量要逐一剔除一剔除,直到方程内没有
10、变量被剔除直到方程内没有变量被剔除,方程外没有变量被引入为止;方程外没有变量被引入为止;逐步向后法逐步向后法:是每剔除一个变量:是每剔除一个变量,都要对方程外的变量进行检验都要对方程外的变量进行检验,对符合入选标准的变对符合入选标准的变量都要重新考虑引入。直到方程内没有变量被剔除量都要重新考虑引入。直到方程内没有变量被剔除,方程外没有变量被引入为止;方程外没有变量被引入为止;建议用各种方法、多种引入或剔除水准处理同一问题,若一些变量常被选中,它们就值得重建议用各种方法、多种引入或剔除水准处理同一问题,若一些变量常被选中,它们就值得重视。视。第十一页,讲稿共四十三页哦建立线性回归方程(三)SPS
11、SSPSS中常用的对话框有:中常用的对话框有:“Statistics”对话框中的对话框中的“EstimatesEstimates”和和“Confidence intervalsConfidence intervals”、“ModelModel”选项。选项。自变量只有两个,应用系统默认的强迫引入法进行分析,自变量只有两个,应用系统默认的强迫引入法进行分析,得出二元线性回归方程为:得出二元线性回归方程为:=-0.577+0.005=-0.577+0.005x x1 1+0.054+0.054x x2 2 对应SPSSSPSS的结果中标题为“Coefficients”的表格。的表格。第十二页,讲稿共
12、四十三页哦“Coefficients”的表格第十三页,讲稿共四十三页哦回归方程的假设检验(一)与直线回归类似,根据与直线回归类似,根据y y总变异的分解对回归方程进行方差分总变异的分解对回归方程进行方差分析。析。在回归分析中,在回归分析中,y y方面的总变异方面的总变异l lyyyy分解为回归贡献分解为回归贡献U U和剩余变异和剩余变异Q Q:l lyyyy=U+Q=U+Q Q Q是总变异中不能由自变量解释的残差平方和,是总变异中不能由自变量解释的残差平方和,U U是总变异中由自变量所引起的一部分变异。是总变异中由自变量所引起的一部分变异。自变量的作用是否显著,或整个方程是否有意义,就看回归所
13、自变量的作用是否显著,或整个方程是否有意义,就看回归所能解释的变异能解释的变异U U比剩余变异比剩余变异Q Q大多少而定,即进行方差分析。大多少而定,即进行方差分析。第十四页,讲稿共四十三页哦回归方程的假设检验(二)方差分析的步骤如下:方差分析的步骤如下:H H0 0:总体中所有偏回归系数均为:总体中所有偏回归系数均为0 0;H H1 1:总体中偏回归系数不为:总体中偏回归系数不为0 0或不全为或不全为0 0。=0.05=0.05。F=MSF=MS回归回归 /MS/MS剩余剩余 ,得,得P P值大小;值大小;若若P P 0.050.05,则拒绝,则拒绝H H0 0,接受,接受H H1 1,说明
14、回归方程成立,因变量与自变,说明回归方程成立,因变量与自变量之间有线性关系;量之间有线性关系;若若P P 0.050.05,则不拒绝,则不拒绝H H0 0,说明回归方程不成立,因变量与自变,说明回归方程不成立,因变量与自变量之间无线性关系。量之间无线性关系。对应对应SPSSSPSS的结果中标题为的结果中标题为“ANOVAANOVA”的表格,的表格,p p=0.000=0.000。第十五页,讲稿共四十三页哦SPSS的结果中标题为“ANOVA”的表格第十六页,讲稿共四十三页哦衡量回归方程的标准 建立回归方程时要求:建立回归方程时要求:既要尽可能提高拟合既要尽可能提高拟合 的精的精度,又要尽可能使模
15、型简单度,又要尽可能使模型简单。常用的衡量方程常用的衡量方程“优劣”的标准有:的标准有:1 1、决定系数(、决定系数(R R2););2 2、复相关系数、复相关系数R 3 3、调整决定系数(、调整决定系数(R2adjadj););4 4、剩余标准差(s sy.x1x2y.x1x2xpxp)。)。5 5、赤池信息准则(AICAIC)6 6、Cp统计量统计量第十七页,讲稿共四十三页哦衡量回归方程的标准 根据根据R R2大小判断方程优劣时的缺点是:变量最多的方程最大小判断方程优劣时的缺点是:变量最多的方程最好,即使所增加的变量无统计学意义。好,即使所增加的变量无统计学意义。根据根据R R2 2adj
16、 adj 大小判断方程优劣时的优点:当有统计学意大小判断方程优劣时的优点:当有统计学意义的变量进入方程,义的变量进入方程,R R2 2adjadj增加;增加;当无统计学意义的变量进入方程,R R2 2adj反而减少。根据根据sy.x1x2y.x1x2xpxp大小判断方程优劣时的优点:一般随着自大小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。量后,剩余标准差反而增大。根据复相关系数根据复相关系数R R来判断,但只反映密切程度,不反应方向第十八页,讲稿共四十三页哦 根据sy.x1x2xp大
17、小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。根据复相关系数R来判断,但只反映密切程度,不反应方向 AIC准则:日本学者提出的(越小越好)Cp统计量:选择Cp最接近P(变量个数)的那个模型第十九页,讲稿共四十三页哦偏回归系数的假设检验 回归方程有统计学意义,并不等于方程中每个变量都回归方程有统计学意义,并不等于方程中每个变量都有统计学意义,因此要分别检验每个偏回归系数是否有统计学意义,因此要分别检验每个偏回归系数是否均为均为0 0,用,用t t检验:H H0 0:i i=0=0,H1:i i0 0;=0.05=0.05。t i=bi
18、/s bi ,得,得P P值大小,若值大小,若P P 0.05,则拒绝,则拒绝H H0 0,接受H1,说明该变量有统计学意义;若,说明该变量有统计学意义;若P P 0.050.05,则不,则不拒绝拒绝H H0 0,说明该变量无统计学意义。,说明该变量无统计学意义。对应对应SPSSSPSS的结果中标题为的结果中标题为“CoefficientsCoefficients”的表格,经的表格,经t t检验,身高变量无统计学意义,而体重变量有统计学意义。第二十页,讲稿共四十三页哦偏回归系数的区间估计s sb bi i 为样本偏回归系数为样本偏回归系数b bi i的的标准误标准误,总体偏回归系数总体偏回归系
19、数 i i的的可信区间可信区间可信区间可信区间(即按照一定的概率,由(即按照一定的概率,由b bi i估计估计 i i所在的所在的可能范围)为:可能范围)为:b bi i t t ,(n-m-1n-m-1)*s s b bi i,样本含量为样本含量为n n,自变量数为,自变量数为mm。b bi i的可信区间若包含了的可信区间若包含了0 0,则该变量无统计学意义;若不包含,则该变量无统计学意义;若不包含0 0,则该变量有统计学意义,与假设检验的结果一致,则该变量有统计学意义,与假设检验的结果一致。对应对应SPSSSPSS的结果中标题为的结果中标题为“CoefficientsCoefficient
20、s”的表格里。的表格里。第二十一页,讲稿共四十三页哦自变量的贡献(一)偏回归系数反映了自变量对应变量的作用大小;但在多元回归偏回归系数反映了自变量对应变量的作用大小;但在多元回归方程中,偏回归系数是随自变量方程中,偏回归系数是随自变量所带单位的不同而改变所带单位的不同而改变。所以,。所以,要比较不同自变量对应变量的作用大小,不能直接比较它们的偏要比较不同自变量对应变量的作用大小,不能直接比较它们的偏回归系数大小,必须将其标准化,使之成为无量纲的标准偏回归回归系数大小,必须将其标准化,使之成为无量纲的标准偏回归系数,直接比较大小。系数,直接比较大小。b bi i:标准化偏回归系数,比较度量衡单位
21、不同的自变量对因变:标准化偏回归系数,比较度量衡单位不同的自变量对因变量的贡献大小。量的贡献大小。b bi i =b=bi i*(*(ii ii1/21/2 /yyyy1/21/2)。标准偏回归系数反映的是自变量对因变量标准偏回归系数反映的是自变量对因变量y y的直接作用的直接作用。第二十二页,讲稿共四十三页哦自变量的贡献(二)一个自变量对因变量一个自变量对因变量y y的作用除了直接作用外,还有该变量通过其它自变量对的作用除了直接作用外,还有该变量通过其它自变量对y y的间接作用。的间接作用。如:如:x x1 1、x x2 2 是自变量,是自变量,y y为应变量,为应变量,x x1 1与与y
22、y之间的相关系数为之间的相关系数为r r1y1y,x x1 1与与x x2 2的相关系数为的相关系数为r r12 X1 12 X1 b b1 1 x x1 1的标准偏回归系数为的标准偏回归系数为b b1 1 r r1212 Y Yx x2 2的标准偏回归系数为的标准偏回归系数为b b2 2 X2 X2 b b2 2 则:则:x x1 1对对y y的直接作用的直接作用=b=b1 1 x x1 1对对y y的间接作用的间接作用=b=b2 2*r*r1212x x1 1对对y y的总作用的总作用 r r1y 1y=b=b1 1 +b b2 2*r*r1212。第二十三页,讲稿共四十三页哦因变量的区间
23、估计 由回归方程计算的由回归方程计算的 值,是在自变量取值一定的条件下值,是在自变量取值一定的条件下y y的均数的一个点的均数的一个点估计,但自变量取值一定时,估计,但自变量取值一定时,y y一般不会正好等于一般不会正好等于,因此需估计,因此需估计y y的可信区间和容许区间,的可信区间和容许区间,(1-1-)%可信区间为:可信区间为:t t ,(n-m-1n-m-1)*s s(1-1-)%容许区间为:容许区间为:t t ,(n-m-1n-m-1)*s sy y 一般取一般取0.050.05。SPSSSPSS软件中,选中软件中,选中“SaveSave”对话框中的对话框中的 “M M M Mean
24、ean”、“I I I Individualndividual”选选项,结果(两个区间的上、下限值)已保存到数据文件中,分别对应项,结果(两个区间的上、下限值)已保存到数据文件中,分别对应(l lm mci ci 1 1,u um mci ci 1 1)和()和(l li ici ci 1 1,u ui ici ci 1 1)。)。第二十四页,讲稿共四十三页哦残差分析计算应变量的预测值以及残差e=(yii)、标准化残差,对应SPSS结果中的“Residual”表格里“Std Residual”值大小,观察标准化残差的最大值是否大于系统默认的“3”,若大于3,则资料中有可疑的异常点;否则无。第二
25、十五页,讲稿共四十三页哦标准化残差,对应SPSS结果中的“Residual”第二十六页,讲稿共四十三页哦逐步回归(一)Stepwise(逐步回归法)是一种从众多的回归模型中快速选择“最优”模型的统计思维方法或建模策略,保证“最优”模型中的自变量少而精。它的作用主要是筛选回归自变量筛选回归自变量。方法有:逐步向前法和逐步向后法。第二十七页,讲稿共四十三页哦逐步回归(二)步骤(介绍逐步向前法):步骤(介绍逐步向前法):1 1、事先给定一个剔除变量的标准;、事先给定一个剔除变量的标准;2、按自变量对因变量的贡献大小,由大到小依次进入方程;3 3、每当一个自变量进入方程,重新对方程内的自变量进行、每当
26、一个自变量进入方程,重新对方程内的自变量进行假设检验,有统计学意义的自变量继续留在方程中,无统假设检验,有统计学意义的自变量继续留在方程中,无统计学意义的自变量则被剔除;计学意义的自变量则被剔除;4 4、如此边引入边剔除,直到既没有新的有统计学意义的自变量可引入方程内,也没有无统计学意义的自变量被剔除方程外为止。第二十八页,讲稿共四十三页哦逐步回归(三)一、引入和剔除变量的标准:一、引入和剔除变量的标准:1 1、假设检验的、假设检验的P P值:对偏回归系数进行假设检验,值:对偏回归系数进行假设检验,P P值越小,说明对因变值越小,说明对因变量的贡献越大;量的贡献越大;2 2、偏回归平方和的检验
27、统计量、偏回归平方和的检验统计量F F 值:对偏回归系数进行假设检验,值:对偏回归系数进行假设检验,F F 值越值越大,说明对因变量的贡献越大。大,说明对因变量的贡献越大。二、偏回归平方和的概念:二、偏回归平方和的概念:所有自变量都在方程内算出回归平方和所有自变量都在方程内算出回归平方和SSSS回回,把,把x xi i除去再算出回归除去再算出回归平方和平方和SSSS回回-i-i,两者之差即为,两者之差即为x xi i的偏回归平方和。的偏回归平方和。三、检验水准三、检验水准 剔除变量的水准剔除变量的水准P P剔剔和引入变量的水准和引入变量的水准P P选选,为了防止计算机进,为了防止计算机进 入入
28、“死死循环循环”,要求前者略大于后者。,要求前者略大于后者。第二十九页,讲稿共四十三页哦指标的量化(一)应用线性回归时要求因变量是定量指标,自变量与因变量的关系为线应用线性回归时要求因变量是定量指标,自变量与因变量的关系为线性的。性的。1 1、对定量指标:符合线性要求的,直接以原变量形式进入分析;、对定量指标:符合线性要求的,直接以原变量形式进入分析;若不符合线性要求的,作适当变量变换,直到符合线性关系时,若不符合线性要求的,作适当变量变换,直到符合线性关系时,方可作回归分析。方可作回归分析。2 2、对定性指标:、对定性指标:(1 1)二分类指标:若变量)二分类指标:若变量x x为性别,则女性
29、为为性别,则女性为x=0 x=0,男性为,男性为x=1x=1,作出的回归方程中作出的回归方程中x x的系数的系数b b表示男性的因变量表示男性的因变量y y比女性平均多比女性平均多b b个个单位。单位。第三十页,讲稿共四十三页哦指标的量化(二)(2 2)多分类指标:若变量)多分类指标:若变量x x为血型(为血型(A A、B B、ABAB、O O型四种),则型四种),则需用需用3 3个哑变量(或指示变量)表示四种血型:个哑变量(或指示变量)表示四种血型:x x1 1=0=0、x x2 2=0=0、x x3 3=0=0,表示,表示,表示,表示OO型;型;型;型;x x1 1=1=1、x x2 2=
30、0=0、x x3 3=0=0,表示,表示,表示,表示A A型;型;型;型;x x1 1=0=0、x x2 2=1=1、x x3 3=0=0,表示,表示,表示,表示B B型;型;型;型;x x1 1=0=0、x x2 2=0=0、x x3 3=1=1,表示,表示,表示,表示ABAB型。型。型。型。O O型为对比的基础,方程中型为对比的基础,方程中x x1 1的系数的系数b b1 1表示表示A A型血者的因变量型血者的因变量y y比比O O型血者平均多型血者平均多b b1 1个单位;个单位;x x2 2的系数的系数b b2 2表示表示B B型血者的型血者的y y比比O O型血者平型血者平均多均多b
31、 b2 2个单位;个单位;x x3 3的系数的系数b b3 3表示表示ABAB型血者的型血者的y y比比O O型血者平均多型血者平均多b b3 3个单位个单位。第三十一页,讲稿共四十三页哦指标的量化(三)3 3、对等级资料、对等级资料(1 1)若变量)若变量x x为文化程度,而且因变量为文化程度,而且因变量y y的改变在每个等级上是近似的改变在每个等级上是近似相等的,则将等级数量化后直接进入分析。相等的,则将等级数量化后直接进入分析。如:如:x=0 x=0表示文盲,表示文盲,x=1x=1表示小学,表示小学,x=2x=2表示中学,表示中学,x=3x=3表示中学,表示中学,x=4x=4表示大学本科
32、,表示大学本科,x=5x=5表示硕士、博士。结果表示硕士、博士。结果中中 x x 的系数的系数b b表示:文化程度每上升一个等级,则因变量增加表示:文化程度每上升一个等级,则因变量增加b b个单个单位;位;(2 2)若因变量)若因变量y y的改变在每个等级上是不相等的,则与多分类指标一的改变在每个等级上是不相等的,则与多分类指标一样要设哑变量,结果解释也与其一样。样要设哑变量,结果解释也与其一样。第三十二页,讲稿共四十三页哦回归系数反常的原因 回归方程建立后,可能发现回归系数从专业知识上解释不回归方程建立后,可能发现回归系数从专业知识上解释不通;或整个方程显著,但每个变量均没有显著性;或有些通
33、;或整个方程显著,但每个变量均没有显著性;或有些变量从专业上看很重要,却选不进方程。变量从专业上看很重要,却选不进方程。原因主要有:原因主要有:1、数据中有离群值或异常值;、数据中有离群值或异常值;2 2、样本含量不够,或自变量数太多;、样本含量不够,或自变量数太多;3 3、自变量的观察范围太窄,或方差太小;、自变量的观察范围太窄,或方差太小;4 4、自变量之间、自变量之间存在共线性存在共线性。第三十三页,讲稿共四十三页哦多元共线性会导致的现象:1.符号与实际不符合2.回归系数的估计值与实际相差太大3.回归系数的标准误太大,重要变量选不进方程4.整个方程有显著性,而每一个自变量均无显著性第三十
34、四页,讲稿共四十三页哦多重共线性(一)例如试建立由外形指标(例如试建立由外形指标(x1x1、x2x2、x3x3分别为身长、头围、体重)分别为身长、头围、体重)推测胎儿周龄推测胎儿周龄y y的回归方程:的回归方程:y y对对x1x1、x2x2、x3x3的一般多元线性回归分析,建立方程为的一般多元线性回归分析,建立方程为 =11.0117+1.6927x1-2.1589x2+0.0075x3=11.0117+1.6927x1-2.1589x2+0.0075x3,出现头围的回归系数为负的不合理现象。出现头围的回归系数为负的不合理现象。怀疑怀疑3 3个自变量之间个自变量之间存在共线性存在共线性。共线性
35、的主要解决方法:共线性的主要解决方法:岭回归或主成分回归。岭回归或主成分回归。第三十五页,讲稿共四十三页哦多重共线性(二)多重共线性一词最早由多重共线性一词最早由R.R.弗里希于弗里希于19341934年提出,它指的是回归模型中某些或所有年提出,它指的是回归模型中某些或所有自变量间存在完全或近似完全的线性关系。自变量间存在完全或近似完全的线性关系。目前常用的多重共线性诊断方法有:目前常用的多重共线性诊断方法有:1.1.自变量的相关系数矩阵诊断法:研究变量的两两相关分析,如果自变量间的自变量的相关系数矩阵诊断法:研究变量的两两相关分析,如果自变量间的相关系数很大,则认为存在多重共线性。相关系数很
36、大,则认为存在多重共线性。2.2.方差膨胀因子(方差膨胀因子(the variance inflation factorthe variance inflation factor,VIF)VIF)诊断法:方差膨胀因诊断法:方差膨胀因子表达式为:子表达式为:VIFVIFi i=1/=1/(1-R1-R2 2i i)。其中。其中R Ri i为自变量为自变量x xi i对其余自变量作回归分析的对其余自变量作回归分析的复相关系数。当复相关系数。当VIFVIFi i很大时很大时,表明自变量间存在多重共线性。,表明自变量间存在多重共线性。第三十六页,讲稿共四十三页哦多重共线性(三)3.3.容忍值(容忍值(
37、ToleranceTolerance,简记为,简记为TolTol)法:容忍值实际上是)法:容忍值实际上是VIFVIF的倒数,即的倒数,即TolTol1/VIF1/VIF。其取值在。其取值在0 01 1之间,之间,TolTol越接近越接近1 1,说明自变量间的共线性越弱;,说明自变量间的共线性越弱;TolTol越接近越接近0 0,说明自变量间的共线性越强。,说明自变量间的共线性越强。在应用时一般先预先指定一个在应用时一般先预先指定一个TolTol值值,容忍值小于指定值的变量不能进入方程,计算结果具有稳定性。,容忍值小于指定值的变量不能进入方程,计算结果具有稳定性。4.4.条件数:某些维度该指标的
38、数值大于条件数:某些维度该指标的数值大于3030,则说明存在共线性,则说明存在共线性 5.5.特征根分析法:如果相当多维度的特征根约等于特征根分析法:如果相当多维度的特征根约等于0 0SPSSSPSS过程:过程:在打开按钮在打开按钮“StatisticsStatistics”后的对话框中,选中后的对话框中,选中“Collinearity DiagnosticsCollinearity Diagnostics”和和“Part and Partial CorrelationsPart and Partial Correlations”即可;结果中有相关系数矩阵、即可;结果中有相关系数矩阵、VIFV
39、IF、TolTol、条件数。条件数。第三十七页,讲稿共四十三页哦岭回归简介关键:确定岭参数关键:确定岭参数k k。步骤:步骤:1 1、选择不同的岭参数、选择不同的岭参数k k,估计相应的回归系数;,估计相应的回归系数;2 2、将不同、将不同k k值时的回归系数连成一条曲线,即岭迹;值时的回归系数连成一条曲线,即岭迹;3 3、观察岭迹稳定(或各回归系数稳定)时所对应的、观察岭迹稳定(或各回归系数稳定)时所对应的k k值即为岭参值即为岭参数数k k;4 4、建立岭参数、建立岭参数k k下的回归方程。下的回归方程。优点:优点:岭回归分析所得的回归方程符合实际情况。岭回归分析所得的回归方程符合实际情况
40、。第三十八页,讲稿共四十三页哦第三十九页,讲稿共四十三页哦不同岭参数时各自变量的回归系数 K RSQ X1 X2 X3 VIF_1 VIF_2 VIF_3K RSQ X1 X2 X3 VIF_1 VIF_2 VIF_3.000.975 2.39347-2.1557.751090 200.0 209.4 9.688.000.975 2.39347-2.1557.751090 200.0 209.4 9.688.010.959.607980-.28363.657896 9.751 9.868 7.383.010.959.607980-.28363.657896 9.751 9.868 7.383.
41、020.954.426266-.06436.616119 3.997 3.904 5.875.020.954.426266-.06436.616119 3.997 3.904 5.875.030.952.363391.026211.584518 2.472 2.357 4.793.030.952.363391.026211.584518 2.472 2.357 4.793.040.951.333852.077547.558977 1.788 1.679 3.989.040.951.333852.077547.558977 1.788 1.679 3.989.050.949.317746.111
42、300.537699 1.398 1.300 3.375.050.949.317746.111300.537699 1.398 1.300 3.375.060.948.308130.135457.519612 1.144 1.057 2.896.060.948.308130.135457.519612 1.144 1.057 2.896.070.947.302014.153711.503999.9648.8881 2.514.070.947.302014.153711.503999.9648.8881 2.514.080.946.297930.168027.490351.8319.7639 2
43、.206.080.946.297930.168027.490351.8319.7639 2.206.090.946.295087.179562.478294.7294.6689 1.953.090.946.295087.179562.478294.7294.6689 1.953.100.945.293032.189047.467544.6482.5940 1.743.100.945.293032.189047.467544.6482.5940 1.743第四十页,讲稿共四十三页哦岭迹图第四十一页,讲稿共四十三页哦第四十二页,讲稿共四十三页哦 B SE(B)Beta T=B/SEB Sig.TX1 .236110 .049566 .333852 4.763549 .000078X2 .077659 .068015 .077547 1.141795 .134251X3 .005561 .001041 .558977 5.339896 .000022常数项 8.908271 1.747590 .000000 5.097460 .000038第四十三页,讲稿共四十三页哦
限制150内