《SPSS第六讲线性回归分析.ppt》由会员分享,可在线阅读,更多相关《SPSS第六讲线性回归分析.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六讲第六讲 线性回归分析线性回归分析一、线性回归分析的基本原理一、线性回归分析的基本原理二、线性回归分析操作步骤与说明二、线性回归分析操作步骤与说明三、一元线性回归分析三、一元线性回归分析四、多元线性回归分析四、多元线性回归分析 五、多元线性回归分析中共线性的含义及其后果五、多元线性回归分析中共线性的含义及其后果六、判断高度共线性的指标方法六、判断高度共线性的指标方法七、高度共线性的解决思路七、高度共线性的解决思路八、多元线性回归方法八、多元线性回归方法一、线性回归分析的基本原理一、线性回归分析的基本原理(一)相关与回归的关系(一)相关与回归的关系(二)回归分析的含义与类型(二)回归分析的含
2、义与类型(三)消减误差比例思想与判定系数(三)消减误差比例思想与判定系数(四)回归分析的逻辑(四)回归分析的逻辑(一)相关与回归的关系(一)相关与回归的关系1、相关与回归的关系、相关与回归的关系(1)函数关系(2)统计相关:线性相关;非线性相关(3)因果关系相相 关关 类类 型型图图图图1 1图图图图2 2图图图图3 3 图图图图4 4图图图图5 5图图图图6 6讨论:讨论:统计上相关与实际相关?统计上相关与实际相关?相关关系相关关系统计相关统计相关因果关系因果关系统计因果关系统计因果关系相关是回归的基础相关是回归的基础(二)回归分析的含义与类型(二)回归分析的含义与类型(1)含义:)含义:自
3、变量每改变一个单位,因变量的均值变化情况。(2)回归模型设定:)回归模型设定:统计上的“因果”关系,确定了自变量与因变量(假设)。(3)类型:)类型:根据自变量的多少,可分为一元回归分析、多元回归分析;根据关系类型,可分为线性回归、非线性回归;本课程讲解一元线性回归、多元线性回归。一元线性回归方程求解一元线性回归方程求解Y=aX+b最小二乘法求最小二乘法求a、b最小二乘法图示最小二乘法图示XY二元线性回归方程二元线性回归方程Y=a1X1+a2X2+b自变量自变量X1与与Y的散点图的散点图X1YYX2自变量自变量X2与与Y的散点图的散点图(三)(三)“消减误差比例消减误差比例”思想思想用用“已知
4、已知”来估计来估计“未知未知”、减少犯错概率、减少犯错概率1 1、要预测或理解社会现象、要预测或理解社会现象Y Y变化的情况变化的情况难难免会有免会有误误差。差。2 2、如果知道、如果知道X与与Y有关系,根据有关系,根据X的值来预测的值来预测Y的的值,可以减少若干误差。值,可以减少若干误差。3、X与与Y的关系愈强,所能减少的预测误差就会的关系愈强,所能减少的预测误差就会愈多。愈多。4、所削减的误差的多少,可以反映所削减的误差的多少,可以反映X与与Y相关的相关的强弱程度强弱程度。5、消减误差比例:表示用一个现象、消减误差比例:表示用一个现象(如变量如变量X)来来解释另一个现象解释另一个现象(如变
5、量如变量Y)时能够消减的总误差的时能够消减的总误差的比例,即减少的误差与原来的全部误差之比。比例,即减少的误差与原来的全部误差之比。消减误差比例表达式:消减误差比例表达式:在知道在知道在知道在知道X X与与与与Y Y的关系模式的情况下,所消的关系模式的情况下,所消的关系模式的情况下,所消的关系模式的情况下,所消解掉的的误差解掉的的误差解掉的的误差解掉的的误差=E=E1 1-E-E2 2 E1-E2不知道不知道不知道不知道X X X X与与与与Y Y Y Y的关系,在预测的关系,在预测的关系,在预测的关系,在预测Y Y Y Y值时所产生的全部误差是值时所产生的全部误差是值时所产生的全部误差是值时
6、所产生的全部误差是E E E E1 1 1 1 。E1知道知道知道知道X X X X与与与与Y Y Y Y之间的关系,据此之间的关系,据此之间的关系,据此之间的关系,据此来预测来预测来预测来预测Y Y Y Y值,误差总数是值,误差总数是值,误差总数是值,误差总数是E E E E2 2 2 2 。E2消减误差比例消减误差比例(PREPRE的取值及其意义)的取值及其意义)1 1、PREPRE数值的取值范围是数值的取值范围是oo,11 2 2、PRE=1PRE=1,或,或E E2 2o o,即以,即以X X预测预测Y Y不会产生任何误不会产生任何误差,则反映差,则反映X X与与Y Y是完全相关是完全
7、相关 3 3、PREPREo o,或,或E2E2E1E1,即以,即以X X预测预测Y Y所产生的误差相所产生的误差相等于不以等于不以X X来预测来预测y y所产的误差,反映所产的误差,反映X X与与Y Y是不相关。是不相关。4 4、PREPRE数值越接近数值越接近1 1,就表示以,就表示以X X预测预测Y Y可以减少的可以减少的误差越多,反映二者的相关程度越高;误差越多,反映二者的相关程度越高;PREPRE值越值越接近接近0 0,反映二者的相关程度越低。,反映二者的相关程度越低。如何判定线性拟合(如何判定线性拟合(fitness)1、散点图、散点图2、线性拟合优度指标:、线性拟合优度指标:判定
8、判定系数系数R2(01)调整的调整的R2系数:系数:如果增加自变量,不管增加后的自变量是否与因变量有关系,都会使判定系数(R2)增大,如果自变量的数目(K)接近样本的个案数(n),R2将会必然接近于,解决这一问题的方法是使用“校正的”R2。(Wonnacott,R.M.&T.H.Wonnacott,1979)(四)多元线性回归分析的逻辑(四)多元线性回归分析的逻辑一元线性回归方程检验一元线性回归方程检验Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS二元线性回归方程检验二元线性回归
9、方程检验Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS三元线性回归方程检验三元线性回归方程检验Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS二、线性回归分析操作步骤与说明二、线性回归分析操作步骤与说明三、一元线性回归分析三、一元线性回归分析研究问题:个体的受教育水平受到父亲的研究问题:个体的受教育水平受到父亲的受教育水平的影响有多大?受教育水平的影响有多大?数据:散
10、点图回归分析操作步骤:输出结果解释输出结果解释(共四个表格共四个表格)1、说明表:、说明表:2、判定系数(、判定系数(R2)表:)表:R R2 2 的含义:的含义:自变量所能解释的离差在总离差自变量所能解释的离差在总离差中所占的百分比,取值越大说明线性拟合得越中所占的百分比,取值越大说明线性拟合得越好。最通俗的解释就是好。最通俗的解释就是R R2 2 越大说明所选取的越大说明所选取的自变量对因变量的解释能力越大,影响越大。自变量对因变量的解释能力越大,影响越大。3、回归系数显著检验表:、回归系数显著检验表:回归系数不为回归系数不为0 0的显著性检验(的显著性检验(F F检验),在一元回归分析检
11、验),在一元回归分析中与回归分析表中的中与回归分析表中的t t检验是一致的(检验是一致的(F F值的平发根即为值的平发根即为t t值)值)。如果有多个自变量,检验的是全部自变量的联合作用不为如果有多个自变量,检验的是全部自变量的联合作用不为0 0,至少有一个自变量对因变量的影响不为,至少有一个自变量对因变量的影响不为0 0。4、回归方程表:、回归方程表:线性回归方程:线性回归方程:Y=0.668X+1.910 “X”的实际值的实际值每增加每增加1个单位个单位,“Y”实际值实际值增增加个单位,可进行实际预测具体值。加个单位,可进行实际预测具体值。标准化线性回归方程:标准化线性回归方程:Y=0.4
12、63X “X”的标准值的标准值每增加每增加1个单位个单位,“Y”的标准的标准值值相应地增加个单位。(与非标准化方程等价,标准化后去掉了单位的影响、去相应地增加个单位。(与非标准化方程等价,标准化后去掉了单位的影响、去掉常数,没法进行实际预测具体值仅反应的是自变量对因变量的影响程度,好处掉常数,没法进行实际预测具体值仅反应的是自变量对因变量的影响程度,好处是是在多个自变量的情况下,可进行影响程度比较在多个自变量的情况下,可进行影响程度比较。)。)四、多元线性回归分析(二元)四、多元线性回归分析(二元)研究问题:个体的受教育水平受到父亲的受教育水平和母亲的受教育水平的净影响分别有多大?数据:1、回
13、归说明表:、回归说明表:2、判定系数(、判定系数(R2)表:)表:3、回归系数显著检验表:、回归系数显著检验表:4、回归方程表:、回归方程表:四、四、多元线性回归分析(三元)多元线性回归分析(三元)研究问题与研究假设:研究问题与研究假设:个体的受教育水平受到父亲的受教育水平、母亲的受教育水平以及配偶的受教育程度的影响。数据:数据:1、回归说明表:、回归说明表:2、判定系数(判定系数(R2)表:)表:3、回归方程显著检验表:、回归方程显著检验表:4、回归方程表:、回归方程表:四、四、多元线性回归分析(四元)多元线性回归分析(四元)研究问题:中国农村社区公共物品供给水平的研究问题:中国农村社区公共
14、物品供给水平的影响因素:人均耕地数量、社会资本存量、村影响因素:人均耕地数量、社会资本存量、村庄治理水平、集体资产数量。庄治理水平、集体资产数量。SPSS数据:数据:2007年年“村庄社区公共品供给水村庄社区公共品供给水平数据库平数据库.sav”(数据来自2007年“山东大学与Washington University”国际合作项目。)1、回归说明表、回归说明表2、判定系数(、判定系数(R2)表:)表:3、回归方程显著检验表:、回归方程显著检验表:4、回归方程表:、回归方程表:五、多元共线性的含义及其后果五、多元共线性的含义及其后果1、完全共线性及其后果、完全共线性及其后果在多元线性回归分析中
15、,如果其中有一个在多元线性回归分析中,如果其中有一个自变量与其他自变量之间的关系存在完全自变量与其他自变量之间的关系存在完全线性相关关系线性相关关系。运用最小二乘法来求一套回归系数将导致运用最小二乘法来求一套回归系数将导致无解,或者说无法求出唯一的截距和一套无解,或者说无法求出唯一的截距和一套回归系数回归系数 2、不完全共线性与高度共线性及其、不完全共线性与高度共线性及其后果后果在社会科学研究中,大量的情况是回归方在社会科学研究中,大量的情况是回归方程中的自变量相关,但不完全共线。多元程中的自变量相关,但不完全共线。多元共线性不是有无问题,事实上,它一定存共线性不是有无问题,事实上,它一定存在
16、,只是程度高度不同而已,程度的高低在,只是程度高度不同而已,程度的高低决定了问题的大小,如果很低就不必考虑决定了问题的大小,如果很低就不必考虑它,如果较高,其后果就很严重。它,如果较高,其后果就很严重。当存在严重的多重共线性时,运用最小二当存在严重的多重共线性时,运用最小二乘法来求解方程系数,尽管在数学上仍然乘法来求解方程系数,尽管在数学上仍然是最佳无偏估计,但会导致回归系数估值是最佳无偏估计,但会导致回归系数估值的标准误增大,的标准误增大,影响显著性检验影响显著性检验(显著性(显著性检验的检验的t值变得很小)和回归系数的置信区值变得很小)和回归系数的置信区间。间。严重共线性严重共线性“症候症
17、候”:(1 1)整个回归方程的方差分析检验结果为显著,)整个回归方程的方差分析检验结果为显著,但各个自变量的偏回归系数的统计学检验结果却但各个自变量的偏回归系数的统计学检验结果却全部为非显著。全部为非显著。(2 2)专业上认为应该有统计学意义的自变量检验)专业上认为应该有统计学意义的自变量检验结果却无统计学意义。结果却无统计学意义。(3 3)自变量的偏回归系数取值大小甚至符合明显)自变量的偏回归系数取值大小甚至符合明显与实际情况相违背,难以解释。与实际情况相违背,难以解释。(4 4)增加或者删除一个自变量或一个(极少数)增加或者删除一个自变量或一个(极少数)观测个案,自变量的偏回归系数发生较大
18、变化。观测个案,自变量的偏回归系数发生较大变化。六、判断高度共线性的指标方法六、判断高度共线性的指标方法1 1、容忍度(、容忍度(TolerenceTolerence)2 2、方差膨胀因子(、方差膨胀因子(Variance Inflation FactorVariance Inflation Factor,VIFVIF)3、其他指数七、高度共线性的解决思路七、高度共线性的解决思路获取新信息获取新信息 将两个或多个强相关的自变量合并将两个或多个强相关的自变量合并 删除掉方程中引起共线性的自变量删除掉方程中引起共线性的自变量 八、多元线性回归方法八、多元线性回归方法1、强制回归法(、强制回归法(E
19、nter)EnterEnter回归法又被称为强制回归法回归法又被称为强制回归法,即强制,即强制把所选择的自变量全部进入回归方程,是把所选择的自变量全部进入回归方程,是SPSSSPSS的默认方法。我们以上例子所采取的的默认方法。我们以上例子所采取的方法都是这种方法。该种方法不管自变量方法都是这种方法。该种方法不管自变量有没有显著性,都全部进入回归方程,不有没有显著性,都全部进入回归方程,不进行筛选。进行筛选。2、向后回归法(、向后回归法(Backward)向后回归法是先进行强制回归,并建立模型向后回归法是先进行强制回归,并建立模型1 1;然后对模型然后对模型1 1中无统计学意义的自变量进行考察,
20、中无统计学意义的自变量进行考察,原则是删除模型原则是删除模型1 1无统计学意义自变量中无统计学意义自变量中p p值最大值最大的那一个,建立模型的那一个,建立模型2 2;然后对模型然后对模型2 2中无统计学意义的自变量进行考察,中无统计学意义的自变量进行考察,删除模型删除模型2 2无统计学意义自变量中无统计学意义自变量中p p值最大的那一值最大的那一个,建立摸型个,建立摸型3 3;依次进行,原则同上,只到建立的模型中自变量依次进行,原则同上,只到建立的模型中自变量全部有统计学意义为止。全部有统计学意义为止。Backward3、向前回归法(、向前回归法(Forward)首先分别对每一个自变量与因变
21、量进行简单线性回归,把首先分别对每一个自变量与因变量进行简单线性回归,把简单线性回归模型中不具有统计学意义的自变量直接删除,简单线性回归模型中不具有统计学意义的自变量直接删除,只考察其中有统计学意义的简单线性回归模型(只考察其中有统计学意义的简单线性回归模型(k k个自变个自变量,建立量,建立k k个简单回归模型,其中个简单回归模型,其中k1k1个自变量有统计学意个自变量有统计学意义,把义,把k kk1k1个不具有统计学意义的自变量删除),在这个不具有统计学意义的自变量删除),在这些保留的有统计学意义的些保留的有统计学意义的k1k1个简单回归模型中,只输出其个简单回归模型中,只输出其中自变量中
22、自变量p p值最小的回归模型,记做模型值最小的回归模型,记做模型1 1(其他(其他p p值相对值相对较大的回归模型都不会输出出来,但是计算机逐一计算过较大的回归模型都不会输出出来,但是计算机逐一计算过了);了);第二步在剩余下第二步在剩余下k1k11 1个自变量中,一个一个地引入到模个自变量中,一个一个地引入到模型型1 1中,建立中,建立k1k11 1个回归模型,把个回归模型,把k1k11 1个自变量中那个个自变量中那个p p值最小且有统计学意义的自变量建立的模型输出出来,记值最小且有统计学意义的自变量建立的模型输出出来,记做模型做模型2 2;依次进行,原则同上,直至余下的自变量中没有一个进入
23、依次进行,原则同上,直至余下的自变量中没有一个进入前一个回归模型中具有统计学意义为止。前一个回归模型中具有统计学意义为止。注注 意:意:后一个自变量进入前一个模型后,前一个自变量后一个自变量进入前一个模型后,前一个自变量是否还具有统计学意义则不管不问,依据的标准是否还具有统计学意义则不管不问,依据的标准只是后来进入的自变量必需是只是后来进入的自变量必需是p p值相对最小且有统值相对最小且有统计学意义的那一个。当按照原则引入下一个自变计学意义的那一个。当按照原则引入下一个自变量后,管不管该模型中前面已经引入的自变量还量后,管不管该模型中前面已经引入的自变量还具有统计学意义是前进法与逐步回归法区别
24、的标具有统计学意义是前进法与逐步回归法区别的标志。前进法对前面已被选择的自变量在引入下一志。前进法对前面已被选择的自变量在引入下一个自变量后建立的新回归模型中是否还显著、有个自变量后建立的新回归模型中是否还显著、有统计学意义则不管不问,不负责。统计学意义则不管不问,不负责。Forward4、逐步回归法(、逐步回归法(Stepwise)逐步回归法是将后退法与前进法结合而成的较为“负责任”的方法。逐步回归法的第一步与前进法一样:首先分别对每一个自变量与因变量进行简单线性回归,把简单线性回归模型中不具有统计学意义的自变量直接删除,只考察其中有统计学意义的简单线性回归模型(k个自变量,建立k个简单回归
25、模型,其中k1个自变量有统计学意义,把kk1个不具有统计学意义的自变量删除),在这些保留的有统计学意义的k1个简单回归模型中,只输出其中自变量p值最小的回归模型,记做模型1;第二步在剩余下k11个自变量中,一个一个地引入到模型1中,建立k11个回归模型,把k11个自变量中那个p值最小且有统计学意义的自变量建立的模型输出出来,记做模型2,此时在模型2中考察模型1里选出的自变量是否还具有统计学意义,如果没有,则运算到此终止,最终只输出模型1;如果还有统计学意义,则把在第二步中没有统计学意义的自变量删除,把在第二步还有统计学意义的自变量逐一进入模型2中,把其中p值最小且有统计学意义的自变量建立的模型输出出来,记做模型3,此时在模型3中考察模型2里的自变量是否还具有统计学意义,如果没有,则运算到此终止,最终只输出模型1、模型2;如果还有统计学意义,按照上述原则,继续进行下去,直至模型外的自变量均无统计学意义而同时模型内的自变量都具有统计学意义为止,输出前面每步中的模型。Stepwise5、强制删除法(、强制删除法(Remove)强制删除法是全部删除所选自变量,输出强制删除法是全部删除所选自变量,输出全部进入方程模型和全部删除后只有一个全部进入方程模型和全部删除后只有一个常量的模型。常量的模型。Remove
限制150内