SPSS(第7章回归分析).ppt
《SPSS(第7章回归分析).ppt》由会员分享,可在线阅读,更多相关《SPSS(第7章回归分析).ppt(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 回归分析回归分析2023/1/417.1 线性回归分析线性回归分析一、一元线性回归一、一元线性回归 1、一元线性回归模型、一元线性回归模型一元线性回归模型是两个变量之间的关系可通过有关的参数直接用直线关系来表达,其模型是yi=a+bXi+i Yi:Y在总体中的某一个具体的观测值 Xi:在研究总体中相应的另一个变量的X的具体观测值 a与b:分别称为回归常数和回归系数 i:是一个随机变量,其均值O,方差为2。2023/1/422、一元线性回归模型假设1)Xi为自变量,是预先确定的,因而是一个非随机变量。它没有误差 尽管在实际观测中也可能产生观测误差,但其假设可忽略不计。2)当确定某一
2、个Xi值时,相应的Y就有许多Yi与之对应。Yi是一个随机变量,这些Yi构成了一个在X取值为Xi条件下的条件分布,并假设其服从正态分布。3)所有的i与j之间是相互独立的。3、一元线性回归模型的检验1)残差图的评价2)技术指标的检查对样本回归系数a、b的检验方差分析R2确定系数i2023/1/43二、二、多元线性回归多元线性回归 1、多元线性回归模型多元线性回归模型是两个以上变量的回归问题。其模型是yi=a+b1x1j+b2 x2j+i 2、多元线性回归模型假设1)Xi可以是任意确定的变量,也可以是有意选定的变量。它作为自变量来解释因变量Y变动的原因,因此也称为解释变量。尽管在实际观测中也可能产生
3、观测误差,但其假设可忽略不计。2)对于每一个i,i都是正态独立分布,其均值0,方差为方差为2。3)每个因变量之间是相互独立的。4)因变量和正变量之间的关系是线性的。2023/1/443、多元线性回归模型的评价1)残差图的评价2)技术指标的检查对样本回归系数的检验方差分析偏回归系数的显著性检验残差的正态型检验三、三、建立回归方程建立回归方程1、输入数据后,依次单击AnalyseRegressionLinear打开Linear Regression对话框。如图7-12023/1/45图图7-1 Linear Regression对话框对话框选入数值型变选入数值型变量作为因变量量作为因变量选入一个或
4、多个数值选入一个或多个数值型变量作为自变量型变量作为自变量采用不同的自变量、因变量可建立不同的回归模型,可采用不同的自变量、因变量可建立不同的回归模型,可将使用的自变量、因变量和回归方法储存在以序号排列将使用的自变量、因变量和回归方法储存在以序号排列的模板中,按的模板中,按Previous 和和Next按钮,随时调用。按钮,随时调用。为默认选项,所有所选自变量都为默认选项,所有所选自变量都进入回归模型进入回归模型如果如果F统计量充分小,在每一步统计量充分小,在每一步考虑所有不在回归方程中的自变考虑所有不在回归方程中的自变量,将使方程具有最小的量,将使方程具有最小的F统计量统计量值的变量加入这个
5、方程。值的变量加入这个方程。如果如果F统计量变的比较大,则将统计量变的比较大,则将回归方程中刚加入的变量删除。回归方程中刚加入的变量删除。按此法操作,直到回归模型中无按此法操作,直到回归模型中无变量可被删除且无再加变量止,变量可被删除且无再加变量止,在建回归模型前设定一定条件,在建回归模型前设定一定条件,建之时,根据条件删除自变量。建之时,根据条件删除自变量。为一种变量选择方法。先让所有为一种变量选择方法。先让所有的自变量进入回归方程中,再逐的自变量进入回归方程中,再逐一删除。一删除。也为变量选择方法。与上一种相也为变量选择方法。与上一种相反,逐一的让自变量进入方程。反,逐一的让自变量进入方程
6、。见图见图7-2选择观测量标签选择观测量标签选择权重的变量进入选择权重的变量进入见图见图7-6见图见图7-3见图见图7-5见图见图7-42023/1/46如图如图7-2 Set Rule 对话框对话框在对话框中设定运算式和观测值,共在对话框中设定运算式和观测值,共有有6个选项:个选项:equal to等于、等于、not equal to不等于、不等于、less than 小于、小于、less than or equal to小于或等于、小于或等于、greater than 大大于、于、greater than or equal to大于或等大于或等于。于。单击,在主对话框源变量框中选择观单击,
7、在主对话框源变量框中选择观测量标签测量标签输出复相关系数输出复相关系数R等,输等,输出出ANOVA表。表。从模型中添加或删除自从模型中添加或删除自变量时复相关系数变量时复相关系数R的平的平方的变动大小。方的变动大小。显示变量的均值、标准显示变量的均值、标准差和单侧检验水平显著性差和单侧检验水平显著性矩阵矩阵输出零阶相关系数、部输出零阶相关系数、部分相关系数、偏相关系数。分相关系数、偏相关系数。输出每个变量的容限及输出每个变量的容限及诊断共线性统计。诊断共线性统计。输出相关残差的输出相关残差的Durbin-Watson统计统计量、残差和预测值的统计量量、残差和预测值的统计量输出满足选择条件的观测
8、量诊断表输出满足选择条件的观测量诊断表设置奇异值的判断条件设置奇异值的判断条件输出所有有关测量的残差值输出所有有关测量的残差值选择回归系选择回归系数:数:输出有关输出有关回归系数及回归系数及其相关测量其相关测量输出回归输出回归系数的系数的95%的置信区间的置信区间输出协方输出协方差和相关矩差和相关矩阵。阵。图图7-3 Statistics 对话框对话框2023/1/47图图7-4 Plots 对话框对话框X轴和轴和Y轴中有一个轴中有一个是源变量是源变量标准化的预测值标准化的预测值标准化的残差标准化的残差删除的残差删除的残差修正后的预测值。修正后的预测值。用户的残差用户的残差用户的删除的残差用户
9、的删除的残差输出带有正态曲线的标准化残差的直方图。输出带有正态曲线的标准化残差的直方图。输出标准化残差的正态概率图。输出标准化残差的正态概率图。对每一个自变量,会产生一个自变量与因变量残差的散点图。对每一个自变量,会产生一个自变量与因变量残差的散点图。2023/1/48图图7-5 Saxe 对话框对话框保存模型对因变量的预测值保存模型对因变量的预测值保存标准化的预测值。保存标准化的预测值。当一个观测值未进入回归模当一个观测值未进入回归模型时,保存对这个观测值的预型时,保存对这个观测值的预测值测值保存预测值的标准差。保存预测值的标准差。当当Mahalanobis距离对一个或距离对一个或某些自变量
10、有极值时,就保存某些自变量有极值时,就保存这个观测值。这个观测值。当从回归模型中排除一个观当从回归模型中排除一个观测时,对所有进入模型的观测测时,对所有进入模型的观测的残差变动的测度。的残差变动的测度。杠杆值测量一个点对于回归杠杆值测量一个点对于回归直线的影响。直线的影响。保存对平均保存对平均response的预测区间的上下界。的预测区间的上下界。保存一个观测量的预测区间的上下界。保存一个观测量的预测区间的上下界。当选择了上述任一项后,选定置信区间,当选择了上述任一项后,选定置信区间,默认为默认为95%。保存模型的保存模型的观测值和预测观测值和预测值之间的差别。值之间的差别。保存标准化保存标准
11、化的残差。的残差。保存用户的保存用户的残差。残差。保存被排除保存被排除进入相关系数进入相关系数计算的观测量计算的观测量的残差。的残差。保存用户化保存用户化的被删除的残的被删除的残差。差。由于消除一个观测值而引起的相关系数的变化值。由于消除一个观测值而引起的相关系数的变化值。相关系数的变化值的标准化。相关系数的变化值的标准化。由于消除一个观测值而引起的预测值的变化。由于消除一个观测值而引起的预测值的变化。预测值的变化的标准化。预测值的变化的标准化。消除一个观测值后的协方差矩阵的模与未消除之消除一个观测值后的协方差矩阵的模与未消除之前的协方差矩阵的模之比。前的协方差矩阵的模之比。后的而引起的相关系
12、数的变化值。后的而引起的相关系数的变化值。如选中如选中Coefficients Statistics,可将可将回归系数的结果保存到文件中。回归系数的结果保存到文件中。2023/1/49图图7-6 Options 对话框对话框如一个变量的如一个变量的F统计量的统计量的p值是小于值是小于Entry值的,这个变量就进入模型。值的,这个变量就进入模型。如一个变量的如一个变量的F统计量的统计量的p值是大于值是大于Removal值的,这个变量就从模型中值的,这个变量就从模型中删除。删除。Entry值必须小于值必须小于Removal值值且都为正。如想模型中有更多的变量且都为正。如想模型中有更多的变量就提高就
13、提高Entry值;如想模型中减少变值;如想模型中减少变量就减少量就减少Removal值。值。同上同上选择此项不显示回归方程中常数项。选择此项不显示回归方程中常数项。在任何分析项中都排除那些有缺省在任何分析项中都排除那些有缺省值的观测量。值的观测量。变量配对计算某些统计量时,排除变量配对计算某些统计量时,排除那些有缺省值的观测量。那些有缺省值的观测量。用变量均值替换缺省值。用变量均值替换缺省值。2023/1/410三、实例三、实例1、模型背景说明模型考虑某种水泥在凝固时放出的热量(卡/克)Y与水泥中的下列四种化学成分所占的百分比有关:x1:3CaOAl2O3 x2:3CaOSiO2 x3:4Ca
14、OAl2O3 Fe2O3 x4:2CaO SiO2 测试的数据如表7在此表的基础上试图建立起最优的经验回归函数。数据文件:水泥(回归)水泥(回归).sav2023/1/411ixi1xi2xi3xi4yi172666078.52129155274.331156820104.3411318478706575263395.961155922109.27371176102.78131224472.69254182293.1102147422115.911140233483.8121166912113.3131068812109.4表表71 测得的数据测得的数据2023/1/4122、观察自变量和因变
15、量之间是否有线性关系推广做出散点图,可以观察自变量和因变量之间是否有线性关系,其步骤:1)建立数据文件2)按Graphs Scatter 出现Scatterplot对话框,选择 Simple,打开Simple Scatterplot对话框。图图7-6 Simple Scatterplot 对话框对话框2023/1/413 从散点图可看出,水泥凝固时的散热量与第一种化学成分有明显的正线性相关。当化学成分x1的含量增加时,水泥凝固时的散热量增加;减少时,散热量也相应减少。通过检验,发现x1、x2与水泥凝固时的散热量为正相关,而x3、x4与水泥凝固时的散热量为负相关。图图7-6 回归散点图回归散点图
16、2023/1/4143、建立回归模型、建立回归模型1)按Analyze Regression Linear,打开Linear Regression 对话框。2)将y选入 Dependent框中,将选入 x1、x2、x3、x4 Independent(s)框中。在Method 对话框中选择Stepwise作为回归方式。在Save对话框中选择Mahalanobis、Cooks、Leverage values复选项。在Plot 对话框中选择变量ZPRED 和ZRESID来做散点图,以判断模型是否服从线性相关的假设。3)单击OK4、回归结果分析、回归结果分析2023/1/415Variables En
17、tered/RemovedVariables Entered/RemovedModelVariablesEnteredVariablesRemovedMethod1X4Stepwise(Criteria:-of-F-toEnter=.001).2x1Stepwise(Criteria:Probability-of-F-toEnter=.001).a.Dependent Variable:Y列出回归方程列出回归方程模型的编号模型的编号显示那些变量显示那些变量在哪一步进入在哪一步进入了回归方程了回归方程显示变量进入显示变量进入模型和从模型模型和从模型中被删除采用中被删除采用了何种方法了何种方法显示
18、那些变量显示那些变量在哪一步从模在哪一步从模型中删除了型中删除了表的纵轴则表表的纵轴则表示表示每一步示表示每一步的状态,即变的状态,即变量被加入还是量被加入还是被删除。被删除。表中第二列:最后进入回归方程的变量为x4、x1,而变量x2、x3均没有进入方程。变量进入的标准为y的F统计量的p值小于或等于0.05,大于或等于0.05则被删除。表表72 变量的删除与进入表变量的删除与进入表2023/1/416表表723 回归模型的一般性统计量表回归模型的一般性统计量表 表中第一列:列出了回归方程模型的编号;第二列表示回归方程的复相关系数;第三列为回归方程的复相关系数的平方;第四列表示调整了的复相关系数
19、的平方。第五列为预测值的标准差。从表中可看出,随着自变量个数的增加,复相关系数及其平方相应增加,这表明回归效果是越来越好。还可看出,预测值的标准差越来越来小,这也正表明回归方程越来越符合观测情况。ModelRR squareAdjusted SquareStd.Error of the Estimate1.831a.690.6628.6712.985b.970.9652.808a.Predictors(Constant),x4b.Predictors(Constant),x4,x1c.Dependent Variable:Y2023/1/417 表中第一列为回归方程模型的编号;第二列列出了回归
20、的平方和;第三列为回归的自由度;第四列为均值平方;第五列为F值;第六列为统计量大于F值的概率。从表中可看出,当只有变量x4进入回归方程时,自变量与因变量之间完全无线性关系的概率为0.001;当x1也进入方程之后,自变量与因变量之间完全无线性关系的概率为0.000,这表明拒绝假设;所有的回归因子的系数为0。表表74 方差分析表方差分析表ModelSum of SquaredfMean SquareFSig.1Regression1843.48311843.48324.519.000aResidual827.0401175.185Total2670.523122Regression2591.673
21、21295.837164.343.000bResidual78.950107.885Total2670.52312a.Predictors(Constant),x4b.Predictors(Constant),x4,x1c.Dependent Variable:Y2023/1/418ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd.ErrorBeta1(Constant)117.5135.02323.395.000X4-.735.149-.831-4.952.000(Constant)102.8462.2174
22、6.400.0002X4-.594.50-.671-11.819.000X11.402.144.5539.741.000a.Dependent Variable:Y表表75回归方程的回归系数分回归方程的回归系数分 表中B为B偏回归系数;Std.Error 为偏回归系数的标准差。Beta为标准化的偏回归系数;t 为假设偏回归系数为0的t统计量;Sig为假设偏回归系数为0的假设检验的显著性水平值。第一列为y=117.513-0.735x4,表示水泥凝固时的散热量与第四种化学成分是负线性关系,即当第四种化学成分的含量越高,则水泥的散热量越小.这个回归方程的常数项为0的假设检验的显著性水平值为0.00
23、0,而x4也为0.001,都不显著。2023/1/419 第二列为y=102.846+1.402x1-0.594x4,表示水泥凝固时的散热量多少与第一种化学成分是正线性相关的,而与第四种化学成分是负线性相关的。此时的回归方程的常数项为0的假设检验的显著性水平值为0.000,而x4也为0.000,都不显著。从分析中可看出,当进入回归模型的自变量增加时,导致因变量变动的因子增加时,来源于某一个因子的作用将会变小。这表明因变量变动的原因归到更多的因子,这更符合实际现象。偏回归系数的标准差也随着进入模型的自变量的增加而变小。这也表明了回归模型越来越接近真实情况。2023/1/420ModeltSig.
24、Partial CorrelationCollinearity StatisticsTolerance1X1.553a9.741.000.951.916X2.018a.026-.979.0086.918E-02X3-.506a-6.847.000-.908.9972X2.439b2.624.028.6586.639E-02X3-.202b-2.413.039-.627.283a.Predictors in the Model:(Constant),x4b.Predictors in the Model:(Constant),x4,x1c.Dependent Variable:Y表表76 排除在
25、回归模型之外的变量表排除在回归模型之外的变量表 从表中可看出,被回归模型排除的变量x2时因为存在共线性问题,它的共线性容忍度的值为6.918E-02,故而排除了此变量。而相对于变量变量x3而言,因为回归系数为0的假设检验的显著性水平值为0.039,故而排除了此变量。从表中还可看出,变量x2与y呈负线性相关,变量x3与呈正线性相关。2023/1/421表表76 残差统计量表残差统计量表 从残差统计量中描绘了残差一些基本统计量的情况,在此表中还存在Mahalanobis距离、Cooks距离和Leverage values,从这些值中可以判断观察数据中是否有影响点。2023/1/422 从散点图中可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 章回 分析
限制150内