《回归分析SPSS操作课件.ppt》由会员分享,可在线阅读,更多相关《回归分析SPSS操作课件.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归分析回归分析 回归分析基本概念回归分析基本概念1 一元线性回归分析一元线性回归分析2多元线性回归分析多元线性回归分析3回归分析基本概念回归分析基本概念1 回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题:q 通过分析大量的样本数据,确定变量之间的数学关系式。通过分析大量的样本数据,确定变量之间的数学关系式。q 对所确定的数学关系式的可信程度进行各种统计检验,并对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的区分出对某一特定变量影响较为显著的变量和影响不显著的变量。变量。q 利用所确定的数学关系式,根据一个或几个变量的值
2、来预利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。精确度。2.1 2.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:一元线性回归分析是分析某一个因素定义:一元线性回归分析是分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实生活所进行的分析是比较理想化的。其实,在现实生活中,任何一个事物(因变量)总是受到其他多种事中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)
3、的影响。物(多个自变量)的影响。一元线性回归分析一元线性回归分析2 研究问题研究问题 合成纤维的强度与其拉伸倍数有关,测得试验合成纤维的强度与其拉伸倍数有关,测得试验数据如表数据如表9-19-1所示。求合成纤维的强度与拉伸倍数之所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。间是否存在显著的线性相关关系。2.2 SPSS2.2 SPSS中实现过程中实现过程表表表表1 1 1 1强度与拉伸倍数的试验数据强度与拉伸倍数的试验数据强度与拉伸倍数的试验数据强度与拉伸倍数的试验数据序序 号号拉拉 伸伸 倍倍 数数强度(强度(kg/mm2)12.01.622.52.432.72.543.5
4、2.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1 实现步骤实现步骤图图图图1 1 1 1 在菜单中选择在菜单中选择在菜单中选择在菜单中选择“LinearLinearLinearLinear”命令命令命令命令图图图图2 2 2 2 “Linear RegressionLinear RegressionLinear RegressionLinear Regression”对话框对话框对话框对话框因变量因变量因变量因变量自变量自变量自变量自变量指定回归方法指定回归方法指定回归方法指定回归方法全部选入全部选入全部选入全部选入
5、图图图图3 3 3 3 “Linear Regression:statisticsLinear Regression:statisticsLinear Regression:statisticsLinear Regression:statistics”对话框对话框对话框对话框与回归系数相与回归系数相与回归系数相与回归系数相关的统计量关的统计量关的统计量关的统计量提供决定系数、估计提供决定系数、估计提供决定系数、估计提供决定系数、估计标准误、标准误、标准误、标准误、ANOVAANOVAANOVAANOVA表等表等表等表等异常值诊断异常值诊断异常值诊断异常值诊断报告残差超过报告残差超过报告残差超过
6、报告残差超过2 2 2 2个标个标个标个标准差的被试准差的被试准差的被试准差的被试 图图图图4 4 4 4 “Linear RegressionLinear RegressionLinear RegressionLinear Regression:PlotsPlotsPlotsPlots”对话框对话框对话框对话框 调整预测值调整预测值调整预测值调整预测值标准化预测值标准化预测值标准化预测值标准化预测值标准化残差标准化残差标准化残差标准化残差剔除残差剔除残差剔除残差剔除残差学生化残差学生化残差学生化残差学生化残差学生化剔除残差学生化剔除残差学生化剔除残差学生化剔除残差输出标准化残差相对输出标准化
7、残差相对输出标准化残差相对输出标准化残差相对于因变量的散布图于因变量的散布图于因变量的散布图于因变量的散布图标准化残差图标准化残差图标准化残差图标准化残差图直方图直方图直方图直方图正态概率图正态概率图正态概率图正态概率图q对应对应x x值值的残差图的残差图x0良好模式x0方差不齐x0不满足线性回归假设图图图图5 5 5 5 “Linear RegressionLinear RegressionLinear RegressionLinear Regression:SaveSaveSaveSave”对话框对话框对话框对话框 预测值预测值预测值预测值残差残差残差残差本对话框用来定义存储本对话框用来定
8、义存储本对话框用来定义存储本对话框用来定义存储进入数据文件的新变量进入数据文件的新变量进入数据文件的新变量进入数据文件的新变量预测区间预测区间预测区间预测区间均数的置信区间均数的置信区间个体的容许区间个体的容许区间学生化残差学生化残差学生化残差学生化残差标准化残差标准化残差标准化残差标准化残差未标准化残差未标准化残差未标准化残差未标准化残差 (1 1)输出的结果文件中的第一部分:)输出的结果文件中的第一部分:X与与Y的简单相关系数的简单相关系数2.3 2.3 结果和讨论结果和讨论q1 1)决定系数)决定系数R R2 2 它它表表示示在在因因变变量量y y的的总总变变异异中中可可由由回回归归方方
9、程程所所解解释释部部分分的比例。的比例。0R0R2 21,1,越接近于越接近于1,1,说明回归方程效果越好。说明回归方程效果越好。q2 2)校正的决定系数)校正的决定系数A Adj dj R R2 2 0A 0AdjdjR R2 21,1,越接近于越接近于1,1,说明回归方程效果越好。说明回归方程效果越好。q即使自变量对即使自变量对Y Y无显著意义,无显著意义,R R2 2也随方程中的变量也随方程中的变量个数增加而增加。个数增加而增加。Adj R R2 2可以惩罚复杂模型。可以惩罚复杂模型。F=t2截距截距回归系数回归系数标准化回归系数结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影
10、响结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响(2 2)第二部分)第二部分 异常值分析异常值分析q 如果标准化残差超过如果标准化残差超过2/-22/-2,称为异常值,称为异常值outliersoutliers。q 当样本量比较小,异常值又会影响回归系数的估计时,当样本量比较小,异常值又会影响回归系数的估计时,应该关注异常值的影响。应该关注异常值的影响。q 异常值 a 不影响 异常值 b 影响q第i个观察值的学生化残差q 考虑了用来计算残差的考虑了用来计算残差的 值有不同的方值有不同的方差。这种调整能够使残差分析更加敏感地发现方差不齐。差。这种调整能够使残差分析更加敏感地发现方差
11、不齐。q学生化残差学生化残差超过超过2 2和和-2-2的点可认为是异常值的点可认为是异常值(3 3)第三部分)第三部分 数据窗口的存储数据窗口的存储 未标准化残差 标准化残差 学生化残差预测区间预测区间预测区间预测区间均数的置信区间均数的置信区间个体的容许区间个体的容许区间1.7 利用回归方程进行估计和预测q均数的置信区间:均数的置信区间:均数均数 界值界值标准误标准误 q个体的容许区间个体的容许区间(参考值范围参考值范围):):均数均数 界值界值标准差标准差 22可编辑可信区间与预测区间示意图3.1 3.1 统计学上的定义统计学上的定义 定义:在上一节中讨论的回归问题只涉及了一定义:在上一节
12、中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。有平均气温、平均日照时数、平均湿度等。多元线性回归分析多元线性回归分析3q研研究究者者往往往往是是根根据据自自己己的的经经验验或或借借鉴鉴他他人人的的研研究究结结果果选选定定若若干干个
13、个自自变变量量,这这些些自自变变量量对对因因变变量量的的影响作用是否都有统计学意义还有待于考察。影响作用是否都有统计学意义还有待于考察。q在在建建立立回回归归方方程程的的过过程程中中有有必必要要考考虑虑对对自自变变量量进进行行筛筛选选,挑挑选选出出若若干干个个与与因因变变量量作作用用较较大大的的变变量量建建立立回回归归方方程程。剔剔除除那那些些对对因因变变量量没没有有影影响响的的变变量,从而建立一个较理想和稳定的回归方程。量,从而建立一个较理想和稳定的回归方程。3.2 3.2 逐步回归逐步回归逐步回归的思想:q1.1.开开始始方方程程中中没没有有自自变变量量,然然后后按按自自变变量量对对y y
14、的的贡贡献献大大小小由由大大到到小小依依次次挑挑选选进进入入方方程程,每每选选入入一一个变量,都要对进行检验,决定个变量,都要对进行检验,决定变量的取或舍变量的取或舍。q 2.2.每一步都作一次如下的检验:每一步都作一次如下的检验:H H0 0:p:p个自变量为好个自变量为好 H H1 1:p+1:p+1个自变量为好个自变量为好采用F作为统计量。SSE(H0)-SSE(H1)F SSE(H1)/(n-p-2)其中SSE(H0)表示用p个变量回归的残差平方和 SSE(H1)表示用p+1个变量回归的残差平方和。若FF(界值),则拒绝H0,可决定增多相应的自变量;否则,不拒绝H0,可决定不增加相应的
15、自变量。研究问题研究问题 用多元回归分析来分析用多元回归分析来分析3636个员工多个心理变量个员工多个心理变量值(值(z1z1z5z5)对员工满意度)对员工满意度mymy的预测效果,测得试的预测效果,测得试验数据如表验数据如表9-29-2所示。所示。3.2 SPSS3.2 SPSS中实现过程中实现过程表表表表9-29-29-29-2员工多个心理变量值和员工满意度数据员工多个心理变量值和员工满意度数据员工多个心理变量值和员工满意度数据员工多个心理变量值和员工满意度数据z1z2z3z4Z5满满 意意 度度66.0064.0058.001.081.0025.0055.0050.0053.001.00
16、1.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.0052.0056.006
17、3.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.081.1420.0053.0066.0055.001.001.0025.00z1z2z3z4z5满满 意意 度度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.0052.0051.
18、001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.1419.0053.00
19、57.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00 实现步骤实现步骤图图图图7-7 7-7 7-7 7-7 “Linear RegressionLinear RegressionLinear RegressionLinear Regression”对话框(二)对话框(二)对话框(二)对话框(二)逐步回归逐步回归逐步回归逐步回归EnterEnter:所有自变量强制进入回归方程:所有自变量强制进入回归方程图图图图3 3 3 3 “Linear RegressionLinear Regress
20、ionLinear RegressionLinear Regression:StatisticsStatisticsStatisticsStatistics”对话框对话框对话框对话框描述性统计量描述性统计量描述性统计量描述性统计量部分相关和偏相关部分相关和偏相关部分相关和偏相关部分相关和偏相关共线性诊断共线性诊断共线性诊断共线性诊断德宾德宾德宾德宾-沃森自相关沃森自相关沃森自相关沃森自相关关于回归系数的选择项关于回归系数的选择项关于回归系数的选择项关于回归系数的选择项非标准化回归系数非标准化回归系数非标准化回归系数非标准化回归系数95%95%95%95%置信区间置信区间置信区间置信区间非标准化
21、回归系数的方差非标准化回归系数的方差非标准化回归系数的方差非标准化回归系数的方差-协方差协方差协方差协方差与回归系数相关的统计量与回归系数相关的统计量与回归系数相关的统计量与回归系数相关的统计量提供决定系数、估计提供决定系数、估计提供决定系数、估计提供决定系数、估计标准误、标准误、标准误、标准误、ANOVAANOVAANOVAANOVA表等表等表等表等显示每个自变量进显示每个自变量进显示每个自变量进显示每个自变量进入方程后对入方程后对入方程后对入方程后对R R R R2 2 2 2和和和和F F F F值的影响值的影响值的影响值的影响观测值诊断观测值诊断观测值诊断观测值诊断q当自变量之间存在高
22、度相关性,将引起回归方程估计结果当自变量之间存在高度相关性,将引起回归方程估计结果不稳定,参数(回归系数)估计的标准误大大增加,称为不稳定,参数(回归系数)估计的标准误大大增加,称为共线性。共线性。q共线性诊断:共线性诊断:1 1)条件数)条件数(Condition Index(Condition Index):):k10 k10(轻度)(轻度)10k30(10k30(k30(严重)严重)2 2)方差扩大因子)方差扩大因子(VIF):5(VIF):5或或1010,严重严重 3 3)TolenceTolence(容忍度)(容忍度):.1.1 严重严重图图图图6 6 6 6 “Linear Reg
23、ressionLinear RegressionLinear RegressionLinear Regression:OptionsOptionsOptionsOptions”对话框对话框对话框对话框 逐步回归法变量取舍标准逐步回归法变量取舍标准逐步回归法变量取舍标准逐步回归法变量取舍标准用用用用F F F F值的显著性水平作为标准值的显著性水平作为标准值的显著性水平作为标准值的显著性水平作为标准用用用用F F F F值作为标准值作为标准值作为标准值作为标准在回归方程中包括常项在回归方程中包括常项在回归方程中包括常项在回归方程中包括常项缺失值的处理方式缺失值的处理方式缺失值的处理方式缺失值的处
24、理方式用均值代替缺失值用均值代替缺失值用均值代替缺失值用均值代替缺失值 (1 1)输出结果文件中的第一部分:)输出结果文件中的第一部分:3.3 3.3 结果和讨论结果和讨论复相关=R2YR2y.12YX1X2 (1 1)输出结果文件中的第一部分:)输出结果文件中的第一部分:3.3 3.3 结果和讨论结果和讨论R2的改变都是显著的,说明增加自变量可以显著的改变都是显著的,说明增加自变量可以显著地改善对因变量的预测地改善对因变量的预测第三个回归方程的解释率最高 2 2)输出的结果文件中第二部分:)输出的结果文件中第二部分:F F检验的结果显示,三个回归方程都显著检验的结果显示,三个回归方程都显著1
25、 H1 H0 0:B:B1 1=0=02 2 H H0 0:B:B1 1=B=B2 2=0=03 H3 H0 0:B:B1 1=B=B2 2=B=B3 3=0=0非标准化回归方程:非标准化回归方程:1 1Y=7.337+.276Y=7.337+.276Z1+eZ1+e2 2Y=14.129+.227Y=14.129+.227Z1-3.301Z1-3.301Z4+eZ4+e3 3Y=4.335+.268Y=4.335+.268Z1-6.286Z1-6.286Z4+10.188Z4+10.188Z5+eZ5+e标准化回归方程:标准化回归方程:1 1Y=.413Y=.413Z1+eZ1+e2 2Y=
26、.340Y=.340Z1-.336Z1-.336Z4+eZ4+e3 3Y=.401Y=.401Z1-6.639Z1-6.639Z4+.477Z4+.477Z5+eZ5+e多重回归的矩阵表达1.1.一般公式一般公式 2.2.矩阵表示矩阵表示 3.3.最小二乘估计最小二乘估计YX1X2Zero-Order 零阶相关零阶相关/简单相关简单相关Part Correlation部分相关部分相关YX1X2Part correlationPart correlation Correlation between Y and X1 when variable due to Correlation between
27、 Y and X1 when variable due to X2 has been partialed out of X1,but not out of Y.X2 has been partialed out of X1,but not out of Y.Partial Correlation偏相关偏相关YX1X2partial correlation of Y and X,controlling for other partial correlation of Y and X,controlling for other predictors.predictors.Simple correlation of Y and X,after all Simple correlation of Y and X,after all influences of predictors have been partialed out of both Y influences of predictors have been partialed out of both Y and X.and X.作业q等距、等级和分类变量的相关q一元回归q二元回归 各做一个分析,数据“作业.sav”43可编辑
限制150内