SPSS数据分析教程》——回归分析.ppt
SPSS数据分析教程 回归分析本章学习目标 n掌握线性回归分析的基本概念n掌握线性回归的前提条件并能进行验证n掌握线性回归分析结果的解释n掌握多重共线性的判别和处理n能用线性回归模型进行预测回归分析的基本概念什么是回归分析n回归分析是研究变量之间相关关系的一种统计方法 n如果两个变量之间的Pearson相关系数绝对值较大,从散点图看出变量间线性关系显著,那么下一步就是应用回归分析的方法来找出变量之间的线性关系。n例如,房屋的价格和房屋的面积,地理位置,房龄和房间的个数都有关系。又比如,香烟的销量和许多地理和社会经济因素有关,像消费者的年龄,教育,收入,香烟的价格等。回归方程n回归关系一般用下列方程表示qY=f(X1,X2,Xp)+()qY被称作因变量,或者响应变量;而X1,X2,Xp称作自变量、控制变量、解释变量或者预测变量;而f(.)则称为回归函数,为随机误差或随机干扰,它是一个分布与自变量无关的随机变量,我们常假定它是均值为0的正态变量。回归分析的分类n根据回归函数的形式,回归分析可以分为线性回归和非线性回归:q线性回归:Y=0+1 X1+2 X2+p Xp+(y)n非线性回归 如果预测变量和响应变量之间有上页()所示的关系,但是不能表示为(y)所示的线性方程的形式,我们称该回归关系为非线性回归。回归术语n对于有一个响应变量的线性回归,当p=1时,我们称为简单线性回归(Simple Linear Regression,或称为一元线性回归),当 p2 时我们称为多元线性回归(Multiple Linear Regression)。回归和相关分析n回归分析是在相关分析的基础上,确定了变量之间的相互影响关系之后,准确的确定出这种关系的数量方法。因此,一般情况下,相关分析要先于回归分析进行,确定出变量间的关系是线性还是非线性,然后应用相关的回归分析方法。在应用回归分析之前,散点图分析是常用的探索变量之间相关性的方法。应用回归分析的步骤q步骤1:写出研究的问题和分析目标q步骤2:选择潜在相关的变量q步骤3:收集数据q步骤4:选择合适的拟合模型q步骤5:模型求解q步骤6:模型验证和评价q步骤7:应用模型解决研究问题简单线性回归 n简单线性回归的形式为:qY=0+1 X+q其中变量X为预测变量,它是可以观测和控制的;Y为因变量或响应变量,它为随机变量;为随机误差。q通常假设 N(0,2),且假设与X无关。回归模型的主要问题n进行一元线性回归主要讨论如下问题:(1)利用样本数据对参数0,1和2,和进行点估计,得到经验回归方程(2)检验模型的拟合程度,验证Y与X之间的线性相关的确存在,而不是由于抽样的随机性导致的。(3)利用求得的经验回归方程,通过X对Y进行预测或控制。简单回归方程的求解 n我们希望根据观测值估计出简单回归方程中的待定系数0和1,它们使得回归方程对应的响应变量的误差达到最小,该方法即为最小二乘法。也就是求解0和1,使得 达到最小。n把得到的解记为 ,则回归方程为n或者预测误差为nSPSS在输出回归系数的估计值的同时还会给出回归系数估计值的标准误差值;SPSS 还可以给出预测值和各种预测误差 回归方程拟合程度检验n回归方程的检验也就是验证两个变量之间的线性关系的确在统计上显著。一般进行如下的假设检验,它包括n 1)常数项的t检验 H0:0=0 常数项的估计值的标准误差为 检验统计量为:回归系数显著性检验n2)回归系数的显著性检验 H0:1=0检验统计量为:回归的三个平方和n我们把拟合值和真实值的差值的平方和称为残差平方和,记为SSE;把由于采用拟合回归直线后预测值较采用响应变量均值提高的部分的平方和称为回归平方和,记为SSR;真实值和响应变量均值的平方和称为总平方和,记为SST。决定系数R2n平方和定义n三者之间的关系为:SST=SSR+SSE R2=SSR/SSTR2的解释n决定系数R2的大小反映了回归方程能够解释的响应变量总的变差的比例,其值越大,回归方程的拟合程度越高。n一般情况下,随着预测变量个数的增大,决定系数的值也变大,因此在多重回归分析中,需要反映回归方程中预测变量的个数,即引入了调整的决定系数。回归模型的显著性的F检验n总平方和SST反映因变量Y的波动程度或者不确定性,在建立了Y对X的回归方程后,总平方和SST分解成回归平方和SSR与参差平方和SSE两部分。其中SSR是由回归方程确定的,SSE是不能由自变量X解释的波动,是由X之外的未加控制的因素引起的。这样,SST中能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。这样回归平方和越大,回归的效果越好,据此构造F检验统计量nSPSS在回归输出结果的ANOVA表中给出SSR,SSE,SST和F统计量的取值,同时给出F值的显著性值(即p值)。用回归方程预测n在一定范围内,对任意给定的预测变量取值,可以利用求得的拟合回归方程进行预测。其预测值为:nSPSS可以提供标准化的预测值和调整的预测值 简单线性回归举例n一家计算机服务公司需要了解其用电话进行客户服务修复的计算机零部件的个数和其电话用的时间的关系。经过相关分析,认为二者之间有显著的线性关系。下面我们用线性回归找到这两个变量之间的数量关系。SPSS回归分析n在SPSS中打开数据文件ComputerRepair.sav,变量Units记录了修复的零部件的个数;变量Minuts记录了服务所占用的电话时间。n选择【分析】【回归】【线性】。把Units选入到自变量框中;把Minuts选入到因变量框中。其他选项保留默认值。SPSS回归分析回归分析的结果及其解释拟合优度检验多元线性回归 n实际应用中,很多情况要用到多个预测变量才能更好地描述变量间的关系,如果这些预测变量在预测方程中的系数为线性,那么回归方程称为多元线性回归方程。就方法的实质来说,处理多个预测变量的方法与处理一个预测变量的方法基本相同。多元线性回归的模型 n多元线性回归的模型为:Y=0+1 X1+2 X2+p Xp+n回归系数的估计和简单线性回归一样,仍然应用最小二乘法回归方程的显著性检验 与一元的情形一样,上面的讨论是在响应变量Y与预测变量X之间呈现线性相关的前提下进行的,所求的经验方程是否有显著意义,还需对X与Y间是否存在线性相关关系作显著性假设检验,与一元类似,回归方程是否有显著意义,需要对回归参数0,1,p进行检验。n检验每个回归系数是否显著 H0:i=0,i=0,1,2,p 这里和一元线性回归的检验一样,检验统计量为t统计量。n检验所有回归系数都不显著,即 H0:0=1=p 这里的检验统计量为n F检验的 被拒绝,并不能说明所有的自变量都对因变量Y有显著影响,我们希望从回归方程中剔除那些统计上不显著的自变量,重新建立更为简单的线性回归方程,这就需要对每个回归系数做显著性检验。n 即使所有的回归系数单独检验统计上都不显著,而F检验有可能显著,这时我们不能够说模型不显著。这时候,尤其需要仔细对数据进行分析,可能分析的数据有问题,譬如共线性等。调整的R2n随着自变量个数的增多,不管增加的自变量是否和因变量的关系密切与否,R方都会增大;调整的R方是根据回归方程中的参数的个数进行调整的R方,它对参数的增多进行惩罚,调整R方它没有直观的解释意义,它的定义为应用举例n数据文件performance.sav记录了一项企业心理学研究的数据。它调查了一个大型金融机构的雇员,记录了他们和主管的交互情况的评价和对主管的总的满意情况。我们希望该调查来了解主管的某些特征和对他们的总的满意情况的相互关系。n打开数据文件performance.sav,选择【分析】【回归】【线性】,如图8-3所示。把变量Y选入到因变量框中,把变量X1到X6选入到自变量框中,其他选项保留默认值。单击【确定】。结果及其解释n“t”列记录了各回归系数t检验的t统计量,而Sig.列记录了相应的显著性值。这里,只有X1和X3的显著性值小于0.1,注意到回归方程的常数项也不显著。然而,大部分情况下不显著的预测变量都要从回归方程中移除,而回归常数代表了响应变量的基本水平,不管显著与否,大部分情况都保留在回归方程中。因此,我们可以仅仅考虑Y和X1、X3之间的关系而忽略其他预测变量。简约回归模型简约回归模型结果及解释动手练习数据文件world95.sav记录了1995年统计的各个国家的生育率(fertility)和妇女的平均预期寿命(lifeexpf)等数据。1)探索性分析这两个变量,探察两个变量中是否存在异常点。2)做出这两个变量的散点图,建立两个变量的线性回归模型,判断得到的模型的合理性。3)利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的假定条件。判断该数据是否满足线性回归的假定条件。4)并进行回归诊断,对模型的系数进行解释。从输出结果,判断妇女多要一个小孩对她的寿命的影响情况。集体项目