第9章SPSS线性回归分析.ppt
第9章 SPSS的线性回归分析,9.1 回归分析概述 9.2 线性回归分析和线性回归模型 9.3 回归方程的统计检验 9.4 多元回归分析中的其他问题 9.5 线性回归分析的基本操作 9.6 线性回归分析的应用举例,学习的内容与目标,掌握线性回归分析的主要指标,了解最小二乘法的基本思想 熟练掌握线性回归分析的具体操作,读懂分析结果;掌握计算结果之间的数量关系,写出回归方程,对回归方程进行各种统计检验 了解多元回归分析中自变量筛选的策略,以及对应结果的分析 了解SPSS残差分析和多重共线检测的基本操作,并能分析结果,9.1回归分析概述,9.1.1什么是回归分析 “回归”一词最初源于英国统计学家F.Galton(高尔顿)描述父亲的身高和其成年儿子身高之间的关系,发现成年儿子的身高会趋向于子辈身高的平均值,F.Galton称这种现象为“回归”。 用于分析事物之间的统计关系,并通过回归方程的形式描述变量间的数量变化规律,帮助人们准确把握变量受一个或多个变量的影响程度,进而为预测提供依据。,回归分析和相关分析,1.相关分析 变量性质:都是随机变量且关系对等 分析方法:图表法(散点图)和相关系数 分析目的:判定变量之间相关方向和关系的密切程度 2.回归分析 变量性质:自变量(确定型变量)和因变量(随机变量)的关系且不对等 分析方法:建立回归模型 分析目的:研究变量间数量依存关系,9.1.2如何得到回归线,函数拟合 首先,通过散点图观察变量之间的统计关系,得到对回归线的感性认知,并据之确定最简洁的数学函数(回归模型); 其次,利用样本数据在一定的拟合准则下,估计回归模型中各个参数,得到确定的回归方程; 最后,由于回归参数是在样本数据的基础上得到的,存在随机性。因此需要进行各种检验。,9.1.3回归分析的一般步骤,确定回归方程中的解释变量(父亲身高x)和被解释变量(儿子身高y) 确定回归模型(线性与非线性) 建立回归方程,并估计出模型中的参数 对回归方程进行各种检验 利用方程进行预测,9.2 线性回归分析和线性回归模型,观察被解释变量y和一个或多个解释变量xi的散点图,当发现y与xi之间呈现出显著的线性关系时,应采用线性回归分析的方法,建立y关于xi的线性回归模型。 线性回归模型可分为: 一元线性回归模型 多元线性回归模型,9.2.1一元线性回归模型(只有1个解释变量),数学模型为: y=0+1x+ 上式表明:y的变化可由两部分解释:第一,由解释变量x的变化引起的y的线性变化部分,即y=0+1x;第二,由其他随机因素引起的y的变化部分,即。 0 、1 都是模型中的未知参数,0为回归常数,1为y对x回归系数(即x每变动一个单位所引起的y的平均变动) 。 称为随机误差。且满足:E()=0,Var()=2 。,一元线性回归方程: E(y)=0+1x 表明x和y之间的统计关系是在平均意义下表述的。 估计的一元线性回归方程: 估计方程是平面上的一条直线,即回归直线。 参数分别代表回归直线的截距和斜率。,9.2.2多元线性回归模型,多元数学模型: y=0+1x 1+2x 2 .+px p + 多元线性回归方程: E(y)=0+1x 1+2x 2 .+px p 估计多元线性回归方程: y=0+1x 1 +2x 2 . +px p,9.2.3回归参数的最小二乘估计 (ordinary least square estimation ,OLSE),估计思想: 使每个样本点(xi , yi)与回归线上的对应点( xi , E(yi )在垂直方向上偏差距离的二次方总和达到最小的原则来估计参数 即,( yi - E(yi )2 =最小 一元二乘估计: 多元二乘估计(略),9.3回归方程的统计检验,拟合优度检验 回归方程的显著性检验 回归系数的显著性检验 残差分析,9.3.1回归方程的拟合优度检验,用于检验样本数据点聚集在回归线周围的密集程度,从而评价回归线对样本数据的代表程度。 思想:因变量y(儿子身高)取值的变化受两个因素的影响:自变量x(父亲身高)不同取值的影响,其他因素(环境、饮食等)的影响。 可表示如下: 因变量总变差 = 自变量引起的 + 其他因素引起的 即因变量总变差= 回归方程可解释的+不可解释的 即,因变量总离差平方和SST =回归平方和 SSA + 剩余平方和SSE,图示:,一、一元线性回归方程,拟合优度的检验采用R2统计量,称为判定系数 R2=SSA/SST=1-SSE/SST. R2体现了回归方程所能解释的因变量变差的比例;1-R2体现了回归方程所无法解释的变差比例。,R2越接近于1,则说明回归平方和占了绝大部分比例,因变量y的变差主要由自变量x的取值造成,回归方程对样本数据点拟合得好 在一元线性回归中,判定系数R2=相关系数r2; 因此,从这个意义上讲,判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性。,说明,二、多元线性回归方程,多元线性回归方程的拟合优度检验采用统计量 ,称为调整的判定系数 调整的判定系数:判定系数受解释变量X的个数p的影响,在p的个数不同的模型之间进行比较时,判定系数必须进行调整。,9.3.2回归方程的显著性检验,用于检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当,即检验模型对总体的近似程度。 SST =回归平方和 SSA + 剩余平方和SSE 回归方程的显著性检验中采用方差分析的方法,研究在SST中SSA相对于SSE来说是否占有较大比例。如果比例较大,表明y与x全体的线性关系明显,则利用线性模型反映y与x的关系是恰当的;反之,不恰当。,原假设H0: 1 =0 .即:回归系数与0无显著差异 利用F检验,构造F统计量: FF(1,n-2) 判断:若 p<a,则拒绝H0 ,模型的线性关系是显著的;反之,模型的线性关系不显著.,一、一元线性回归方程显著性检验,原假设H0: 1 = 2=. =p = 0 .即:各个回归系数同时与0无显著差异 利用F检验,构造F统计量: FF(p,n-p-1) 判断:若 p<a,则拒绝H0 ,模型的线性关系是显著的;反之,模型的线性关系不显著.,二、多元线性回归方程的显著性检验,R2检验与F检验的关系,F是R2的单调增函数,F与 一一对应。,图1 F统计量与R2的关系,9.3.3回归系数的显著性检验,主要目的是研究回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系。 即研究每个解释变量能否有效的反映被解释变量的线性变化,它们能否保留在线性回归方程中。 回归系数的显著性检验是围绕回归系数估计值的抽样分布展开的,构造统计量,并进行检验。,一、一元线性回归方程显著性检验,回归系数的显著性检验:t检验 H0:1=0 ,即:回归系数与0无显著差异,利用t检验:,若 pa,不能拒绝H0, y和x线性关系不显著。 一元线性回归方程的检验和回归系数的检验是等效的。,需要对回归系数是否为零逐一进行检验。 原假设H0:i=0 ,即:第i个偏回归系数与0无显著差异 利用t检验统计量(略) 若与t统计量的概率伴随p <a,则拒绝H0 多元线性回归中回归系数的检验与整体回归方程的检验不能相互替代。,二、多元线性方程回归系数的检验,9.3.4残差分析,残差指由回归方程计算所得的预测值与实际样本值之间的差距,即模型中i 的估计值: 回归模型要求:残差序列中不含明显的规律性和趋势性,均值为零、正态分布、等方差,且序列是独立的。,一、残差均值为零的正态分析,可以通过绘制残差散点图来观察:如果残差的均值为零,残差图中的点应在纵坐标为零的横线上下随机散落,如下图。,二、残差的独立性分析(非自相关),残差是独立的,则残差序列应满足cov(i , j)=0(ij),表示残差序列前期和后期之间不存在相关关系,即不存在自相关。独立性检验方式: 第一、绘制残差序列图(下图残差随时间的推移,呈有规律变化,表明残差序列存在一定的正或负自相关),自相关系数用于测定序列自相关强弱,其取值范围-1+1,接近1表明序列存在正自相关,第二、计算残差的自相关系数,DW检验用于推断小样本序列是否存在自相关的方法。其原假设为:总体自相关系数与零无显著差异。采用统计量为: DW取值在04之间: =(-1,0)时,DW=(2,4)残差序列负自相关 =0时, DW=2,残差序列无自相关 = (0,1)时,DW=(0,2)残差序列正自相关 残差存在自相关表明遗漏了解释变量,或变量取值存在滞后性,或线性模型不适合,第三、DW(durbin-watson)检验,三、残差异方差分析,回归分析要求残差的方差相等,如果存在异方差,则参数的最小二乘估计不再是最小方差的无偏估计。因此需要检验残差是否存在异方差。其方法: 第一,绘制残差图(下图残差的方差随解释变量值的增加呈现增加趋势,表明存在异方差),第二,计算等级相关系数 得到残差序列后首先取其绝对值,然后分别计算出残差和解释变量的 秩,最后计算spearman等级相关系数,进行等级相关分析。若p值小于给定显著性水平,则拒绝原假设,认为解释变量与残差间存在显著相关,出现了异方差现象。,9.4 多元回归分析中的其它问题,9.4.1解释变量的筛选问题 多元回归分析中,模型选中应引入多少解释变量呢?少了难以解释对解释变量的变化,多了会引起多重共线。 一、向前筛选策略 指解释变量不断进入回归方程的策略。 首先引入与被解释变量线性相关系数最高的解释变量进入方程,并进行回归方程的各种检验; 然后,引入与被解释变量偏相关系数最高并通过检验的解释变量,并对新方程进行各项检验; 直到没有可引入的变量为止。,二、向后筛选策略 指解释变量不断剔除出回归方程的过程。 首先,将所有解释变量引入方程,并检验; 然后剔除t检验值不显著(最小)的一个或多个变量,重新建立回归方程并进行各种检验。 如果回归系数都显著,则方程建立结束。否则,接着依次删除最不显著的解释变量。 三、逐步筛选策略 指向前向后筛选的综合策略。 在向前筛选过程中,随着变量不断引入方程,需要再次判断是否存在可剔除的解释变量,如有,则剔除。,9.4.2 变量的多重共线性问题,变量的多重共线:指解释变量之间存在线性相关关系的现象。 若存在多重共线,则会造成偏回归系数估计困难、估计的方差增大、估计值的不稳定性增强、偏回归系数假设检验的结果不显著等问题。 测度多重共线的方法如下:,一、容忍度,解释变量xi 的容忍度:Toli=1-Ri2,其中: Ri2是解释变量xi与方程中其他解释变量间复相关系数的平方,表明了解释变量之间的线性相关程度。 容忍度大表示与其他自变量的共线性低,应进入方程。容忍度很小的变量,spss才会给出警告,不应进入方程 (T<0.1一般认为具有多重共线性),二、方差膨胀因子,方差膨胀因子(VIF):容忍度的倒数 方差膨胀因子取值大于等于1。R i 2接近0,解释变量间多重共线性越弱,VIF i 越接近于1。 如果VIF i 大于等于10,说明解释变量xi 与方程中其余解释变量之间有严重的多重共线性。 另外,也可以采用方差膨胀因子的均值来测度多重共线性。,三、特征值与方差比,如果最大特征值远大于其它特征值,表明该解释变量能刻画所有解释变量绝大部分信息(方差),意味着解释变量间存在较强的线性相关关系。 常以某特征值占70%左右。,四、条件指数,条件指数是在特征值的基础上定义的,它能反映解释变量间多重共线性指标。定义如下: Ki 为第i个解释变量的条件指标,它是最大特征值m 与第i个特征值比的平方根。 第i个条件指数Ki 越大,表明解释变量间信息重叠的越多,多重共线越严重。 Ki 小表明共线不明显。 0Ki <10,认为多重共线弱;10 Ki <100,认为多重共线较强,100 Ki 时,认为共线很严重。,9.5线性回归分析的基本操作,9.5.1线性回归分析的基本操作 SPSS将一元与多元集成在一起(一个菜单工具) 【analyze】-【regression】-【linear】 选择被解释变量进入【dependent】框中 选择一个或多个解释变量进入【independent】框 在【method】中选择解释变量的筛选策略 enter:所选解释变量强行进入回归方程(默认方法,常用于一元回归) remove:从回归方程中剔除所选变量 stepwise:逐步筛选策略;backward:向后筛选;forward:向前筛选,【block】表示设置解释变量不同的筛选策略块。可以按next和previous按钮设置多组解释变量和变量的筛选策略,并放在不同的块中。SPSS将按每一指定策略逐一进行回归。其中【remove】方法只能放在第二个以后块中。块设置便于作各种探索性分析。 【selection variable】为设置的条件变量框。Rule表示给定的判定条件。只有满足条件的样本数据才参与回归分析。 【case labels】是指定某变量为样本数据点的标记变量,将再图形中标出。,9.5.2线性回归的其它操作,一、statistics选项 该窗口提供用户可选择的统计量 【estimates】是SPSS 默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数(如果各解释变量单位不一致,如希望比较对被解释变量的影响时,可采用)、回归系数显著性检验t统计量和P值、各解释变量的容忍度。 【confidence intervals】输出每个非标准化回归系数的95%置信区间,【descriptives】:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值。 【model fit】为SPSS 默认输出项,输出判定系数、调整的判定系数,回归方程的标准误差、回归方程显著性检验的方差分析表。 【R squared change】表示每个解释变量进入方程后引起判定系数的变化量(R ch 2 )和F值的变化量,【Part and partial correlation】输出方程中各解释变量与被解释变量间的简单相关系数、偏相关系数和部分相关系数。 【covariance matrix】输出各解释变量间的相关系数、协方差和回归系数的方差。 【Collinearity dignostics】多重共线性诊断。输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比率等。 在【residuals】框中:【durbin - watson】表示输出DW检验值(异方差检验);【casewise diagnostics】表示输出标准化残差绝对值大于等于3的样本数据相关信息。,二、option选项,该窗口提供解释变量筛选的标准以及缺失值处理方式。 【use probability of F】SPSS默认项,表示以偏F统计量的概率值为标准判断解释变量能否进入或剔除出回归方程。一个解释变量的F值显著性水平小于entry(0.05)则该解释变量可以进入方程;大于removal(0.1)则剔除出方程。 【use F value】:以偏F统计量的临界值来判断解释变量能否进入(默认大于3.84,线性影响显著)方程;还是剔除出(默认小于2.71,不能拒绝原假设,线性影响不显著)方程。,三、plot选项,该窗口用于对残差的序列分析,包括分析残差散点图、正态分布累计概率图等。 窗口左边dependent表示被解释变量、zpred表示标准化预测值、dresid表示标准化残差、adjpred表示剔除异常点后调整的新预测值、sresid表示学生化残差。 绘制多对变量散点图需要在【scatter 1 of 1】框中定义散点图的纵坐标和横坐标变量。 在【standardized residual plots】中选【histogram】表示绘制标准化残差序列直方图;选【normal probability plot】表示绘制标准化残差序列正态分布累计概率图;选【produce all partial plots】项,表示一次绘制被解释变量与各个解释变量的散点图。,四、save选项,表示将回归分析结果保存到数据编辑窗口中(略讲) 【predicted value】:保存非标准化预测值unstandardized、标准化预测值standardized、调整的预测值adjusted,解释变量x=x0 下预测值的均值标准差。 【prediction intervals】:保存均值mean、保存个体值的预测值individual 及其95%的上下限。 【residuals】:保存非标准化残差unstandardized、标准化残差standardized、学生化残差studentized、剔除化残差deleted,9.6 线性回归分析的应用,问题:利用31个省属地区高校科研方面数据,进行多元回归分析(高校科研研究),分二步。 (1)先采取强制进入策略模型,并作多重共线检验 【analyze】-【regression】-【linear】 选择被解释变量立项课题数x5进入【dependent】中,选择多个解释变量投入年数x2 、投入高级职称的人年数x3 、投入科研事业费x4 ,专著数x6、论文数x7 、获奖数x8进入【independent】框,在【method】中选择上述被解释变量强制进入策略【enter】,并在【statistics】中选择 【Collinearity dignostics】进行多重共线性诊断和【durbin - watson】进行DW检验(异方差检验)。,图示一:,图示二:,一、方程拟合优度检验(因多元,采用调整拟合优度0.924,较高,被解释变量被解释的多。DW=1.838,显示残差序列弱正自相关不独立),二、回归方程的显著性检验(p值很小,方程线性关系显著),三、偏回归系数与多重共线检验(多数P值较大表明它们与被解释变量关系不显著,不应留在方程中。从容忍度和方差膨胀因子看,多重共线也很严重),四、多重共线检验(第7个特征值能解释投入人年数方差的84%、职称98%、专著数44%,可以认为这些变量间存在多重共线。5、6、7条件指数大于10也说明这点。总结论应重建方程),9.6.2向后筛选策略模型(剔除),