第9章SPSS线性回归分析.doc
第9章SPSS的线性回归分析 学习目标 1. 掌握线型回归分析的主要目标,了解回归方程的最小二乘法估计的基本设计思路。2. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的数量关系,并能够写出回归方程、对回归方程进行各种统计检验。3. 了解多元线性回归分析哦那个自变量筛选的主要策略,能够结合筛选策略对相应分析进行说明。4. 了解SPSS残差分析和多重共线性检验的基本操作,并能够分析结果。 91 回归分析概述911 什么是回归分析 回归分析是一种应用极为广泛的数量分析方法。它用于分析事物间的统计关系,侧重考虑变量之间的数量变化规律,并通过回归方程的形式描述和反应这种关系,帮助人们准确把握受其他一个或多个变量影响的程度,进而为预测提供科学依据。“回归”一词是英国统计学家F·Galton在研究父亲身高和其成年儿子的身高关系时提出的。从大量的父亲身高和其成年儿子数据的散点图中,F·Galton天才地发现了一条贯穿其中的直线,它能够描述父亲身高和其成年儿子身高之间的关系,并可用于预测某身高父亲其成年儿子的平均身高。他的研究发现:如果父亲的身高很高,那么她的儿子也会比较高,但不会像他父亲那么高;如果父亲的身高很矮,那么她的儿子也会比较矮,但不会像他父亲那么矮。他们会趋向于子辈身高的平均值。F·Galton将这种现象称为“回归”,将那条贯穿于系的数量分析关系的数量分析方法称为回归分析。正如上述F·Galton研究父亲身高与儿子身高关系问题那样,回归分析的核心目的是找到回归线,涉及包括如何得到回归线、如何描述回归线、回归线是否可用于预测等问题。9·1·2 如何得到回归线 利用样本数据获得回归线通常可采用两类方法:第一,局部平均法;第二,函数拟合。一、 局部平均局部平均的含义可借用父亲和儿子的身高关系的例子来理解。如果收集到n对父亲和儿子身高的数据(xi,yi)(i=1,2,n),可以对它们绘制散点图、计算基本描述统计量。现在得到一个父亲身高数据(x0),于是其儿子身高的预测值可以是:第一, 子辈身高的平均值。显然这个预测是不准的,原因没有考虑父亲身高(x0)的作用。第二, 父亲身高为x0的所有儿子身高的平均值0.。该预测较第一种方法显然要准确得多。第三, 如果在获得的数据中没有父亲身高为x0的样本数据,可以考虑计算父亲身高为x0左右的一个较小区间内的儿子身高的平均值。按照这种思路在散点图上不难得到一系列(xi,i)(j表示散点图有左往右的第j个小区间)对应的数据点。如果这些点足够多,则可以得到一条光滑的曲线,它们将是上述提到的回归线的近似线。可见,回归线是局部平均的结果。利用回归线做预测是对当x=x0时y的平均值的预测。二、 函数拟合 利用局部平均得到的回归线应在样本量足够大时才能实现,然而通常样本量可能无法达到预期的数量,此时多采用函数拟合的方式得到回归线。函数拟合的基本思路是:首先,通过散点图观察变量之间的关系,得到回归线形状(线性关系或非线性关系)的感性认知,并确定一个能够反应和拟合这种认知且最简洁的(参数最少的)数学函数(线性函数或非线性函数),即回归模型。最后,回归方程中的参数是在样本数据的基础上得到的。由于抽样随机性的存在,估计出的回归方程未必是事物总体间数量关系的真实体现,因此需要对回归方程进行各种检验,判断该方程是否真实地反应了事物总体间的统计关系,能否用与预测,并最终得到由回归方程确定的回归近似线。可见,函数拟合方式较局部平均具有更强的可操作性,因而得到广泛采纳。 9.1.3 回归分析的一般步骤回归分析的一般步骤如下:1. 确定回归方程中的解释变量和被解释变量由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的的第一步应是确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即那些变量是解释变量(记为x)。回归分析正是要建立y与x的回归方程,并在给定x的条件下,通过回归方程预测y的平均值。这点是有别于相关分析的。例如,父亲身高关于成年儿子身高的回归分析与成年儿子关于父亲身高是完全不同的。2. 确定回归模型根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;繁殖如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。3. 建立回归方程根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。4. 对回归方程进行各种检验前面已经提到,由于回归方程是在样本数据基础上得到的,回归方程是否真实地事物总体间的统计关系以及回归方程能否用与预测等都需要进行检验。5. 利用回归方程进行预测建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。利用SPSS会自动进行计算并给出最佳模型。9.2 线性回归分析和线性回归模型 观察被解释变量y和一个或多个解释变量xi的散点图,当发现y与xi之间呈现出显著地线性关系,则应采用线性回归分析的方法,建立y与xi的线性回归模型。在线性回归分析中,根据模型中解释变量的个数,可将现行回归模型分成一元线性回归模型和多元线性回归模型,相应的分析称为一元线性回归分析和多元线性回归分析。9.2.1 一元线性回归模型 一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。 一元线性回归的数学模型为: y=0+1x+ (9.1) 式(9.1)表明:被解释变量y的变化可以由两个部分解释。第一,由解释变量x引起的y的线性变化部分,即y=0+1x;第二,有其他随机因素引起的y的变化部分,即。 由此可以看出一元线性回归模型是被解释变量和解释变量间非一一对应的统计关系的良好诠释,即当x给定后y的值并非唯一,但它们之间又通过0和1保持密切的线性相关关。0和1都是模型中的未知参数,0和1分别称为回归常数和回归系数,称为随机误差,是一个随机变量,当满足两个前提条件,即E()=0Var()= (9.2)式(9.2)表明:随机误差的期望应为0,随机误差的方差应为一个特定的值。如果对式(9.1)两边求期望,则有E(y)=0+1x (9.3) 式(9.3)称为一元线性回归方程,它表明x和y之间的统计关系是在平均意义下表现的,即当x的值给定后利用回归模型计算得到的y值是一个平均值,助于前面讨论的局部平均是相一致的。也就是说,例如,如果父亲的身高x给定了,得到的儿子的身高y是特定“儿子群”身高的平均值。 对式(9.3)的一元线性回归方程中的未知参数0和1进行估计是一元线性回归分析的核心任务之一。由于参数估计的工作是基于样本数据的,由此得到的参数只是参数真值0和1的估计值,记为0和1,于是有 =0+1x (9.4) 式(9.4)称为一元线性经验回归方程。从几何意义上讲,一元线性回归经验方程是二维平面上的一条直线,即回归直线。其中,0是回归直线在y轴上的截距,1为回归直线的斜率,它表示解释变量x每变动一个单位所引起的被解释变量y的平均变动数量。 现实社会经济现象中,某一事物(被解释变量)总会收到多方面因素(多个解释变量)的影响。一元 线性回归分析是在不考虑其他影响因素或在认为其他影响因素确定的条件下,分析一个解释变量是如何线性影响被解释变量的,因而是比较理想化的分析。9.2.2 多元线性回归模型 多元线性回归模型是指含有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。 多元线性回归的数学模型是: Y=0+1x1+2x2+pxp+式(9.5)是一个p元线性回归模型,其中有p个解释变量。它表明被解释变量y的变化可由两个部分解释。第一,由p个解释变量x的变化引起的y的线性变化部分,即Y=0+1x1+2x2+pxp;第二,由其他随机因素引起的y的变化部分,即00,1,,pxp;参数,分别称为回归常数和偏回归系数,称为随机误差,也是一个随机变量,同样满足式(9.2)的要求。如果对式(9.5)两边求期望,则有 E(y)=0+1x1+2x2+pxp (9.6) 式(9.6)称为多元线性回归方程。估计多元线性回归方程中的未知参数0,1,,p是多元线性回归分析的核心任务之一。由于参数估计的工作是基于样本数据的,由此得到的参数只是参数真值0,1,,p 的估计值,记为0,1 ,于是有 (9.7) (9.7)称为多元线性经验回归方程。从几何意义上讲,多元线性回归经验方程是p维空间上的一个超平面,即回归平面。 表示当其他解释变量保持不变时, 每变动一个单位所引起的被解释变量y的平均变量数量9.2.3 回归参数的普通最小二乘估计 线性回归模型确定后的任务是利用已经收集到的样本数据,根据一定统计拟合准则,对模型中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。 普通最小二乘估计(ordinary least square estimation ,OLSE)的基本出发点是:应是每个样本点(xi,yi)回归线上的对应点(xi,E(yi)偏差距离的总和最小那么应如何定这个偏差呢?普通最小二乘将这个偏差距离定义为离差的二次方1,即偏差距离的总和就转化为离差平方和。1. 对于一元线性回归方程Q(0,1)= (9.8)最小二乘估计是寻找参数0,1 的估计值 ,使式(9.8)达到极小,即min2. 对于多元线性回归方程Q(0,1,2,,p)=最小二乘估计是寻找参数 0,1,p 的估计值 使式(9.10)达到极小,即Q( = min 根据上述原则通过求极值的原理和解方程组,可以得到回归方程参数的估计值。具体求解过程这里不叫天伦。在使用SPSS分析时,SPSS会自动完成参数估计,给出最终的估计值。9.3 回归方程的统计检验通过样本数据建立回归方程后一般不能立即用于对实际问题的忍心和预测,通常要进行各种统计检验,主要包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著检验、残差分析等。9.3.1 回归方程的拟合优度检验 回归方程的拟合优度检验是检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。 拟合优度检验从对被解释变量y取值变化的成因分析入手。正如式(9.1)和式(9.5)表明的那样,y的各观察值之间的差异(或与其均值的差异)主要由两方面原因造成:一是由解释变量x取值不同造成的;二是由其他随机因素造成的。 例如,在研究父亲身高和成年儿子身高的关系是发现,成年儿子身高的差异会受到两个因素的影响:第一,父亲身高的影响;第二,即使父亲身高相同,其成年儿子的身高也不尽相同,还会受到其他随机因素的影响。 式中为的总差离平方和(SST)。再回到拟合优度检验的问题中来。容易理解:当所有样本点都落在回归线上是,回归方程的拟合优度一定是最高的。此时y的中其实只包含SSAbufen ,也没有由此可知:在中,如果所占的比例远大于所占的比例,也就是说,回归方程能够及时的变差所占比例较大,那么回归方程的拟合优度会较高。拟合优度的统计量正是基于这哟昂基本思想构造出来的。一、 对于一元线性回归方程一元线性回归方程的拟合优度检验采用统计量。该统计量称为判定系数或决定系数,数学定义为式(9.13)正是上述基本思想的良好体现,它是“ ”,也是“ ”,反映了回归方程所能解释的变差比例。 则体现了被解释变量总变量中回归方程所无法解释的比例。由式(9.13)可知: 取值在01之间。 越接近于1,说明回归方程对样本数据点的拟合优度越高;反之, 越接近于0,说明回归方程对样本数据点的拟合优度越低。 在一元线性回归分析中, 也是被解释变量y和解释变量x 的简单相关系数r的平方,由此可见,如果y和x的线性关系较强,那么用一个线性方程拟合样本数据点,必然能够得到一个较高的拟合优度;反之,如果y和x的线性关系较弱,那么用一个线性关系拟合样本数据点,则无法得到一个较高的拟合优度。二、 对于多元线性回归方程多元线性回归方程的拟合优度检验采用 统计量。该统计量称为调整的判定系数或调整系数,数学定义为:式中,n-p-1,n-1分别是SSE和SST的自由度,由此可知调整的是“1-平均的SSE/平均的SST”,本质上也是拟合优度检测的体现。调整的取值范围和数值大小的意义与是完全相同的。在多元线性回归分析中,仍然可以计算。此时,他被解释变量与诸多解释变量的负相关系数的平方,实质测度了y与x之间的全体相关程度,也测度了样本数据与拟合数据(预测数据)间的相关程度。在多元线性回归分析中采用调整的而非作为拟合优度检测指标的原因是:在多元性回归分析中,有两方面的原因可导致的值增加:第一,的数学特性决定当多元回归方程中的解释变量的数量增多时,SSE必然会随之减少进而导致值的增加; 第二,回归方程中引入了对被解释变量有重要“贡献”的解释变量而是的值增加。 线性回归的根本目的是希望找到对y有“贡献”的解释变量而是的值增加。线性回归分析的根本目的是希望找到那些对y有“贡献”的x,继而分析它们之间线性变化的数量关系。背离这个根本点去追求高是没有意义的。因此,当值增加时应用对其缘由加以区分。本身显然是无能为力的,应采用调整的。由式(9.14)可知;在某个xi引入回归方程后,如果它对y的解释有重要贡献,那么必然会使SSE显著减少,并平均的SSE也减少,是调整的提高;反之,如果某个xi对y的解释不明显,将其引入后虽能使SSE减少,但不会是平均的SSE减少,调整的值也不会提高。可见,在多元线性回归分析中,调整的比能够更准确地反应回归方程对样本数据的拟合程度。9.3.2 回归方程的显著性检验 线性回归方程能够较好的反应被解释变量和解释变量之间统计关系的前提是:被解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是检验解释变量和被解释变量之间的线性关系是否显著,用线性模型来描述。谈它们之间的关系是否恰当 回归方程显著性检验的基本出发点与拟合优度检验非常相似通过上面的讨论已经知道SST=SSA+SSE。在回归方程的显著性检验采用方差分析的方法,研究在SST中SSA相对于SSE来说是否占较大的比例。如果占有较大比例,则表示y与x全体的线性关系明显,利用线性关系模型反应y与所有x的关系式恰当的;反之,如果占有较小比例,则表示y与x全体的线性关系不明显,利用线性模型反应y与所有x的关系是不恰当的。回归方程显著性检验采用的检验统计量正是基于这种思想构造的。一、 对于一元线性回归方程一元线性回归方程显著性检验的原假设是:1=0,即回归系数与零无显著性差异。它意味着:当回归系数为零时,无论x取值如何变化都不会引起y的线性变化,x无法解释y的线性变化,它们之间不存在线性关系。检验采用F统计量,其数学定义为:F= (9.15) 式(9.15)中的统计值很好的体现了上述基本思想,它是“平均的SSA/平均的SSE”,反映了回归方程所能解释的变差与不能解释的变差的比例。F统计量服从(1,n-2)个自由度的F分布。SPSS将自动计算检验统计量的观测值和对应的概率P-值。如果概率P-小于给定的显著水平,则应拒绝原假设,认为回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,可以用线性关系模型描述和反应它们之间的关系;反之,如果概率P-大于给定的显著水平,则不应拒绝原假设,认为回归系数与零不存在显著差异,被解释变量y与解释变量x的线性关系不显著,用线性关系模型描述和反应它们之间的关系是不恰当的。 二、对于多元性回归方程 多元线性回归方程显著性检验的原假设是:1=2=P=0,即各个偏回归系数与零无显著差异。它意味着:当偏回归系数同时为零时,无论各个x1取值如何变化都不会引起y的线性变化,所有x无法解释y的线性变化,y与x的全体不存在线性关系。检验采用F统计量,其数学定义为:F= (9.16) 286页式中,p关于多元线性回归方程解释变量的个数,f统计量服从(p,n-p-1)个自由度的Ff分布。SPSS将自动计算检验统计量的观测值和对应的概率p值。如果概率值小于给定的显著性水平,则应拒绝原假设,认为偏回归系数不同时为零,被解释变量y与解释变量x,全体线性关系显著,可以用线性模型来描述和反映他们之间的关系,反之,如果概率p值大于给定的显著性水平,则不应拒绝原假设,偏回归系数同时为零,被解释变量与解释变量x的全体的线性关系不显著,用线性模型描述和反映他们之间有关系是不恰当, 通过上面的讨论不难发现,回归方程的显著性检验和回归方程的拟合优度检验有异曲同工之处。回归方程的拟合优度越高,回归方程的显著性检验结果越显著,回归方程的显著性检验下,回归方程的拟合优度也会越高,但应注意的是,回归方程的拟合优度检验,实质上并非统计学的统计检验问题,他们,并不涉及统计检验中提出原假设,选择检验统计量计算检验统计量的观察,以及,根据抽样分布计算概率,p值拒绝或不可拒绝原假设等一系列步骤,因此,回归方程的拟合优度检验本质上仅仅是一种破坏性的描述,不涉及对解释变量和被解释变量总体线性关系的推断,而这恰恰是回归方程显著性检验所需要实现的目标。9.3.3回归系数的显著性检验的主要目的是研究中的每一个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究每个解释变量能否有效的解释被解释变量的线性变化,他们能否保留在线性回归方程中。回归系数显著性检验是围绕回归系数或偏回归系数估计值得抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。一, 对于一元线性回归方程,一元线性回归方程的回归系数显著性检验的原假设是, 即回归系数与零无显著差异,它意味着,当回归系数为零时,无论x取值如何变化都不会引起y的线形变化,无法解释线性变化,他们之间不存在线性关系,在一元线性回归模型,回归系数估计值的抽样分布服从,适中,回归方程的标准误差,他是军方,的平方根,反映了回归方程无法解释变动的程度,统计量服从自由度的分布,spss将自动计算统计量的观测值和对应的概率值,如果概率值小于给定的显著性水平,则应拒绝原假设,认为回归系数与零有显著差异,被解释变量y与解释变量x的线性关系显著,应该保留在,回归方程中,反之,如果概率p值大于给定的显著性水平,则不应拒绝原假设,认为回归系数与零无显著差异,被解释变量y与解释变量x的线性关系不显著,x不应该保留在你,回归方程中, 在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互替代,同时,回归方程显著性检验,f统计量恰好等于回归系数检验中的,t统计量的平方,即 F=二,对于多元性回归方程,多元性回归方程的回归系数显著性检验的原假设是, 即第i个偏回归系数与零显著差异,他意味着,当偏回归系数为零时,无论x取值如何变化都不会引起y 表现性变化,他们之间不存在线性关系。在多元线性回归模型中,偏回归系数估计值的抽样分布服从当未知时,用替代于是在原假设成立时,可构造t检验统计量为:统计量将自动计算统计量的观测值对应的概率值,如果概率值小于给定的显著性水平,拒绝原假设,认为回归系数与内容有显著差异,被解释变量y与解释变量x的新型关系显著,x应该保留着回归方程中,反之,如果概率p值大于给定的显著性水平,啊!则不应拒绝原假设,认为回归系数与零五显著差异,被解释变量y与解释变量x和a的线性关系并不显著,x不应该保存在回归方程中,多元线性模型中,回归方程显著性检验与回归系数显著性检验作用不尽相同,回归方程显著性检验只能检验所有偏回归系数是否同时为零,如果偏回归系数不同时为零,并不能保证方程中仍存在某些偏回归系数为零的解释变量,也就是说,通过回归方程显著性检验后,能不能保证回归方程中不存在,不能叫好解释说明y的x,回归系数显著性正是为此,对每个偏回归系数是否为零进行逐一考察,因此,多元线性回归中的这两种检验通常不能互相替代,但上述的f检验并t检验无任何关系,如果没个解释变量x是银幕回归方程解通过回归系数显著性检验,它会使方差减小,r提高,毕竟是f统计量的观测值得到改善,及,不难发现,当某个解释变量哪个是你用回归方程,对应的,有观测侄女该解释变量之间存在如下数量关系,从偏F统计量角度讲,如果某个解释变量X的引入使得偏F统计量的俺测纸发生显著变化,就可以认为该X对Y的线性贡献是显著的,他应该保留在回归方程,对偏F 统计量的检验回归系数显著性检验,实质是等价的9.3.4 残差分析,所谓残差是直接回归方程计算所得的预测值实景样板间之间的差距,定义为:它是回归模型中的,估计值,由多个,形成的序列称为残差序列,残差分析是回归方程检验中的重要组成部分,其出发点是,如果回归方程能够较好地反映被解释变量的特点和变化规律,那么残差序列中应不包括明显的规律性和趋势性,还差分析正是基于这种考虑并围绕 展开,主要任务可大致归纳为,分析陈超是否为服从均值为零的正态分布,分析尝尝是否为等方差的太分布,分析传抄序列是否独立,记住残差探测样本中的异常值,图形分析和数值分析是残差分析的有效工具。一,残差均值为零的正态性分析在前面讨论中知道:当解释变量X去某个特定值x0时,对应的残差必然有正有负,但总体上服从以零为均值的正态分布。可以通过绘制残插图对该问题进行分析,残差图也是一种三点,初中一般横坐标是解释变量,纵坐标为,如果残差的均值为零,残差图中的点已经在纵坐标为零的红线上加随机散落,如图所示,对于禅茶的正态性分析可以通过绘制标准画残差的累计概率来分析,二, 残差的独立性分析残差序列的独立性也是回归模型所要求,残差序列应满足,表示残差序列的前期和后期数值之间不存在相关关系,既不存在自相关,陈超序列存在自相关性会带来许多问题,如,普通最小二乘估计不再是最优的,不再是最小方差无偏差估计,容易导致回归系数显著性检验的t偏高,进而容易拒绝原假设,那些本不应该保留在方程中的变量被保留下来,并最终使模型的预测偏差较大,陈超独立性分析可以通过以下三种方式实现,第一, 残差序列的序列图, 还差序列图以样本期为横坐标,以残差为纵坐标,对图形直观观察可以发现是否存在自相关性,如图所示,残差序列存在较强的自相关性, 残差随着时间的推移呈有规律的变化,表明残差序列存在一定的正或负相关 第二, 计算残差自相关系数, 自相关系数是一种测度序列自相关强弱的工具,其数学定义为, 自相关系数的取值范围在-1+1之间。接近于一,表明序列存在自正相关,接近于负一,表明序列存在负自相关,第三,d w检验,D w检验试推断小样本序列是否存在自相关的统计检验方法,即原假设是,总体的自相关系数,与零五显著差异,采用检验统计量,通过,可知,dw是在零到四之间,当序列不存在自相关时所以,对tw的观测值,可直观判断标准是,当dw=4时残差序列存在完全复制相关,当,dw=(2,4)残差序列存在负相关,当,dw=2,残差序列无自相关,当,dw=(0,2)陈超序列存在正自相关,当,dw=0残差序列存在完全正相关,如果残差序列存在自相关,说明回归方程没能够充分说明被解释变量的变化规律,还留有一些规律性没有被解释,也就是认为方程中遗漏了一些较为重要的解释变量,或者变量存在取决于滞后性,或者回归模型选择不合适,不应选用线性模型,等三,异方差分析,在前面的讨论中知道,无论解释变量取怎样的值,对应残差分析的方法都应相等,跟谁解释变量或被解释变量区别的变化而变化,否则认为出现了一方差现象,当存在异方差是,参数的最小二乘估计不再是最小方差无偏估计,不再是有效性,估计,容易导致回归系数显著性检验的t值偏高,进而容易拒绝其原假设,是那些本不应该保留在方程中的变量被保留下来,新的预测偏差较大,一方差分析可以通过以下两种方式实现,第一,绘制残差图可以通过绘制残差图分析是否存在异方差如图所示的残差图中,残差的方差随着解释变量值的增加而增加的趋势,出现了一方差现象.第二,等及相关分析,得到残差序列后首先对其绝对值,你,然后分别计算出残差和解释变量,最后计算出等级相关系数,并进行钢筋相关分析,具体过程见相关分析相关证明,如果当局相关分析中检验统计量的概率值小于给定显著性水平,应拒绝登机相关信息的原假设,认为解释变量与残差间存在显著相关关系,出现了一方差现象,如果存在一方差现象,可先对解释变量实施方差稳定后再进行回归方程,参数的估计。通常,如果残差与预测值的平方根成比例变化,可对被解释变量作开方处理; 如果残差与预测值成比例变化,可对解释变量取对数;如果残差与预测值的平方成比例变化,可对解释变量求倒数。另外,还可以利用加权最小二乘估计法实施最小二乘的参数估计。以一元线性回归分析为例,在普通最小二乘中,离差平方和 中,解释变量取不同值时,各成分对平方和的贡献是同等的。但在异方差情况下,由于解释变量不同取值下的残差的方差不同,造成它们对平方和的贡献不同等,方差偏大的贡献偏大,方差偏小的贡献偏大小,进而最终使回归线偏向于方差大的项。加权最小二乘估计法就是在平方中加入一个恰当的权数 ,以调整各项在平方中的作用。方差较小的项给予较大的权数,方差较大的项给予较大的权数,即 ,并在最小原则下进行参数估计。加权最小二乘法中权重的确定是非常重要的。 四. 探测样本中的异常值 可以利用残差分析探测样本中的异常值。通常异常值是指那些远离均值的样本数据点,它们对回归方和的参数估计有较大影响,应尽量找出它们并加以排除。被解释变量y和解释变量x中都有可能出现异常值。 对被解释变量中异常值的探测方法一般有以下几种:1.标准化残差由于残差是服从均值为0的正态分布,因此可以根据3 准则进行判断,即首先对残差进行标准化 ,然后观察ZREi。绝对值班大于3对应的观察值为异常值。2.学生化残差在异方差时可使用学生化残差对异常值进行判断,即首先计算学生化残差(SREi= ,然后观察 。绝对值大于3对应的观察值为异常值。3.剔除残差剔除残差的构造思想是: 在计算i个样本残差时,用剔除该样本后剩余的n-1个样本拟合回归方程,并计算第i个样本的预测值和相应的残差。这个残差与第i个样本无关,不受第i个样本y值是否是异常值的影响,称为剔除残差。剔除残差较上述残差更能如实反映第 i个样本的y的异常性。剔除学生化残差的绝对值大于3对应的观察值为异常值。 对解释变量中异常值的探测方法一般有以下几种:1.杠杆值第i个样本的杠杆值hii的数学定义为:由式(9.24)可知,杠杆值实质反映了解释变量x的第i个值与x平均值之间的差异。当xi接近时, hii接近0;当 xi远离时,hii接近1 所以,某个杠杆值hii较高意味着对应的xi远高平均值,它会强烈地影响回归方程的拟合,是一个异常点。由于杠杆值的平均值为:通常如果hii大于2或3倍的,就可以认为该杠杆值较高,对应的观察值为异常点。spss中计算的是中心化(回归线过原点,常数项为0)的杠杆值chii。中心化杠杆值chii=hii-1/n,其均值为:2.库克距离库克距离也是一种探测强影响点的有效方法,数学定义为:式中,p为解释变量的个数。库克距离是杠杆值hii与eii大小的综合效应。一般库克距离大于1,就可以认为对应的观察值为异常点。3.标准化回归系数的变化和标准化预测值的变化在剔除第i个样本之后,观察标准化回归系数的前后变化。通常如果标准化回归系数变化的绝对值大于2/,则可认为第i个样本可能是异常点;另外,还可以观察预测值的前后变化。通常如果标准化预测值变化的绝对值大于2/,则可认为第i个样本可能是异常点。 9.4 多元回归分析中的其他问题在多元回归分析中,由于被解释变量会受众多因素的共同影响,需要由多个解释变量解释,于是会出现诸如此类的问题:多个变量是否都能进入线性回归模型,解释变量应以怎样的策略和顺序进入方程,方程中多个解释变量之间是否存在多重共线性,等等。9.4.1 解释变量的筛选问题 在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。如果引入的解释变量较少,回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入解释变量越多越好,因为这些变量之间可能存在多重共线性(具体内容见后)。因此,有必要采取一些策略对解释变量引入回归方程加以控制和筛选。多元回归分析中,解释变量的筛选一般有向前筛选、向后筛选、逐步筛选三种基本策略。一、 向前筛选策略 向前筛选(Forward)策略是解释变量不断进入回归方程的过程。首先,选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验;然后,在剩余的变量中寻找与解释变量偏相关系数最高并通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验;这个过程一直重复,知道再也没有可进入方程的变量为止。 二、向后筛选策略 向后筛选(Backward)策略是变量不断剔除出回归方程的过程。首先,所有变量全部引入回归方程,并对回归方程进行各种检验;然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,并重新建立回归方程和进行各种检验;如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束。否则按照上述方法再一次剔除最不显著的变量,直到再也没有可能剔除的变量为止。 三、逐步筛选策略 逐步筛选(Stepwise)策略是向前筛选和向后筛选策略的综合。向前筛选策略是变量不断进入回归方程的过程,变量时一旦进入回归方程就不会剔除出去,随着变量的不断进入,由于解释变量之间存在一定程度的多重共线性,使得某些已经进入回归方程的解释变量的回归系数不再显著,这样造成最终的回归方程可能包含一些不显著的解释变量。逐步筛选法在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在可以剔除方程的变量。因此,逐步筛选策略在引入变量的每一个阶段都提供了再剔除 不显著变量的机会。9.4.2变量的多重共线性问题所谓多重共线性是指解释变量之间存在线性相关关系的现象。解释变量间高度的多重共线性会给回归方程带来许多影响。例如,偏回归系数估计困难,偏回归系数的估计方差随解释变量相关性的增大而增大,偏回归系数的置信区间增大,偏回归系数估计值的不稳定性增强,偏回归系数假设检验的结果不显著,等等,测度解释变量间多重共线性一般有一下方式:一、 容忍度 容忍度是测度解释变量间多重共线性的重要统计量。解释变量xi的容忍度定义为: 式中,R是解释变量x与方程中其他解释变量间的复相关系数的平方,表明了解释变量之间的线性相关程度。如果R较小,即方程中其他解释变量对该解释变量的可解释程度较低,那么容忍度会较大;反之,如果R较大,即方程中其他解释变量对该解释变量的可结实程度较高,那么容忍度会较小。容忍度的取值范围在01之间,越接近与0表示多重共线性越强;越接近于1表示多重共线性越弱。SPSS对变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。二、方差膨胀因子方差膨胀因子(VIF)是容忍度的倒数,即 由式(9.27)可知,方差膨胀因子的取值大于等于1。解释变量间的多重共线性越弱,R越接近0,VIF越大。通常,如果VIF大于等于10,说明解释变量X与方程中其余皆是变量之间有严重的多重共线性,且可能会过度地影响方程的最小二乘估计。另外,还可以利用方差膨胀因子的均值 来测度多重共线性。如果该均值远远大于1,则表示存在严重的多重共线性。三、 特征根和方差比 特征根是诊断解释变量间是否存在严重的多重共线性的另一种有效方法。基本思想是:如果解释变量确实存在较强的相关性,那么它们之间必然存在信息重叠,于是应能够将这些重叠信息提取出来,成为既能够反映解释变量的信息(方差)且又相互独立的因素(成分)。根据这一基本思路可从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征根。于是,有最大特征根植的特征根更够解释说明解释变量信息的比例是最高的(通常可达到70%左右),其他特征根随其特征值的减小对解释变量方差的解释能力依次减弱。如果这些特征根中,最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画出了所有解释变量的绝大部分信息(方差)。 解释变量以上标准化后它的方差为1。如果每个特征根都能够刻画该变量方差的一部分,那么所有特征根将刻画该变量方差的全部。如果某个特征根既能够刻画某解变量方差的较大部分比例(如0.7以上),同时又可以刻画另一个解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。 四、条件指数 条件指数是在特征根基础上定义的能够反映解释变量间多重共线性的指标。它的数学定义为: 式中, 为第i个条件指标,它是最大的特征根 与地i个特征根比的平方根。容易理解:如果最大的特征根与第i个特征根的值相差较大,即第i个条件指数较大,则说明解释变量间的信息重叠较多,多重共线性较严重;反之,如果最大的特征根与第i个特征根的值相差较小,即第i个条件指数较小,则说明解释变量间的信息重叠较少,多重共线性不明显。通常,当 0ki 100 时,认为多重共线性较弱;当 10ki 100时,认为多重共线性较强;当 时,认为多重共线性很