线性回归方程的残差分析优秀PPT.ppt
1-1-1 1第七章 SPSS的相关分析和回来分析1-1-2 2主要内容主要内容相关分析相关分析线性回来分析线性回来分析回来模型的检验回来模型的检验回来模型的适用性回来模型的适用性非线性回来分析非线性回来分析1-1-3 3 概述概述(一一)相关关系相关关系(1)(1)函数关系函数关系:(:(如如:销售额与销售量销售额与销售量;圆面积和圆圆面积和圆半径半径.).)是事物间的一种一一对应的确定性关系是事物间的一种一一对应的确定性关系.即即:当当一个变量一个变量x x取确定值时取确定值时,另一变量另一变量y y可以依确定可以依确定的关系取一个确定的值的关系取一个确定的值 (2)(2)相关关系(统计关系)相关关系(统计关系):(:(如如:收入和消费收入和消费)事物间的关系不是确定性的事物间的关系不是确定性的.即即:当一个变量当一个变量x x取取确定值时确定值时,另一变量另一变量y y的取值可能有几个的取值可能有几个.一个一个变量的值不能由另一个变量唯一确定变量的值不能由另一个变量唯一确定1-1-4 4概述概述相关关系的常见类型:相关关系的常见类型:线性相关:正线性相关、负线性相关线性相关:正线性相关、负线性相关非线性相关非线性相关 相关关系不象函数关系那样干脆相关关系不象函数关系那样干脆,但却普遍存但却普遍存在在,且有强有弱且有强有弱.如何测度如何测度?1-1-5 5概述概述(二二)相关分析和回来分析的任务相关分析和回来分析的任务探讨对象探讨对象:相关关系相关关系相关分析旨在测度变量间线性关系的强弱程相关分析旨在测度变量间线性关系的强弱程度度.回来分析侧重考察变量之间的数量变更规律回来分析侧重考察变量之间的数量变更规律,并通过确定的数学表达式来描述这种关系并通过确定的数学表达式来描述这种关系,进而确定一个或几个变量的变更对另一进而确定一个或几个变量的变更对另一个变量的影响程度个变量的影响程度.1-1-6 6相关分析相关分析(一一)目的目的 通过样本数据通过样本数据,探讨两变量间线性相关程度的强探讨两变量间线性相关程度的强弱弱.(.(例如例如:投资与收入之间的关系、投资与收入之间的关系、GDPGDP与通与通信需求之间的数量关系)信需求之间的数量关系)(二二)基本方法基本方法 绘制散点图、计算相关系数绘制散点图、计算相关系数1-1-7 7 绘制散点图绘制散点图(一一)散点图散点图 将数据以点的形式绘制在直角平面上将数据以点的形式绘制在直角平面上.比较直观比较直观,可以用来发觉变量间的关系和可能的趋势可以用来发觉变量间的关系和可能的趋势.1-1-8 8绘制散点图绘制散点图(二二)基本操作步骤基本操作步骤(1)(1)菜单选项菜单选项:graphs-scattergraphs-scatter(2)(2)选择散点图类型选择散点图类型:(3)(3)选择选择x x轴和轴和y y轴轴的变量的变量(4)(4)选择分组变量选择分组变量(set markers by):set markers by):分别分别以不同颜以不同颜色点的表示色点的表示(5)(5)选择标记变量选择标记变量(label case by):label case by):散点图上可带散点图上可带有标记变量的值有标记变量的值(如如:省份名称省份名称)1-1-9 9计算相关系数计算相关系数(一一)相关系数相关系数(1)1)作用作用:以精确的相关系数以精确的相关系数(r)r)体现两个变量间的线体现两个变量间的线性关系程度性关系程度.r:-1,+1;r=1:r:-1,+1;r=1:完全正相关完全正相关;r=-1:r=-1:完全负相关完全负相关;r=0:r=0:无线性相关无线性相关;|;|r|0.8:r|0.8:强相关强相关;|r|0.3:r|0.3:弱弱相关相关1-1-1010计算相关系数计算相关系数(一一)相关系数相关系数(2)(2)说明说明:相关系数只是较好地度量两变量间的线性相相关系数只是较好地度量两变量间的线性相关程度关程度,不能描述非线性关系不能描述非线性关系.如如:x x和和y y的取值为的取值为:(-1,-1)(-1,1)(1,-1)(1,1):(-1,-1)(-1,1)(1,-1)(1,1)r=0 r=0 但但 xi2+yi2=2xi2+yi2=2数据中存在极端值时不好数据中存在极端值时不好如如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1):(1,1)(2,2)(3,3),(4,4),(5,5),(6,1)r=0.33 r=0.33 但总体上表现出但总体上表现出:x=y x=y 应应结合散点结合散点图分析图分析1-1-1111计算相关系数计算相关系数(一一)相关系数相关系数(3)(3)种类种类:简洁线性相关系数简洁线性相关系数(Pearson):(Pearson):针对定距数据针对定距数据.1-1-1212计算相关系数计算相关系数(一一)相关系数相关系数SpearmanSpearman相关系数相关系数:用来度量定序或定类变量间的线性相关关用来度量定序或定类变量间的线性相关关系系(如如:不同年龄段与不同收入段不同年龄段与不同收入段,职称和受教化年份职称和受教化年份)利用秩利用秩(数据的排序次序数据的排序次序).).认为认为:假如假如x x与与y y相关相关,则相应的秩则相应的秩UiUi、ViVi也具有同步性也具有同步性.首先得到两变量中各数据的秩首先得到两变量中各数据的秩(Ui(Ui、Vi),Vi),并计算并计算Di2Di2统计量统计量.计算计算SpearmanSpearman秩相关系数秩相关系数若两变量存在强正相关性若两变量存在强正相关性,则则Di2Di2应较小应较小,秩序相关系数较大秩序相关系数较大.若若两变量存在强负相关性两变量存在强负相关性,则则Di2Di2应较大应较大,秩序相关系数为负秩序相关系数为负,确确定值较大定值较大1-1-1313计算相关系数计算相关系数(一一)相关系数相关系数KendallKendall相关系数相关系数:度量定序定类变量间的线性相关关系度量定序定类变量间的线性相关关系首先计算一样对数目首先计算一样对数目(U)(U)和非一样对数目和非一样对数目(V)(V)如如:对对x x和和y y求秩后为求秩后为:x:2 4 3 5 1 x:2 4 3 5 1 y:3 4 1 5 2 y:3 4 1 5 2x x的秩按自然依次排序后的秩按自然依次排序后:x:1 2 3 4 5 x:1 2 3 4 5 y:2 3 1 4 5 y:2 3 1 4 5 然后计算然后计算KendallKendall相关系数相关系数.若两变量存在强相关性若两变量存在强相关性,则则V V较小较小,秩序相关系数较大秩序相关系数较大;若两变量存若两变量存在强负相关性在强负相关性,则则V V较大较大,秩序相关系数为负秩序相关系数为负,确定值较大确定值较大1-1-1414计算相关系数计算相关系数(二二)相关系数检验相关系数检验应对两变量来自的总体是否相关进行统计推断应对两变量来自的总体是否相关进行统计推断.缘由缘由:抽样的随机性、样本容量小等抽样的随机性、样本容量小等(1)H0:(1)H0:两总体零相关两总体零相关(2)(2)构造统计量构造统计量简洁相关系数Spearman系数,大样本 下,近似正态分布kendall系数,大样本 下,近似正态分布1-1-1515计算相关系数计算相关系数(二)相关系数检验(3)计算统计量的值,并得到对应的相伴概率p(4)结论:假如pa,不能拒绝H0.1-1-1616计算相关系数计算相关系数(三)基本操作步骤(1)(1)菜单选项菜单选项:analyze-correlate-bivariate.analyze-correlate-bivariate.(2)(2)选择计算相关系数的变量到选择计算相关系数的变量到variablesvariables框框.(3)(3)选择相关系数选择相关系数(correlation coefficients).correlation coefficients).(4)(4)显著性检验显著性检验(test of significance)test of significance)n ntow-tailed:tow-tailed:输出双尾输出双尾概率概率P P.n none-tailed:one-tailed:输出单尾概率输出单尾概率P P1-1-1717计算相关系数计算相关系数(四)其他选项statistics选项:仅当计算简洁相关系数时,选择输出哪些统计量.means and standard deviations:均值、标准差;cross-product deviations and covariances:分别输出两变量的离差平方和(sum of square 分母)、两变量的差积和(cross-products分子)、协方差(covariance 以上各个数据除以n-1)1-1-1818计算相关系数计算相关系数(五五)应用举例应用举例利用相关系数分析人均利用相关系数分析人均GDPGDP与移动电话普及率之间与移动电话普及率之间的关系的关系*表示表示t t检验值发生的概率小于等于检验值发生的概率小于等于0.05,0.05,即总体无相即总体无相关的可能性小于关的可能性小于0.05;0.05;*表示表示t t检验值发生的概率小于等于检验值发生的概率小于等于0.01,0.01,即总体无即总体无相关的可能性小于相关的可能性小于0.01;0.01;*比比*,拒绝零假设更牢靠,拒绝零假设更牢靠.1-1-1919计算相关系数计算相关系数(五)应用举例分析固定话费的凹凸是否与年龄、生活水平、文化程度相关.利用秩,通过计算spearman和kendall相关系数进行分析1-1-2020偏相关分析偏相关分析(一一)偏相关系数偏相关系数(1)(1)含义:含义:在限制了其他变量的影响下计算两变量的相关系数。在限制了其他变量的影响下计算两变量的相关系数。虚假相关虚假相关.如如:小学小学1616年级全体学生进行速算竞赛(身年级全体学生进行速算竞赛(身高和分数间的相关受年龄的影响)高和分数间的相关受年龄的影响)探讨商品的需求量和价格、消费者收入之间的关系探讨商品的需求量和价格、消费者收入之间的关系.因因为为:需求量和价格之间的相关关系包含了消费者收需求量和价格之间的相关关系包含了消费者收入对商品需求量的影响;收入对价格也产生影响,入对商品需求量的影响;收入对价格也产生影响,并通过价格变动传递到对商品需求量的影响中。并通过价格变动传递到对商品需求量的影响中。1-1-2121偏相关分析偏相关分析(一)偏相关系数(2)计算方法:1-1-2222偏相关分析偏相关分析(二)基本操作步骤(1).菜单选项:analyze-correlate-partial(2).选择将参与计算的变量到variable框.(3).选择限制变量到controlling for 框。(4)option选项:zero-order correlations:输出简洁相关系数矩阵1-1-2323偏相关分析偏相关分析(三三)应用举例应用举例n n分析文化程度对话费与年龄之间的关系的分析文化程度对话费与年龄之间的关系的影响影响1-1-2424回来分析概述回来分析概述(一一)回来分析理解回来分析理解(1)“(1)“回来回来”的含义的含义galtongalton探讨探讨父亲身高和儿子身高的关系时的独特发探讨探讨父亲身高和儿子身高的关系时的独特发觉觉.(2)(2)回来线的获得方式一回来线的获得方式一:局部平均局部平均 回来曲线上的点给出了相应于每一个回来曲线上的点给出了相应于每一个x(x(父亲父亲)值的值的y(y(儿儿子子)平均数的估计平均数的估计 (3)(3)回来线的获得方式二回来线的获得方式二:拟和函数拟和函数使数据拟合于某条曲线使数据拟合于某条曲线;通过若干参数描述该曲线通过若干参数描述该曲线;利用已知数据在确定的统计准则下找出参数的估计值利用已知数据在确定的统计准则下找出参数的估计值(得到回来曲线的近似得到回来曲线的近似););1-1-2525回来分析概述回来分析概述(二二)回来分析的基本步骤回来分析的基本步骤(1)(1)确定自变量和因变量确定自变量和因变量 (2)(2)从样本数据动身确定变量之间的数学关系式从样本数据动身确定变量之间的数学关系式,并对并对回来方程的各个参数进行估计回来方程的各个参数进行估计.(3)(3)对回来方程进行各种统计检验对回来方程进行各种统计检验.(4)(4)利用回来方程进行预料利用回来方程进行预料.1-1-2626线性回来分析概述线性回来分析概述(三)参数估计的准则目标:回来线上的视察值与预料值之间的距离总和达到最小最小二乘法(利用最小二乘法拟和的回来直线与样本数据点在垂直方向上的偏离程度最低)1-1-2727一元线性回来分析一元线性回来分析(一一)一元回来方程一元回来方程:y=0+1x y=0+1x00为常数项;为常数项;11为为y y对对x x回来系数,即回来系数,即:x:x每变动一每变动一个单位所引起的个单位所引起的y y的平均变动的平均变动(二二)一元回来分析的步骤一元回来分析的步骤利用样本数据建立回来方程利用样本数据建立回来方程回来方程的拟和优度检验回来方程的拟和优度检验回来方程的显著性检验回来方程的显著性检验(t(t检验和检验和F F检验检验)残差分析残差分析预料预料1-1-2828一元线性回来方程的检验一元线性回来方程的检验(一一)拟和优度检验拟和优度检验:(1)(1)目的目的:检验样本视察点聚集在回来直线四周的密集程检验样本视察点聚集在回来直线四周的密集程度,评价回来方程对样本数据点的拟和程度。度,评价回来方程对样本数据点的拟和程度。(2)思路:因为:因变量取值的变更受两个因素的影响自变量不同取值的影响其他因素的影响如:儿子身高(y)的变更受:父亲身高(x)的影响、其他条件于是:因变量总变差=自变量引起的+其他因素引起的即:因变量总变差=回来方程可说明的+不行说明的可证明:因变量总离差平方和=回来平方和+剩余平方和1-1-2929一元线性回来方程的检验一元线性回来方程的检验(一一)拟和优度检验拟和优度检验:(3)(3)统计量:判定系数统计量:判定系数R2=SSR/SST=1-SSE/SST.R2=SSR/SST=1-SSE/SST.R2R2体现了回来方程所能说明的因变量变差的比例体现了回来方程所能说明的因变量变差的比例;1-R2;1-R2则则体现了因变量总变差中,回来方程所无法说明的比例。体现了因变量总变差中,回来方程所无法说明的比例。R2R2越接近于越接近于1 1,则说明回来平方和占了因变量总变差平方,则说明回来平方和占了因变量总变差平方和的绝大部分比例,因变量的变差主要由自变量的不和的绝大部分比例,因变量的变差主要由自变量的不同取值造成,回来方程对样本数据点拟合得好同取值造成,回来方程对样本数据点拟合得好在一元回来中在一元回来中R2=r2;R2=r2;因此,从这个意义上讲,判定系数因此,从这个意义上讲,判定系数能够比较好地反映回来直线对样本数据的代表程度和能够比较好地反映回来直线对样本数据的代表程度和线性相关性。线性相关性。1-1-3030一元线性回来方程的检验一元线性回来方程的检验(二二)回来方程的显著性检验回来方程的显著性检验(1)(1)目的目的:检验自变量与因变量之间的线性关系检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示是否显著,是否可用线性模型来表示.(2)(2)检验方法检验方法t t检验检验F F检验检验1-1-3131一元线性回来方程的检验一元线性回来方程的检验(三三)回来方程的显著性检验回来方程的显著性检验:t:t检验检验(1)(1)目的目的:检验自变量对因变量的线性影响是否显著检验自变量对因变量的线性影响是否显著.(2)H0:=0(2)H0:=0 即即:回来系数与回来系数与0 0无显著差异无显著差异(3)(3)利用利用t t检验检验,构造构造t t统计量:统计量:其中其中:Sy:Sy是回来方程标准误差是回来方程标准误差(Standard Error)(Standard Error)的估计值,由均的估计值,由均方误差开方后得到,反映了回来方程无法说明样本数据点方误差开方后得到,反映了回来方程无法说明样本数据点的程度或偏离样本数据点的程度的程度或偏离样本数据点的程度假如回来系数的标准误差较小,必定得到一个相对较大的假如回来系数的标准误差较小,必定得到一个相对较大的t t值,值,表明该自变量表明该自变量x x说明因变量线性变更的实力较强。说明因变量线性变更的实力较强。1-1-3232一元线性回来方程的检验一元线性回来方程的检验(三三)回来方程的显著性检验回来方程的显著性检验:t:t检验检验(4)(4)计算计算t t统计量的值和相伴概率统计量的值和相伴概率p p(5)(5)推断推断:相伴概率相伴概率=a:=a:拒绝拒绝H0,H0,即即:回来系数与回来系数与0 0有显著差异,自变有显著差异,自变量与因变量之间存在显著的线性关系量与因变量之间存在显著的线性关系,能够较好的说能够较好的说明说明因变量的变更明说明因变量的变更.反之,不能拒绝反之,不能拒绝H0H0(6)(6)回来系数的区间估计回来系数的区间估计1-1-3333一元线性回来方程的检验一元线性回来方程的检验(四四)回来方程的显著性检验:回来方程的显著性检验:F F检验检验(1)(1)目的目的:检验自变量与因变量之间的线性关系是否显著检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来是否可用线性模型来表示表示.(2)H0:=0(2)H0:=0 即即:回来系数与回来系数与0 0无显著差异无显著差异(3)(3)利用利用F F检验检验,构造构造F F统计量统计量:F=F=平均的回来平方和平均的回来平方和/平均的剩余平方和平均的剩余平方和F(1,n-1-1)F(1,n-1-1)假如假如F F值较大,则说明自变量造成的因变量的线性变动远大于随机因素对因变值较大,则说明自变量造成的因变量的线性变动远大于随机因素对因变量的影响量的影响,自变量于因变量之间的线性关系较显著自变量于因变量之间的线性关系较显著(4)(4)计算计算F F统计量的值和相伴概率统计量的值和相伴概率p p(5)(5)推断推断p=a:p=a:拒绝拒绝H0,H0,即即:回来系数与回来系数与0 0有显著差异,自变量与因变量之间存在显著的线有显著差异,自变量与因变量之间存在显著的线性关系。反之,不能拒绝性关系。反之,不能拒绝H0H01-1-3434一元线性回来方程的检验一元线性回来方程的检验(五五)t)t检验与检验与F F检验的关系检验的关系一元回来中一元回来中,F,F检验与检验与t t检验一样检验一样,即即:F=t2,:F=t2,两种检验可以相两种检验可以相互替代互替代(六六)F)F统计量和统计量和R2R2值的关系值的关系假如回来方程的拟合优度高,假如回来方程的拟合优度高,F F统计量就越显著。统计量就越显著。F F统计统计量越显著,回来方程的拟合优度就会越高。量越显著,回来方程的拟合优度就会越高。1-1-3535线性回来方程的残差分析线性回来方程的残差分析(一一)残差序列的正态性检验残差序列的正态性检验:绘制标准化残差的直方图或累计概率图绘制标准化残差的直方图或累计概率图(二二)残差序列的随机性检验残差序列的随机性检验绘制残差和预料值的散点图绘制残差和预料值的散点图,应随机分布在经过零的一条直线上下应随机分布在经过零的一条直线上下(三三)残差序列的等方差性检验残差序列的等方差性检验随机、等方差、独立随机、等方差、独立随机、异方差、独立随机、异方差、独立非独立非独立1-1-3636线性回来方程的残差分析线性回来方程的残差分析(四)残差序列独立性检验:残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验d-w=0:残差序列存在完全正自相关;d-w=4:残差序列存在完全负自相关;0d-w2:残差序列存在某种程度的正自相关;2d-wregression-linear:Analyze-regression-linear(2)(2)选择一个变量为因变量进入选择一个变量为因变量进入dependentdependent框框(3)(3)选择一个变量为自变量进入选择一个变量为自变量进入independentindependent框框(4)enter:(4)enter:所选变量全部进入回来方程所选变量全部进入回来方程(默认方法默认方法)(5)(5)对样本进行筛选对样本进行筛选(selection variable)(selection variable)利用满足确定条件的样本数据进行回来分析利用满足确定条件的样本数据进行回来分析(6)(6)指定作图时各数据点的标记变量指定作图时各数据点的标记变量(case labels)(case labels)1-1-4040一元线性回来分析操作一元线性回来分析操作(二二)statistics)statistics选项选项(1)(1)基本统计量输出基本统计量输出Estimates:Estimates:默认默认.显示回来系数相关统计量显示回来系数相关统计量.confidence intervals:confidence intervals:每个非标准化的回来系数每个非标准化的回来系数95%95%的置信区间的置信区间.Descriptive:Descriptive:各变量均值、标准差和相关系数单侧检验概率各变量均值、标准差和相关系数单侧检验概率.Model fit:Model fit:默认默认.判定系数、估计标准误差、方差分析表、容忍度判定系数、估计标准误差、方差分析表、容忍度(2)Residual(2)Residual框中的残差分析框中的残差分析Durbin-waston:D-WDurbin-waston:D-W值值casewise diagnostic:casewise diagnostic:异样值异样值(奇异值奇异值)检测检测(输出预料值及残差和输出预料值及残差和标准化残差标准化残差)1-1-4141一元线性回来分析操作一元线性回来分析操作(三三)plot)plot选项选项:图形分析图形分析.Standardize residual plots:Standardize residual plots:绘制残差序列直方图和累计绘制残差序列直方图和累计概率图概率图,检测残差的正态性检测残差的正态性绘制指定序列的散点图绘制指定序列的散点图,检测残差的随机性、异方差性检测残差的随机性、异方差性ZPRED:ZPRED:标准化预料值标准化预料值 ZRESID:ZRESID:标准化残差标准化残差SRESID:SRESID:学生化残差学生化残差produce all partial plot:produce all partial plot:绘制因变量和全部自变量之间的绘制因变量和全部自变量之间的散点图散点图1-1-4242一元线性回来分析应用举例一元线性回来分析应用举例移动电话普及率和人均移动电话普及率和人均GDPGDP的线性关系的线性关系Model SummaryModel Summary视察视察R2R2值(拟合优度,回来方程值(拟合优度,回来方程能够说明的比例)能够说明的比例)ANOVA ANOVA 视察方差分析表视察方差分析表CoefficientsCoefficients视察视察t t检验和检验和ANOVA FANOVA F检验的关系检验的关系CoefficientsCoefficients能够写出回来方程能够写出回来方程视察残差序列的散点图视察残差序列的散点图(plot)(plot)和和Model Summary Model Summary 的的DWDW检验检验利用回来分析进行预料利用回来分析进行预料1-1-4343多元线性回来分析多元线性回来分析(一一)多元线性回来方程多元线性回来方程多元回来方程多元回来方程:y=0+1x1+2x2+.+kxk:y=0+1x1+2x2+.+kxk11、22、.k.k为偏回来系数。为偏回来系数。11表示在其他自变量保持不变的状况下,自变量表示在其他自变量保持不变的状况下,自变量x1x1变动变动一个单位所引起的因变量一个单位所引起的因变量y y的平均变动的平均变动(二二)多元线性回来分析的主要问题多元线性回来分析的主要问题回来方程的检验回来方程的检验自变量筛选自变量筛选多重共线性问题多重共线性问题1-1-4444多元线性回来方程的检验多元线性回来方程的检验(一一)拟和优度检验拟和优度检验:(1)(1)判定系数判定系数R2:R2:R R是是y y和和xi xi的复相关系数,测定了因变量的复相关系数,测定了因变量y y与全部自变量全体之间与全部自变量全体之间线性相关程度线性相关程度 (2)(2)调整的调整的R2:R2:考虑的是平均的剩余平方和考虑的是平均的剩余平方和,克服了因自变量增加而造成克服了因自变量增加而造成R2R2也也增大的弱点增大的弱点在某个自变量引入回来方程后,假如该自变量是志向的且对因在某个自变量引入回来方程后,假如该自变量是志向的且对因变量变差的说明说明是有意义的,那么必定使得均方误差变量变差的说明说明是有意义的,那么必定使得均方误差削减,从而使调整的削减,从而使调整的R2R2得到提高;反之,假如某个自变量得到提高;反之,假如某个自变量对因变量的说明说明没有意义,那么引入它不会造成均方对因变量的说明说明没有意义,那么引入它不会造成均方误差削减,从而调整的误差削减,从而调整的R2R2也不会提高。也不会提高。1-1-4545多元线性回来方程的检验多元线性回来方程的检验(二二)回来方程的显著性检验:回来方程的显著性检验:(1)(1)目的目的:检验全部自变量与因变量之间的线性关系是否显著,是检验全部自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示否可用线性模型来表示.(2)H0:1=2=k=0(2)H0:1=2=k=0 即即:全部回来系数同时与全部回来系数同时与0 0无显著差异无显著差异(3)(3)利用利用F F检验检验,构造构造F F统计量统计量:F=F=平均的回来平方和平均的回来平方和/平均的剩余平方和平均的剩余平方和F(k,n-k-1)F(k,n-k-1)假如假如F F值较大,则说明自变量造成的因变量的线性变动大于随机因值较大,则说明自变量造成的因变量的线性变动大于随机因素对因变量的影响素对因变量的影响,自变量于因变量之间的线性关系较显著自变量于因变量之间的线性关系较显著(4)(4)计算计算F F统计量的值和相伴概率统计量的值和相伴概率p p(5)(5)推断推断:p=a:p=a:拒绝拒绝H0,H0,即即:全部回来系数与全部回来系数与0 0有显著差异,自变量有显著差异,自变量与因变量之间存在显著的线性关系。反之,不能拒绝与因变量之间存在显著的线性关系。反之,不能拒绝H0H01-1-4646多元线性回来方程的检验多元线性回来方程的检验(三三)回来系数的显著性检验回来系数的显著性检验(1)(1)目的目的:检验每个自变量对因变量的线性影响是否显著检验每个自变量对因变量的线性影响是否显著.(2)H0:i=0(2)H0:i=0 即即:第第i i个回来系数与个回来系数与0 0无显著差异无显著差异(3)(3)利用利用t t检验检验,构造构造t t统计量:统计量:其中其中:Sy:Sy是回来方程标准误差是回来方程标准误差(Standard Error)(Standard Error)的估计值,由的估计值,由均方误差开方后得到,反映了回来方程无法说明样本数均方误差开方后得到,反映了回来方程无法说明样本数据点的程度或偏离样本数据点的程度据点的程度或偏离样本数据点的程度假如某个回来系数的标准误差较小,必定得到一个相对较假如某个回来系数的标准误差较小,必定得到一个相对较大的大的t t值,表明该自变量值,表明该自变量xi xi说明因变量线性变更的实力较说明因变量线性变更的实力较强。强。(4)(4)逐个计算逐个计算t t统计量的值和相伴概率统计量的值和相伴概率p p 1-1-4747多元线性回来方程的检验多元线性回来方程的检验(三三)回来系数的显著性检验回来系数的显著性检验(5)(5)逐个进行检验和推断逐个进行检验和推断 相伴概率相伴概率p=a:p=a:拒绝拒绝H0,H0,即即:该回来系数与该回来系数与0 0有显著有显著差异差异.该自变量与因变量之间存在显著的线性该自变量与因变量之间存在显著的线性关系关系,能够较好的说明说明因变量的变更能够较好的说明说明因变量的变更,应应保留在回来方程中。反之,不能拒绝保留在回来方程中。反之,不能拒绝H0H01-1-4848多元线性回来方程的检验多元线性回来方程的检验(四四)t)t统计量与统计量与F F统计量统计量一元回来中一元回来中,F,F检验与检验与t t检验一样检验一样,即即:F=t2,:F=t2,可以相互替代可以相互替代在多元回来中,在多元回来中,F F检验与检验与t t检验不能相互替代检验不能相互替代Fchange=ti2Fchange=ti2从从Fchange Fchange 角度上讲,假如由于某个自变量角度上讲,假如由于某个自变量xi xi的引入,使的引入,使得得FchangeFchange是显著的是显著的(通过视察通过视察Fchange Fchange 的相伴概率的相伴概率值值),那么就可以认为该自变量对方程的贡献是显著,那么就可以认为该自变量对方程的贡献是显著的,它应保留在回来方程中,起到与回来系数的,它应保留在回来方程中,起到与回来系数t t检验同检验同等的作用。等的作用。1-1-4949多元线性回来分析中的自变量筛选多元线性回来分析中的自变量筛选(一一)自变量筛选的目的自变量筛选的目的 多元回来分析引入多个自变量多元回来分析引入多个自变量.假如引入的自变量个假如引入的自变量个数较少数较少,则不能很好的说明因变量的变更则不能很好的说明因变量的变更;并非自变量引入越多越好并非自变量引入越多越好.缘由缘由:有些自变量可能对因变量的说明没有贡献有些自变量可能对因变量的说明没有贡献自变量间可能存在较强的线性关系自变量间可能存在较强的线性关系,即即:多重共线性多重共线性.因而不能全部引入回来方程因而不能全部引入回来方程.1-1-5050多元线性回来分析中的自变量筛选多元线性回来分析中的自变量筛选(二二)自变量向前筛选法自变量向前筛选法(forward):(forward):即即:自变量不断进入回来方程的过程自变量不断进入回来方程的过程.首先首先,选择与因变量具有最高相关系数的自变量进选择与因变量具有最高相关系数的自变量进入方程入方程,并进行各种检验并进行各种检验;其次其次,在剩余的自变量中找寻偏相关系数最高的变在剩余的自变量中找寻偏相关系数最高的变量进入回来方程量进入回来方程,并进行检验并进行检验;默认默认:回来系数检验的概率值小于回来系数检验的概率值小于PIN(0.05)PIN(0.05)才可以才可以进入方程进入方程.反复上述步骤反复上述步骤,直到没有可进入方程的自变量为止直到没有可进入方程的自变量为止.1-1-5151多元线性回来分析中的自变量筛选多元线性回来分析中的自变量筛选(三三)自变量向后筛选法自变量向后筛选法(backward):(backward):即即:自变量不断剔除出回来方程的过程自变量不断剔除出回来方程的过程.首先首先,将全部自变量全部引入回来方程;将全部自变量全部引入回来方程;其次其次,在一个或多个在一个或多个t t值不显著的自变量中将值不显著的自变量中将t t值最小的那个值最小的那个变量剔除出去变量剔除出去,并重新拟和方程和进行检验并重新拟和方程和进行检验;默认默认:回来系数检验值大于回来系数检验值大于POUT(0.10),POUT(0.10),则剔除出方程则剔除出方程假如新方程中全部变量的回来系数假如新方程中全部变量的回来系数t t值都是显著的值都是显著的,则变量筛则变量筛选过程结束选过程结束.否则否则,重复上述过程重复上述过程,直到无变量可剔除为止直到无变量可剔除为止.1-1-5252多元线性回来分析中的自变量筛选多元线性回来分析中的自变量筛选(四四)自变量逐步筛选法自变量逐步筛选法(stepwise):(stepwise):即即:是是“向前法向前法”和和“向后法向后法”的结合。的结合。向前法只对进入方程的变量的回来系数进行显著性检验,而向前法只对进入方程的变量的回来系数进行显著性检验,而对已经进入方程的其他变量的回来系数不再进行显著性对已经进入方程的其他变量的回来系数不再进行显著性检验,即:变量一旦进入方程就不会被剔除检验,即:变量一旦进入方程就不会被剔除随着变量的逐个引进,由于变量之间存在着确定程度的相关随着变量的逐个引进,由于变量之间存在着确定程度的相关性,使得已经进入方程的变量其回来系数不再显著,因性,使得已经进入方程的变量其回来系数不再显著,因此会造成最终的回来方程可能包含不显著的变量。此会造成最终的回来方程可能包含不显著的变量。逐步筛选法则在变量的每一个阶段都考虑剔除一个变量的可逐步筛选法则在变量的每一个阶段都考虑剔除一个变量的可能性。能性。1-1-5353线性回来分析中的共线性检测线性回来分析中的共线性检测(一一)共线性带来的主要问题共线性带来的主要问题高度的多重共线性会使回来系数的标准差随自变量相关性的增高度的多重共线性会使回来系数的标准差随自变量相关性的增大而不断增大大而不断增大,以至使回来系数的置信区间不断增大以至使回来系数的置信区间不断增大,造成造成估计值精度减低估计值精度减低.回来方程检验显著但全部偏回来系数均检验不显著回来方程检验显著但全部偏回来系数均检验不显著偏回来系数估计值大小或符号与常识不符偏回来系数估计值大小或符号与常识不符定性分析对因变量确定有显著影响的因素,在多元分析中检验定性分析对因变量确定有显著影响的因素,在多元分析中检验不显著,不能纳入方程不显著,不能纳入方程去除一个变量,偏回来系数估计值发生巨大变更去除一个变量,偏回来系数估计值发生巨大变更1-1-5454线性回来分析中的共线性检测线性回来分析中的共线性检测(二二)共线性诊断共线性诊断自变量的容忍度自变量的容忍度(tolerance)(tolerance)和方差膨胀因子和方差膨胀因子容忍度容忍度:Toli=1-Ri2.:Toli=1-Ri2.其中其中:Ri2:Ri2是自变量是自变量xi xi与方程中其他自变与方程中其他自变量间的复相关系数的平方量间的复相关系数的平方.容忍度越大则与方程中其他自变量的共线性越低容忍度越大则与方程中其他自变量的共线性越低,应进入方程应进入方程.(具有太小容忍度的变量不应进入方程具有太小容忍度的变量不应进入方程,spss,spss会给出警告会给出警告)(据阅历据阅历T0.1T0.1一般认为具有多重共线性一般认为具有多重共线性)方差膨胀因子方差膨胀因子(VIF):(VIF):容忍度的倒数容忍度的倒数SPSSSPSS在回来方程建立过程中不断计算待进入方程自变量的容在回来方程建立过程中不断计算待进入方程自变量的容忍度忍度,并显示目前的最小容忍度并显示目前的最小容忍度1-1-5555线性回来分析中的共线性检测线性回来分析中的共线性检测(二二)共线性诊断共线性诊断用特征根刻画自变量的方差用特征根刻画自变量的方差假如自变量间的确存在较强的相关关系,那么它们之间必定存在假如自变量间的确存在较强的相关关系,那么它们之间必定存在信息重叠,于是可从这些自变量中提取出既能反映自变量信信息重叠,于是可从这些自变量中提取出既能反映自变量信息息(方差方差)又相互独立的因素又相互独立的因素(成分成分)来来.从自变量的相关系数矩阵动身,计算相关系数矩阵的特征根,得从自变量的相关系数矩阵动身,计算相关系数矩阵的特征根,得到相应的若干成分到相应的若干成分.假如特征根中有一个特征根值远远大于其他特征根的值,则仅一假如特征根中有一个特征根值远远大于其他特征根的值,则仅一个特征根就基