线性回归问题与非线性回归分析.pptx
3.1 线性回归的常见问题多重共线性异方差性自相关性第1页/共82页 多重共线性 1.1.概念概念i=1,2,n 其基本假设之一是解释变量之间不存在完全共线性。其基本假设之一是解释变量之间不存在完全共线性。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。第2页/共82页 如果存在如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其其中中:ci 不不全全为为0,则则称称为为解解释释变变量量间间存存在在完完全全共共线性。线性。多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中,有部分自变量呈高度相关,也就是说,这些变量被用来解释因变量时导致所提供的信息出现“重叠”。例如、模型中如果有多个自变量有共同的上升趋势,它们之间很可能有高度的相关关系导致共线性。第3页/共82页实际经济问题中的多重共线性实际经济问题中的多重共线性(1 1)经济变量相关的共同趋势)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者动力投入往往出现高度相关情况,大企业二者都大,小企业都小。都大,小企业都小。第4页/共82页(2 2)滞后变量的引入)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。(3 3 3 3)样本资料的限制)样本资料的限制)样本资料的限制)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性一般经验:第5页/共82页诊断方法1.一些经验方法第6页/共82页2.条件指数 条件指数(condition index)可以用来判断多重共线性是否存在以及多重共线性的严重程度,通常认为:第7页/共82页 从条件指数可以看到,最大的条件数为162.804,说明自变量间存在严重的共线性。如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自变量间就存在共线性。例例3.1 3.1 根据例根据例2.12.1计算特征值及条件指数计算特征值及条件指数多重共线性检验多重共线性检验SPSSSPSS 打开Linear Regression:Statistics子对话框,选择Collinearity diagnostics(共线性诊断),单击Continue返回主对话框并单击OK按钮。这样SPSS 便可输出所有检查多重共线性的指标。第8页/共82页3.方差扩大因子法 与特征根法比较,方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性,严重程度如何第9页/共82页例例3.2 3.2 承接例承接例3.13.1,用方差扩大因子法检验,用方差扩大因子法检验 多重共线性检验多重共线性检验SPSSSPSS除PMG外,其他变量都与别的变量存在程度不同的共线性问题,其中MOB的共线性最严重。第10页/共82页克服多重共线性的方法第11页/共82页 1.排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。去,是最为有效的克服多重共线性问题的方法。注意:注意:剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。例2.1 删去POP,再进行回归第12页/共82页2.增大样本容量 由于多重共线性是一样本特征,故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重。一般认为:解释变量之间的相关程度与样本容量成反比,即样本容量越小,相关程度越高;样本容量越大,相关程度越小。因此,收集更多观测值,增加样本容量,就可以避免或减轻多重共线性的危害。在实践中,当我们所选的变量个数接近样本容量时,自变量间就容易产生共线性。所以,我们在运用回归分析研究经济问题时,要尽可能使样本容量远大于自变量个数。第13页/共82页3.差分法 时间序列数据、线性模型:将原模型变换为差分模型时间序列数据、线性模型:将原模型变换为差分模型:Y Yi i=1 1 X X1 1i i+2 2 X X2 2i i+k k X Xkiki+i i 可以相对有效地消除原模型中的多重共线性。可以相对有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。第14页/共82页例如例如:中国中国GDPGDP与居民消费与居民消费C C的总量与增量数据的总量与增量数据YearGDPCONSCONS/GDPGDPCONSCONS/GDP1980NA2976NANANANA1981490133090.675168NA333NA1982548936380.662785883290.5595241983607640210.6617845873830.652471984716446940.65522110886730.618566198587925773 0.65662162810790.66277619861013365420.64561313417690.57345319871178474510.63229816519090.55057519881470493600.636561292019090.653767198916466105560.641079176211960.678774199018320113620.62019718548060.434736199121280131460.617763296017840.602703199225864159520.616765458428060.612129199334501201820.584969863742300.489753199447111272160.5776991261070340.557811199559405345290.5812471229473130.594843199668498401720.58647909356430.620587第15页/共82页 由表中的比值可以直观地看到,增量的由表中的比值可以直观地看到,增量的线性关系弱于总量之间的线性关系,可以部分克线性关系弱于总量之间的线性关系,可以部分克服共线性的问题。服共线性的问题。进一步分析:进一步分析:GDPGDP与与CONSCONS(-1)(-1)之间的可决系数为之间的可决系数为0.9880.988,GDPGDP与与CONSCONS(-1)(-1)之间的可决系数为之间的可决系数为0.7460.746 一般认为,两个变量之间的可决系数大一般认为,两个变量之间的可决系数大于于0.80.8时,二者之间存在强烈的线性关系。时,二者之间存在强烈的线性关系。原模型和差分模型经过检验都具有多重原模型和差分模型经过检验都具有多重共线性,但程度不同。共线性,但程度不同。第16页/共82页命令Ls d(y)d(x1)d(x2).d(xp)Ls y-y(-1)x1-x1(-1)x2-x2(-1)xp-xp(-1)第17页/共82页4.重新定义方程比如可以在例2.1中考虑用人均汽油消费量、人均机动车数量、人均国民生产总值和油价这四个变量建模。取消原模型中的人口数变量。由于减少了变量,也就降低了发生共线性的可能性。第18页/共82页5.回归系数的有偏估计岭回归法主成分法偏最小二乘法差分法第19页/共82页 1.1.异方差的概念异方差的概念 即即对对于于不不同同的的样样本本点点,随随机机误误差差项项的的方方差差不不再是常数,则认为出现了再是常数,则认为出现了异方差性异方差性。n n异方差性异方差性第20页/共82页21异方差就是对同方差假设的违反。经典回归中同方差是指随着样本观察点X的变化,线性模型中随机误差项 的方差并不改变,保持为常数,即 i=1,2,n如果的数值对不同的样本观察值各不相同,则称随机误差项具有异方差,即 常数 i=1,2,n 第21页/共82页22为什么会产生这种异方差性呢?一方面是因为随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影响,另一方面来自不同抽样单元的因变量观察值之间可能差别很大。因此,异方差性多出现在横截面样本之中。至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。第22页/共82页2.异方差性的后果 1 1.参数估计量非有效参数估计量非有效2.2.变量的显著性检验失去意义变量的显著性检验失去意义3.3.模型的预测失效模型的预测失效第23页/共82页3.异方差性的检验图示检验法 White异方差性检验第24页/共82页图示检验法(残差图形态及判别)(a)(a)满意模式满意模式残残差差x x0 0一般认为,如果回归方程满足所给出的基本假设,所有残差应该在e0的附近随机变化,并在变化不大的一条带子内。图a中的残差都落在变化不大的一条带子内,也就可以说明回归模型满足基本假设。第25页/共82页残差图(形态及判别)(b)(b)非常数方差非常数方差残残残差差差x x0 00当回归模型满足所有假定时,残差图上的散点应该是随机的,无任何规律。如果回归模型存在异方差时,残差图上的散点呈现出相应的趋势。当然,如果存在异方差,也可能随着x的增加而减少。图b的情况表明,残差图上的散点随着x的增加而增加。第26页/共82页 例2.1 GNP与残差散点图,存在异方差。从残差图可以看出,误差项具有明显的异方差性,误差随着自变量的增加而增加第27页/共82页White异方差性检验 EViews显示两个检验统计量:F统计量和 Obs*R2 统计量。White检验的原假设:不存在异方差性方程对象窗口:View/Residual Test/Heteroskasticity/White第28页/共82页 例例例例3.3 3.3 3.3 3.3 对例对例对例对例2.12.12.12.1进行怀特检验进行怀特检验进行怀特检验进行怀特检验 回归方程的回归方程的 White White 异方差检验的结果:异方差检验的结果:该结果该结果F F 统计量和统计量和 Obs*RObs*R2 2 统计量的统计量的P P值均很小,值均很小,表明拒绝原假设,即残差存在异方差性。表明拒绝原假设,即残差存在异方差性。第29页/共82页4.异方差性的修正方法(1)加权最小二乘法(WLS)Weighted Least Squares第30页/共82页加权最小二乘法的基本思想 加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。例如,在递增异方差下,对来自较小Xi的子样本,其真实的总体方差较小,Yi与回归线拟合值之间的残差ei的信度较大,应予以重视;而对较大Xi的子样本,由于真实总体的方差较大,残差反映的信息应打折扣。第31页/共82页 加权最小二乘法就是对加了权重的残差平方和加权最小二乘法就是对加了权重的残差平方和实施实施OLS法:法:对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数。第32页/共82页第33页/共82页 尝试一些m值,如m=-2,-1.5,-1,-0.5,0,0.5,1,1.5,2等,建立不同的模型,然后选择其中表现最好的模型。例3.4 承接例2.1和例3.3 ls qmg c mob pmg gnpgenr w=gnp-1.5 或series 点击options 选加权最小二乘法,然后再进行Harvey检验。结果各统计量在0.05显著性水平下都无法拒绝原假设,说明异方差问题得到较好的解决。第34页/共82页寻找最优权函数利用SPSS软件可以确定(6.6)式幂指数m的最优取值。对例6.3的数据,依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,这一默认值可以更改。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):第35页/共82页第36页/共82页对异方差问题的处理至今没有什么更好的方法,对异方差问题的处理至今没有什么更好的方法,一些方法的处理效果往往不甚明显,所以此例能一些方法的处理效果往往不甚明显,所以此例能有所改进也就不错了。有所改进也就不错了。第37页/共82页自相关性一、自相关的概念一、自相关的概念自相关(auto correlation),又称序列相关(serial correlation)是指总体回归模型的随机误差项之间存在相关关系。即不同观测点上的误差项彼此相关。即:第38页/共82页 二、自相关产生的原因二、自相关产生的原因 大多数经济时间数据都有一个明显的特点大多数经济时间数据都有一个明显的特点:惯性,惯性,表现在时间序列不同时间的前后关联上。表现在时间序列不同时间的前后关联上。1 1、经济变量固有的惯性、经济变量固有的惯性 如GDP、价格、就业等经济指标都会随经济系统的周期而波动。例如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退期,较高的失业率也会持续一段时间,这种现象就会表现为经济指标的自相关现象。第39页/共82页 滞后效应是指某一指标对另一指标的影响不仅限于当期而是延续若干期。由此带来变量的自相关。例如,居民当期可支配收入的增加,不会使居民的消费水平在当期就达到应有水平,而是要经过若干期才能达到。因为人的消费观念的改变客观上存在自适应期。2.2.经济活动的滞后效应经济活动的滞后效应第40页/共82页 3 3、模型设定的偏误、模型设定的偏误 所谓模型设定偏误(所谓模型设定偏误(Specification error)是指)是指所设定的模型所设定的模型“不正确不正确”。主要表现在模型中丢掉。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。了重要的解释变量或模型函数形式有偏误。例如例如,本来应该估计的模型为,本来应该估计的模型为 Yt=0+1X1t+2X2t+3X3t+t但在模型设定中做了下述回归:但在模型设定中做了下述回归:Yt=0+1X1t+1X2t+vt因此,因此,vt=3X3t+t,如果,如果X3确实影响确实影响Y,则出,则出现现序列相关。序列相关。第41页/共82页三、诊断方法三、诊断方法1.杜宾-瓦森(Durbin-Watson)检验2.LM检验第42页/共82页1.1.杜宾杜宾-瓦森(瓦森(Durbin-WatsonDurbin-Watson)检验)检验 DW DW 检验是检验是J.Durbin(J.Durbin(杜宾杜宾)和沃特森和沃特森)于于19511951年年提出的一种适用于小样本的检验方法。提出的一种适用于小样本的检验方法。DWDW检验只能用检验只能用于检验随机误差项具有一阶自回归形式的自相关问题。于检验随机误差项具有一阶自回归形式的自相关问题。这种检验方法是建立经济计量模型中最常用的方法,这种检验方法是建立经济计量模型中最常用的方法,一般的计算机软件都可以计算出一般的计算机软件都可以计算出DW DW 值。值。第43页/共82页随机误差项的一阶自回归形式为:为了检验序列的相关性,构造的原假设是:为了检验上述假设,构造DW统计量首先要求出回归估计式的残差 定义DW统计量为:(无一阶自相关)(无一阶自相关)第44页/共82页第45页/共82页由 可得DW 值与 的对应关系如表所示。4(2,4)2(0,2)0-1(-1,0)0(0,1)1DW误差项的相关性完全负自相关负自相关无自相关正自相关完全正自相关第46页/共82页由上述讨论可知DW的取值范围为:0DW根据样本容量 和解释变量的数目 (不包括常数项)查DW分布表,得临界值 和 ,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态。第47页/共82页DW检验决策规则误差项 间存在负相关不能判定是否有自相关误差项 间无自相关不能判定是否有自相关误差项 间存在正相关 第48页/共82页用坐标图更直观表示DW检验规则:不能确定正自相关无无自自相相关关不不能能确确定定负负自自相相关关420第49页/共82页缺陷缺陷D.W.检验 该方法有三点不足:(1)存在无法作出判断的区域;(2)如果模型中存在因变量的滞后项,检验失败;(3)只对一阶自相关的检验有效,不能检验是否有高阶自相关。第50页/共82页 3 3、拉格朗日乘数(、拉格朗日乘数(Lagrange multiplierLagrange multiplier)检验检验 拉格朗日乘数检验(拉格朗日乘数检验(LM检验检验)克服了克服了DW检验的缺陷,检验的缺陷,适合于高阶序列相关以及模型中存在滞后被解释变量适合于高阶序列相关以及模型中存在滞后被解释变量的情形。的情形。如果怀疑随机扰动项存在如果怀疑随机扰动项存在p阶序列相关:阶序列相关:提出原假设为:提出原假设为:H0:1=2=p=0 (无自相关)(无自相关)根据观测量根据观测量nR2的的P值可以值可以做出判断,做出判断,实际检验中,实际检验中,可从可从1阶、阶、2阶、阶、逐次向更高阶检验。逐次向更高阶检验。不妨设含有高阶扰动项和滞后项的方程形式为:不妨设含有高阶扰动项和滞后项的方程形式为:第51页/共82页LM检验操作原假设:不存在从一阶到p阶的自相关方程对象窗口:View/Residual Test/Serial Correlation LM Test 例2.1(存在自相关)第52页/共82页3.3.自相关的处理自相关的处理 当一个回归模型存在序列相关性时,其参数估计不能用普通的最小二乘法。这时需要对原始数据进行一些变换,使得变换后的数据为样本所建的模型不存在序列相关性。通常有以下几种处理方法。第53页/共82页(1 1)迭代法)迭代法 差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。第54页/共82页第55页/共82页或根据式第56页/共82页第57页/共82页(2)重新定义模型)重新定义模型新定义的模型可能避免序列自相关例3.5ls qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)+c(4)*(pop/pop(-1)-1)+c(5)*(gnp/gnp(-1)-1)采用优化方法,模型最后为qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)LM检验在p=1,2,3时,均不能拒绝原假设,说明残差项无序列自相关,新模型较好地解决了序列自相关问题。第58页/共82页3.2 非线性回归分析 非线性模型 非线性模型指的是关于参数或自变量是非线性函数的模型。在某些情形下,可以通过一定的变换线性化将这些非线性模型作为线性模型处理。这类模型称为可线性化的非线性模型。第59页/共82页3.2 非线性回归分析(1)线性化不涉及参数。有许多非线性模型通过对变量进行直接变换,可以线性化。这类模型.及变换如表所示。这类变换的共同点是原模型的是变换本身不涉及模型参数,这类变换的共同点是原模型的是变换本身不涉及模型参数,对变换后得到的模型,其参数估计就是原模型的参数估计。化对变换后得到的模型,其参数估计就是原模型的参数估计。化为线性模型后,可对线性模型直接进行为线性模型后,可对线性模型直接进行OLSOLS估计,按变换后的估计,按变换后的方程估计,得到的参数估计值就是原模型的参数估计值。方程估计,得到的参数估计值就是原模型的参数估计值。第60页/共82页(2)线性化涉及参数第61页/共82页(3)不可线性化模型表3.10中的模型有三个待估计的参数,这些参数的任何一个均无法事先通过经验或历史数据得到时,不能将其线性化。表3.10 一些不能线性化的模型第62页/共82页非线性最小二乘法非线性最小二乘法乘性误差形式:加性误差形式:如果采用乘性误差形式,则可按可线性化处理,如果采用加性误差形式,则无法线性化,只能用非线性最小二乘法来估计,这会导致处理结果与线性模型处理结果存在差异。用非线性最小二乘法参数估计操作与普通最小二乘法基本相同,只是在方程估计窗口或命令行中,模型必须以方程式的形式出现,没有简化形式。如方程式为:ls y=c(1)*kc(2)*lc(3)ls y=c(1)*kc(2)*lc(3)在较为复杂的情况下,非线性最小二乘法无法求出精确解,需要采用迭代法。第63页/共82页 应用实例应用实例例例3.63.6(表(表3.113.11)表3.1 是某企业16个月的某产品产量和单位成本资料,研究二者关系第64页/共82页为了明确产量和单机成本是何种关系,先绘制散点图如图3.3所示n n选择双曲线模型选择双曲线模型第65页/共82页第一种方式:对线性化模型实施线性最小二乘估计第一种方式:对线性化模型实施线性最小二乘估计命令:命令:Series x1=1/xLs y c x1还可以:ls y c inv(x)ls y c 1/x第66页/共82页第二种方式:直接对原模型实施非线性最小二第二种方式:直接对原模型实施非线性最小二乘估计乘估计命令:ls y=c(1)+c(2)/x 第67页/共82页例例3.73.7(表(表3.133.13)乘性误差形式:加性误差形式:ls log(y)c log(k)log(l)线性化方法ls y=c(1)*kc(2)*lc(3)非线性化方法两者本质上是两个模型此外,两者模型中L的回归系数均未通过显著性检验。因为L、K两者相关系数太大,两者存在非常强的共线性。第68页/共82页例例3.73.7在实践中,常用 来简化这个模型,如果满足这个条件,则CD函数变为:模型简化为:是人均产量,是人均资本投入第69页/共82页例3.7(表(表3.133.13)问题是这个条件 是否成立?要进行Wald检验。原假设:c(2)+c(3)=1,即1 1n n在模型在模型log(y)=c(1)+c(2)*log(k)+c(3)*log(l)log(y)=c(1)+c(2)*log(k)+c(3)*log(l)的基础的基础上检验。上检验。n nView/Coefficient Test/WaldView/Coefficient Test/Waldn n输入输入c(2)+c(3)=1c(2)+c(3)=1n n由此可知,在由此可知,在0.050.05的显著性水平下,的显著性水平下,F F统计量不能统计量不能拒绝原假设,卡方统计量的收尾概率也近似拒绝原假设,卡方统计量的收尾概率也近似0.050.05。因此约束条件基本可以接受。因此约束条件基本可以接受。第70页/共82页例例3.73.7估计方程线性化后参数估计 ls log(y/l)c log(k/l)非线性化最小二乘估计 ls y/l=c(1)*(k/l)c(2)估计结果差不多,线性化模型略好,采用这个模型还原后为:Scalar co=exp(-0.69388)第71页/共82页不可线性化模型名称名称模型模型LogisticLogisticCompertzCompertzWeibullWeibully yt t=k/(1+ae=k/(1+ae-bt-bt)y yt t=ka=kab bt tyt=k-abyt=k-abt tc ct、c均为上上标第72页/共82页 例:例:例:例:设消费函数为非线性形式:设消费函数为非线性形式:其其 中:中:cscst t 是实际居民消费,是实际居民消费,incinct t 是实际可支配收入。利是实际可支配收入。利用用19591959年第一季度(年第一季度(1959Q11959Q1)至)至19791979第四季度(第四季度(1979Q41979Q4)的人)的人均消费支出(均消费支出(cs)cs)和人均可支配收入(和人均可支配收入(incinc)共)共8484个观察值数据个观察值数据估计此非线性方程。估计此非线性方程。由于用迭代法计算,首先要赋初值,比如可以设由于用迭代法计算,首先要赋初值,比如可以设 3 3的估计值的估计值b b3 3初值是初值是1 1,则可以利用,则可以利用OLSOLS估计值,然后,非线性方程估计。估计值,然后,非线性方程估计。第73页/共82页确定非线性模型形式的方法和模型的比较确定非线性模型形式的方法和模型的比较 非线性模型的形式复杂多样,如何根据实际的数据选择合适的模型,是建模的关键。总的说来可参考下面的.方法:1.根据散点图来确定类型。确定类型一般是把样本观测位画成散点图,由散点图的形状来大体确定模型类型。2.根据一定的经济知识背景。如商品的销售量与广告费用之间的关系,一般用S型曲线来描述,这足由于广告费用只有在一定范围内.才会对销售量有明显的影响。有时对一个问题需要用不同的模型来拟合,以找到效果最好的一个。需要对它们进行比较。首先应从经济学角度考虑,因为数据分析的目的是解释经济现象,所以要重视经济学理论和行为规律提供的理由。其次从统计分析角度比较。最重要的是残差分析。如果模型的残差平方和最小,并且看起来残差最随机化,则这样的模型应当被选择。第74页/共82页3.3 逐步回归法单向前进逐步回归单向前进逐步回归法(Uni-directional-Forwards)的思想是变量由少到多,每次增加一个最重要的变量,即利用回归系数p值最小(等价地,t统计量最大)的准则,直至没有引入的变量为止。例3.8(表3.17)(1)在工作 栏中选择Quick/Estimate Equation 或选择Object/New Object/Equation(2)在Method中选择STEP LS-Stepwise Least Squares(3)在上框中输入因变量及始终包含的自变量,在下框中输入自变量序列。(4)点击Options,在方法框中选择Uni-directional-Forwards(5)设置参数:显著性水平a=0.1,回归量的最大数目为8,其他选项采用默认形式。(5)预测。点击Equation对象工具栏中Forecast,或选择Proc/Forecast第75页/共82页单向后退逐步回归单向后退逐步回归(Uni-directional-Backwards)与前进法相反,先用m个自变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,即利用回归系数p值最大(等价地,t统计量最小)的准则,将它从方程中删除。在方法栏中选择Backwards,将显著性水平a仍然设为0.1,回归方程中所包含的回归量最小数目设为1,其他选项采用默认形式。预测第76页/共82页前进逐步回归(Stepwise-Foreward)前进逐步回归是单向前进逐步回归和单向后退逐步回归的结合。注意:引入自变量的显著性水平a进应不小于剔除变量的显著性水平a出,否则,产生死循环。例3.10(承接例8)在方法下拉菜单中选择Stepwise,选择Foreward,a进=0.15,a出=0.10,回归方程所包含的回归量最大数目为8所得结果与例3.8相同。第77页/共82页后退逐步回归(Stepwise-Backward)后退逐步回归也是单向前进逐步回归和单向后退逐步回归的结合,只是与前进逐步回归方向相反。注意:引入自变量的显著性水平a进应不小于剔除变量的显著性水平a出,否则,产生死循环。例3.11(承接例8)在方法下拉菜单中选择Stepwise,选择Backward,a进=0.05,a出=0.10,回归方程所包含的回归量最小数目为1。所得结果与例3.9相同。第78页/共82页最大R2增量逐次交换回归(Swapwise-max R-squared increnment)例3.12(承接例8)在方法下拉菜单中选择Swapwise,选择最大R2增量(max R-squared increnment)选项,回归方程所包含的回归量最大数目为3,其他默认形式。所得结果与例3.8相同。第79页/共82页最小R2增量逐次交换回归(Swapwise-min R-squared increnment)例3.13(承接例8)在方法下拉菜单中选择Swapwise,选择最小R2增量(min R-squared increnment)选项,回归方程所包含的回归量最大数目为3,其他默认形式。所得结果与例3.8相同。第80页/共82页组合逐步回归例3.14(承接例8)在方法下拉菜单中选择Swapwise,回归方程所包含的回归量数目为5,其他默认形式。第81页/共82页感谢您的观看!第82页/共82页