线性回归问题与非线性回归分析.pptx
《线性回归问题与非线性回归分析.pptx》由会员分享,可在线阅读,更多相关《线性回归问题与非线性回归分析.pptx(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3.1 线性回归的常见问题多重共线性异方差性自相关性第1页/共82页 多重共线性 1.1.概念概念i=1,2,n 其基本假设之一是解释变量之间不存在完全共线性。其基本假设之一是解释变量之间不存在完全共线性。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。第2页/共82页 如果存在如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其其中中:ci 不不全全为为0,则则称称为为解解释释变变量量间间存存在在完完全全共共线性。线性。多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中,有部分
2、自变量呈高度相关,也就是说,这些变量被用来解释因变量时导致所提供的信息出现“重叠”。例如、模型中如果有多个自变量有共同的上升趋势,它们之间很可能有高度的相关关系导致共线性。第3页/共82页实际经济问题中的多重共线性实际经济问题中的多重共线性(1 1)经济变量相关的共同趋势)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳横截面数据:生产函数中,资本投入与劳动力投入往往出现高
3、度相关情况,大企业二者动力投入往往出现高度相关情况,大企业二者都大,小企业都小。都大,小企业都小。第4页/共82页(2 2)滞后变量的引入)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。(3 3 3 3)样本资料的限制)样本资料的限制)样本资料的限制)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性
4、定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性一般经验:第5页/共82页诊断方法1.一些经验方法第6页/共82页2.条件指数 条件指数(condition index)可以用来判断多重共线性是否存在以及多重共线性的严重程度,通常认为:第7页/共82页 从条件指数可以看到,最大的条件数为162.804,说明自变量间存在严重的共线性。如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自变量间就存在共线性。例例3.1 3.1 根据例根据例2.12.1计算特征值及条件指数计算特征值及条件指数多重共线性检验多重共线性检验SPSSSP
5、SS 打开Linear Regression:Statistics子对话框,选择Collinearity diagnostics(共线性诊断),单击Continue返回主对话框并单击OK按钮。这样SPSS 便可输出所有检查多重共线性的指标。第8页/共82页3.方差扩大因子法 与特征根法比较,方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性,严重程度如何第9页/共82页例例3.2 3.2 承接例承接例3.13.1,用方差扩大因子法检验,用方差扩大因子法检验 多重共线性检验多重共线性检验SPSSSPSS除PMG外,其他变量都与别的变量存在程度不同的共线性问题,其中MOB的共线性最严重
6、。第10页/共82页克服多重共线性的方法第11页/共82页 1.排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。去,是最为有效的克服多重共线性问题的方法。注意:注意:剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。例2.1 删去POP,再进行回归第12页/共82页2.增大样本容量 由于多重共线性是一样本特征,故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重。一般认为:解释变量之间的相关程度与样本容量成反比,即样本容量越小,相关程度越高;样本容
7、量越大,相关程度越小。因此,收集更多观测值,增加样本容量,就可以避免或减轻多重共线性的危害。在实践中,当我们所选的变量个数接近样本容量时,自变量间就容易产生共线性。所以,我们在运用回归分析研究经济问题时,要尽可能使样本容量远大于自变量个数。第13页/共82页3.差分法 时间序列数据、线性模型:将原模型变换为差分模型时间序列数据、线性模型:将原模型变换为差分模型:Y Yi i=1 1 X X1 1i i+2 2 X X2 2i i+k k X Xkiki+i i 可以相对有效地消除原模型中的多重共线性。可以相对有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱得多
8、。第14页/共82页例如例如:中国中国GDPGDP与居民消费与居民消费C C的总量与增量数据的总量与增量数据YearGDPCONSCONS/GDPGDPCONSCONS/GDP1980NA2976NANANANA1981490133090.675168NA333NA1982548936380.662785883290.5595241983607640210.6617845873830.652471984716446940.65522110886730.618566198587925773 0.65662162810790.66277619861013365420.64561313417690.
9、57345319871178474510.63229816519090.55057519881470493600.636561292019090.653767198916466105560.641079176211960.678774199018320113620.62019718548060.434736199121280131460.617763296017840.602703199225864159520.616765458428060.612129199334501201820.584969863742300.489753199447111272160.5776991261070340
10、.557811199559405345290.5812471229473130.594843199668498401720.58647909356430.620587第15页/共82页 由表中的比值可以直观地看到,增量的由表中的比值可以直观地看到,增量的线性关系弱于总量之间的线性关系,可以部分克线性关系弱于总量之间的线性关系,可以部分克服共线性的问题。服共线性的问题。进一步分析:进一步分析:GDPGDP与与CONSCONS(-1)(-1)之间的可决系数为之间的可决系数为0.9880.988,GDPGDP与与CONSCONS(-1)(-1)之间的可决系数为之间的可决系数为0.7460.746 一
11、般认为,两个变量之间的可决系数大一般认为,两个变量之间的可决系数大于于0.80.8时,二者之间存在强烈的线性关系。时,二者之间存在强烈的线性关系。原模型和差分模型经过检验都具有多重原模型和差分模型经过检验都具有多重共线性,但程度不同。共线性,但程度不同。第16页/共82页命令Ls d(y)d(x1)d(x2).d(xp)Ls y-y(-1)x1-x1(-1)x2-x2(-1)xp-xp(-1)第17页/共82页4.重新定义方程比如可以在例2.1中考虑用人均汽油消费量、人均机动车数量、人均国民生产总值和油价这四个变量建模。取消原模型中的人口数变量。由于减少了变量,也就降低了发生共线性的可能性。第
12、18页/共82页5.回归系数的有偏估计岭回归法主成分法偏最小二乘法差分法第19页/共82页 1.1.异方差的概念异方差的概念 即即对对于于不不同同的的样样本本点点,随随机机误误差差项项的的方方差差不不再是常数,则认为出现了再是常数,则认为出现了异方差性异方差性。n n异方差性异方差性第20页/共82页21异方差就是对同方差假设的违反。经典回归中同方差是指随着样本观察点X的变化,线性模型中随机误差项 的方差并不改变,保持为常数,即 i=1,2,n如果的数值对不同的样本观察值各不相同,则称随机误差项具有异方差,即 常数 i=1,2,n 第21页/共82页22为什么会产生这种异方差性呢?一方面是因为
13、随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影响,另一方面来自不同抽样单元的因变量观察值之间可能差别很大。因此,异方差性多出现在横截面样本之中。至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。第22页/共82页2.异方差性的后果 1 1.参数估计量非有效参数估计量非有效2.2.变量的显著性检验失去意义变量的显著性检验失去意义3.3.模型的预测失效模型的预测失效第23页/共82页3.异方差性的检验图示检验法 White异方差性检验第24页/共82页图示检验法(残差图形态及判别)(a)(a)满意模式满意模式
14、残残差差x x0 0一般认为,如果回归方程满足所给出的基本假设,所有残差应该在e0的附近随机变化,并在变化不大的一条带子内。图a中的残差都落在变化不大的一条带子内,也就可以说明回归模型满足基本假设。第25页/共82页残差图(形态及判别)(b)(b)非常数方差非常数方差残残残差差差x x0 00当回归模型满足所有假定时,残差图上的散点应该是随机的,无任何规律。如果回归模型存在异方差时,残差图上的散点呈现出相应的趋势。当然,如果存在异方差,也可能随着x的增加而减少。图b的情况表明,残差图上的散点随着x的增加而增加。第26页/共82页 例2.1 GNP与残差散点图,存在异方差。从残差图可以看出,误差
15、项具有明显的异方差性,误差随着自变量的增加而增加第27页/共82页White异方差性检验 EViews显示两个检验统计量:F统计量和 Obs*R2 统计量。White检验的原假设:不存在异方差性方程对象窗口:View/Residual Test/Heteroskasticity/White第28页/共82页 例例例例3.3 3.3 3.3 3.3 对例对例对例对例2.12.12.12.1进行怀特检验进行怀特检验进行怀特检验进行怀特检验 回归方程的回归方程的 White White 异方差检验的结果:异方差检验的结果:该结果该结果F F 统计量和统计量和 Obs*RObs*R2 2 统计量的统计
16、量的P P值均很小,值均很小,表明拒绝原假设,即残差存在异方差性。表明拒绝原假设,即残差存在异方差性。第29页/共82页4.异方差性的修正方法(1)加权最小二乘法(WLS)Weighted Least Squares第30页/共82页加权最小二乘法的基本思想 加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。例如,在递增异方差下,对来自较小Xi的子样本,其真实的总体方差较小,Yi与回归线拟合值之间的残差ei的信度较大,应予以重视;而对较大Xi的子样本,由于真实总体的方差较大,残差反映的信息应打折扣。第31页/共82页 加权最小二乘法就是对加了
17、权重的残差平方和加权最小二乘法就是对加了权重的残差平方和实施实施OLS法:法:对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数。第32页/共82页第33页/共82页 尝试一些m值,如m=-2,-1.5,-1,-0.5,0,0.5,1,1.5,2等,建立不同的模型,然后选择其中表现最好的模型。例3.4 承接例2.1和例3.3 ls qmg c mob pmg gnpgenr w=gnp-1.5 或series 点击options 选加权最小二乘法,然后再进行Harvey检验。结果各统计量在0.05显著性水平下都无法拒绝原假设,说明异方差问题得到较好的解决。第34页/共8
18、2页寻找最优权函数利用SPSS软件可以确定(6.6)式幂指数m的最优取值。对例6.3的数据,依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,这一默认值可以更改。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):第35页/共82页第36页/共82页对异方差问题的处理至今没有什么更好的方法,对异方差问题的处理至今没有什么更好的方法,一些方法的处理效果往往不甚明显,所
19、以此例能一些方法的处理效果往往不甚明显,所以此例能有所改进也就不错了。有所改进也就不错了。第37页/共82页自相关性一、自相关的概念一、自相关的概念自相关(auto correlation),又称序列相关(serial correlation)是指总体回归模型的随机误差项之间存在相关关系。即不同观测点上的误差项彼此相关。即:第38页/共82页 二、自相关产生的原因二、自相关产生的原因 大多数经济时间数据都有一个明显的特点大多数经济时间数据都有一个明显的特点:惯性,惯性,表现在时间序列不同时间的前后关联上。表现在时间序列不同时间的前后关联上。1 1、经济变量固有的惯性、经济变量固有的惯性 如GD
20、P、价格、就业等经济指标都会随经济系统的周期而波动。例如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退期,较高的失业率也会持续一段时间,这种现象就会表现为经济指标的自相关现象。第39页/共82页 滞后效应是指某一指标对另一指标的影响不仅限于当期而是延续若干期。由此带来变量的自相关。例如,居民当期可支配收入的增加,不会使居民的消费水平在当期就达到应有水平,而是要经过若干期才能达到。因为人的消费观念的改变客观上存在自适应期。2.2.经济活动的滞后效应经济活动的滞后效应第40页/共82页 3 3、模型设定的偏误、模型设定的偏误 所谓模型设定偏误(所谓模型设定偏误(Specificat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 问题 非线性 分析
限制150内