应用回归课程教学设计.doc
.-应用回归分析课程设计报告课 程: 应用回归分析 题 目: 人均可支配收入的分析 年 级: 11金统 专 业: 金融统计 学 号: 姓 名: 指导教师: 徐州师范大学数学科学学院基于多元线性回归模型对我国城镇居民家庭人均可支配收入的分析摘要:收入分配和消费结构都是国民经济的重要课题居民消费的主要来源是居民收入而消费又是拉动经济增长的重要因素。本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。通过分析找出我国城镇居民收入特点及其中存在的不足。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文根据我国城镇居民家庭人均可支配收入为研究对象,选取可能影响我国城镇居民家庭人均可支配收入的城乡居民储蓄存款年底余额、城乡居民储蓄存款年增加额、国民总收入、职工基本就业情况、城镇居民家庭恩格尔系数(%)5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用方差扩大因子法城乡居民储蓄存款年增加额剔除城镇居民家庭恩格尔系数(%)解决多重共线性,建立最终回归方程标准化回归方程以其探究最后进入回归方程的几个变量在影响城镇居民收入孰轻孰重,达到学习与生活结合的效果。分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 方差扩大因子(一)引言: 改革开放以来我国的国民经济增长迅速居民的收入水平也大幅提高但居民收入分配差距也在不断扩大。2008年的金融危机为我国带来的后遗症还在继续影响着居民正常生活物价上涨和通货膨胀的压力仍然困扰着老百姓收入和消费支出体系的健康发展至关重要。消费是拉动国民经济增长的一架重要马车收入又是决定居民消费的最主要因素。我国人口基数大消费群体众多但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。而且随着中国特色的市场经济体制的建立各种收入分配问题也愈发明显。因此鉴于篇幅限制本文就只针对城镇居民的收入进行分析。中国网北京7月13日讯 国家统计局今日发布数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。上半年,城镇居民家庭人均总收入12076元。其中,城镇居民人均可支配收入11041元,同比增长13.2%,扣除价格因素,实际增长7.6%。在城镇居民家庭人均总收入中,工资性收入同比名义增长11.5%,转移性收入增长9.9%,经营净收入增长31.2%,财产性收入增长20.4%。农村居民人均现金收入3706元,同比增长20.4%,扣除价格因素,实际增长13.7%。其中,工资性收入同比名义增长20.1%,家庭经营收入增长21.0%,财产性收入增长7.5%,转移性收入增长23.2%。财政部副部眨楼继伟就调整城镇中低收入居民收 入政策符记者问中说:“由于城乡居民收入增长趋缓,居民对未来支出增加的预期增强, 消费意愿减弱,导致消费需求不旺。针对有效需求不足这一突出问题,党中央利国务院 决定, 积极调整收入分配政策,通过提高国有企业下岗职工等低收入者的生活保障水平 和增加机关事业单位职工工资等措施,逐步改变居民收入预期下降、支出预期:列、高 收入者消费意愿不强、低收入者消费能力不足的状况,旨在刺激消费需求,健进国民经 济持续快速健康发展。”下面通过统计数据对我国城镇居民家庭人均可支配收入的总体现状和发展态势进行分析了解我国居民收入分配情况。(2) 问题重述以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。(三)模型分析与建立多元线性回归模型1. 多元线性回归模型的一般形式 设随机变量与一般变量 的线性回归模型为 (4.1) 其中,是个未知参数,称为回归常数,称为回归系数。称为被解释变量(因变量),是个可以精确测量并控制的一般变量,称为解释变量(自变量)。 是随机误差,与一元线性回归一样,对随机误差项我们常假定 (4.2)称 (4.3)为理论回归方程。对一个实际问题,如果我们获得组观测数据,则线性回归模型(4.1)式可表示为 (4.4)写成矩阵形式为 (4.5)其中 (4.6) 是一个阶矩阵,称为回归设计矩阵或资料矩阵。2. 多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:(1) 解释变量是确定性变量,不是随机变量,且要求。这里的,表明设计矩阵中的自变量列之间不相关,样本量的个数应大于解释变量的个数,是一满秩矩阵。(2) 随机误差项具有零均值和等方差,即 (4.7) 这个假定常称为高斯马尔柯夫条件。,假设观测值没有系统错误,随机误差项的平均值为0。随机误差项的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为 (4.8) 对于多元线性回归的矩阵模型(4.5)式, 这个条件便可表示为 (4.9)由上述假定和多元正态分布的性质可知,随机变量服从维正态分布,回归模型(4.5)式的期望向量 (4.10) (4.11)因此 (4.12)回归参数的普通最小二乘估计 线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。对于(4.5)式表示的回归模型,所谓最小二乘法,就是寻找参数的估计值,使离差平方和达到极小,即寻找满足 (4.13) 依照(4.13)式求出的就称为回归参数的最小二乘估计。 (4.14)为经验回归方程。(4) 问题分析数据说明以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。数据来源国家统计局网站统计年鉴。求解分析直接进入法模型汇总模型RR 方调整 R 方标准 估计的误差1.999a.999.999212.39403a. 预测变量: (常量), 家庭恩格尔系数, 年增加额, 就业情况, 国民总收入, 年底余额。可以看出调整后的决定系数,说明回归方程的拟合优度比较好。Anovab模型平方和df均方FSig.1回归6.745E851.349E82990.552.000a残差676668.3531545111.224总计6.752E820a. 预测变量: (常量), 家庭恩格尔系数, 年增加额, 就业情况, 国民总收入, 年底余额。b. 因变量: 可支配收入方差分析表可以看出,F检验的检验值F=2990.552非常大,再看F检验的P值0.000,可知此回归方程高度显著,即做出5个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-4471.2783126.013-1.430.173-11134.2182191.662储蓄存款年底余额.004.008.060.457.654-.013.020储蓄存款年增加额.011.010.0271.084.296-.010.032国民总收入.036.005.8067.156.000.025.047就业情况.102.021.1274.817.000.057.147家庭恩格尔系数-7.24833.502-.008-.216.832-78.65664.161a. 因变量: 可支配收入此时得到的回归方程为:复决定系数为0.999,F-检验高度显著(F=2990.552,P=0.000),说明模型整体拟合效果不错。首先看t检验结果, 的t统计量及其相应的值就是上表第五列(Sig.)的结果。我们可以发现显著性水平时只有国民总收入()和就业情况()通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有某些自变量(甚至每个)对无显著影响的情况。接着看看回归系数的置信区间除了有国民总收入()系数95%置信区间0.025,0.047和就业情况()系数95%置信区间0.057,0.147不包含0,这也反映了回归系数的不合理。那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。(1) 异方差和自相关在回归模型的基本假设中,假定随机误差性具有相同的方差,独立或不相关,即对于所有样本点,有但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即,当时另一种是自相关性,即,当时,异方差带来的问题:当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。当存在异方差时,参数向量的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估的真是方差的情况,进一步将导致高估回归系数的t检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。当存在异方差是,普通最小二乘估计存在以下问题:1、 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、 参数的显著性检验失效。3、 回归方程的应用效果极不理想。自相关带来的问题:当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题:1、最小二乘估计量仍然是线性的和无偏的。2、最小二乘估计量不是有效的,即OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)。3、OLS估计量的方差是有偏的。用来计算方差和OLS估计量标准误的公式会严重的低估真实的方差和标准误,从而导致t值变大,使得某个系数表面上显著不为零,但事实却相反。4、t检验和F检验不是可信的。5、计算得到的误差方差=(残差平方和/自由度)是真实的有偏估计量,并且很可能低估了真实的。6、计算的也不能真实的反映实际。7、计算的预测方差和标准误差通常是无效的。(2)多重共线性 多元线性回归有一个基本假设,就是要求设计矩阵X的秩,即要求中的列向量之间线性无关。如果存在不全为零的个数,使得 (5.1)则自变量之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,常见的是(5.1)式近似成立的情况,即存在不全为零的个数,使得 (5.2)当自变量存在(5.2)式的关系时,称自变量之间存在多重共线性(multi-collinearity),也称为复共线性。多重共线性到来的影响:(1) 完全共线性下参数估计量不存在(2) 近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大,为方差扩大因子(Variance Inflation Factor, VIF)(3) 参数估计量经济含义不合理(4) 变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外(5) 模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。方程的异方差、自相关以及多重共线性诊断1.异方差诊断这里使用等级相关系数法检验,计算残差绝对值(见附录2)与自变量的相关性时采用Spearman等级相关系数,而不采用Pearson简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关情况。相关性Unstandardized Residual储蓄存款年底余额Unstandardized ResidualPearson 相关性1.023显著性(双侧).923N2121储蓄存款年底余额Pearson 相关性.0231显著性(双侧).923N2121残差绝对值与自变量储蓄存款年底余额的相关系数为=0.023相关性Unstandardized Residual储蓄存款年增加额Unstandardized ResidualPearson 相关性1.121显著性(双侧).601N2121储蓄存款年增加额Pearson 相关性.1211显著性(双侧).601N2121残差绝对值与自变量储蓄存款年增加额的相关系数为=0.121相关性Unstandardized Residual国民总收入Unstandardized ResidualPearson 相关性1.047显著性(双侧).839N2121国民总收入Pearson 相关性.0471显著性(双侧).839N2121残差绝对值与自变量国民总收入的相关系数为=0.047相关性Unstandardized Residual就业情况Unstandardized ResidualPearson 相关性1-.281显著性(双侧).218N2121就业情况Pearson 相关性-.2811显著性(双侧).218N2121残差绝对值与自变量就业情况的相关系数为=-0.281相关性Unstandardized Residual家庭恩格尔系数Unstandardized ResidualPearson 相关性1.183显著性(双侧).427N2121家庭恩格尔系数Pearson 相关性.1831显著性(双侧).427N2121残差绝对值与自变量家庭恩格尔系数的相关系数为=-0.183因为在显著性水平下,每个值都大于,认为残差绝对值与自变量不显著相关,即认为不存在异方差。2.自相关诊断这里我们采用DW检验。可以用SPSS算出的值,结果如下模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.999a.999.999212.394031.892a. 预测变量: (常量), 家庭恩格尔系数, 储蓄存款年增加额, 就业情况, 国民总收入, 储蓄存款年底余额。b. 因变量: 可支配收入由表5我们可以得到DW=1.892,查DW表,n=21,k=6,显著性水平,得。由,可知残差是有自相关。消除自相关这里我们用迭代法消除自相关,需要求出和,其中 (5.3)(5.3)式中自相关系数是未知的,用来估计,计算出后,带入(5.3)式,计算变换因变量和变换自变量(见附录1),然后用变换得到自变量和因变量作普通最小二乘回归,看看自相关是否消除。模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson11.000a.999.999218.213641.782a. 预测变量: (常量), x53, x23, x43, x33, x13。b. 因变量: y3由表6我们可以得到DW=1.782,查DW表,n=20,k=6,显著性水平,得。由,可知不能判定残差是否有自相关。多重共线性诊断这里采用方差扩大因子和条件数检验回归方程的多重共线性。方差扩大因子法中,当时,就说明自变量与其与自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。条件数法中,当时,没有多重共线性;时,存在较强的多重共线性;时,存在严重的多重共线性系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准 误差试用版下限上限容差VIF1(常量)-4471.2783126.013-1.430.173-11134.2182191.662储蓄存款年底余额.004.008.060.457.654-.013.020.004259.650储蓄存款年增加额.011.010.0271.084.296-.010.032.1109.083国民总收入.036.005.8067.156.000.025.047.005189.802就业情况.102.021.1274.817.000.057.147.09610.428家庭恩格尔系数-7.24833.502-.008-.216.832-78.65664.161.04621.690a. 因变量: 可支配收入可以看出储蓄存款年底余额()国民总收入()的方差扩大因子很大,分别为,,远远超过10,说回归方程存在着严重的多重共线性。消除多重共线性变量之间的多重共线性比较严重,我们先用逐步回归的方法剔除一些变量。用普通最小二乘回归对迭代法得到的数据进行分析系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准 误差试用版下限上限容差VIF1(常量)-4471.2783126.013-1.430.173-11134.2182191.662储蓄存款年底余额.004.008.060.457.654-.013.020.004259.650储蓄存款年增加额.011.010.0271.084.296-.010.032.1109.083国民总收入.036.005.8067.156.000.025.047.005189.802就业情况.102.021.1274.817.000.057.147.09610.428家庭恩格尔系数-7.24833.502-.008-.216.832-78.65664.161.04621.690a. 因变量: 可支配收入可以看出储蓄存款年底余额()的方差扩大因子最大,应该剔除变元(),用y与剩下的自变量建立回归方程,有关计算结果如下。系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准 误差试用版下限上限容差VIF1(常量)-3828.4022721.985-1.406.179-9598.7511941.948储蓄存款年增加额.013.008.0321.543.142-.005.031.1456.876国民总收入.038.001.85631.955.000.036.041.08911.292就业情况.099.019.1235.080.000.058.140.1089.243家庭恩格尔系数-15.43527.605-.018-.559.584-73.95543.085.06515.492a. 因变量: 可支配收入可以看到方差扩大因子,依然存在多重共线性。继续剔除家庭恩格尔系数()结果如下:系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准 误差试用版下限上限容差VIF1(常量)-5305.470642.918-8.252.000-6661.909-3949.031储蓄存款年增加额.012.008.0311.524.146-.005.030.1476.800国民总收入.039.001.86337.939.000.037.041.1188.495就业情况.108.010.13510.962.000.087.129.4042.477a. 因变量: 可支配收入可以看出所有的方差扩大因子都小于10,回归系数也都有合理的经济解释,说明此回归系数也都有合理的经济解释,说明此回归模型不存在强多重共线性,可以作为最终回归模型。回归方程为标准化回归方程(5) 模型优劣分析模型评价优点 本文以多元线性回归建立模型,分别选用了等级相关系数法诊断异方差;图示检验法和DW检验法诊断自相关迭代法消除自相关;方差和扩大因子法诊断多重共线性方差扩大因子法建立回归方程。用多元线性回归模型得到的回归方程能很明白的说明问题,容易理解。缺点 为了解决多重共线性问题,选取的5个自变量未能全部进入最后的回归方程。模型推广 本文建立的多元线性回归模型很好地决绝了实际问题,并且能够推广应用到现实生活中的很多问题,如:1、 分析国家财政收入与选取自变量之间的关系,并对其作出短期预测;2、 分析股票变动与选取自变量之间的关系,并对其作出短期预测。(六)参考文献1 薛薇,SPSS统计分析方法及应用(第二版),北京:电子工业出版社,2009年2 茆诗松,概率论与数理统计,北京:高等教育出版社,2011年3 何晓群,应用回归分析(第三版),北京:中国人民大学出版社,2011年4 贾俊平,统计学,北京:清华大学出版社,2004年附录1YX1X2X3X4X5X6X77080.848957.88514.3651672.44131419.84188836.524490.121685.7928275.6410082943663380.12138229.24193728.446184.7204126.6929591.1611222.3210505.9279901.8146560.6199439.769646.9536159.77610588.4811768.6811631.696336.72155215.04201179.4813082.8588173.07211339.8412129.0812668.68111711.96165542.36203510.8416193.5556183.57611852.412794.0813632.6154248.64171921.28206439.4418797.8224188.18412593.6413728.7214383.64164824.36173762.76207310.3619844.6312199.613532.1214609.3214849.68173624.4174238.52198797.822246.4584207.32415116.6415662.5215660.6185789.32178700.52200200.823800.7984228.8416536.816329.2817026.04201374.64184890.32210082.9225799.1204258.29619748.881876118603.68233168.48191154.68225696.6828705.0328292.1623751.0422482.6420686.24268341.12201544.68237754.2833006.2564390.67629498.5627340.3623737.2319747.52228432.68252335.8440889.2592535.42838726.2434516.5227382.68383611.56264917.76273763.9252168.7776633.53246724.2843245.4831172.24439821.08295764.68292827.4865367.5896713.04857468.8851805.7235657.84508922.6324755.16310390.9281722.9552887.6469691.0460665.240839.96596849.12352937.28331133.28102215.51241092.71276297.0864006.1244146.48665480.68369990.24348715128343.99841179.49286333.871303.6846935.24737139.32388252.44354640.04168146.81641640.06899710.479744.0452473.16872830.32410800.16387261.16210204.16242212.76
收藏
编号:2601089
类型:共享资源
大小:627.39KB
格式:DOC
上传时间:2020-04-23
8
金币
- 关 键 词:
-
应用
利用
运用
回归
课程
教学
设计
- 资源描述:
-
.-
应用回归分析
课程设计报告
课 程: 应用回归分析
题 目: 人均可支配收入的分析
年 级: 11金统
专 业: 金融统计
学 号:
姓 名:
指导教师:
徐州师范大学
数学科学学院
基于多元线性回归模型对我国城镇居民家庭人均可支配收入的分析
摘要:收入分配和消费结构都是国民经济的重要课题居民消费的主要来源是居民收入而消费又是拉动经济增长的重要因素。本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。通过分析找出我国城镇居民收入特点及其中存在的不足。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文根据我国城镇居民家庭人均可支配收入为研究对象,选取可能影响我国城镇居民家庭人均可支配收入的城乡居民储蓄存款年底余额、城乡居民储蓄存款年增加额、国民总收入、职工基本就业情况、城镇居民家庭恩格尔系数(%)5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用方差扩大因子法城乡居民储蓄存款年增加额剔除城镇居民家庭恩格尔系数(%)解决多重共线性,建立最终回归方程
标准化回归方程
以其探究最后进入回归方程的几个变量在影响城镇居民收入孰轻孰重,达到学习与生活结合的效果。分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。
关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 方差扩大因子
(一)引言:
改革开放以来我国的国民经济增长迅速居民的收入水平也大幅提高但居民收入分配差距也在不断扩大。2008年的金融危机为我国带来的后遗症还在继续影响着居民正常生活物价上涨和通货膨胀的压力仍然困扰着老百姓收入和消费支出体系的健康发展至关重要。消费是拉动国民经济增长的一架重要马车收入又是决定居民消费的最主要因素。我国人口基数大消费群体众多但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。而且随着中国特色的市场经济体制的建立各种收入分配问题也愈发明显。因此鉴于篇幅限制本文就只针对城镇居民的收入进行分析。中国网北京7月13日讯 国家统计局今日发布数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。上半年,城镇居民家庭人均总收入12076元。其中,城镇居民人均可支配收入11041元,同比增长13.2%,扣除价格因素,实际增长7.6%。在城镇居民家庭人均总收入中,工资性收入同比名义增长11.5%,转移性收入增长9.9%,经营净收入增长31.2%,财产性收入增长20.4%。农村居民人均现金收入3706元,同比增长20.4%,扣除价格因素,实际增长13.7%。其中,工资性收入同比名义增长20.1%,家庭经营收入增长21.0%,财产性收入增长7.5%,转移性收入增长23.2%。财政部副部眨楼继伟就调整城镇中低收入居民收 入政策符记者问中说:“由于城乡居民收入增长趋缓,居民对未来支出增加的预期增强, 消费意愿减弱,导致消费需求不旺。针对有效需求不足这一突出问题,党中央利国务院 决定, 积极调整收入分配政策,通过提高国有企业下岗职工等低收入者的生活保障水平 和增加机关事业单位职工工资等措施,逐步改变居民收入预期下降、支出预期I:列、高 收入者消费意愿不强、低收入者消费能力不足的状况,旨在刺激消费需求,健进国民经 济持续快速健康发展。”
下面通过统计数据对我国城镇居民家庭人均可支配收入的总体现状和发展态势进行分析了解我国居民收入分配情况。
(2) 问题重述
以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。
(三)模型分析与建立
①多元线性回归模型
1. 多元线性回归模型的一般形式
设随机变量与一般变量 的线性回归模型为
(4.1)
其中,是个未知参数,称为回归常数,称为回归系数。称为被解释变量(因变量),是个可以精确测量并控制的一般变量,称为解释变量(自变量)。 是随机误差,与一元线性回归一样,对随机误差项我们常假定
(4.2)
称
(4.3)
为理论回归方程。
对一个实际问题,如果我们获得组观测数据,则线性回归模型(4.1)式可表示为
(4.4)
写成矩阵形式为
(4.5)
其中
(4.6)
是一个阶矩阵,称为回归设计矩阵或资料矩阵。
2. 多元线性回归模型的基本假定
为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:
(1) 解释变量是确定性变量,不是随机变量,且要求。这里的,表明设计矩阵中的自变量列之间不相关,样本量的个数应大于解释变量的个数,是一满秩矩阵。
(2) 随机误差项具有零均值和等方差,即
(4.7)
这个假定常称为高斯—马尔柯夫条件。,假设观测值没有系统错误,随机误差项的平均值为0。随机误差项的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。
(3)正态分布的假定条件为
(4.8)
对于多元线性回归的矩阵模型(4.5)式, 这个条件便可表示为
(4.9)
由上述假定和多元正态分布的性质可知,随机变量服从维正态分布,回归模型(4.5)式的期望向量
(4.10)
(4.11)
因此 (4.12)
②回归参数的普通最小二乘估计
线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。
对于(4.5)式表示的回归模型,所谓最小二乘法,就是寻找参数的估计值,使离差平方和达到极小,即寻找满足
(4.13)
依照(4.13)式求出的就称为回归参数的最小二乘估计。
(4.14)
为经验回归方程。
(4) 问题分析
①数据说明
以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。数据来源国家统计局网站统计年鉴。
②求解分析
直接进入法
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.999a
.999
.999
212.39403
a. 预测变量: (常量), 家庭恩格尔系数, 年增加额, 就业情况, 国民总收入, 年底余额。
可以看出调整后的决定系数,说明回归方程的拟合优度比较好。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
6.745E8
5
1.349E8
2990.552
.000a
残差
676668.353
15
45111.224
总计
6.752E8
20
a. 预测变量: (常量), 家庭恩格尔系数, 年增加额, 就业情况, 国民总收入, 年底余额。
b. 因变量: 可支配收入
方差分析表可以看出,F检验的检验值F=2990.552非常大,再看F检验的P值0.000,可知此回归方程高度显著,即做出5个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
B
标准 误差
试用版
下限
上限
1
(常量)
-4471.278
3126.013
-1.430
.173
-11134.218
2191.662
储蓄存款年底余额
.004
.008
.060
.457
.654
-.013
.020
储蓄存款年增加额
.011
.010
.027
1.084
.296
-.010
.032
国民总收入
.036
.005
.806
7.156
.000
.025
.047
就业情况
.102
.021
.127
4.817
.000
.057
.147
家庭恩格尔系数
-7.248
33.502
-.008
-.216
.832
-78.656
64.161
a. 因变量: 可支配收入
此时得到的回归方程为:
复决定系数为0.999,F-检验高度显著(F=2990.552,P=0.000),说明模型整体拟合效果不错。
首先看t检验结果, 的t统计量及其相应的值就是上表第五列(Sig.)的结果。我们可以发现显著性水平时只有国民总收入()和就业情况()通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有某些自变量(甚至每个)对无显著影响的情况。
接着看看回归系数的置信区间除了有国民总收入()系数95%置信区间[0.025,0.047]和就业情况()系数95%置信区间[0.057,0.147]不包含0,这也反映了回归系数的不合理。
那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。
(1) 异方差和自相关
在回归模型的基本假设中,假定随机误差性具有相同的方差,独立或不相关,即对于所有样本点,有
但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即,当时另一种是自相关性,即
,当时,异方差带来的问题:
当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。
当存在异方差时,参数向量的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估的真是方差的情况,进一步将导致高估回归系数的t检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。
当存在异方差是,普通最小二乘估计存在以下问题:
1、 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
2、 参数的显著性检验失效。
3、 回归方程的应用效果极不理想。
自相关带来的问题:
当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题:
1、最小二乘估计量仍然是线性的和无偏的。
2、最小二乘估计量不是有效的,即OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)。
3、OLS估计量的方差是有偏的。用来计算方差和OLS估计量标准误的公式会严重的低估真实的方差和标准误,从而导致t值变大,使得某个系数表面上显著不为零,但事实却相反。
4、t检验和F检验不是可信的。
5、计算得到的误差方差=(残差平方和/自由度)是真实的有偏估计量,并且很可能低估了真实的。
6、计算的也不能真实的反映实际。
7、计算的预测方差和标准误差通常是无效的。
(2)多重共线性
多元线性回归有一个基本假设,就是要求设计矩阵X的秩,即要求中的列向量之间线性无关。如果存在不全为零的个数,使得
(5.1)
则自变量之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,常见的是(5.1)式近似成立的情况,即存在不全为零的个数,使得
(5.2)
当自变量存在(5.2)式的关系时,称自变量之间存在多重共线性(multi-collinearity),也称为复共线性。
多重共线性到来的影响:
(1) 完全共线性下参数估计量不存在
(2) 近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大,为方差扩大因子(Variance Inflation Factor, VIF)
(3) 参数估计量经济含义不合理
(4) 变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5) 模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
方程的异方差、自相关以及多重共线性诊断
1.异方差诊断
这里使用等级相关系数法检验,计算残差绝对值(见附录2)与自变量的相关性时采用Spearman等级相关系数,而不采用Pearson简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关情况。
相关性
Unstandardized Residual
储蓄存款年底余额
Unstandardized Residual
Pearson 相关性
1
.023
显著性(双侧)
.923
N
21
21
储蓄存款年底余额
Pearson 相关性
.023
1
显著性(双侧)
.923
N
21
21
残差绝对值与自变量储蓄存款年底余额的相关系数为=0.023
相关性
Unstandardized Residual
储蓄存款年增加额
Unstandardized Residual
Pearson 相关性
1
.121
显著性(双侧)
.601
N
21
21
储蓄存款年增加额
Pearson 相关性
.121
1
显著性(双侧)
.601
N
21
21
残差绝对值与自变量储蓄存款年增加额的相关系数为=0.121
相关性
Unstandardized Residual
国民总收入
Unstandardized Residual
Pearson 相关性
1
.047
显著性(双侧)
.839
N
21
21
国民总收入
Pearson 相关性
.047
1
显著性(双侧)
.839
N
21
21
残差绝对值与自变量国民总收入的相关系数为=0.047
相关性
Unstandardized Residual
就业情况
Unstandardized Residual
Pearson 相关性
1
-.281
显著性(双侧)
.218
N
21
21
就业情况
Pearson 相关性
-.281
1
显著性(双侧)
.218
N
21
21
残差绝对值与自变量就业情况的相关系数为=-0.281
相关性
Unstandardized Residual
家庭恩格尔系数
Unstandardized Residual
Pearson 相关性
1
.183
显著性(双侧)
.427
N
21
21
家庭恩格尔系数
Pearson 相关性
.183
1
显著性(双侧)
.427
N
21
21
残差绝对值与自变量家庭恩格尔系数的相关系数为=-0.183
因为在显著性水平下,每个值都大于,认为残差绝对值与自变量不显著相关,即认为不存在异方差。
2.自相关诊断
这里我们采用DW检验。可以用SPSS算出的值,结果如下
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
Durbin-Watson
1
.999a
.999
.999
212.39403
1.892
a. 预测变量: (常量), 家庭恩格尔系数, 储蓄存款年增加额, 就业情况, 国民总收入, 储蓄存款年底余额。
b. 因变量: 可支配收入
由表5我们可以得到DW=1.892,查DW表,n=21,k=6,显著性水平,得。由,可知残差是有自相关。
消除自相关
这里我们用迭代法消除自相关,需要求出和,其中
(5.3)
(5.3)式中自相关系数是未知的,用来估计,计算出后,带入(5.3)式,计算变换因变量和变换自变量(见附录1),然后用变换得到自变量和因变量作普通最小二乘回归,看看自相关是否消除。
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
Durbin-Watson
1
1.000a
.999
.999
218.21364
1.782
a. 预测变量: (常量), x53, x23, x43, x33, x13。
b. 因变量: y3
由表6我们可以得到DW=1.782,查DW表,n=20,k=6,显著性水平,得。由,可知不能判定残差是否有自相关。
多重共线性诊断
这里采用方差扩大因子和条件数检验回归方程的多重共线性。方差扩大因子法中,当时,就说明自变量与其与自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。条件数法中,当时,没有多重共线性;时,存在较强的多重共线性;时,存在严重的多重共线性
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
共线性统计量
B
标准 误差
试用版
下限
上限
容差
VIF
1
(常量)
-4471.278
3126.013
-1.430
.173
-11134.218
2191.662
储蓄存款年底余额
.004
.008
.060
.457
.654
-.013
.020
.004
259.650
储蓄存款年增加额
.011
.010
.027
1.084
.296
-.010
.032
.110
9.083
国民总收入
.036
.005
.806
7.156
.000
.025
.047
.005
189.802
就业情况
.102
.021
.127
4.817
.000
.057
.147
.096
10.428
家庭恩格尔系数
-7.248
33.502
-.008
-.216
.832
-78.656
64.161
.046
21.690
a. 因变量: 可支配收入
可以看出储蓄存款年底余额()国民总收入()的方差扩大因子很大,分别为,,,远远超过10,说回归方程存在着严重的多重共线性。
消除多重共线性
变量之间的多重共线性比较严重,我们先用逐步回归的方法剔除一些变量。用普通最小二乘回归对迭代法得到的数据进行分析
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
共线性统计量
B
标准 误差
试用版
下限
上限
容差
VIF
1
(常量)
-4471.278
3126.013
-1.430
.173
-11134.218
2191.662
储蓄存款年底余额
.004
.008
.060
.457
.654
-.013
.020
.004
259.650
储蓄存款年增加额
.011
.010
.027
1.084
.296
-.010
.032
.110
9.083
国民总收入
.036
.005
.806
7.156
.000
.025
.047
.005
189.802
就业情况
.102
.021
.127
4.817
.000
.057
.147
.096
10.428
家庭恩格尔系数
-7.248
33.502
-.008
-.216
.832
-78.656
64.161
.046
21.690
a. 因变量: 可支配收入
可以看出储蓄存款年底余额()的方差扩大因子最大,应该剔除变元(),用y与剩下的自变量建立回归方程,有关计算结果如下。
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
共线性统计量
B
标准 误差
试用版
下限
上限
容差
VIF
1
(常量)
-3828.402
2721.985
-1.406
.179
-9598.751
1941.948
储蓄存款年增加额
.013
.008
.032
1.543
.142
-.005
.031
.145
6.876
国民总收入
.038
.001
.856
31.955
.000
.036
.041
.089
11.292
就业情况
.099
.019
.123
5.080
.000
.058
.140
.108
9.243
家庭恩格尔系数
-15.435
27.605
-.018
-.559
.584
-73.955
43.085
.065
15.492
a. 因变量: 可支配收入
可以看到方差扩大因子,依然存在多重共线性。继续剔除家庭恩格尔系数()
结果如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
共线性统计量
B
标准 误差
试用版
下限
上限
容差
VIF
1
(常量)
-5305.470
642.918
-8.252
.000
-6661.909
-3949.031
储蓄存款年增加额
.012
.008
.031
1.524
.146
-.005
.030
.147
6.800
国民总收入
.039
.001
.863
37.939
.000
.037
.041
.118
8.495
就业情况
.108
.010
.135
10.962
.000
.087
.129
.404
2.477
a. 因变量: 可支配收入
可以看出所有的方差扩大因子都小于10,回归系数也都有合理的经济解释,说明此回归系数也都有合理的经济解释,说明此回归模型不存在强多重共线性,可以作为最终回归模型。回归方程为
标准化回归方程
(5) 模型优劣分析
①模型评价
优点
本文以多元线性回归建立模型,分别选用了等级相关系数法诊断异方差;图示检验法和DW检验法诊断自相关迭代法消除自相关;方差和扩大因子法诊断多重共线性方差扩大因子法建立回归方程。用多元线性回归模型得到的回归方程能很明白的说明问题,容易理解。
缺点
为了解决多重共线性问题,选取的5个自变量未能全部进入最后的回归方程。
②模型推广
本文建立的多元线性回归模型很好地决绝了实际问题,并且能够推广应用到现实生活中的很多问题,如:
1、 分析国家财政收入与选取自变量之间的关系,并对其作出短期预测;
2、 分析股票变动与选取自变量之间的关系,并对其作出短期预测。
(六)参考文献
[1] 薛薇,《SPSS统计分析方法及应用(第二版)》,北京:电子工业出版社,2009年
[2] 茆诗松,《概率论与数理统计》,北京:高等教育出版社,2011年
[3] 何晓群,《应用回归分析(第三版)》,北京:中国人民大学出版社,2011年
[4] 贾俊平,《统计学》,北京:清华大学出版社,2004年
附录1
Y
X1
X2
X3
X4
X5
X6
X7
7080.84
8957.8
8514.36
51672.44
131419.84
188836.52
4490.1216
85.792
8275.64
10082
9436
63380.12
138229.24
193728.44
6184.7204
126.692
9591.16
11222.32
10505.92
79901.8
146560.6
199439.76
9646.9536
159.776
10588.48
11768.68
11631.6
96336.72
155215.04
201179.48
13082.8588
173.072
11339.84
12129.08
12668.68
111711.96
165542.36
203510.84
16193.5556
183.576
11852.4
12794.08
13632.6
154248.64
171921.28
206439.44
18797.8224
188.184
12593.64
13728.72
14383.64
164824.36
173762.76
207310.36
19844.6312
199.6
13532.12
14609.32
14849.68
173624.4
174238.52
198797.8
22246.4584
207.324
15116.64
15662.52
15660.6
185789.32
178700.52
200200.8
23800.7984
228.84
16536.8
16329.28
17026.04
201374.64
184890.32
210082.92
25799.1204
258.296
19748.88
18761
18603.68
233168.48
191154.68
225696.68
28705.0328
292.16
23751.04
22482.64
20686.24
268341.12
201544.68
237754.28
33006.2564
390.676
29498.56
27340.36
23737.2
319747.52
228432.68
252335.84
40889.2592
535.428
38726.24
34516.52
27382.68
383611.56
264917.76
273763.92
52168.7776
633.532
46724.28
43245.48
31172.24
439821.08
295764.68
292827.48
65367.5896
713.048
57468.88
51805.72
35657.84
508922.6
324755.16
310390.92
81722.9552
887.64
69691.04
60665.2
40839.96
596849.12
352937.28
331133.28
102215.5124
1092.712
76297.08
64006.12
44146.48
665480.68
369990.24
348715
128343.9984
1179.492
86333.8
71303.68
46935.24
737139.32
388252.44
354640.04
168146.8164
1640.068
99710.4
79744.04
52473.16
872830.32
410800.16
387261.16
210204.1624
2212.76
展开阅读全文
淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。