应用回归分析论文参考范文资料.doc
Good is good, but better carries it.精益求精,善益求善。应用回归分析论文参考范文-北京理工大学珠海学院数理学院课程论文题目名称:关于影响GDP的回归分析年级:专业:统计学学号:姓名:指导教师:袁鹏教师评语论文成绩任课教师签名摘要GDP是体现国民经济增长状况和人民群众客观生活质量的重要指标。为了研究影响GDP的潜在因素,通过收集到的样本数据运用课本学过的回归分析知识,建立与GDP有影响的自变量与因变量间的多元线性回归模型,借助统计软件SPSS对样本作初等模型,同时结合统计专业知识对初等模型作F检验、回归系数检验、异方差性检验、假设检验等,确立最终的经验回归方程,回归方程对样本的是拟合度最好的。最后通过对做出来的模型分析得出GDP的主要影响因素,对提高GDP具有一定得现实意义。引言在当今欧美主导的经济发展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好体现,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比较。众所周知2008年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2009年在金融危机的影响下我国GDP稳中求进,依然保持着9.0%的增长态势。提高GDP已经成为经济发展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的发展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP。一、多元线性回归模型的基本理论首先是对线性回归模型基本知识介绍:随机变量y与一般变量x1,x2,x3.xp的理论线性回归模型为:其中,.,是P+1个未知参数,称为回归常数,.,称为回归系数。y称为被解释变量(因变量),而x1,x2,.,xp是P个可以精确测量并可控制的一般变量,称为解释变量(自变量)。是随机误差,在多元线性回归模型中有五个基本假设:假设一:随机误差项0均值假定;假设二:随机误差项同方差;假设三:随机误差项不相关假设四:随机误差项服从如下正态分布;只有求得的经验回归方程通过了回归分析中各检验并满足上述四个假设时,我们才可以明确此时的经验回归方程对我们的样本数据拟合得好,可以用此时的回归模型作控制与预测了。二、回归模型初步建立与检验CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)2.377E-15.058.0001.000Zscore:居民消费水平(元).317.212.3171.493.148.07713.006Zscore:固定资产投资(亿元).946.075.94612.666.000.6211.611Zscore:职工平均工资(元).094.134.094.701.490.1925.211Zscore:居民消费价格指数.069.069.0691.003.326.7291.371Zscore:工业增加值率(%)-.067.092-.067-.732.471.4092.442Zscore:农村居民家庭人均纯收入(元)-.288.218-.288-1.321.199.07313.683a.DependentVariable:Zscore:GDP(亿元)表(1)收集的数据由于存在单位上的差异,且数据量很大,故可能存在误差、量纲的影响。首先将数据标准化,再对样本作模型假设,可得出y对6个自变量的线性回归方程为:y=2.377*E-15+0.317x1+0.946x2+0.094x3+0.069x4+0.069x5-0.067x5-0.288x6ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression27.50864.58544.157.000aResidual2.49224.104Total30.00030a.Predictors:(Constant),Zscore:农村居民家庭人均纯收入(元),Zscore:固定资产投资(亿元),Zscore:居民消费价格指数,Zscore:工业增加值率(%),Zscore:职工平均工资(元),Zscore:居民消费水平(元)b.DependentVariable:Zscore:GDP(亿元)表(2)应用F检验对回归方程进行显著检验,检验统计量为:F=SSR/SSE,SSR为回归回归平方和,SSE为残差平方和,从上表中的结果可以看出显著性p值,由于p近似为0,在显著水平为0.05的条件下:p,可知其回归方程高度显著。三、回归方程系数检验但回归方程显著并不表示每个自变量对y的影响都显著,因此我们队方程的回归系数作显著性检验。如果某个自变量对y的作用不显著,那么在模型中相应的系数值就为0。提出假设检验:H0:j=0,j=1,2p若接受原假设,则自变量不显著;若拒绝原假设,那么相应的自变量是显著的。参考表(1),虽然该方程F检验回归方程是显著的,但在显著性水平取0.05时,某些单个自变量对y并不显著。CorrelationsZscore:GDP(亿元)Zscore:居民消费水平(元)Zscore:固定资产投资(亿元)Zscore:职工平均工资(元)Zscore:居民消费价格指数Zscore:工业增加值率(%)Zscore:农村居民家庭人均纯收入(元)Spearman'srhoZscore:GDP(亿元)CorrelationCoefficient1.000.629*.953*.187-.357*-.471*.732*Sig.(2-tailed).000.000.315.049.007.000N31313131313131Zscore:居民消费水平(元)CorrelationCoefficient.629*1.000.589*.491*-.318-.612*.879*Sig.(2-tailed).000.000.005.081.000.000N31313131313131Zscore:固定资产投资(亿元)CorrelationCoefficient.953*.589*1.000.143-.348-.425*.646*Sig.(2-tailed).000.000.444.055.017.000N31313131313131Zscore:职工平均工资(元)CorrelationCoefficient.187.491*.1431.000-.100-.280.357*Sig.(2-tailed).315.005.444.592.127.049N31313131313131Zscore:居民消费价格指数CorrelationCoefficient-.357*-.318-.348-.1001.000.475*-.445*Sig.(2-tailed).049.081.055.592.007.012N31313131313131Zscore:工业增加值率(%)CorrelationCoefficient-.471*-.612*-.425*-.280.475*1.000-.663*Sig.(2-tailed).007.000.017.127.007.000N31313131313131Zscore:农村居民家庭人均纯收入(元)CorrelationCoefficient.732*.879*.646*.357*-.445*-.663*1.000Sig.(2-tailed).000.000.000.049.012.000.N31313131313131*.Correlationissignificantatthe0.01level(2-tailed).表(3)*.Correlationissignificantatthe0.05level(2-tailed).从上表中可以看出,y与x1、x2、x5的相关系数较大,说明自变量与y高度相关。其他几个变量对y的贡献不是很大,故需剔除一些变量。四、检验异方差性及自相关ModelSummaryhModelRRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-Watson11.000a1.0001.000.0000000221.000b1.0001.000.0000000231.000c1.0001.000.0000000241.000d1.0001.000.0000000251.000e1.0001.000.0000000261.000f1.0001.000.0000000271.000g1.0001.000.00000002.408h.DependentVariable:Zscore:GDP(亿元)表(4)从表(4)中我们可以知道DW值=0.408,根据书中表4.4可以知道,误差项之间存在正自相关。我们再根据DW分布表,查得临界值dl=1.16,du=1.74,再根据书中表4.5可知,DW=0.408<1.16,故可知误差项之间存在正相关。CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-1.169.000-9.014E7.000Zscore:居民消费水平(元)-3.211E-16.000.000.0001.000.07014.214Zscore:固定资产投资(亿元)2.041E-15.000.000.0001.000.08112.381Zscore:职工平均工资(元)2.225E-16.000.000.0001.000.1885.318Zscore:居民消费价格指数9.384E-17.000.000.0001.000.7001.429Zscore:工业增加值率(%)1.896E-17.000.000.0001.000.4012.497Zscore:农村居民家庭人均纯收入(元)5.034E-16.000.000.0001.000.06814.678GDP(亿元).000.0001.0009.276E7.000.08312.039a.DependentVariable:Zscore:GDP(亿元)表(5)从输出结果表(5)看到,自变量的方差扩大因子不是很大。但有几个变量的方差因子大于10,故变量间可能存在共线性的关系。我们进一笔采用后退法来剔除共线性变量及自相关的变量。五、自变量的选择与模型最终建立ModelSummaryfModelRRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-Watson1.958a.917.896.322223652.957b.915.898.318925183.956c.914.901.314102944.954d.911.901.314914025.951e.904.897.321388081.577表(6)CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)2.377E-15.058.0001.000Zscore:居民消费水平(元).317.212.3171.493.148.07713.006Zscore:固定资产投资(亿元).946.075.94612.666.000.6211.611Zscore:职工平均工资(元).094.134.094.701.490.1925.211Zscore:居民消费价格指数.069.069.0691.003.326.7291.371Zscore:工业增加值率(%)-.067.092-.067-.732.471.4092.442Zscore:农村居民家庭人均纯收入(元)-.288.218-.288-1.321.199.07313.6832(Constant)2.647E-15.057.0001.000Zscore:居民消费水平(元).380.190.3801.994.057.09410.685Zscore:固定资产投资(亿元).931.071.93113.136.000.6751.481Zscore:居民消费价格指数.076.067.0761.129.270.7451.342Zscore:工业增加值率(%)-.038.081-.038-.469.643.5161.937Zscore:农村居民家庭人均纯收入(元)-.245.207-.245-1.185.247.07912.6323(Constant)2.385E-15.056.0001.000Zscore:居民消费水平(元).383.187.3832.047.051.09410.666Zscore:固定资产投资(亿元).940.067.94014.062.000.7351.360Zscore:居民消费价格指数.069.065.0691.068.296.7831.277Zscore:农村居民家庭人均纯收入(元)-.232.202-.232-1.148.261.08112.3844(Constant)1.447E-17.057.0001.000Zscore:居民消费水平(元).411.186.4112.210.036.09610.462Zscore:固定资产投资(亿元).938.067.93813.997.000.7361.358Zscore:农村居民家庭人均纯收入(元)-.287.195-.287-1.471.153.08711.5555(Constant)-1.872E-16.058.0001.000Zscore:居民消费水平(元).152.061.1522.479.019.9131.095Zscore:固定资产投资(亿元).895.061.89514.570.000.9131.095a.DependentVariable:Zscore:GDP(亿元)表(7)ANOVAfModelSumofSquaresdfMeanSquareFSig.1Regression27.50864.58544.157.000aResidual2.49224.104Total30.000302Regression27.45755.49153.989.000bResidual2.54325.102Total30.000303Regression27.43546.85969.518.000cResidual2.56526.099Total30.000304Regression27.32239.10791.836.000dResidual2.67827.099Total30.000305Regression27.108213.554131.222.000eResidual2.89228.103Total30.00030表(8)从表(5)中我们知道,复决定系数R2=0.904,R2a=0.897,而全模型的复决定系数R2=0.917,R2a=0.896。而由表(7)可知,最优子集的回归方程为:y=-1.872E-16+0.152x2+0.895x3。六、最终方程的检验及假设检验ANOVAfModelSumofSquaresdfMeanSquareFSig.1Regression27.50864.58544.157.000aResidual2.49224.104Total30.000302Regression27.45755.49153.989.000bResidual2.54325.102Total30.000303Regression27.43546.85969.518.000cResidual2.56526.099Total30.000304Regression27.32239.10791.836.000dResidual2.67827.099Total30.000305Regression27.108213.554131.222.000eResidual2.89228.103Total30.00030f.DependentVariable:Zscore:GDP(亿元)从上表可以知道,显著性p近似值为0,说明回归方程高度显著。亦可从表(7)中得到扩大方程因子全都小于10,p值近似为0,也可知道回归系数显著。由直方图知随机误差项基本服从正态分布,可知假设满足条件。数据点围绕基准线还存在一定得规律性,但标准化残差与标准正态分布不存在显著差异,所以认为残差满足了模型的基本要求。残差在0的周围随机分布,方差没有太大的变化趋势,方差的异方差性并不明显,原模型满足要求,符合建模的条件。七、模型的最终解释(结论)最终的回归方程为:y=-1.872E-16+0.152x2+0.895x3;从方程中可以看到居民消费水平与固定资产投资对GDP的影响最大,而其中的固定资产投资的系数远大于居民消费水平的系数,由此可知固定资产投资对国民生产总值的贡献大于居民消费水平对GDP的贡献。虽然该模型建立了GDP的回归方程,但我们需要注意的是,影响GDP的因素很多,且影响程度不同,它涵盖的具体范围很广,我们只能从有限的数据中选取一些合适的变量,再对其研究分析。并不是模型中没有的便量就对y没有影响。参考文献1何晓群等,应用回归分析(第三版),中国人民大学出版社,北京,2011.2-