北航数理统计回归分析大作业.pdf
数理统计(课程大作业 1)逐步回归分析学学院:院:机械工程学院机械工程学院专专业:业:材料加工工程材料加工工程日期:日期:20142014 年年 1212 月月 7 7 日日摘要:摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012 年的财政收入为因变量,选取了8 个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字:关键字:多元线性回归逐步回归法财政收入SPSS1 1 引言引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2 2多元线性回归多元线性回归2.12.1 多元线性回归简介多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量 y 与 m(m 2)个普通变量x1,x2xm有关,且满足关系式:y 01x12x2mxmE 0,D2(2.1)其中,0,1,2m,2是与x1,x2xm无关的未知参数,是不可观测的随机变量,N(0,2IN)。1式(2.1)为 m 元理论线性回归模型,其中0,1,2m为回归系数,x1,x2xm为 回 归 因 子 或 设 计 因 子。i(i 1,2,m)实 际 上 反 映 了 因 子xi(i 1,2,m)对 观 测 值 y 的 作 用,因 此 也 称i(i 1,2,m)为 因 子xi(i 1,2,m)的效应。通过对回归系数i(i 1,2,m)进行最小二乘估计后,可以得到 m 元经验回归方程为:x x x y01122mm(2.2)为回归常数,,称也称式(2.2)为 m 元线性回归方程。也称回归系数,012m为回归系数。2.22.2 逐步回归法逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。1 1)回归效果的显著性检验)回归效果的显著性检验y与变量x1,x2xm线性相关的密切程度可以用回归平方和U在总平方和Lyy中所占的比例来衡量。称 R U为 y 关于x1,x2xm的样本复相关系数,LyyR2U为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示Lyy回归方程对原有数据拟合程度的好坏。显然0 R21,其越接近 1,回归方程拟合程度越高。2 2)偏)偏 F F 检验检验检验某个自变量对 y 的影响是否显著的正规方法是偏 F 检验。设原回归方程(全模型)为:x x xx xx y01122i1i1iii1i1mm2去掉变量xi后的新回归方程(减模型)为:x x xxx y01122i1i1i1i1mm全模型的复相关系数的平方为R2,减模型的复相关系数的平方为Ri,定义2Ri2 R2 Ri2。若Ri几乎为零,则说明 x 对 y 没有显著影响,反之则表示 x对 y 有其它变量不可替代的显著影响。检验假设:2H0:Ri2 0;当H0为真时,检验统计量为H1:Ri2 02Ri2iFi F(1,n m 1)22(1 R)/(n m 1)S cii对于给定显著性水平,由样本计算出Fi的值,若Fi F1(1,n m1),则拒绝H0,说明 x 对 y 有显著影响,应在减模型中引入自变量 x;反之则应剔除 x,使之成为减模型。偏 F 检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏 F法进行检验的。3)3)逐步回归法的步骤逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏 F 检验是显著的。同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。具体步骤如下:(0)(0)x,对它们分别计算 1、对 m 个自变量分别与 y 建立回归模型yi0iiFi,得Fi中最大的那个值,比如FL1。()如果FL1 F进,则计算结束,即 y 与所有自变量均线性无关;()如果FL1 F进,则引入xL1,建立回归方程(1)(1)x y01L1(2.3)32、建立 y 与自变量子集xL1,xi(i L1)的二元回归模型(0)(0)x(0)x yi0i1L1ii(2.4)以式(2.4)为全模型,式(2.3)为减模型求Fi值,并取得Fi中最大的那个值,比如说FL2。如果FL2 F进,则计算结束,这时建立的模型为式(2.3);如果FL2 F进,则引入xL2,建立回归方程(2)(2)x(2)x y01L12L2(2.5)3、当引入xL2后,对xL1做偏 F 检验,看xL1是否需要剔除;如果FL1 F出,则不剔除xL1,并继续引入下一个变量;如果FL1 F出,则从式 2.4 中剔除xL1,再继续引入下一个变量。重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。3 3财政收入回归分析实例财政收入回归分析实例本次作业利用 SPSS 软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。3.13.1数据收集及处理数据收集及处理首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8 个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。表 1 所示为所选取的自 1995 年至 2012 年 18 年间财政收入与所选变量的数据汇总。4能源生国内生人口数产总值年份(亿人)元)吨)煤)(万(万(标准产总量农作物出口总播种货运量面积(万吨)(亿(千公元)顷)元)(亿元)元)总额总额产值(亿入(亿进口建筑业总财政收199560793.7121121129034149879123493812452110485793.756242.2199671176.6122389133032152381129842112576115578282.257407.99199778973123626133460153969127821815161118079126.488651.14199884402.31247611298341557061267427152241162610061.999875.9511444.0813395.2316386.0418903.6421715.2526396.4731649.2938760.2199989677.11257861319351563731293008161601373611152.86200099214.6109655.2120332.7135822.8159878.3184937.4216314.41267431350481563001358682206341863912497.620011276271438751557081401786220242015915361.5620021284531506561546361483447269482443018527.1820031292271719061524151564492362883419623083.8720041299881966481535531706412491034643629021.4520051307562162191554881862066626485427434552.120061314482321671521492037060775976337741557.1652007265810.3314045.4340902.8401202473104.0518942.11321292472791534642275822935647330010039551043.7151321.7861330.3568518.383101.51103874.43117253.52200813280226055215626625859377952762036.81200913345027461915861428252228203068618107023123240.6129359.376807.742010134091296916160675324180794699113161.4114801.096031.1320111347353179871622833696961115734.1920121354043318481634164099400137217.863.23.2 建立回归模型过程建立回归模型过程为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=1X1+2X2+3X3+4X4+5X5+6X6+7X7+8X8其中,Y是因变量,Xi是自变量,i是各个自变量的系数。各变量符号的定义见表 2。YX1国内生财政收产总值入(亿元)(亿元)(万人)(标准煤)(万吨)面积(千公顷)(万吨)额(亿元)额(亿元)(亿元)人口数产总量总播种货运量出口总进口总总产值X2X3能源生X4农作物X5X6X7X8建筑业3.33.3 线性回归模型的验证线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。故6作出数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图 1 所示。(1)(2)(3)(4)(5)7(6)(7)(8)(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图图 1 1 财政收入与各种因素散点图财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从图 1 可以看出,人口数 X2与财政收入 Y 之间大致呈指数关系,而农作物总播种面积 X4与财政收入 Y 之间的线性关系很不显著,都是可以首先剔除的变量。其余变量错误错误!未找到引用源。未找到引用源。都与财政收入 Y 具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。3.43.4 线性回归的结果及分析线性回归的结果及分析利用统计数据建立回归模型,用SPSS 软件的线性回归分析功能,得到以下数据。由表 3 可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的 F的概率不大于 0.05,被剔除的判据是变量进入回归方程的 F 的概率不小于 0.10。8表表 3 3 输入输入/移去的变量移去的变量模型输入的变量移去的变量方法步 进(准 则:F-to-enter的 概1货运量(万吨率=.100)。步 进(准 则:F-to-enter的 概2国 内 生 产 总 值(亿元)率=.100)。步 进(准 则:能 源 生 产 总 量(万吨)F-to-enter的 概率=.100)。a.因变量:财政收入3表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数R2=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。表表 4 4 模型汇总模型汇总模型123R.999a1.000b1.000cR2.998.999.999调整 R2.998.999.999标准估计的误差1615.379291163.51991916.74710a.预测变量:(常量),货运量(万吨)b.预测变量:(常量),货运量(万吨),国内生产总值(亿元)c.预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入(亿元)从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。9表表 5 5ANOVANOVA Ad d模型1回归残差总计2回归残差总计3回归残差总计平方和2.044E1041751204.0032.048E102.046E1020306678.7912.048E102.047E1011765953.5312.048E10df116172151731417均方2.044E102609450.250F7832.197Sig.000a7556.322.000b1.023E101353778.5868117.999.000c6.823E9840425.252a.预测变量:(常量),货运量(万吨)b.预测变量:(常量),货运量(万吨),国内生产总值(亿元)c.预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入(亿元)如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。表表 6 6 系数系数模型B(常量)1货运量(万吨)(常量)2货运量(万吨)国内生产总值(亿元)(常量)货运量(万吨)3国内生产总值(亿元)能源生产总量(万吨)-.060.019-.124-3.188.007-15515.418.015.1764351.514.004.031-39148.932.038-26904.767.022.103标准误差958.303.0003152.897.004.026试用版非标准化系数标准系数t-40.852.99988.500-8.533.568.4325.2333.980Sig.000.000.000.000.001.385.737-3.5663.7315.744.003.002.0001 0表表 6 6 系数系数模型B(常量)1货运量(万吨)(常量)2货运量(万吨)国内生产总值(亿元)(常量)货运量(万吨)3国内生产总值(亿元)能源生产总量(万吨)a.因变量:财政收入(亿元)-.060.019-.124-3.188.007-15515.418.015.1764351.514.004.031-39148.932.038-26904.767.022.103标准误差958.303.0003152.897.004.026试用版非标准化系数标准系数t-40.852.99988.500-8.533.568.4325.2333.980Sig.000.000.000.000.001.385.737-3.5663.7315.744.003.002.000如表 7 所示,给出的是所有未进入最终模型的变量检验信息,由 t 检验的 Sig值都大于 0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。表 7 排除的变量Beta In国内生产总值(亿元)能源生产总量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)2能源生产总量(万吨)出口总额(亿元)-.049b-1.117.283-.286.034-.124b-3.188.007-.649.027-.051a-.195.848-.050.002.076a1.828.088.427.064.066a1.929.073.446.092.043a.926.369.233.061.432at3.980Sig.001偏相关.717共线性统计量Model1容差.0061 1进口总额(亿元)建筑业总产值(亿元)3出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)-.037b-.779.449-.204.030.319b1.660.119.406.002.073c1.478.163.379.016.101c2.111.055.505.014.188c1.142.274.302.001a.模型中的预测变量:(常量),货运量(万吨)b.模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元)c 模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入表 8 残差统计量预测值残差标准预测值标准残差极小值5652.1587-1919.03113-.952-2.093极大值116279.00001378.362182.2361.504均值38679.2983.00000.000.000标准偏差34698.46056831.934441.000.907N18181818a.因变量:财政收入(亿元)图图2 2 标准化残差直方图标准化残差直方图1 2标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。图图3 3 标准标准P-PP-P图图图图 4 4 散点图散点图1 3从图 4 的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕2 的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。3.53.5 最优回归方程最优回归方程由以上多元回归分析可得各个分量的影响关系,从而得出“最优”方程为:Y=-15515.418+0.176X1-0.060X3+0.015X5其中 R2=0.999,F=8117.999X1代表国内生产总值,X3代表能源生产总量,X5代表货运量代入 2011 年数据,可得Y2011=-15515.418+0.176473104.0-0.060317987+0.0153696961=104126.082008 年实际财政收入为 103874.43(亿元)可算得误差为 e=(104126.081-103874.43)/103874.43100%=0.24%,在可接受误差范围之内,可见拟合效果能够满足要求。4 4结论结论在本次作业中,结合过去的经验和学习结果,我选择了影响财政收入的8个因素,通过查阅 2013 中国统计年鉴,利用 IBM SPSS Statistics 19.0 软件对所获得的数据进行了分析,建立了线性回归模型,再利用逐步回归法进行回归分析,最终发现所选8个因素中有6个因素与国民总收入之间的的散点图呈现良好的线性关系,但最终进入回归方程的只有国内生产总值、能源生产总量和货运量这三个自变量,可能是数据选取上有些问题或者可能是其他影响因素的线性关系不是很明显。综合来看,本次作业基本能分析工业生产总值和各影响因素的关系,并得出了主要、次要原因。最终的线性回归模型显示,国民总收入可以由货运量、国内生产总值和能源生产总量来进行很好的解释,三者都是影响财政收入的重要因素。然而,最终的模拟结果也显示出拟合曲线和实际点还是有一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他因素较显著的影响了财政收入,有待进一步考察。1 4参考文献:参考文献:1 孙海燕,周梦,李卫国,冯伟.应用数理统计 M.北京:北京航天航空大学数学系,2014.2 国家统计局.2013 年中国统计年鉴M.北京:中国统计出版社,2013.3 蔡建琼,于惠芳,朱志洪等.SPSS 统计分析实例精选 M.北京:清华大学出版社,2006.1 5