《数理统计大作业(北航)2014版.pdf》由会员分享,可在线阅读,更多相关《数理统计大作业(北航)2014版.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用数理统计应用数理统计大作业一大作业一学院:学号:姓名:指导老师:2014 年 12 月 21 日XXXXXXXXXXXXXXXXXXXX国民生产总值增量的多元线性回归模型国民生产总值增量的多元线性回归模型摘要:摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系1。本论文搜集了我国从 1998 至 2012 年 15 年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件 SPSS 19.02对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将 2013 年数据作为测试集测试模型的拟
2、合精确度,得到的结果达到预期值,得出模型建立较为成功。关键词:关键词:逐步回归法,国民生产总值增量,线性拟合一一 引言引言国民生产总值(Gross Domestic Product)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以 1998 年至 2012 年的统计数据为标准,利用 SPSS软件作出了多元线性回归分析。二二 统计分析统计分析2.12.1 变量说明变量说明因变量 Y 国民
3、生产总值增值(亿元);自变量 1 第一产业增加值(亿元)自变量 2 第二产业增加值(亿元)自变量 3 第三产业增加值(亿元)自变量 4 工业增加值(亿元)自变量 5 建筑业增加值(亿元)2.22.2 统计数据统计数据国民生产总训练组值增值(亿元)加值(亿元)2012年2011年2010年2009年2008年2007年2006年2005年2004年46366.0571591.2560609.9926857.3848235.1249495.8831377.0625059.0324055.5852373.6347486.2140533.6352263370228627240402242021412.
4、73加值(亿元)235161.99220412.81187383.21157638.78149003.44125831.36103719.5487598.0973904.31加值(亿元)231934.48205205.02173595.98148038.04131339.99111351.9588554.8874919.2864561.29(亿元)199670.66188470.15160722.23135239.95130260.24110534.8891310.9477230.7865210.03值(亿元)35491.3431942.6626660.9822398.8318743.2152
5、96.4812408.6110367.318694.28第一产业增第二产业增第三产业增工业增加值建筑业增加2003年2002年2001年2000年1999年1998年15490.0710677.5210440.629537.55274.775429.2517381.7216537.0215781.2714944.7214770.0314817.6362436.3153896.7749512.2945555.8841033.5839004.1956004.7349898.944361.6138713.9533873.4430580.4754945.5347431.3143580.6240033.
6、5935861.4834018.437490.786465.465931.675522.295172.14985.76表格 2-119982012 年训练集数据国民生产总测试组值增值(亿元)加值(亿元)2013年49375.1156957加值(亿元)249684.4加值(亿元)262203.8(亿元)210689.4值(亿元)38995第一产业增第二产业增第三产业增工业增加值建筑业增加表格 2-22013 年测试集数据3中收录的近 15 年全国国民生产总值以上数据来自 中国统计年鉴 2013增值数据,考察与各产业间增量趋势变化中关系密切并且直观上有线性关系的因素,因此选取了第一产业增值、第二产
7、业增值、第三产业增值、工业总产值增值、建筑业增值五大因素为自变量。2.32.3 模型建立模型建立建立多元线性模型:Y=11+22+33+44+55将以上数据数据录入 SPSS。2.3.12.3.1 自变量与因变量关系自变量与因变量关系利用 SPSS 统计分析得到各自变量与国民生产总值增值的散点图:图 2-1 国民生产总值增值与第一产业增加值的散点图图 2-2 国民生产总值增值与第二产业增加值的散点图图 2-3 国民生产总值增值与第三产业增加值的散点图图 2-4 国民生产总值增值与工业增加值的散点图图 2-5 国民生产总值增值与建筑业增加值的散点图由以上数据我们可以看出各产业的增量与国民生产总值
8、增量的散点图都比较相似,因此无法直观地排除无关变量。下一步,我们用SPSS自带的逐步回归分析法作进一步研究:输入移去的变量输入移去的变量a a模型1输入的变量工业增加值(亿元)移去的变量方法F-to-enter 的概率=.100)。2第三产业增加值(亿元).步进(准则:F-to-enter 的概率=.100)。a.因变量:国内生产总值增值(亿元).步进(准则:图2-6 变量排除结果已排除的变量c共线性统计量模型1第一产业增加值(亿元)第二产业增加值(亿元)第三产业增加值(亿元)建筑业增加值(亿元)2第一产业增加值(亿元)第二产业增加值(亿元)建筑业增加值(亿元)Beta In-2.622a-1
9、5.202a-4.011a-2.331a.078b.043b.007bt-2.476-3.178-4.118-3.178.057.005.005Sig.029.008.001.008.955.996.996偏相关-.581-.676-.765-.676.017.001.001容差.009.000.007.015.0047.779E-5.003a.模型中的预测变量:(常量),工业增加值(亿元)。b.模型中的预测变量:(常量),工业增加值(亿元),第三产业增加值(亿元)。c.因变量:国内生产总值增值(亿元)图2-7 排除变量的相关性数值在模型建立中,SPSS将第一产业与第二产业以及建筑业产业增值都
10、剔除了,而保留了工业和第三产业的产业增值,由此可见,在五个自变量因素中,工业与第三产业的增量与国民生产总值增量的关联度较高,为目标函数提供的贡献度较大。因此,在以下的模型建立中,我们保留了这两个因素作为拟合自变量。2.3.22.3.2 模型方案的建立模型方案的建立系数系数a a非标准化系数模型1(常量)工业增加值(亿元)2(常量)工业增加值(亿元)第三产业增加值(亿元)a.因变量:国内生产总值增值(亿元)B-2593.808.339-14838.8741.835-1.303标准 误差4801.903.0444380.709.364.316标准系数试用版t-.5407.699-3.3875.03
11、5-4.118Sig.598.000.005.000.001B 的 95.0%置信区间下限-12967.689.244上限7780.073.434.9064.903-4.011-24383.619-5294.1281.041-1.9932.629-.614图2-8 方案设计结果由以上结果我们可以看出,系统提供给我们两个最终拟合方案。方案一:以工业增加值为自变量得到拟合函数Y=0.3394 2593.808方案二:以工业增加值和第三产业增加值为自变量得到拟合函数:Y=1.3033+1.8354 14838.847除了模型具体参数值,以下系统还给出了两模型方案的回归、残差分析表格,得出了其残差平方
12、和与均方平方和数值:AnovaAnovac c模型1回归残差总计2回归残差总计平方和5.177E91.136E96.313E95.842E94.705E86.313E9df1均方5.177E9F59.268Sig.000a1387355376.60414274.499.000b2.921E91239211809.74414a.预测变量:(常量),工业增加值(亿元)。b.预测变量:(常量),工业增加值(亿元),第三产业增加值(亿元)。c.因变量:国内生产总值增值(亿元)图2-8 回归残差结果从结果可以得到,两个回归模型的F值分别为59.268与74.499,根据F分布表格,易查得,方案二的回归显
13、著性更高。因此我们选用模型二的拟合函数作为最终输出结果。下面是回归标准化残差图:图2-9 回归残差结果我们利用 2013 年数据进行拟合测试:方案一:1=0.339 210689.4 2593.808=68829.986Y方案二:Y2=1.303 262203.8+1.835 210689.4 14838.847=30124.652实际输出为:Y=49375.11可以看出,两个模型与实际结果的误差仍然较大,相比之下模型二更接近实际输出,但是仍不满足我们预期的结果,超出误差范围很大。因此此模型建立得不够完善,或者说,模型中自变量与因变量的线性关系仍不明显。三三 结果分析结果分析由于软件所建立模型在测试过程中仍然误差较大,所以可以得出这样的结论:本模型中自变量第一产业增加值、第二产业增加值、第三产业增加值、工业增加值、建筑业增加值与因变量国民生产总值增值之间的线性关系不明显。但综合来看,模型二较为可靠:Y=1.3033+1.835414838.847参考文献参考文献1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学数学系,2014.2 张建同,孙昌言.以Excel和SPSS 为工具的管理统计M.北京:清华大学出版社,2002.3 国家统计局.2010 年中国统计年鉴M.中国统计出版社,2013.
限制150内