回归分析实验报告.doc
财政收入研究摘要本文是对财政收入与农业增加值、工业增加值、建筑业增加值、人口数、社会消费总额、受灾面积进行多元线性回归。首先,根据所给数据,对数据进行标准化,然后进行相关性分析,初步确定各因素与财政收入的相关程度。再运用逐步回归分析,确定了变量子集为工业增加值、人口数和社会消费总额。之后,为了消除复共线性,用主成分估计对回归系数进行有偏估计,获得了模型的回归系数估计值。最后,对所得结果作了分析,并给出了适当建议。一、数据处理为了消除变量间的量纲关系,从而使数据具有可比性,运用spss对所给数据进行标准化。二、相关性分析要对某地财政收入影响因素进行多元回归分析,首先要分析财政收入与各自变量的相关性,只有与财政收入有一定相关性的自变量才能对财政收入变动进行解释。运用spss得到变量间的相关系数表如下: 表一:相关系数表x1: 农业x2: 工业x3: 建筑业x4:人口数x5:社会消费总额x6: 受灾面积y: 财政收入x1: 农业Pearson Correlation1.975*.972*.906*.978*.487*.970*Sig. (2-tailed).000.000.000.000.018.000N23232323232323x2: 工业Pearson Correlation.975*1.996*.892*.999*.472*.987*Sig. (2-tailed).000.000.000.000.023.000N23232323232323x3: 建筑业Pearson Correlation.972*.996*1.876*.995*.452*.986*Sig. (2-tailed).000.000.000.000.030.000N23232323232323x4: 人口数Pearson Correlation.906*.892*.876*1.903*.560*.883*Sig. (2-tailed).000.000.000.000.005.000N23232323232323x5: 社会消费总额Pearson Correlation.978*.999*.995*.903*1.475*.991*Sig. (2-tailed).000.000.000.000.022.000N23232323232323x6: 受灾面积Pearson Correlation.487*.472*.452*.560*.475*1.452*Sig. (2-tailed).018.023.030.005.022.031N23232323232323y: 财政收入Pearson Correlation.970*.987*.986*.883*.991*.452*1Sig. (2-tailed).000.000.000.000.000.031N23232323232323*. Correlation is significant at the 0.01 level (2-tailed).*. Correlation is significant at the 0.05 level (2-tailed).由上表可知,财政收入与农业增加值、工业增加值、建筑业增加值、人口数、社会消费总额呈高度正相关,但与受灾面积相关程度不高。由此表明所选取的大部分变量是可以用来解释财政收入变动的。为进一步确定最优子集,下面用逐步回归法。三、回归分析回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。在此利用逐步回归法选定回归方程。逐步回归思想:综合运用前进法和后退法,将变量一个一个引入,引入变量的条件是其偏回归平方和经检验是显著的。同时,每引入一个新变量,对已入选方程的老变量逐个进行检验,将经检验认为不显著的变量剔除,以保证所得自变量子集中的每个变量都是显著的。此过程经若干步直到不能再引入新变量为止。运用spss得到逐步回归的输出结果: 表二:回归系数表模型非标准化系数标准化系数tSig.Collinearity StatisticsB标准误差BetaToleranceVIF1(Constant)-1.292E-16.029.0001.000x5:社会消费总额.991.029.99133.990.0001.0001.0002(Constant)-1.210E-16.024.0001.000x5:社会消费总额2.649.5552.6494.776.000.002499.022x2: 工业增加值-1.660.555-1.660-2.992.007.002499.0223(Constant)-2.451E-17.017.0001.000x5:社会消费总额4.021.4854.0218.292.000.001783.048x2: 工业增加值-2.829.460-2.829-6.147.000.001705.453x4: 人口数-.225.048-.225-4.697.000.1317.663a. Dependent Variable: y: 财政收入 由表二可知,模型三是最终模型,最终选入方程的自变量为:x2:工业增加值;x4:人口数;x5:社会消费总额。表三:复共线性诊断表ModelDimension特征值条件数Variance Proportions(Constant)x5:社会消费总额x2:工业增加值x4:人口数111.0001.0001.00.0021.0001.000.001.00211.9991.000.00.00.0021.0001.4141.00.00.003.00144.655.001.001.00312.8631.000.00.00.00.0121.0001.6921.00.00.00.003.1364.589.00.00.00.654.00165.284.001.001.00.33a. Dependent Variable: y: 财政收入由表三可知,条件数为k=65.284>10,所以存在较强的复共线性。此时若用最小二乘估计,效果不够理想。所以,本文选用主成分估计来对回归系数进行有偏估计。四、主成分估计主成分估计是对自变量进行正交变换,获得新的自变量,成为主成分,然后剔除对应的特征值比较小的那些主成分,再将剩余的主成分对y做最小二乘回归,再返回到原来的参数,如此便得到了因变量对原始自变量的主成分回归。运用Mtlab得到如下结果(程序见附页): 由上述结果可以看出,第一个特征值接近于0,且后两个主成分的贡献率因此剔除第一个主成分,只保留后两个主成分。各变量平均值分别为= 12507.87 =1119.87 =18001.96 =4077.304相应的=12518.3 =97.34 =17067.43 =3351.48将B矩阵中的数值代入经验回归方程化简后则得到的经验回归方程为通过该方程可以计算得出预测值,将预测值与实际值进行比较如下图,可以看出,该回归方程对样本数据拟合程度很高。预测值与实际值的拟合情况图 五、结果分析通过以上分析及得出的经验回归方程,可以知道,财政收入与工业增加值和社会消费总额呈正相关,与人口数呈负相关,这个结果也与实际情况相符,很明显工业增加值越大,财政收入越高,而社会消费总额也是财政收入的一个侧面反映,从而呈正相关。而人口的增加会在一定程度上抑制经济的发展,从而与财政收入呈负相关。另外,从最优子集选取的方面来看,农业增加值和建筑业增加值对财政收入的影响没有工业增加值明显,从而可以看出该地区经济增长以工业为主。六、建议从得到的经验回归方程可知,该地区要促进财政收入的增加,可从三个方面着手。第一,在重点发展工业的基础上,适当拉动农业、建筑业及其他行业的发展。第二,促进本地消费,拉动内需从而可促进经济的增长。第三,适当抑制本地人口的增长。另外,由于此地区以工业为主,政府应加强力度防止工业垃圾对环境的污染。附页:主成分估计的Matlab程序:x2=-0.87;-0.85;-0.83;-0.83;-0.82;-0.80;-0.77;-0.72;-0.68;-0.63;-0.53;-0.48;-0.45;0.35;0.17;0.13;0.54;0.97;1.32;1.59;1.67;1.75;1.86;x4=-1.62;-1.48;-1.36;-1.22;-1.06;-0.92;-0.78;-0.63;-0.46;0.27;0.10;0.07;0.23;0.39;0.52;0.66;0.80;0.94;1.05;1.19;1.31;1.35;1.37;x5=-0.92;-0.9;-0.88;-0.86;-0.84;-0.81;-0.77;-0.71;-0.67;-0.61;-0.50;-0.43;-0.38;0.28;0.12;0.12;0.51;0.91;1.28;1.49;1.66;1.81;1.92;y=-0.87;-0.87;-0.87;-0.86;-0.85;-0.80;-0.72;-0.61;-0.58;-0.56;-0.51;-0.42;-0.34;-0.27;-0.17;0.08;0.34;0.64;0.99;1.36;1.73;1.92;2.29;x=x2,x4,x5;>> Q,V=eig(x'*x)i=0,0;1,0;0,1;Z=x*Q;Z2=Z*i;>> Q2=Q*i;B=Q2*inv(Z2'*Z2)*Z2'*y注:所用数据为所给数据在spss中标准化处理后的数据参考文献:1王松桂、陈敏、陈立萍,线性统计模型 高等教育出版社2朱建平、范霄文,Excel在统计工作中的应用 清华大学出版社3尹海洁、刘耳,社会统计软件 社会科学文献出版社