应用回归分析结课影响财政收入的相关因素的分析大学论文.doc
-
资源ID:87907069
资源大小:644KB
全文页数:28页
- 资源格式: DOC
下载积分:10金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
应用回归分析结课影响财政收入的相关因素的分析大学论文.doc
应用回归分析结课论文 影响财政收入的相关因素的分析班级: 姓名: 学号:目 录1.问题的提出42.数据来源43.回归分析的模型方法介绍和总结53.1多元线性回归模型53.1.1多元线性回归模型的一般形式53.1.2多元线性回归模型的基本假定63.2.多元线性回归参数的最小二乘估计74.SAS程序及结果输出84.1.建立数据集,进行相关分析84.2.将数据做标准化处理,建立回归方程104.3.异方差检验114.4自相关检验134.5. 多重共线性检验144.5.1方差扩大因子法144.5.2特征根判定法144.6消除多重共线性154.6.1后退法154.6.2.逐步回归194.7最佳子集回归224.8岭回归224.9主成分回归254.10偏最小二乘回归265.结论27参考文献28摘要本文选1985-2003年的农业增加值,工业增加值,建筑业增加值,社会消费总额,人口数,受灾面积六个因素通过多元线性回归分析和岭回归对国家财政收入行分析,主要分析分析影响财政收入的主要原因,并联系实际进行分析,以供参考。关键词:财政收入 多元线性回归 多重共线性 岭回归1.问题的提出财政参与分配社会产品,在一国经济发展和分配体系中占有重要地位和作用。可以有力地促进经济的发展促进科学、教育、文化、卫生事业的发展,促进人民生活水平的提高,为巩固国防提供可靠的物质保障。且可调节资源配置,促进社会公平,改善人民生活。促进经济机构的优化和经济发展方式的转变。在我国,财政收入的主体是税收收入,因此在税收体制及政策不变的条件下,财政收入会随着经济繁荣而增加,随着经济衰退而下降。本文利用回归分析,确定影响我国财政收入主要因素。2.数据来源在研究国家收入时,我们把财政收入按形式分为:各项税收收入,企业收入,债务收入,国家能源交通重点建设基金收入,基本建设贷款归还收入,国家调节基金收入,其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);X5为社会消费总额(亿元);x6为 受灾面积(万公顷)。根据中国统计年鉴,得到1985-2003年数据,如图:3.回归分析的模型方法介绍和总结3.1多元线性回归模型3.1.1多元线性回归模型的一般形式 设随机变量与一般变量, ,的线性回归模型为: (3.1)式中,是个未知参数,称为回归常数,称为回归系数。称为被解释变量(因变量),是个可以精确测量并控制的一般变量。称为解释变量(自变量)。时,式(3.1)为一元线性回归模型;时,我们就称式(3.1)为多元线性回归模型。是随机误差,与一元线性回归一样,对随机误差项我们常假定 (3.2) 称 (3.3)为理论回归方程。 对一个实际问题,如果我们获得组观测数,则线性回归模型式(3.1)可表示为: (3.4) 写成矩阵形式为: (3.5) 是一个阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中,的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称为设计矩阵。3.1.2多元线性回归模型的基本假定 为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定 (1)解释变量, ,是确定性变量,不是随机变量,且要求。这里的,表明设计矩阵中的自变量列之间不相关,样本量的个数应大于解释变量的个数,是一满秩矩阵。 (2)随机误差性具有零均值和等方差,即 , , 这个假定通常称为高斯马尔柯夫条件。,即假设观测值没有系统误差,随机误差项的平均值为零,随机误差项的协方差为零,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。 (3)正态分布的假定条件为: 相互独立对于多元线性回归的矩阵模型式(3.5),这个条件便可表示为: 由上述假定和多元正态分布的性质可知,随机变量服从维正态分布,回归模型式(3.5)的期望向量 因此 3.2.多元线性回归参数的最小二乘估计多元线性回归模型未知参数,的估计与一元线性回归方程的参数估计原理一样,仍可采用最小二乘估计。对于,所谓最小二乘法,就是寻找参数,的估计值,使离差平方和Q(,)极小,即: 4.SAS程序及结果输出4.1.建立数据集,进行相关分析程序1data a;input year y x1-x6;cards;19852004.823619.59716675.11058.513801.4443.6519862122.01401311194808.071075.074374471.419872199.354675.713813954.6510935115420.919882357.245865.3182251131.651110.266534.6508.719892664.96534.7220171282.981127.047074.2469.9119902937.17662.1239241345.011143.337250.3384.7419913149.488157266251564.331158.238245.7554.7219923483.379084.7345992174.441171.719704.8513.3319934348.9510995.5484023253.51185.1712462.1488.2919945218.115750.5701764653.321198.516264.7550.4319956242.220340.9918945793.751267.4320620546.8819967407.9922353.7995958282.251211.2124774.1458.2119978651.1423788.41137339126.481223.8927298.9469.8919989875.9524542.911904810061.991276.2729152.5521.55199911444.0824519.112611111152.861236.2631134.7534.29200013395.2324915.885673.712497.61284.53334152.6471.19200116386.0426179.69548.9815361.561247.6137595.2501.45200218903.6427390.811076.518527.181257.8642027.1499.81200321715.2529691.814771.223083.871292.2745842545.06;run;proc print;run;proc corr data=a noprob;var y x1-x6;run;结果:表一分析:从相关阵看出,y与x2的相关系数偏小,x2是工业增加值,这说明工业增加值对财政收入无显著影响。4.2.将数据做标准化处理,建立回归方程程序2:proc standard data=a mean=0 std=1 out=out1;var y x1-x6;run;proc print data=out1;run;proc reg data=out1;model y=x1-x6;run;结果:表二因为数据为标准化数据,所以方程中不含有常数项。所以有回归方程为:Y=0.117.8x1-0.11696x2+0.87288x3+0.01659x+0.04690x5+0.01022x6由决定系数R方=0.9957,调整R方=0.9936,得回归方程高度显著。又有F=463.63,P<0.0001,表明回归方程高度显著,说明x1,x2,x3,x4,x5,x6整体上对y高度显著。在显著性水平时只有x2,x3通过了显著性检验,模型需要进一步检验。4.3.异方差检验采用等级相关系数法程序3:proc reg data=out1;model y=x1-x6/ r;output out=z1 r=residual;run;proc gplot data=z1;plot residual*y;run; data z2;set z1;absr=abs(residual);run;proc corr data=z2 spearman; var absr x1-x6 ;run; 图一从残差图可看出,误差项没有呈现任何趋势以及规律初步判断不存在异方差。表三程序4data z3;n=19 ;do rs=0.0072,0.3910,0.0053,0.0372,0.0174 ,0.3364;T=sqrt(n-2)*rs/sqrt(1-rs*rs);t1=tinv(0.975,n-2);output;end;run;proc print data=z3;run;表4可知模型存在异方差问题.4.4自相关检验程序5:proc reg data=out1;model y=x1-x6/dw;run;结果:表5DW值为1.521 查表不能判断是否存在自相关4.5. 多重共线性检验4.5.1方差扩大因子法程序6proc reg data=out1;model y=x1-x6/vif ;run;结果:表6可以看到x1 x3 x4的方差扩大因子很大,分别为67.41892 34.00697 14.54580,超过10,说明财政收入回归方程存在多重共线性。4.5.2特征根判定法程序7proc reg data=out1;model y=x1-x6/collinoint;run; 表7由上图可知,条件数19.45707在x1 x2和x3上的方差比率分别为0.99279 0.71723和0.90472,远超过50%,说明两变量高度共线。4.6消除多重共线性4.6.1后退法程序8proc reg data=a;model y=x1-x6/selection=backward;run;结果向后消除: 第 0 步所有变量已输入: R 方 = 0.9957 和 C(p) = 7.0000 方差分析源自由度平方和均方F 值Pr > F模型6674884516112480753463.63<.0001误差122911275242606 校正合计18677795792 变量参数估计值标准误差II 型 SSF 值Pr > FIntercept-733.030475750.126543942.677580.020.9007x10.076530.101541378050.570.4656x2-0.016860.0070214010785.780.0333x30.797380.100781518587662.59<.0001x41.377495.99041128280.050.8220x50.003910.001989449613.900.0719x61.353713.25216420350.170.6846条件数字的边界: 67.419, 755.1 向后消除: 第 1 步变量 x4 已删除: R 方 = 0.9957 和 C(p) = 5.0529 方差分析源自由度平方和均方F 值Pr > F模型5674871688134974338600.07<.0001误差132924103224931 校正合计18677795792 变量参数估计值标准误差II 型 SSF 值Pr > FIntercept553.063221285.69944416220.190.6741x10.091750.074123447241.530.2376x2-0.017240.0065715516386.900.0209x30.789040.090551707971875.93<.0001x50.004110.0017212757425.670.0332x61.725692.71657907680.400.5363条件数字的边界: 38.744, 385.77 向后消除: 第 2 步变量 x6 已删除: R 方 = 0.9956 和 C(p) = 3.4270 方差分析源自由度平方和均方F 值Pr > F模型4674780920168695230783.36<.0001误差143014872215348 校正合计18677795792 变量参数估计值标准误差II 型 SSF 值Pr > FIntercept1343.77319315.04852391776018.190.0008x10.095490.072293757341.740.2077x2-0.017100.0064215269657.090.0186x30.789280.088601709027979.36<.0001x50.003850.0016411862445.510.0342条件数字的边界: 38.5, 302.25 向后消除: 第 3 步变量 x1 已删除: R 方 = 0.9950 和 C(p) = 2.9758 方差分析源自由度平方和均方F 值Pr > F模型3674405186224801729994.52<.0001误差153390606226040 校正合计18677795792 变量参数估计值标准误差II 型 SSF 值Pr > FIntercept1674.73790195.668761655910073.26<.0001x2-0.009380.00273266647511.800.0037x30.903970.018055668094812507.56<.0001x50.003740.0016811241594.970.0414条件数字的边界: 1.2135, 10.382 留在模型中的所有变量的显著性水平都为 0.1000。 “向后消除”的汇总步删除的变量引入变量数偏R 方模型R 方C(p)F 值Pr > F1x450.00000.99575.05290.050.82202x640.00010.99563.42700.400.53633x130.00060.99502.97581.740.2077表8 参数都具有显著性意义,最优回归子集模型的回归模型为:Y=2.1435.4E-16-0.06508x2+0.98957x3+0.4486x54.6.2.逐步回归程序9:proc reg data=out1;model y=x1-x6/selection=stepwise vif;run;结果:表9参数都具有显著性意义,最优回归子集模型的回归模型为: Y=2.1435.4E-16-0.06508x2+0.98957x3+0.4486x54.7最佳子集回归程序10proc reg data=out1;model y=x1-x6/selection=cp aic adjrsq;run;结果:表10基于统计量x2 x3 x5是最优子集,与逐步回归选元结果相同。4.8岭回归程序11 :proc reg data=out1 outest=z4 outvif;model y=x1-x6/ridge=0 to 1 by 0.1;plot/ridgeplot;run;proc print data=z4;run;结果:Obs_MODEL_TYPE_DEPVAR_RIDGE_PCOMIT_RMSE_Interceptx1x2x3x4x5x6y1MODEL1PARMSy. .0.080272.5314E-160.1171-0.116960.87290.01660.046900.01022-12MODEL1RIDGEVIFy0.0. .67.41896.6176134.007014.54581.577741.68305-13MODEL1RIDGEy0.0.0.080272.5314E-160.1171-0.116960.87290.01660.046900.01022-14MODEL1RIDGEVIFy0.1. .0.71850.985051.08671.77061.002331.01258-15MODEL1RIDGEy0.1.0.136524.4927E-160.3201-0.200940.56310.11370.051920.00836-16MODEL1RIDGEVIFy0.2. .0.30930.720400.55920.75250.781260.77951-17MODEL1RIDGEy0.2.0.186665.1918E-160.3065-0.187670.49610.15130.056040.01346-18MODEL1RIDGEVIFy0.3. .0.20620.578220.38520.43290.632760.62890-19MODEL1RIDGEy0.3.0.230945.4633E-160.29250.016990.45360.16580.059910.01932-110MODEL1RIDGEVIFy0.4. .0.15940.481310.29680.29140.525590.52161-111MODEL1RIDGEy0.4.0.270395.5797E-160.2800-0.153130.42180.17180.062850.02439-112MODEL1RIDGEVIFy0.5. .0.13190.409380.24220.21570.444950.44131-113MODEL1RIDGEy0.5.0.305755.625E-160.2688-0.138000.39600.17400.064940.02853-114MODEL1RIDGEVIFy0.6. .0.11350.353580.20460.17010.382410.37921-115MODEL1RIDGEy0.6.0.337675.6332E-160.2589-0.124660.37440.17420.066360.03187-116MODEL1RIDGEVIFy0.7. .0.10010.309080.17680.14010.332750.32996-117MODEL1RIDGEy0.7.0.366675.6204E-160.2499-0.112930.35580.17320.067270.03453-118MODEL1RIDGEVIFy0.8. .0.08990.272860.15540.11910.292560.29014-119MODEL1RIDGEy0.8.0.393215.5953E-160.2417-0.102620.33950.17150.067780.03665-120MODEL1RIDGEVIFy0.9. .0.08160.242890.13840.10360.259520.25741-121MODEL1RIDGEy0.9.0.417635.5626E-160.2342-0.093530.32500.16940.067990.03833-122MODEL1RIDGEVIFy1.0. .0.07490.217780.12450.09180.231970.23013-123MODEL1RIDGEy1.0.0.440245.5253E-160.2272-0.085480.31200.16710.067970.03966-1表11图2由岭迹图,当K>=0.3,岭迹曲线趋于稳定,说明K=0.3即可以满足岭回归参数估计的均方误差较小的要求,对应的岭回归估计的回归方程:Y=0.2925x1+0.01699x2+0.4536x3+0.1658x4+0.05991x5+0.01932x64.9主成分回归程序12:proc reg data=out1 outest=z5 outvif;model y=x1-x6/pcomit=1;run;proc print data=z5;run;结果:图 12Y=1.1814E-16+0.39282x1-0.19039x2+0.68593x3-0.06196x4+0.06018x5+0.02238x6由方差扩大因子可知,模型不存在多重共线性。4.10偏最小二乘回归程序13proc standard data=a out=out1 mean=0 std=1;var y x1-x6;run;proc pls data=out1 nfac=3 details ;model y=x1-x6/solution;run;结果:图135.结论标准化处理后方程为y=0.117.8x1-0.11696x2+0.87288x3+0.01659x+0.04690x5+0.01022x6最优回归子集模型的回归模型为:y=2.1435.4E-16-0.06508x2+0.98957x3+0.4486x5岭回归估计的回归方程:Y=0.2925x1+0.01699x2+0.4536x3+0.1658x4+0.05991x5+0.01932x6主成分方程Y=1.1814E-16+0.39282x1-0.19039x2+0.68593x3-0.06196x4+0.06018x5+0.02238x6偏最小二乘方程可看出X3建筑业对财政收入影响最大,x2工业和x6受灾面积对财政收入产生影响较小 。且x1 农业和x3建筑业对我国财政收入有显著性促进作用。X4人口数对财政收入也是有促进作用,但促进作用不是很大。得到的结果表明,对于国家财政收入来说,农业,建筑业对其影响显著,与实际相符。从实际来考虑,在科技日益发展的经济体制中,工业对财政收入的影响远远没有原来那么有力了,其影响越来越弱,由于我们国家经济政策市场状况等限制,传统的产业已经趋近于饱和,想要有所突破越来越难,发展空间有限,虽然它的重要性在减弱,但是它所处的地位是不可动摇的。政府为了满足社会公共需要及其行政经济职能,需要消耗大量的商品劳务,为获取必须的商品劳务,需政府财政支出,而财政收入是政府筹集财政经费的基本手段。首先,财政收入是一个过程,它是财政分配活动的第一阶段;其次,财政收入是一定量的货币收入,是国家可支配的财力。因此,我们努力提高财政收入具有 重大意义。为了有效提高财政收入,我们应该加权基础设施建设,增强重点地区,重点流域的防灾抗旱能力,减少损失,增添收入。发挥商业的积极作用,促进消费也很重要。参考文献【1】何晓群.回归分析与经济数据建模.北京:中国人民大学出版社,1997【2】何晓群 刘文卿.应用回归分析(第四版).北京:中国人民大学出版社,2015