书签分享收藏举报版权申诉 / 12

立即下载

当前位置：首页 > 研究报告 > 其他报告 > 全国各省经济的聚类分析及判别分.pdf

全国各省经济的聚类分析及判别分.pdf

上传人：索****

文档编号：76226368

上传时间：2023-03-08

格式：PDF

页数：12

大小：204.32KB

( 4.5 )

《全国各省经济的聚类分析及判别分.pdf》由会员分享，可在线阅读，更多相关《全国各省经济的聚类分析及判别分.pdf（12页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、1 全国各省经济的聚类分析及判别分析唐鹏钧(DY1001109)摘要：利用 SPSS 软件对全国 31 个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析，将其经济分成4 种类型，并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了 7 项经济指标作为决定经济类型的影响因素，各项数据均来自 2010 年国家统计年鉴。分析结果表明：北京市和上海市为第一类经济类型；江苏省和山东省为第三类型；广东省为第四类经济；其他25 个省、直辖市、自治区均属于第二类型。关键词：聚类分析、判别分析、经济类型0 引言聚类分析是根据研究对象的特征对研究对象进行分类

2、的多元统计分析技术的总称。它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。聚类分析与判别分析都是研究分类的，但是它们有所区

3、别：(1)聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知，在各总体分布或来自总体训练样本的基础上，对当前的新样本判定它们属于哪个总体。(2)两类方法的建立的模型不一样，因此在处理某些特定的问题时，就会得2 出不一样的结果，就本题看来，出现了经济类型上的判别不一致的细微差异，但是作为分类方法来说，两种方法在大部分情况下都能取得一致的效果。(3)聚类分析与判别分析也是有联系的。如我们对研究的多元数据的特征不熟悉，当然要先进行聚类分析，才能考虑判别分析的问题。随着改革开放的进行，我国进入了一个前所未有的经济飞速发展时期，整体经济实力与

4、日俱增。但是，我们也应该看到各个地区的发展不平衡，沿海地区发展较快，经济增长也较快，而中西部发展相对较慢。因此，基于这种现状，本文对全国各地区的经济进行聚类分析。首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类，然后对浙江、湖南、甘肃三省的经济类型进行判别分析。通过本文的分析研究，可以清楚地认识到我国经济类型构成，以及各地区的发展差异，最终对国家以及各地区的发展及政策制定实施起到指导作用。本文采用多元统计分析方法，对全国31 个省、直辖市、自治区的7 项经济指标进行聚类分析和判别分析，从而能够比较客观地反映了当前各地区的经济类型。1 实验方案1.1 数据统计本文根据 2010 年国家统计年鉴

5、，选取了2009 年 31 个省、直辖市、自治区的 7 项经济指标1，如表 1 所示。其中包括：各省的国内生产总值X1、农业生产总值 X2、工业生产总值 X3、建筑业生产总值X4、进出口总值 X5、批发企业销售额 X6 和餐饮业 X7。1.2 聚类分析将表 1 所示的 31 个省、直辖市、自治区(除浙江、湖南和甘肃)2009 年的各项数据导入SPSS。为了便于分析，在聚类分析前，先对数据进行标准差标准化处理，其过程为：“AnalyzeDescriptive StatisticsDescriptives”，然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Anal

6、ysis)。其过程为：依次选择“AnalyzeClassifyHierarchical Cluster”，引入的变量是 X1 至 X7。从而对样品(个案)进行聚类，即 Q 型聚类分析(对研究对象本身分类)。聚类方法使3 用 Between-groups linkage(类间平均链锁法)，距离测量技术选择 Squared Euclidean distance(Euclidean 距离平方，即两观察单位间的距离为其值差的平方和，该技术用于Q 型聚类)。最终得出聚类分析结果。值得注意的是本文选择的聚类类型共分 4 类。表 1 2009 年我国 31 个省、直辖市、自治区的各项经济指标

7、数据统计单位：亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03 315.0 11039.13 34297216 5334148 22558.0 341.7 天津7521.85 281.7 13083.63 15641917 4488051 8599.5 62.6 河北17235.48 3640.9 24062.76 23328055 1343558 2730.6 26.5 山西7358.31 908.7 9249.98 16501463 163150 2705.0 44.9 内蒙

8、古9740.25 1570.6 10699.44 9129264 108694 1487.6 41.1 辽宁15212.49 2704.6 28152.73 28557785 3076882 6428.7 93.3 吉林7278.75 1734.3 10026.55 10241235 555747 1049.4 18.2 黑龙江8587.00 2251.1 7301.60 12351015 78345 2028.3 27.4 上海15046.45 283.2 24091.26 32476545 18670215 20170.8 292.6 江苏34457.30 3816.0 73200.03

9、89289353 25969712 15364.8 205.2 浙江22990.35 1873.4 41035.29 88614109 6929148 13888.0 166.5 安徽10062.82 2569.5 13312.59 19598071 523140 2937.0 41.2 福建12236.53 2001.2 16762.82 19415838 4377455 4617.1 80.5 江西7655.18 1733.8 9783.96 11853294 770607 1002.8 24.7 山东33896.65 6003.1 71209.42 40516317 7559835 75

10、84.4 262.6 河南19480.46 4871.5 27708.15 32201197 376612 3083.0 98.7 湖北12961.10 2985.2 15567.02 30468409 703772 4259.0 81.4 湖南13059.69 3207.9 13507.64 23234734 182177 1643.9 65.3 广东39482.56 3337.6 68275.77 29806043 38241318 18599.1 384.4 广西7759.16 2377.2 6880.04 8758730 367765 1464.0 17.6 海南1654.21 705

11、.0 1057.45 1366053 301396 517.5 8.4 重庆6530.01 913.1 6772.90 17524046 295047 2864.0 73.7 四川14151.28 3689.8 18071.68 29003710 936469 2570.6 94.2 贵州3912.68 875.2 3426.69 5060158 18647 825.8 9.5 云南6169.75 1706.2 5197.45 10774227 43593 2591.0 17.0 西藏441.36 93.4 51.60 910274 99 33.2 0.4 陕西8169.80 1337.2 8

12、470.40 22052762 252626 1956.2 76.1 甘肃3387.56 876.3 3770.38 5243473 10693 1205.8 12.8 青海1081.27 157.3 1080.35 1848156 19432 184.2 2.6 宁夏1353.31 243.5 1461.58 2323586 22142 373.6 8.0 新疆4277.05 1297.6 4001.12 7258850 27362 2511.8 7.0 4 1.3 判别分析选择 SPSS AnalyzeClassifyDiscriminant Analysis，定义分类结果为指标变量 X8

13、，采用自变量全进入模型来进行判别分析，由于在聚类分析中将全国各省、直辖市的经济类型分为四类，因此其取值范围为14。2 结果分析与讨论2.1 聚类分析通过 SPSS对数据进行标准差标准化，结果如表2 所示。从表中的方差结果可以看出，由于方差的数值很大，所以各地区的差异还是相当大的，这也说明各地区发展的不平衡。表2 Descriptive Statistics N Minimum Maximum Mean Std.Deviation Variance X1 28 441.36 39482.56 11638.0746 9892.22609 97856137.108 X2 28 93.40 6003.

14、10 1942.9821 1519.32615 2308351.937 X3 28 51.60 73200.03 17499.9321 20393.65336 415901097.219 X4 28 910274.00 89289353.00 20091198.8929 17672676.52727 312323495637290.000 X5 28 99.00 38241318.00 4093779.2500 8934837.44997 79831320257392.700 X6 28 33.20 22558.00 5039.1786 6310.60159 39823692.455 X7 2

15、8.40 384.40 87.1964 107.59274 11576.197 Valid N(listwise)28 再对标准差标准化后的数据进行聚类分析，结果如表3、4所示。表 3显示，进行聚类分析的只有 28个省、直辖市、自治区。采用的是组间聚类。表3 Case Processing Summary(a)Cases Valid Missing Total N Percent N Percent N Percent 28 100.0 0.0 28 100.0 a Average Linkage(Between Groups)5 表4说明整个聚类分析过程共进行了27步，而且每一步的合并也有清

16、楚地显示。通过该表，可以详细地了解每一步的聚类过程。表4 Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 26 27.008 0 0 3 2 7 13.014 0 0 6 3 24 26.025 0 1 11 4 8 18.073 0 0 10 5 4 20.098 0 0 9 6 5 7.124 0 2 10 7 19 22.125 0 0 11 8 23 28.

17、161 0 0 13 9 4 25.242 5 0 15 10 5 8.256 6 4 13 11 19 24.262 7 3 20 12 16 21.338 0 0 16 13 5 23.389 10 8 15 14 11 12.607 0 0 18 15 4 5.849 9 13 18 16 3 16.860 0 12 17 17 3 6 1.035 16 0 19 18 4 11 1.232 15 14 20 19 3 15 1.915 17 0 23 20 4 19 2.286 18 11 21 21 2 4 2.812 0 20 23 22 1 9 3.085 0 0 26 23 2

18、 3 6.400 21 19 26 24 10 14 15.752 0 0 25 25 10 17 18.286 24 0 27 26 1 2 21.893 22 23 27 27 1 10 45.393 26 25 0 表5显示了 28个省、直辖市、自治区在这4种类型中的分布情况。结果为：第一类：北京市、上海市(2个)第二类：天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(23个)6 第三类：江苏省、山东省(2个)第四类：广东省(1个)表5 Cluster Me

19、mbership Case 4 Clusters Case 4 Clusters 1 1 15 2 2 2 16 2 3 2 17 4 4 2 18 2 5 2 19 2 6 2 20 2 7 2 21 2 8 2 22 2 9 1 23 2 10 3 24 2 11 2 25 2 12 2 26 2 13 2 27 2 14 3 28 2 图1 聚类分析谱系图7 从图1可以直观地看出各个省、直辖市、自治区之间的相似程度，聚类的先后顺序，将表 4所表达的聚类过程更直观地展现出来。2.2 判别分析首先对初始数据进行标准差标准化处理，结果如表6 所示。表6 Descriptive Statisti

20、cs N Minimum Maximum Mean Std.Deviation X1 31 441.36 39482.56 11783.9900 9730.40220 X2 31 93.40 6003.10 1947.1323 1472.72580 X3 31 51.60 73200.03 17687.4648 19988.82310 X4 31 910274.00 89289353.00 21924060.8065 21019292.33054 X5 31 99.00 38241318.00 3927349.5806 8552969.31774 X6 31 33.20 22558.00 50

21、91.4419 6270.77712 X7 31.40 384.40 86.6484 104.05949 Valid N(listwise)31 表7 Analysis Case Processing SummaryUnweighted Cases N Percent Valid 28 90.3 Excluded Missing or out-of-range group codes 3 9.7 At least one missing discriminating variable 0.0 Both missing or out-of-range group codes and at lea

22、st one missing discriminating variable 0.0 Total 3 9.7 Total 31 100.0 表 7显示了浙江、湖南和甘肃三省为判别分析的对象。表 8 显示了各个类型的特征，其中包括均值等。表9 为特征值表，表 10 为 Wilks Lambda 值，表 11为标准化典型判别函数系数表，表 12 为典型判别函数系数表，表 13显示了 SPSS对浙江省、湖南省和甘肃省经济的预测结果，结果显示均为第二类经济类型。图2 为散点图，从图中可以看出绝大多数都是第二类型，浙江、湖南和甘肃也属于8 第二类型。表8 Group Statistics result

23、Mean Std.Deviation Valid N(listwise)Unweighted Weighted 1.00 Zscore(X1).1866059.21026437 2 2.000 Zscore(X2)-1.1190354.01526828 2 2.000 Zscore(X3)-.0061169.46172051 2 2.000 Zscore(X4).5453476.06124891 2 2.000 Zscore(X5).9440969 1.10254381 2 2.000 Zscore(X6)2.5950465.26918598 2 2.000 Zscore(X7)2.21509

24、45.33364513 2 2.000 2.00 Zscore(X1)-.3583643.52859367 23 23.000 Zscore(X2)-.1220878.84750555 23 23.000 Zscore(X3)-.3580897.40772893 23 23.000 Zscore(X4)-.3476833.46349514 23 23.000 Zscore(X5)-.3633544.15415181 23 23.000 Zscore(X6)-.4179724.32367385 23 23.000 Zscore(X7)-.4336620.32129049 23 23.000 3.

25、00 Zscore(X1)2.3013422.04074235 2 2.000 Zscore(X2)2.0115202 1.05010264 2 2.000 Zscore(X3)2.7273872.07041804 2 2.000 Zscore(X4)2.0447298 1.64076620 2 2.000 Zscore(X5)1.5009318 1.52201515 2 2.000 Zscore(X6)1.0179214.87733522 2 2.000 Zscore(X7)1.4150714.39004543 2 2.000 4.00 Zscore(X1)2.8466007.(a)1 1.

26、000 Zscore(X2).9441457.(a)1 1.000 Zscore(X3)2.5308296.(a)1 1.000 Zscore(X4).3749880.(a)1 1.000 Zscore(X5)4.0119363.(a)1 1.000 Zscore(X6)2.1540645.(a)1 1.000 Zscore(X7)2.8613595.(a)1 1.000 Total Zscore(X1)-.0149958 1.01663075 28 28.000 Zscore(X2)-.0028180 1.03164225 28 28.000 Zscore(X3)-.0093819 1.02

27、025283 28 28.000 Zscore(X4)-.0871990.84078361 28 28.000 Zscore(X5).0194587 1.04464743 28 28.000 Zscore(X6)-.0083344 1.00635080 28 28.000 Zscore(X7).0052666 1.03395407 28 28.000 a Insufficient data 9 表9 Eigenvalues Function Eigenvalue%of Variance Cumulative%Canonical Correlation 1 53.086(a)79.0 79.0.

28、991 2 9.804(a)14.6 93.5.953 3 4.347(a)6.5 100.0.902 a First 3 canonical discriminant functions were used in the analysis.表10 Wilks Lambda Test of Function(s)Wilks Lambda Chi-square df Sig.1 through 3.000 173.009 21.000 2 through 3.017 87.212 12.000 3.187 36.044 5.000 表11 Standardized Canonical Discr

29、iminant Function Coefficients Function 1 2 3 Zscore(X1)1.464-1.550-3.936 Zscore(X2).544-.674 1.100 Zscore(X3)-2.034 2.750 1.971 Zscore(X4)-1.861.404.912 Zscore(X5)1.790-.110-.650 Zscore(X6).392-.822.774 Zscore(X7)1.438.112.377 表 12 Canonical Discriminant Function Coefficients Function 1 2 3 Zscore(X

30、1)2.883-3.051-7.749 Zscore(X2).649-.803 1.311 Zscore(X3)-5.063 6.843 4.905 Zscore(X4)-3.346.726 1.640 Zscore(X5)4.354-.267-1.581 Zscore(X6)1.083-2.271 2.137 Zscore(X7)4.425.344 1.161(Constant)-.393.064.119 Unstandardized coefficients 10 表13 Casewise Statistics Case Number Actual Group Predicted Grou

31、p Highest Group Discriminant Scores P(Dd|G=g)P(G=g|D=d)Squared Mahalanobis Distance to Centroid Function 1 Function 2 Function 3 p df Original 1 1 1.068 3 1.000 7.131 13.291-6.537 6.244 2 2 2.062 3 1.000 7.336-.354-.852 1.234 3 2 2.097 3 1.000 6.328-4.151.399-2.039 4 2 2.867 3 1.000.728-3.265-.214-.

32、358 5 2 2.253 3 1.000 4.080-1.861-.651-2.332 6 2 2.010 3 1.000 11.357-2.670 1.952 1.836 7 2 2.777 3 1.000 1.101-3.347-.091-.792 8 2 2.387 3 1.000 3.028-2.060-1.952-1.354 9 1 1.068 3 1.000 7.131 15.406-2.735 3.147 10 3 3.972 3 1.000.231.398 9.252 3.355 11 ungrouped 2.000 3 1.000 75.503-7.194 3.873 5.

33、396 12 2 2.838 3 1.000.846-3.188-.578.176 13 2 2.047 3 1.000 7.952.284-.373-.929 14 2 2.849 3 1.000.800-3.053-.204-1.009 15 3 3.972 3 1.000.231 1.190 9.450 2.846 16 2 2.620 3 1.000 1.778-2.642.720-.040 17 2 2.806 3 1.000.982-2.419-.917.505 18 ungrouped 2.672 3 1.000 1.544-2.020-1.114-1.419 19 4 4 1.

34、000 3 1.000.000 26.819 3.234-6.088 20 2 2.415 3 1.000 2.854-1.938-1.867-1.321 21 2 2.980 3 1.000.187-2.420-.975-.366 22 2 2.825 3 1.000.903-1.725-.736.129 23 2 2.806 3 1.000.982-1.786-.221.210 24 2 2.886 3 1.000.644-2.908-.937-.974 25 2 2.602 3 1.000 1.861-2.595-1.909-.471 26 2 2.880 3 1.000.673-3.2

35、98-.463-.426 27 2 2.995 3 1.000.074-2.279-.406-.305 28 ungrouped 2.958 3 1.000.310-2.977-.775-.289 29 2 2.847 3 1.000.811-3.361-.362-.481 30 2 2.925 3 1.000.472-3.151-.398-.366 31 2 2.683 3 1.000 1.497-2.920-1.628-.031 11 图 2 Canonical Discriminant Functions 表14 Classification Results(a)3 总结通过对 28 个

36、省、直辖市、自治区进行经济类型的聚类分析，得出4 中经济类型，其分布如前所示。然后对浙江、湖南和甘肃进行判别分析，分析结果是该三省均属于第二类型。因此31个省、直辖市、自治区的分布如下：第一类：北京市、上海市(2个)第二类：天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、12 安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆、浙江省、湖南省、甘肃省(25个)第三类：江苏省、山东省(2个)第四类：广东省(1个)根据聚类分析和判别分析的结果可知，以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型。北京市和上

37、海市分别作为全国的政治、经济中心，综合经济实力较为突出，各个领域均衡发展，所以被一起划分为第一类经济类型。江苏省和山东省都是经济较为发达的地区，都为第三类型。它们的经济实力都很强，而且交通便利，拥有良好的发展空间和机遇。第四类经济类型仅为广东省，这可能是因为广东省的国民生产总值为39482.56亿元，位居全国首位。其他省、直辖市、自治区(共 25 个)均属于第二类型。这些地区发展较为缓慢，甚至有的地区的经济相对第一、第三、第四类型的省相差很多。这也说明我国的经济发展还存在很大的不平衡性，还需要国家投入更多的力量在发展第二类省份当中。当然，在上述分析中也存在一些问题，在选择变量时没有综合考虑外商投资、旅游业等对经济的影响，这对于一些在吸引外资方面具有优势或者在旅游业方面具有得天独厚优势的城市来说，没有办法综合考虑全部的影响因素，分析结果可能存在较大偏差。但还是存在很好的参考价值。参考文献：1 中华人民共和国国家统计局编：中国统计年鉴2010M 北京：中国统计出版社

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 全国各省经济聚类分析判别

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：全国各省经济的聚类分析及判别分.pdf
链接地址：https://www.taowenge.com/p-76226368.html