中国区域划分的层次聚类分析.pdf
《中国区域划分的层次聚类分析.pdf》由会员分享,可在线阅读,更多相关《中国区域划分的层次聚类分析.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国区域划分的层次聚类分析金相郁提 要 利用层次聚类分析方法重新分析中国东中西部区域划分的科学性。层次聚类分析方法具有一个特征,它可在没有任何前提条件的情况下表达聚类过程。分析主要利用经济变量,各省级单位的GDP、人口、从业人员和职工工资、人民生活、工业、区域创新能力等6个方面的54种变量。分析结果表明,总体来看,东部地区可划分为几类区域,而中西部地区可以聚类成为一个大区域。关键词 区域划分 聚类分析 层次聚类分析方法中图分类号 TU982 文献标识码 A 文章编号 10003363(2004)020023061序言 区域划分问题是政府在制订区域政策的时候,首先要面临的难题。自从新中国成立以来
2、,为了区域协调发展,中央与地方政府,已经做了各种区域政策。最近,国土资源部还选定了天津市和深圳市编制国土规划。无论区域政策还是国土规划,其切入点都是区域划分,即不同区域要安排不同的政策重点。如果区域划分存在错误,区域政策将会造成非效率,还会造成区域发展的失调。为了区域协调发展,需要识别“问题区域”,并且还要针对不同的“问题区域”采取不同的政策目标及政策手段(Lee Won2Sup,2003)。关于区域划分问题,1970年代理查德森(Richardson,H.W.,1979)曾经用“恶梦”一词阐述过其难度。并且,经济学理论界一直在讨论区域边界和区域类型。实际上,三个问题应该说是连在一起的,要是有
3、了明确的区域边界,那么自然会有区域划分,与此同时,区域类型问题也可以解决。区域经济学已经很长时间探讨了经济区域与行政区域的区别问题,并且认为,现有的行政区域划分并不等于经济区域的范畴,换句话说,前者具有政治意义,但未必具有经济意义。笔者认为,两者的不一致将会造成区域政策的不协调,区域政策的主要手段是区域投资,并且,区域投资的空间范畴大部分是以行政区划为基础的,如果经济区划和行政区划间的差距很大,那么区域投资难以发挥其预期的效应,因此,区域划分问题具有重要的研究意义。笔者还认为,区域划分问题也就是区域数量问题,如何划分区域就等于存在多少区域的问题。区域数量影响国民经济发展,笔者利用世界48个国家
4、的行政区域数量和人均GDP简单地计算两者的相关关系,其结构呈现负值,即区域数量越多,国民经济发展水平越低(金相郁,2002)。笔者主要研究中国的区域划分1,并加以实证分析。自从1990年代以来,以东中西部为基础的区域划分成为中国区域经济研究的切入点2,笔者利用经济变量和层次聚类方法试图重新划分中国区域。层次聚类方法的特点就是不受其它因素的影响,只受变量的影响。笔者拟从四个部份加以阐述。2区域划分理论的简述 从理论角度看,可以说区域划分就 是 区 域 类 型 问 题。博 德 比 勒(Boudeville,1968)将区域划分为同质区域(homogeneous region)、极 化 区 域(no
5、dal region)和规划区域(planning re2gion)。同质区域就是两个以上的区域具有共同性质。极化区域就是以机能连接 为 基 础 的 区 域 划 分。格 拉 孙(Glasson,J.,1974)将区域划分为形式区域(formal region)、机能区域(func2tional region)、计划区域(planning re2gion)。形式区域类似于同质区域,是以均匀(uniformity)性和同质性为基础的。机能区域类似于极化区域,是以机能一致性(functional coherence)为基础的。计划区域就类似于规划区域。布雷尔(Blair,J.P.,1991)也将区域
6、划分为机能区域、同质区域、行政区域(ad2ministrative region)。虽然三者的区域划分的表述有所区别,但其意义实际上一致的,其类型划分的主要因素就是共同性质、共同机能或功能、计划或政策。人们习惯地将区域划分为发达区域与欠发达区域。Klaassen按照平均所得和增长率两个指标将区域划分为四种区域,发达区域、增长中的欠发达区域、有潜在力的欠发达区域和欠发达区域(表1)。区域划分在区域投资的时候具有重要的意义。汉森(Hansen,N.M.,1968)按照三种投资资本,即直接生产投资、经济间接资本(economicoverhead capital)、社会间接资本(socialoverh
7、ead capital),将区域划分为过密区域(congested region)、中间区域(inter2mediate region)和落后区域(lagging re2gion),过密区域意味着区域增长一单位增加所造成的边际社会成本大于边际社会效益,中间区域意味着其边际社会成本小于边际社会效益,落后区域意味着几乎不具有区域增长的动力。还有一种区域划分方法,就是以相互影响度为基础的,如互补区域(complemen2tary region)和替代区域(substitutive re2gion),前者意味着一个区域的发展对其他区域发挥着积极作用,后者意味着它发挥消极作用。2004年第2期 总第15
8、0期 城市规划汇刊URBAN PLANNING FORUMSeries No.150,2004/223 1995-2005 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.杨树珍(1990)指出区域划分的三个原则,就是经济原则、生态原则和社会 原 则。除 此 之 外,Whittlesey,D(1954)特别重视地理连接条件,但是,多纳 尔 德 和 贝 俄 勒(Donald,J.&Beale,C.L.,1961)认为,地理连接并不是区域划分的唯一的条件,虽然区域之间地理上不连接,但是它们可以成为同质区域。从理论发展历程角度来看
9、,地理条件也是区域划分的一种不可缺少的因素,但是,经济条件越来越被视为区域划分的重要因素,并且,“同质性”成为区域划分的主要理论基础。诺斯(North,D.C.,1955)认为区域所得(regional income)就是衡量同质性的最理想的基准。纵观一些国家的区域划分的经验,不难发现其划分的“任意性”,即缺少科学依据。为了符合其研究的目的,有些研究在分析之前首先界定研究范围及其框架。这种做法并不能说“不对”,但它毕竟缺乏科学性。中国的东中西部划分就表明其“任意性”问题,如它的划分基于经济技术的发展水平,如广西自治区划分为东部地区。区域划分方法一般可分为单一指标方法和多种指标方法,后者还被称为
10、多变量分析方法,它包括三种:以因素分析(factor analysis)为主的;以聚类分析(cluster analysis)为主的;两者的结合。区域划分的主要理论问题是如何选定指标。虽然诺斯曾经指出过区域所得是区域划分的最理想的基准,但是区域所得并不是唯一的指标。由于产油的原因,中东国家一些区域的区域所得相当高,所以应被划分为发达区域,但这个逻辑并不被认可。EU区域政策在选定“先支援区域”的时候利用人均所得、失业率及人口移动的三个指标,按照这些指标,EU确定三种问题区域,Objective1区域,Objective2区域,Objective3区域。英国的区域支援政策利用劳动参加率、居民失业率
11、、劳动力失业率、制造业依存度的四个指标确定三种问题区域,Tier1区域、Tier2区域、Tier3区域。德国的GRW/GA利用失业率、失业率预期、人均所得、基础设施的四个指标确定四种区域,Cate2gory1区域、Category2区域、Category3区域和Category 4区域。瑞典的区域开发政策利用失业率、雇用参加率、人口移动的三个指标确定三种区域,支援区域1、支援区域2、支援区域3。美国的区域发展政策利用面积、人口、贫困率、雇用的四个指标确定三种区域,RC(Renewal Communities)、EZ(Em2powerment Zones)、EC(Enterprise Com2m
12、unities)。要注意指标的数量太多并不好,EU所制定的“Commission Guide2lines on Regional Aid”明确规定区域经济社会发展的评价指标限制在5个之内。Lee Won2Sup(2003)在研究韩国区域划分的时候仅利用人力资源、财政基础、经济基础、保健福祉、基础设施的5个指标。总之,区域是个开放的概念,区域范畴是可变的,从地理角度看,区域范围是固定的,但从经济角度看,它是随时可变的。在不同的发展阶段,必须重新划分,这样才能够得到区域政策或区域投资的有效性,才能够知道应该支援哪个区域。从理论角度看,传统的区域划分有三种分类法,最近的区域划分较侧重于选定问题区域。
13、笔者的目的并不在于选定中国的问题区域,而在于划分中国的整个区域。并重新认识已有的东中西部划分的科学性。3聚类分析方法 聚类分析(Cluster Analysis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。层次聚类分析(Hierarchical ClusterAnalysis)的基本思想是,在聚
14、类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把其中最亲密或称最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;再接下来,再度量剩余下的样本和小类(或小类和小类)间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;如此反复,直到所有的样本分别聚成一类为止。由此可见,层次聚类方法中,度量数据之间的亲疏程度是极为关键的。要注意的是,这里并没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类。层次聚类分析的结果是凝聚状态表(agglomeration schedule)、冰
15、柱图(vertical icicle)和树形图(dendrogram)。连续变量的样本距离测度方法有欧氏距离(Euclidean Dista nce),欧氏距离平方(Squared Euclidean Distance),Cheby2chev距离,Block距离,Minkowski距离,Customized距离等;顺序或名义变量的样本亲疏测度方法有Chi2SquareMeasure和Phi2square Measure。笔者利用欧氏距离平方,其基本公式如下(详细内容参见Lee Jong Sang,2002)。d(fi,fi)=mj=1(fij-fij)2 样本数据与小类、小类与小类间亲疏程度的
16、度 量 方 法 有 最 短 距 离 法(Nearest Neighbor),最长距离法(Fur2thest Neighbor),组间平均链锁法(Be2tween2groups Linkage),组内平均链锁法(Within2groups Linkage),重 心 法(Centroid Clustering),离差平方和法(Wardps Method)。笔者利用组间平均链锁法。除了层次聚类分析以外,聚类分析还有两种,就是K2平均聚类分析方法和Twostep聚类分析方法。样本少的分析较多用于层次聚类分析方法,样本多的分析较多用于K2平均聚类分析方法。并且,K2平均聚类分析方法的特征是首先确定几类聚
17、类,但是层次聚类分析方法没有事先确定。从两者的比较来看,层次聚类分析方法适合于本金相郁 中国区域划分的层次聚类分析24URBAN PLANNING FORUMSeries No.150,2004/2 1995-2005 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.研究。4中国区域的层次聚类分析结果利用各省、直辖市和自治区的GDP、人口、从业人员和职工工资、人民生活、工业、区域创新能力的54种变量做层次聚类分析后,将树形图第一阶段的小类当作区域划分的第一结果。所有的资料来自于 中国统计年鉴 和中国区域创新能力报告。4.1G
18、DP的层次聚类分析结果GDP或人均GDP表达区域经济社会发展的综合水平。利用各省、直辖市和自治区的GDP和人均GDP资料,包括各省GDP总量规模的年增长率(GDPGR)、第二产业在GDP中所占的比重(SIGDP)及其年增长率(SIGDP2GR)、第三产业在GDP中所占的比重(TIGDP)及其年增长率(TIGDPGR)、人均GDP(PCGDP)及 其 年 增 长 率(PCGDPGR),其层次聚类分析结果分别表明五类、五类、七类、六类、六类、四类和七类区域聚类。图1和图2分别表明GDP年增长率和PCGDP年增长率的树形图。由图1可见,以国内生产总值年增长率为基准的区域聚类过程,第一小类包括黑龙江省
19、、新疆自治区、安徽省、江西省、山西省;第二小类包括广西自治区图1G DPGR层次聚类分析的树形图注:图1至图17中的1为北京市、2为天津市、3为河北省、4为山西省、5为内蒙古自治区、6为辽宁省、7为吉林省、8为黑龙江省、9为上海市、10为江苏省、11为浙江省、12为安徽省、13为福建省、14为江西省、15为山东省、16为河南省、17为湖北省、18为湖南省、19为广东省、20为广西自治区、21为海南省、22为重庆市、23为四川省、24为贵州省、25为云南省、26为西藏自治区、27为陕西省、28为甘肃省、29为青海省、30为宁夏自治区、31为新疆自治区。图2PCG DPGR层次聚类分析的树形图和云
20、南省;第三小类包括陕西省、青海省、湖南省、四川省、辽宁省、海南省、贵州省、甘肃省、重庆市;第四小类包括内蒙古自治区、宁夏自治区、河北省、福建省、河南省、西藏自治区、湖北省、吉林省;第五小类包括江苏省、山东省、北京市、浙江省、上海市、广东省、天津市。接下来,第一和第二小类聚成第一大类;第三和第四小类聚成第二大类。第五小类一直成为单独的小类。值得注意的是,GDP年增长率的层次聚类分析表明,东部地区的一些省、市明显地聚成为一类区域,而中西部地区的划分并不明显。由图2可见,人均GDP年增长率(PCGDPGR)的层次聚类分析表明七类区域的存在;第一小类包括福建省、四川省、贵州省、重庆市、西藏自治区、吉林
21、省、海南省和宁夏自治区;第二小类包括山西省和青海省;第三小类包括内蒙古自治区、广东省、江苏省、湖北省、河北省、湖南省和山东省;第四小类包括北京市和天津市;第五小类包括辽宁省、河南省、陕西省、黑龙江省、浙江省和上海市;第六小类包括新疆自治区;第七小类包括广西自治区、云南省、江西省、甘肃省、安徽省。再接下来,第二和第三小类聚成一大类,第 四 和 第 五 小 类 聚 成 一 大 类。PCGDP年增长率的层次聚类分析结果发现,并不存在东中西部的区域结构。图3表明人均GDP(PCGDP)的聚类过程,从中发现东部地区的一些省级行政区域聚成四小类,中西部地区聚成一小类。按照人均GDP的聚类分析,中国呈现五大
22、区域,江苏省、福建省、辽宁省、浙江省和广东省聚成一小类,北京市、天津市和上海市分别形成一小类,即东部地区分成四个区域,中西部地区聚成一个区域。第二产业既是国民经济的骨干产图3PCG DP层次聚类分析的树形图业,也是区域经济的核心产业。由图4可见,按第二产业在GDP所占比重的年增长率的聚类,就呈现七类:第一类包括广西自治区和新疆自治区;第二类包括山西省和海南省;第三类包括江西省和云南省;第四类包括西藏自治区和宁夏自治区;第五类有吉林省;第六类包括湖南省、重庆市、湖北省、甘肃省、辽宁省、黑龙江省、上海市、安徽省、陕西省、河北省、贵州省;第七类包括内蒙古自治区、山东省、福建省、四川省、河南省、广东省
23、、浙江省、江苏省、天津市、青海省和北京市。接下来,第一和第二类聚成一类,第四和第五类聚成一类,第六和第七类聚成一类。第二产业在GDP所占比重的年增长率的聚类分析表明,不存在东中西部区域结构,而存在较复杂的七种区域聚类。由图5可见,第三产业在GDP所占比重的年增长率的聚集:第一类包括宁夏自治区、新疆自治区、安徽省、山东省、陕西省、河北省、江西省、福建省、四川省、天津图4SIG DPGR层次聚类分析的树形图图5TIG DPGR层次聚类分析的树形图2004年第2期 总第150期 城市规划汇刊URBAN PLANNING FORUMSeries No.150,2004/225 1995-2005 Ts
24、inghua Tongfang Optical Disc Co.,Ltd.All rights reserved.图6POP1564层次聚类分析的树形图市、贵州省、湖北省和湖南省;第二类包括辽宁省、甘肃省、云南省、重庆市和河南省;第三类包括上海市和西藏自治区;第四类包括北京市、江苏省、青海省、黑龙江省、广东省、内蒙古自治区、浙江省、吉林省、广西自治区;第五类有山西省;第六类有海南省。4.2 人口的层次聚类分析结果 人口规模和质量积极影响当地经济发展水平,从而,人口的质量和结构是区域划分的重要基准之一。各省、市、自治区014岁人口在总人口所占的比重(POP014)、1564岁人口的比重(POP1
25、564)、65岁以上人口的比重(POP65)、各省的文盲率(IP)、在1990年至2000年期间的人口增长率(POP2GR)的层次聚类分析结果分别呈现六类、七类、五类、三类和六类区域聚类。经济活动人口(POP1564)是当地经济发展的重要基础,按各省经济活动人口在总人口所占的比重的分析呈现七类区域:第一类区域包括山西省、甘肃省、云南省、江西省、新疆自治区、陕西省、青海省;第二类区域包括河南省、宁夏自治区、安徽省、广西自治区、海南省;第三类区域包括广东省、四川省、福建省、湖南省、河北省、重庆市、山东省、湖北省、江苏省;第四类区域包括贵州省、西藏自治区;第五类区域包括内蒙古、浙江省;第六类区域包括
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 区域 划分 层次 聚类分析
限制150内