《大中城市居民出行强度的聚类分析.pdf》由会员分享,可在线阅读,更多相关《大中城市居民出行强度的聚类分析.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、交通运输工程与信息学报 第5卷 第2期 2007年6月 Journal of Transportation Engineering and Information No.2 Vo1.5 Jun.2007 收稿日期:2006-06-12.作者简介:邹志云(1968-),男,湖南祁东人,汉族,华中科技大学副教授,北京交通大学博士研究生,主要从事交通运输规划与管理方面的研究。8 大大中中城城市市居居民民出出行行强强度度的的聚聚类类分分析析 邹志云1,2 蒋忠海2 梅亚南2 宋 程2 1北京交通大学,交通学院,北京100044 2华中科技大学,交通科学与工程学院,武汉430074 摘 要:人均出行次数
2、是居民出行强度的最直接反映,而人均出行次数与城市经济指标有着极大联系。目前对人均出行次数和经济指标之间的关系缺乏定量分析研究,本文通过研究经济指标与居民人均出行次数的关系来建立居民人均出行次数量化模型。通过对全国十五个大中城市的经济指标进行聚类分析,找到与居民出行强度相关性最大的 4 个典型指标:市区土地面积、社会消费品零售总额、居民消费价格总指数、和市区居民人均可支配收入,建立了居民出行次数与这些典型指标的回归模型,为同类城市的居民人均出行次数的预测提供了参考。关键字:出行强度;人均出行次数;聚类分析;回归模型 中图分类号:U491 文献标识码:A 文章编号:1672-4747(2007)0
3、2-0008-06 Cluster Analysis on the Trip Intensity of Residents in the Large and Medium Cities ZOU Zhi-yun1,2 JIANG Zhong-hai2 MEI Ya-nan2 SONG Cheng2 1School of Traffic and Transportation,Beijing Jiaotong University,Beijing 100044,China 2School of Traffic Sci.&Eng.,HUST,Wuhan 430074,China Abstract:Th
4、e average number of resident trip is the most direct reflection of the intensity of resident trip,and there is a certain relation between average number of resident trip and the economic indexes.But now the quantitative analysis between average number of resident trip and economic indicators has not
5、 been developed.This paper constructed a resident trip model according to the studied relations between economic indexes and resident trip.Having done the cluster analysis on the economic indicators of fifteen large and medium 大中城市居民出行强度的聚类分析 邹志云 等 9 cities,four typical indexes,including land areas,
6、the total retail sales of consumer goods,the consuming price index of the inhabitants and the average disposable income of urban residents were found.Then,a regression model of resident trip was established.The model could provide a basis for the prediction of average number of resident trip in simi
7、lar cities.Key words:Intensity of resident trip,average number of resident trip,hierarchical cluster analysis,regression model 0 引 言 出行强度是衡量居民的出行需求、出行能力和城市交通服务水平的综合指标,它由一系列的指标来表示,其中人均出行次数最具代表性。出行次数主要反映居民出行能力和需要,其与城市人口数的乘积即为出行总量,出行总量是城市交通系统最低承受能力限度的基本量度指标。人均出行次数是指调查范围内适龄人口全日出行总量与适龄人口总数的比值,是交通规划中用来衡量城
8、市居民出行状况,计算城市居民出行需求总量的非常重要的指标。其中,适龄人口指的是在年龄上具备独立出行能力的城市居民,通常指学龄前儿童以外的其他年龄段居民,也即城市居民出行调查的对象。人均出行次数与城市经济指标有着密切的联系,本文选取15个城市经济指标,利用聚类分析方法筛选出与人均出行次数关联性较大的几个经济指标,并建立回归分析模型。1 人均出行次数的影响因素 一般来说,人均出行次数的多少与出行目的、城市布局、生活方式、工作方式、家庭经济状况、交通设施、通讯设施、城市环境质量等因素有关。经济发展、交通设施齐全必然刺激居民人均出行次数的增加;通信的方便、环境质量的下降会促使居民人均出行次数下降。对于
9、某一城市来说,影响居民人均出行次数的因素又间接的反映在该城市的相关经济指标上,因此,多种因素与居民人均出行次数的内在联系可以转化为多种经济指标与居民人均出行次数的内在联系。本文大中城市的居民人均出行次数为当年调查值。但由于调查年份的跨越幅度在5年之内,又因为城市的人均出行次数在近5年内不会有很大的变动,所以,本文将各大中城市的人均出行次数认为是2001年调查值,对应的经济指标为2001年统计值。表1为十五个大中城市人均出行次数和各经济指标。表 1 大中城市居民人均出行次数和经济指标 Tab.1 Average numbes of the resident trip and economic i
10、ndex in the large and medium cities 城市 居民人均 出行次数/(次/人.天)市区土地 面积/km2 市区 总人口/(万人)第三产业值/亿元 人均 GDP/元 工业产品 销售收入/(亿元)社会消费品零售总额/(亿元)指标编号 1 2 3 4 5 6 指标代码 X1 X2 X3 X4 X5 X6 苏州 2.43 1 650 209.5 669.0 30 384 2 643.7 391.54 南京 2.44 2 599 371.9 544.5 20 597 1 672.5 465.83 常州 2.86 280 89.5 39.1 19 704 944.7 222.
11、61 上海 1.95 5 300 1 262.4 2 509.8 37 382 7 213.0 1 861.30 北京 2.64 1 041 676.8 1 660.9 25 300 3 006.9 1 593.40 天津 2.44 7 417 748.0 856.6 19 986 2 983.3 832.70 杭州 2.07 3 068 379.5 613.0 25 074 1 828.3 458.82 交通运输工程与信息学报 2007年 第2期 10 续表1 福州 2.72 1 043 153.8 436.0 18 034 699.7 386.28 广州 1.86 3 719 577.0
12、1 452.6 38 000 2 811.3 1 248.28 深圳 1.59 392 83.2 879.6 43 344 2 971.6 609.26 珠海 3.04 1 633 75.9 148.6 48 931 634.2 128.44 大连 1.88 2 415 270.7 550.0 22 348 1 077.7 534.20 长春 2.54 3 583 298.0 423.5 14 274 920.9 358.30 武汉 2.84 8 494 758.2 667.9 17 882 980.4 685.82 成都 2.56 1 418 341.5 682.2 14 665 726.4
13、 627.52 城市 居民人均 出行次数/(次/人.天)房地产 开发投资/(亿元)城乡居民储蓄存款/(亿元)居民消费价格总指数/(%)在岗+职工平均工资/元 市区居民 人均可支配收入/元 农民人均 纯收入/元指标编号 7 8 9 10 11 12 指标代码 X7 X8 X9 X10 X11 X12 苏州 2.43 68.6 936.9 99.5 13 670 10 512 5 790 南京 2.44 111.0 716.1 99.9 16 575 8 848 4 311 常州 2.86 32.2 412.7 100.1 13 108 9 406 4 719 上海 1.95 630.7 3 00
14、1.9 100.0 21 781 12 883 5 850 北京 2.64 783.8 3 536.3 103.1 19 155 11 578 5 099 天津 2.44 161.3 1 285.0 101.2 14 308 8 959 4 825 杭州 2.07 140.9 941.8 99.5 18 319 10 896 4 896 福州 2.72 89.5 550.1 98.7 12 760 9 053 4 020 广州 1.86 387.0 2 600.4 98.9 22 772 14 694 6 446 深圳 1.59 302.6 1 373.4 97.8 25 941 23 544
15、 9 869 珠海 3.04 34.1 248.9 98.6 17 040 15 870 4 800 大连 1.88 115.5 839.0 99.5 13 493 7 418 3 900 长春 2.54 48.5 608.1 102.3 11 090 6 339 2 875 武汉 2.84 115.3 802.0 99.5 11 314 7 305 3 100 成都 2.56 170.8 995.5 100.8 12 493 8 128 3 111 数据来源:http:/ 12中的数据。2 聚类分析理论 2.1 基本理论 聚类分析是一种新兴的多元统计方法3,是当代分类学与多元分析的结合。聚类
16、分析是将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。通俗地讲,聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。在实际研究中,既可以对样本个体进行聚类,也可以对研究变量进行聚类,对样本个体进行聚类通常称为Q型聚类,对研究变量进行的聚类称为R型聚类。本文采用R型聚类对12个经济指标进行分析,进而选择主要变量进行回归分析。聚类分析的方法很多,常用的有系统聚类、动态聚类和分解聚类。2.2 马氏距离 通常,我们可以用距离来度量样本之间接近的程度,常用的距离有明氏距离、马氏距离、兰氏距离等,本文应用马氏距离,其公式如下:设A表
17、示样本(指标)的协方差阵,即:大中城市居民出行强度的聚类分析 邹志云 等 11 ppijAA=)((1)式中,=njjiiijxxxxnA1)()(11 i,j=1,p=niixnx11 =njjxnx11 (2)如果A1存在,则两个样本之间的马氏距离为:)()()(12jijiijxxAxxMd=(3)马氏距离既排除了各指标之间相关性的干扰,又不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。2.3 系统聚类方法 系统聚类除了要定义事物之间的亲疏程度指标,还要定义类与类之间亲疏程度指标并且要导出求取类间亲疏指标值的递推公式。系统聚类分析方
18、法的一般步骤是:1)选取合适的分类指标 这些指标要和聚类分析的目标密切相关,要反映分类对象的特征,在不同研究对象上的值具有明显差异,指标之间不应高度密切相关;2)数据的标准化 有标准差标准化和极差标准化两种方法;3)相似性测度 测度相似性主要有相关测度、距离测度、关联测度,以距离测度应用最多;4)选择聚类方法 实现聚类的方法很多,有最短距离法、最长距离法、中间距离法、重心法、类平均法(类间平均链锁法、类内平均链锁法)、可变类平均法、可变法、离差平方法等;5)对聚类结果进行解释和验证。由于聚类分析技术所需的计算量比较庞大,所以,一般都需要借助于专业的统计分析软件中的聚类分析模块来执行聚类分析,本
19、文借助SPSS软件来完成4。3 模型的建立及检验 3.1 各经济指标的聚类分析 以12个经济指标为聚类因子,指标与指标间的距离选用马氏距离,采用类间平均链锁法5(Between groups linkage),进行聚类分析。在SPSS中设置好各参数(聚类方法、距离等),得到各经济指标的聚类分析结果。各指标间的相似矩阵如表2所示,聚类过程中的运算结果参数见表3所示,聚类谱系图如图1所示。表 2 相似矩阵R Tab.2 Similarity matrix R x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x1 1.000 0.826 0.542 0.233 0.52
20、90.5590.3730.4300.4470.241 0.140 0.170 x2 0.826 1.000 0.905 0.346 0.8480.9180.7870.8150.5850.493 0.261 0.314x3 0.542 0.905 1.000 0.558 0.9520.9990.9510.9670.4930.747 0.524 0.582x4 0.233 0.346 0.558 1.000 0.6340.4870.5480.5410.0000.863 0.926 0.842x5 0.529 0.848 0.952 0.634 1.0000.8950.8380.8540.3970.
21、769 0.591 0.688x6 0.559 0.918 0.999 0.487 0.8951.0000.9750.9900.5730.700 0.464 0.519x7 0.373 0.787 0.951 0.548 0.8380.9751.0001.0000.5830.770 0.574 0.601x8 0.430 0.815 0.967 0.541 0.8540.9901.0001.0000.5850.760 0.542 0.598x9 0.447 0.585 0.493 0.000 0.3970.5730.5830.5851.0000.136 0.007 0.045x10 0.241
22、 0.493 0.747 0.863 0.7690.7000.7700.7600.1361.000 0.929 0.928x11 0.140 0.261 0.524 0.926 0.5910.4640.5740.5420.0070.929 1.000 0.963x12 0.170 0.314 0.582 0.842 0.6880.5190.6010.5980.0450.928 0.963 1.000交通运输工程与信息学报 2007年 第2期 12 表 3 系统聚类参数 Tab.3 Cluster parameters of the system 类合并 出现该类别的上一步骤 步骤 类别1 类别
23、2 相关系数s类别1 类别2下一步骤1 7 8 1.0000 0 3 2 3 6 0.9990 0 3 3 3 7 0.9712 1 6 4 11 12 0.9630 0 5 5 10 11 0.9280 4 7 6 3 5 0.8853 0 8 7 4 10 0.8770 5 9 8 2 3 0.8550 6 9 9 2 4 0.5678 7 11 10 1 9 0.4470 0 11 11 1 2 0.37210 9 0 图 1 聚类分析的谱系图 Fig.1 Pedigree chart of the cluster analysis 根据聚类分析的谱系图可以看出,这12个经济指标可分成4
24、大类:第一大类包括市区土地面积(x1);第二大类包括市区总人口(x2)、第三产业值(x3)、工业产品销售收入(x5)、社会消费品零售总额(x6)、房地产开发投资(x7)、城乡居民储蓄存款(x8);第三大类包括人均GDP(x4)、在岗+职工平均工资(x10)、市区居民人均可支配收入(x11)、农民人均纯收入(x12);第四大类为居民消费价格总指数(x9)。聚类分析结果见表4所示。表 4 聚类分析结果 Tab.4 Results of the cluster analysis 指标代码 x1 x2 x3 x4 x5x6 x7 x8 x9 x10 x11x12类别 1 2 2 3 22 2 2 4
25、3333.2 典型指标的选取 前面我们将12个指标进行聚类分析后得到四类指标,除了第一类和第四类指标外,其他两类都包含数个指标,如何选取各类指标中的典型指标,将关系到后面回归模型中指标的合理程度。先按公式(4)计算类中每一变量与其余变量的相关指数(即相关系数的平方)的均值,而后把该值最大的变量作为典型指标6。1122=mRRmjXXXjii j=1,2,m,ji (4)式中,2iXR表示变量Xi与其余变量的相关系数的均值,m为变量的个数。将表2中对应的值代入公式(4)中计算得到第二类和第三类指标中各变量的2iXR值,具体见表5所示。从表中可以看出,第二类指标中X6对应的值最大,第三类指标中X1
26、1对应的值最大,所以,选择X6,X11为典型指标。其它两类指标只有一个指标,故可选取X1,X6,X11,X9分别作为第一、二、三、四类指标的典型指标。表 5 同一类中每一变量与其余变量的相关系数均值 Tab.5 Correlation coefficients of each variable and the rest variables in the same cluster 第二类指标 第三类指标 指标x2x3x5x6x7 x8 x4 x10 x11x122iXR0.733 0.913 0.772 0.914 0.835 0.862 0.770 0.823 0.883 0.833 3.3
27、回归模型的建立 根据聚类分析得到的典型变量,利用表1中的数据,建立人均出行次数T与市区土地面积(x1)、社会消费品零售总额(x6)、居民消费价格总指数(x9)、市区居民人均可支配收入(x11)的回归模型。=+=618.0103.010)2.164.325.1(48.72951131RXXXXT(5)x7 7 x8 8 x3 3 x6 6 x5 5 x2 2 x11 11 x12 12 x10 10 x4 4 x1 1 x9 9 大中城市居民出行强度的聚类分析 邹志云 等 13 3.4 模型的检验 将表1中的市区土地面积、社会消费品零售总额、居民消费价格总指数、市区居民人均可支配收入代入公式(5
28、)中,得到人均出行次数的模型模拟值,作模型值与调查值的折线图如图2所示。图 2 大中城市居民平均出行次数调查值与模型值比较 Fig.2 Comparison between the investigated and model values of average number of the resident trip in the large and medium cities 4 结束语 本文在收集了国内15个有代表性的大中城市的基础数据的基础上,对其12个经济指标进行统计分析,借助统计软件完成聚类分析,从而选出市区土地面积、社会消费品零售总额、居民消费价格总指数、市区居民人均可支配收入4个
29、有代表性的指标,建立其与人均出行次数的回归模型,并对模型进行了检验,取得了较满意的结果,解决了人均出行次数与经济指标的量化关系问题,为同类城市的居民人均出行次数的预测提供了参考,可作为交通需求预测的重要依据。参考文献 1 邓毛颖,谢 理广州市居民出行特征分析及交通发展的对策J城市规划2000,24(11):45-49.2 曲大义,于仲臣,庄劲松等苏州市居民出行特征分析及交通发展对策研究J东南大学学报(自然科学版),2001,31(3):118-123.3 方开泰,恩 沛聚类分析M北京:地质出版社,1982:56-80.4 薛 薇SPSS统计分析方法及应用M北京:电子工业出版社,2004:101-145.5 Norusis M J.SPSS advanced statistics 6.1 R.Chicago.I11:SPSS Inc;1994.6 张 赫等 聚类分析和逐步回归法在车道流量预测中的综合应用J东南大学学报(英文版),2005,21(3):359-362.苏州 南京 常州 上海 北京 天津 杭州 福州 广州 深圳 珠海 大连 长春 武汉 成都 平均出行次数 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 调查值模型值调查值 模型值 城市
限制150内