《基于复杂网络视角下省际人口迁移空间格局及趋势研究-李毅.pdf》由会员分享,可在线阅读,更多相关《基于复杂网络视角下省际人口迁移空间格局及趋势研究-李毅.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第34卷第9期 统计研究 Vol34No92017年9月 Statistical Research Sep2017基于复杂网络视角下省际人口迁移空间格局及趋势研究+李毅刘雅楠金勇进内容提要:本文提出一套省际人口迁移空间格局及演变趋势研究系统,以省级行政区和迁移人口构建复杂网络模型,应用群集发现和互信息节点重要性评估的算法对人口迁移空间格局进行分析,同时引入人口迁移选择指数改进链路预测算法来预测迁移人口的潜在趋势。在此基础上,以第六次全国人口普查数据为例进行实证分析,其结果与已有的研究及我国省际人口迁移空间格局的现实状况相符,验证了这套方法的实践性和应用价值。关键词:省际人口迁移;复杂网络;空间
2、格局;链路预测DOI:1019343jcnki1 11302c201709006中图分类号:C812 文献标识码:A 文章编号:10024565(2017)09005609Complex Network Modeling Spatial Pattern and Trend ofInterprovincial Migration“Yi Liu Yanan Jin YongjinAbstract:This paper proposes a set of spatial analysis and prediction system on interprovincial migrationIt bui
3、hs the complex network model with provinciallevel region and migrantsIt also applies the communitydetection algorithm and the node importance evaluation method to analyze the spatial pattern of interprovincialmigrationThen it introduces the migration preference index tO improve link prediction algor
4、ithm SO as to predictthe potential trends of the interprovincial migrationBased on the sixth nationwide population census data,theresults are consistent with the existing research and the real spatial patterns of ChinaS interprovineial migration,which indicate the practicality verification of the me
5、thodKey words:Interprovincial Migration;Complex Network;Spatial Pattern;Link Prediction一、引言人口迁移一直都是国内外备受瞩目的问题。在世界上大多数国家,人口迁移发生在个人或家庭寻求新居住地来满足他们的特定需求,这种迁移改变了他们的收人状况和生活方式。20世纪以来,随着我国社会经济的发展和城镇化进程的加快,人口的迁移和流动已经成为非常普遍的现象。因此,准确把握省际人口迁移的空间结构特征及演变趋势,将对我国社会经济的稳定和持续发+本文获中国博士后科学基金资助项目“基于网络辅助信息下空间抽样设计研究”(2016M
6、600154)、全国统计科学重点研究课题“基于移动通信大数据的流动人口精细化挖掘研究”(2015433)、北京市社会科学基金重点项目“基于北京市地理分布的空间抽样设计研究”(14JGA022)、山西省高等学校哲学社会科学研究项目“基于山西省社会经济地域的空间抽样设计和决策优化研究”(2017329)、山西省高等学校创新人才支持计划资助项目(晋教科20163号)资助。万方数据第34卷第9期 李毅等:基于复杂网络视角下省际人口迁移空间格局及趋势研究 57展有着极为重要的意义。人口迁移理论最早可追溯到G E Ravenstein(1885)的迁移定理(Law of migration)心,1938年
7、RHerberle对迁移定理进行深化,首次系统提出“推力一拉力”理论:人13迁移是受迁入地拉力与迁出地推力相互作用的结果o。G K Zipf(194614 J,194951)将牛顿的万有引力定律引入“推力一拉力”模型,最早提出引力模型:M。,=K(PiPf)D;,其中Mif为人13推拉力,Pi、P,分别为迁人地和迁出地的人口数,D:为迁入地到迁出地的距离,K为模型系数,o为距离衰减参数。1970年Tobler W提出“地理学第一定律”进一步证实人口迁移更倾向于短距离迁移,也就是说人口迁移与距离成反比1。1970年A G Wilson基于最大熵原理修正引力模型,提出空间相互作用模型7:Mi=Ai
8、BfDiD以dif),其中,Mu为迁入地涯0迁出地J的迁移人数,0i是i地总迁出人口,Dj是J地总迁人人I:1,Ai和召i分别为满足迁人迁出约束条件的平衡因子。厂(dii)为距离衰减参数。Wilson模型用统计特征“平均人”描述人口迁移的宏观运动,奠定了引力模型坚实的理论基础,进而推动了其在人口研究和实践中的广泛应用。另一种观点认为人口迁移与地理距离没有直接关系,地理距离仅是影响人口迁移的代理变量。在20世纪60年代修正引力模型开始使用,许多学者尝试用其他变量来代替距离,主要研究集中于用社会经济理论等微观角度分析人口迁移原因、机制,其基本假设是:移民所在地条件与所期望地条件之间不平衡导致迁移婶
9、o。基本表现形式为:lnMii=Z,概+卢。lnD。+侥lnPi+卢3InP,+肪lnY,+卢,fn一+:,3inf几xm+颤zn岛+e#,式中Y变量为收人,其他变量包括失业率,城市化率,各种气候相关变量,各种公共支出及税收相关变量,还包括人口迁移拉力特征的变量,如年龄、入学年龄等。这种修正引力模型在人口迁移的研究中具有里程碑的意义,模型被不断修正扩展,从更微观的角度加入了迁移发生的原因、影响因素和规模等虚拟变量。随着我国经济社会迅速发展,省级行政区之间联系变得更复杂,人13迁移连续数据不易得到,同时引力模型存在局限性,主要在于其参数在空间上差异性显著,即不同区域使用相同引力模型所得结果会产生
10、较大偏差,这些成为人口迁移空间格局研究的障碍。许多学者研究发现我国省际人口迁移空间格局呈现出无标度特性、小世界现象以及群集结构的特征,是最典型的复杂网络一o,其主要思想是将省际人口迁移空间格局的各个省份及省际间迁移人口的关系转化为网络的节点和边,以网络的形式描述真实空间格局中各省份问的关系。因此,可以推测复杂网络分析方法在人口迁移空间格局分析中占有重要地位,然而鲜有涉及人口迁移空间格局的复杂网络方法,特别是针对潜在未来可能发生的人口流动预期网络的研究。基于上述现状,本文以省级行政区和迁移人13构建复杂网络模型,首次应用群集发现和互信息节点重要性评估算法对人口迁移空间格局进行分析,聚焦人13迁移
11、网络的拓扑结构,找出网络中的核心省份以及人口迁移省份之群,同时引入人口迁移选择指数来改进链路预测算法对人口迁移趋势进行分析,以探索省际预期潜在的人口迁移空间格局。同时也可以说明,运用复杂网络理论对人口迁移机制的有益探索,为人口迁移研究提供了一种理论方法。二、省际人口迁移网络分析省际人13迁移网络指依托于省际网络并以各省份为节点、人13迁移流向和流量连线构成节点间关系的网络结构。本文用图G=(V,E)的方式对省际人口迁移网络进行描述,其中,G为省际间人口迁移网络,V(G)为所有省份的集合,E(G)为所有省份之间连接的集合。省份v的度dv是指与此省份v所连接的边的数量,vV。万方数据58 统计研究
12、 2017年9月(一)省际人口迁移空间格局分析群集结构(cluster structure)是复杂网络中最常见属性之一。本文定义省际间人口迁移空间格局为群集结构,记为:省际人口迁移网络G中确定n(1)个群,C=C,C:,C。,使得各个群内省份组成的集合覆盖所有省份集合V。也就是说,省际间人口迁移网络中各省份被划分为不同的群,群内部的省际人El迁移紧密,而群间的省际人口迁移较为稀疏。如图1所示,发现和分析这些空间模式可以更好地来理解省际间人n迁移网络的结构和功能- 7lr一。“ 、乡 (a)随机网络 b)经群集发现算法划分后的网络群集结构图1群集发现本文采用FastNewman群集算法发现省际人
13、口迁移空间格局引,其基本思想为:求解Q函数最大化的优化算法,首先将网络中的各省份节点看作一个单独的群,计算出评价网络群集性的Q函数,然后选出使得Q函数增加值最大化的群集进行合并,直到全部省份被合并为同一群时停止。其中,Q函数指被划分群集结构的省际人口迁移网络与随机网络的差异程度,其公式如下:Q=引K面M,一2 (1)其中,K为省际人口迁移网络中集群个数,M为省际人口迁移网络中的总边数,Ms表示集群S中连边的总数,ds表示集群S中所有省份的度之和。Fast-Newman算法具体步骤如下:(1)省际人口迁移网络的初始群数为n个:f12M, 省份i向省份,人口迁移 ,。 【0, 其他i=ki2M (
14、3)其中,肘为省际人口迁移网络中的总边数,ki为省份i的度,e。表示第i个群与第J个群内省份所产生的边数占总边数M的比例,口i表示与第i个群内所有省份的连边占总边数M的比例。(2)根据贪婪算法的原理,朝着增加值AQ最大化的方向,对已连边的群进行合并,并计算合并后的AQ:AQ=8i+8i一2ai口,=2(e“一口。ctj) (4)(3)每次合并后,群i与群,的行和列相加,同时e。进行相应更新;(4)返回步骤(2),不断合并群结构,使得AQ最大化。(二)省际人口迁移中心枢纽分析省际人口迁移网络实质上为非同质拓扑结构,这就意味着网络中每个省份的重要程度是不同的1 0。,一些重要省份作为中心枢纽会在省
15、际人口迁移中越发活跃。本文采用无向加权网络的互信息节点重要性评估方法来分析省际人口迁移的中心枢纽,网络的边权值由两省份间迁移人口的数、1,誓、一弼万方数据第34卷第9期 李毅等:基于复杂网络视角下省际人口迁移空间格局及趋势研究 59量表示。因为网络中各省份边权值不同,所以同一省份连接每条边的概率分布不同。每个省份的边的概率与该省份边权值有关,因此假设省份i的所有连边中,边(i,)所占的概率为:P。=W(i,J)S(i) (5)其中,形(i,)为省份i与省份,间的迁移人口数,S(i)为与省份i连边的各个省份所产生的迁移人口数。假设省份i到省份J的互信息为,(i,),记为:地护雌)-ln(毒):f
16、n器岫器:fn器,撕与撕直接相连【 0 【0 【0, 其他假设省份i的信息量,(i)是省份i与其他省份间的互信息之和,记为:川)=刖) (7)所有省份按照信息量从大到小排序,排位越靠前的省份说明其重要性越强,也就是说该省份在人口迁移网络中处于枢纽地位的可能性越大。(三)省际人口迁移的趋势预测本文应用基于偏好连接指标(Preferential Attachment,PA)的链路预测方法来分析省际人口迁移趋势121,通过已知人口迁移网络结构预测尚未产生连边的两个省份之间产生连接的可能性(见图2) 刀气 J 黔心1,说明省份i的人口倾向于选择J省份为迁移目的地趋势高于全国平均水平;若,。1则两省份间
17、存在连边,i1则两省份间不存在连边,由此得到的连边集合E 7(G)与省份集合万方数据60 统计研究 2017年9月y(G)构成了人口迁移偏好网络G。其次,计算有向人口迁移偏好网络G(y,E 7)的偏好连接指标。省份的度可分为出度和人度,省份i的出度F是指省份i向其他省份的边的数目,省份i的人度F是指其他省份指向省份i的边的数目。通常来说单个省份的出度与人度并不相同,利用这一非对称性将PA指标扩展到有向人口迁移偏好网络。对于从省份i指向省份j的有向边ei,来说,其PA值定义为:s=,=七O。“:l:=F。(i)术F。(J) (9)其中,r。(i)=zV,e一E为省份i迁入的省份组成的集合,r。(
18、J)=戈V,e,叫E是迁入省份j的省份构成的集合。从式(9)来看,省份i出度越大,说明其向外迁移人口的渠道越多;另一省份人度越高,说明其对人口需求量越高。在此条件下,省份i的迁移人口到省份,的概率自然很高,即出现ei一,的概率很大。最后,根据偏好连接指标计算所有省份间的PA值,删除已存在的省份对,将剩余省份对按照PA值降序排列,PA值越大说明省份i向省份J进行人1:3迁移的概率越大。万方数据第34卷第9期 李毅等:基于复杂网络视角下省际人口迁移空间格局及趋势研究 61域、中南区域和北方区域。东部沿海区域有上海、江苏、安徽等3个省。浙江、福建、江西、重庆、四川、贵州、西藏、云南等8个省是东南与西
19、南区域。这个划分与长江三角洲城市群略有不同,可能是因为从地理临近角度来看浙江省与福建省更加紧密,但对于云南、贵州等西南部地区劳动力更倾向于外出到浙江省和福建省打工,根据贵州统计局报告,截止2015年6月底贵州省的流动人El达到580万,其中浙江和福建两省吸纳贵州人口数分别为232万和60万,占到了贵州省流动人口的50。中南区域有湖北、湖南、广东、广西、海南等5个地区。其余15个地区属于北方区域,图4对北方区域进一步细分,陕西、甘肃、青海、宁夏、新疆等5个地区组成西北区域。我国人口迁移规模随着省级行政区域之间距离的增加而降低,人口迁移空间格局的纬度分割效应明显强于经度分割效应,南北分界明显但北方
20、融为一体,可见社会作用力大于自然地理的划分,部分自然环境差异因素对人口迁移起到隔离作用。表1 省际人口迁移空间格局的群集算法划分结果空间格局 成员东部沿海区域 上海,江苏,安徽东南与西南区域 浙江,福建,江西,重庆,四川,贵州,西藏,云南中南区域 湖北,湖南,广东,广西,海南北方区域 北京,天津,河北,内蒙古,山西,山东,黑龙江,吉林,辽宁,河南,陕西,甘肃,青海,宁夏,新疆l 。1一 l上 ll _-I-一 ln 诵 向占 _蒙蠢老嘉主薯誓譬薯森摹曩柴鎏裴委室盅要雷黍臂薹菁嘉差言素鬻裳誊苏敲海海夏肃疆西南韩宁龙东北京津蒙西藏南庆JIf建西州江西东南北南图4省际人口迁移空间格局的树状图(三)省
21、际人口迁移中心枢纽分析结果本文采用互信息的节点重要性评估方法分析省际人口迁移中心枢纽,每个省份所包含的信息量代表其重要程度,计算出这些省份的信息量并比较,就可以得到省份之间的相对重要性,也就是省际人口迁移空间格局的中心枢纽。表2列出了省际人口迁移空间格局中排名前10的中心枢纽,这些省份在我国人口迁移过程中成为节点来支撑整个省际人口迁移网络。在省际人El迁移空间格局中,北方区域中核心省份较少仅有河南省和北京市,同时这两个地区也是北方重要的交通枢纽。另外,广东省不仅是中南区域的人VI迁移核心,也是整个人口迁移网络的中心枢纽。另外,从表2可以看出东部沿海区域中三个省市都属于排名靠前的中心枢纽,说明整
22、个省际迁移网络的重心向东偏移。(四)省际人口迁移的趋势预测结果1省际人口迁移偏好分析结果。根据第六次全国人口普查数据并利用式(8)计算人口迁移选择指数矩阵,从矩阵各行选取最大选择指数,表示全国31个地区偏好选择迁入地(见表3)。表3中选择指数最大的是安徽为39,其次河北为23,说明这两省份有明显迁移偏好。另外,各省份尤其是南方地区对上海的人口迁移万方数据62 统计研究 2017年9月表2 省际人口迁移排名前10的中心枢纽排名 省份 信息量1 广东 553l2 浙江 40103 江苏 31674 安徽 31385 四川 30456 上海 27857 河南 27828 湖南 23259 北京 20
23、67lO 湖北 1885选择指数都较高,但上海对各个省份人口迁移选择指数均为0,这是由于上海是我国经济发展中心,人口总是向资本密集的地区迁移,我国各个省份未来人EI迁移主要为追求更高的就业机会和经济收入。同时,北京也是大多数省份首选的迁入地,与上海相比迁入北京的省份比较分散,北京对迁移人口的吸引展现出“广而均”的特征,上海则是一种“聚而强”的吸引模式。表3 各省份迁移偏好选择地迁出地一迁入地 选择指数 迁出地一迁入地 选择指数安徽一上海 39 天津一北京 7河北一北京 23 浙江一上海 7江苏一上海 17 四川一上海、西藏 7贵州一浙江 16 湖北一广东 7广西一广东 14 宁夏一新疆 7湖南
24、一广东 13 辽宁一北京 6江西一浙江 13 福建一上海 6甘肃一宁夏、新疆 13 西藏一青海 6河南一北京 1l 陕西一北京、宁夏 5黑龙江一北京 lI 云南一浙江 3内蒙古一北京 10 海南一广东 3青海一西藏 lO 北京一天津 2吉林一北京 8 广东一海南 2山西一北京 8 新疆一北京 2山东一天津 8 上海一全国 O重庆一福建 82省际人口迁移趋势预测结果。本文利用偏好连接指标的链路预测算法对人口迁移偏好网络进行分析,即在给定当前省际入口迁移偏好网络的前提下,预测未来省际之间新出现的迁移人口趋势。表4给出的PA值为网络中缺失边的连边可能性,PA值越高说明缺失边将连接的可能性越大,也就是
25、说省际人13迁移网络中迁出地到迁入地的连边趋势越大。从表4可以看出,北方区域中各个省份人口迁移的范围将扩大到长江三角洲地区及广东省,而且迁移规模将高于全国平均水平。贵州、湖南、云南等省份也有向北方区域的中心枢纽大量迁移入EI的趋势。另外,重庆市和四川省的入13迁出趋势明显,分别有15个和14个省份对这两个地区迁出人口有强拉力。对于网络中已经存在的连边,通过链路预测模型计算得出该边相似性指标PA值较低,那么这条异常连边在网络中将依然稳固连接1 2|。通过计算发现:西藏一四川、湖南一广西、天津一河北、广东一海南、北京一河北这些已经存在连边的PA值较低,但这些省份间不但地理位置毗邻而且产生大量人13
26、迁移,比如,西藏一四川的连边,l匹tJll是西藏入口迁移的首选地,西藏迁出到l匹tjii的人口万方数据第34卷第9期 李毅等:基于复杂网络视角下省际人口迁移空间格局及趋势研究 63占到其所有迁出人口的35;湖南_+广西的连边,广西外来人口中来自湖南占比最大(242);广东一海南的连边,在海南的迁入人口中,广东以129的比例占到第一位。这些异常连边在整个省际人IZl迁移偏好网络中很好地反映了省份间的空间相互作用。因此,上述每对省份的相互作用力较强,这一趋势在短期内将不会改变。表4 省际人口迁移趋势链路预测结果迁出地 迁入地 PA值 迁出地 迁入地 PA值贵州 天津 189 内蒙古 广东 104内
27、蒙古 上海 184 宁夏 浙江 104湖南 天津 168 宁夏 广东 104重庆 内蒙古 120 云南 北京 96黑龙江 浙江 117 河北 上海 92黑龙江 广东 117 吉林 浙江 9l甘肃 浙江 117 吉林 广东 91甘肃 广东 117 青海 浙江 9l四JII 内蒙古 112 青海 广东 9l河南 海南 110 黑龙江 江苏 90陕西 海南 llO 甘肃 江苏 90内蒙古 浙江 104 甘肃 海南 90为了说明人口迁移趋势预测效果,本文将第五次全国人口普查数据作为训练集和第六次全国人口普查数据作为测试集来进行验证,选取精确度(Precision)指标来评价链路预测算法。即在给定真实人
28、口迁移偏好网络中,把第六次全国人口普查中人口迁移连边集合为E一,在给定PA阈值下选取第五次全国人口普查的链路预测结果的连边集合为E胁,比较E一与E跏找出其相同的连边,就可以评估预测人口迁移趋势的准确程度,则Precision定义为:Precision=17 n P上坐上型木100,其中n为E跏中连边数目,显然Precision越大说明人口迁移趋势的预测越n准确。结果发现:当PA阈值大于150时,人口迁移趋势预测的Precision值达到100;当PA阈值大于100时,人口迁移趋势预测的Precision值为4615。其中,陕西有大量人口向上海和浙江迁移;重庆和宁夏未来更偏好选择天津为迁入省份;
29、北京则成为贵州人口的偏好迁人地。四、结论与讨论本文主要应用复杂网络理论分析方法,对我国省际人口迁移的空间结构特征及演变趋势展开分析,得到以下几点结论:第一,我国省际间人口迁移网络可划分为四个区域:东部沿海区域、东南与西南区域、中南区域和北方区域。人IZl迁移规模大的中心枢纽发展也能够加速周边相对落后省份和城市的发展,可以引导人口逐步流向中小城市,缓解大城市的人口压力。第二,我国省际人口迁移重心偏向于东部地区,广东、浙江、江苏、安徽、NJll等省份为人VI迁移网络的中心枢纽。对这些中心枢纽要合理规划人口管理,加强其交通等基础设施建设,协调其迁移人口与本地人口的社会及利益关系。第三,北方人Vl向南
30、方迁移范围呈现逐渐扩大的趋势,南北方的融合现象越发明显。西藏_四川、湖南一广西、天津-+河北、广东一海南、北京_河北这些省份连边在人VI迁移网络中的连通性起着重要作用,它们之间在短期内仍然会产生大量的迁移人VI。因此,缩小区域间人口迁移的差距,不仅要从经济方面人手,也要从社会文化方面着手,以此引导人口更合理的移动。本文首次将群集发现、互信息的节点重要性评估和链路预测等复杂网络方法应用于省际人口万方数据64 统计研究 2017年9月迁移研究,与已有的研究及我国省际人口迁移空间格局的现实状况基本相符,说明复杂网络理论在一定程度上能够解释我国省际人El迁移网络的机制,这种机制实际上是一个优化的过程,
31、既体现了整体人口迁移网络几何限制和拓扑优势的平衡结果,又包含了局部相关环境自组织演化发展的驱动前者网络整体本身的演化体现出明确的全局优化,即地理上的限制和国家的宏观政策等事先已知网络结构形成的重要因素,使得整个网络中所有省份到自身的拓扑距离变小;与此同时,后者局部相关外界环境使各省份优先建立距离较短和相关性极强的连边,这正与人口迁移的“推力一拉力”理论相一致。本文仅用人口迁移量对人口迁移区域结构进行划分,接下来研究将会进一步考虑地理邻接因素。另外,由于宏观数据的限制,仅对静态网络的人口迁移趋势进行预测,但是不同阶段的迁移人口具有不同空间行为特征,需要识别人口迁移流动时间或阶段的历史数据才能得以
32、揭示。因此,未来将重点对动态迁移网络趋势展开研究,预测某时段人口迁移趋势。参考文献1John S,Konstantinos D,Martin B,et a1The IMAGE studio:a tool for internal migration analysis and modellingJApplied SpatialAnalysisPolicy,2014(1):5232Ravenstein E GThe laws ofmigrationJJournal ofthe Statistical Society of London,1885,48(2):1672353Heberle RThe
33、Causes ofRuralUrban Migration a Survey ofGerman TheoriesJThe American Journal ofSociology,1938,43(6):9329504Zipf G KThe P1P2D Hypothesis:On intercity movement ofpersonsJAmerican Sociological Review,1946,11(6):6776865Zipf G KHuman behavior and the principle of least effortMNew York:Hafner,19496T0bler
34、wA computer movie simulating urban growth in the Detroit regionJEconomic Geography,1970,46(2):2342407Wilson A GEntropy in urban and regional modellingMLondon:London Pion,19708Greenwood M JModeling migrationJEncyclopedia of social measurement,2005,(2):7257349董上,蒲英霞,马劲松,等中国省际人口迁移的复杂网络研究J南方人口,2014(29):
35、546110Newman M E JFast algorithm for detecting community structure in networksJPhysical Review E,2004,69(2):06611311吕琳媛复杂网络链路预测J电子科技大学学报,2010,39(5):65166112Linyuan Lv,Tao ZhouLink prediction in complex networks:A surveyJPhysica A Statistical MechanicsIts Applications,201l(6):11501170作者简介李毅,男,2012年毕业于Yeungnam University获理学博士学位,中国人民大学统计学院博士后,现任山西财经大学统计学院大数据教研室主任、副教授、硕士生导师,山西省学术技术带头人,山西省高等学校优秀青年学术带头人。研究方向为大数据与数据挖掘。刘雅楠,女,山西财经大学统计学院硕士研究生。研究方向为大数据与数据挖掘。金勇进,男,1986年毕业于中国人民大学,获经济学硕士学位,1995年获经济学博士学位,现为教育部重点研究基地“应用统计科学研究中心”主任,中国人民大学统计学院教授、博士生导师,湖北经济学院“楚天学者”。研究方向为抽样调查理论与方法。(责任编辑:倪立行)万方数据
限制150内