基于随机森林ca的东莞市多类土地利用变化模拟-张大川.pdf
《基于随机森林ca的东莞市多类土地利用变化模拟-张大川.pdf》由会员分享,可在线阅读,更多相关《基于随机森林ca的东莞市多类土地利用变化模拟-张大川.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第32卷第5期 地理与地理信息科学2016年9月 Geography and Geo-Information ScienceVoL 32 No5September 201 6doi:103969iissn16720504201605005基于随机森林CA的东莞市多类土地利用变化模拟张大川,刘小乎,姚尧,张金宝(中山大学地理科学与规划学院,广东广州510275)摘要:城市土地利用及其变化对城市环境有着重要影响。很多学者已经结合元胞自动机和机器学习算法对城市扩张进行了相关的模拟研究,但针对复杂的多类土地利用相互变化过程的研究仍然较少。该文提出了一种基于随机森林算法的多类元胞自动机(RFA-CA)模
2、型,并将其用于模拟和预测复杂的多类土地利用变化。该模型使用随机森林算法提取元胞自动机的转换规则,并计算了各空间变量的重要性,在东莞市2000-2014年土地利用动态模拟结果中,Kappa系数和整体精度分别为073和847。针对每一种土地利用类型,计算了影响东莞市土地利用变化的各空间变量的重要性,结果显示,交通、区位因素对东莞市土地利用变化格局的形成有重要影响。文中引入的POIs邻近因素反映了城市空间开发程度的高低,同样对多类土地利用格局的形成具有重要作用。关键词:多类元胞自动机;随机森林算法;土地利用变化;变量重要性中图分类号:F30124 文献标识码:A 文章编号:1672-0504(201
3、6)05-0029-080引言对城市土地利用动态变化的模拟有助于探索城市发展与土地利用变化的关系,以便于在发展城市经济的过程中更好地保护土地资源。元胞自动机(Cellular Automata,CA)近年来已被很多学者应用到复杂的动态时空模拟中1-33,CA在模拟城市土地利用覆盖变化方面的潜力受到了持续关注E 4|,并被广泛应用于城市增长模拟中5-111。但这些模型往往只关注了城市用地及非城市用地这两种用地类型,并没有揭示复杂的多类土地利用之间相互变化的动态过程及变化趋势。CA模型的核心是获取元胞转换规则1 2。模拟城市系统时,许多学者提出了采用机器学习的方法获取城市CA模型转换规则的方法,如
4、逻辑回归方法13、蚁群智能算法14、遗传算法坫、神经网络算法D6,17等。传统的逻辑回归算法要求输入模型的各空间变量之间是线性无关的I 8f,但大多数的空间变量很难满足这种关系,比如邻近城市中心的元胞往往也邻近于道路;蚁群智能算法和遗传算法具有较强的参数自适应和优化能力,但算法计算所需求的时间复杂度较高,且易陷入局部最优;神经网络算法在模拟复杂的非线性系统时精度较高,黎夏等验证了神经网络算法模拟城市多类土地利用的可行性,并取得了显著的成果16。7。,但神经网络算法自身训练过程属于“黑箱机制”且容易出现过拟合现象,不利于揭示复杂的多类土地利用变化的机制。针对以上问题,本文尝试采用随机森林算法(R
5、andom Forest Algorithm,RFA)提取多类CA模型的转换规则。RFA已经被证明能有效解决过拟合问题,且算法精度高、时间复杂度适中,适用于耦合较多空间变量的分类拟合问题,并且能较好地度量各空间变量的贡献度19,20。本文基于RFACA模型模拟了东莞市20002014年6类土地利用变化,并根据挖掘出的多类土地利用转换规则预测了2025年土地利用变化的格局。1基于随机森林CA的土地利用变化模拟在多类土地利用模拟中,当参与模拟的土地利用类型为N(N2)类时,在不限制所有土地利用类型相互转变的情况下,理论上共N2种土地利用转变形式,形成了复杂的土地利用变化模拟的难题口引。黎夏等提出了
6、使用神经网络(ANN)模拟复杂的多类土地利用变化的方法1 5,有效地简化了CA模型的结构,模拟得到了较高的多类土地利用变化精度。但受限于神经网络(ANN)算法的暗箱操作机制,模型不能很好地揭示特征变量间的相互关系和重要程度。RFA是由美国科学院院士Leo Breiman提出的一种利用多棵决策树进行预测的组合分类智能算法193。大量理论和实例表明,RFA具有极强的数据挖掘能力和极高的预测准确率,适用于处理复杂的多类分类问题2妇;RFA对异常值和噪声容忍度收稿日期:2016_0715;修回日期:2016_。820作者简介:张大川(1993一)。男,硕士研究生,主要研究方向为太数据与城市模拟。*通讯
7、作者Email:lJuxp3mailsysueducn万方数据第30页 地理与地理信息科学 第32卷高并且不容易出现过拟合,能获取较高的模拟精度2幻)RFA能结合袋外数据(OutOf-Bag,OOB)从庞大的数据集中计算特征变量的重要程度,从而揭示各特征变量间的复杂关系。相比于常规的机器学习算法,RFA算法模型构建简单、直观,所需参数少,且对特征变量本身没有严格的要求,允许各变量之间是相关的。本文提出的RFACA模型由训练和模拟(预测)两部分组成(图1)。首先在训练模块中,构建训练样本集Xi,利用Xi训练得到RFA多类分类器;然后在模拟模块中,该多类分类器被用来进行多类图1 RFA-CA模型结
8、构Fig1 Structure of RFA-CA model(1)计算多类别转换概率。RFA通过训练M棵决策树分类器集合而成一个多类组合分类器,它具有优秀的处理多类分类问题的能力。式(1)表示待分类数据集日落人每一种类别的概率;式(2)是RFA最终的分类结果2 3|。P f,忙!亟堕三兰! ”一7 、MH(z)一rgvl maxHZ I(ht(z)=Yi) (2)具体而言,H(z)是随机森林多分类器分类结果,hi(z)是单棵决策树的运算结果,是单棵决策树的分类结果,J(木)是分类结果指标函数。式(1)和(2)说明,RFA的分类结果是基于多数投票规则。本文利用RFA处理多类分类问题的优秀能力,
9、可以准确地计算每一个模拟的元胞k在t时刻从现类别到第z类别的转换概率P。(忌,t,z)。因为式(1)中Pi(z)为待分类数据口被分为第i种类别的概率,所以转换概率P。(是,t,z)可以表示为: 蹦札f)一丛掣(3)土地利用模拟运算。在训练模块中,RFA本身对样本集Xi的构建是用Bootstrap方法有放回地随机抽样而成,因而样本集Xi由原始训练集X中约64的样本构成,X中另有约36的样本不会出现在Xi中,这些数据构成OOB。RFA-CA模型可以利用OOB进行袋外预测,计算OOB误差并评价空间变量的重要性。RFA-CA模型确定多类CA转换规则,模拟多类土地利用转变的流程如图2所示。同所有的CA模
10、型一样,RntCA模型的核心是获取元胞的多类别转换规则,包含多类别转换概率、邻域效应、随机因子、限制性发展因素4个部分。眄赢11矿皂嘲叭丽P 同 PL、一。L一J L。基卜?】哼mk刁:II鼍量争薷f 1#f用 *oH重量图2 RFA-CA模型土地利用模拟流程n晷2 Flow chart of land噼simulation by璐i呜RFA-CA model(2)计算邻域效应。邻域效应是CA模型中反映当前元胞受邻域元胞相互作用的函数。对于N种土地利用类型,某元胞的领域函数可表示为:hi=显雩摹竽堕 式中:蹉表示t时刻元胞k的咒Xn邻域作用值,咒3;con(:|:)为条件函数;S为元胞当前状态
11、;Landusei为第i种土地利用类别。在多类CA模型中,针对每一种土地利用类别,如果当前元胞为该土地利用类别元胞,则值为1,否则为0。(3)引入随机变量。影响多类土地利用模拟的空间变量比较复杂,常规的空间变量很难反映诸如自然灾害、气候改变、政策调整、经济环境等因素对模型的影响,因此,把随机项引入RFA-CA模型中1 6l,以使模拟更接近真实情况。该随机项表示为:RA=1+(一lny)。 (5)其中,),为o,1范围内的随机数,口是一个控制随机变量大小的参数。万方数据第5期 张大川等:基于随机森林CA的东莞市多类土地利用变化模拟 第3l页(4)引入限制性发展因素。在多类土地利用模拟中,各类别间
12、相互转变的机制十分复杂,很难找到适宜的空间约束条件来合理地限制类别间的转变,但针对某些特殊的转变类型,可以引入一些限制性条件来约束元胞的发展。如水体向城市的转变,优质农田向其他类别用地的转变等,这些特殊的转变类型构成了限制性发展因素con(S:),即判断在时刻,当前元胞k是否受到限制性发展,是则con(S)值取0,否则con(S:)值为1。因此,在RFACA模型中,在t时刻从现类别到第z类别的发展概率可以表示为:P(k,t,z)=磁(点,t,z)继(1+(一In7)。)con(S)一!鱼!旦!三芝!Y圣i!i!塑!墨三丝翌垡兰坠!Y M 551(1+(-In)。)con(S) (6)若参与模拟
13、的土地利用类别有N种,且不考虑限制性发展因素对转变类型的限制,则在式(6)中,f的取值也存在N种情况,计算出的P(k,t,z)值也对应有N个值。在t时刻对于某元胞志只能转变为一种土地利用类型,因此元胞是的发展概率为N个P(是,Z)值中的最大值,即表示为:P(k,)=max(P(k,t,z)=max(P。(忌,t,z)磁con(5:)(1+(一lny)。)Z=(1,2,3,N) (7)因此,元胞发生土地利用转变的规则为:fP(k,t,f)=max(P(k,t,),转成第f种类型 1 P(k,f,f)ITIaX(P(点,f,z),不发生转变”7l X,2实验和讨论21研究区和数据本文选取位于珠江三
14、角洲的东莞市作为研究区,东莞市是连接珠江三角洲两大经济中心广州和深圳的咽喉要道,是珠江三角洲核心城市之一,近20年来土地利用不断发生变化2 4|。使用RFA-CA模型模拟东莞市的土地利用变化,可以为城市规划提供有价值的信息,并能利用随机森林算法挖掘空间变量的重要性,揭示东莞市城市发展和土地利用变化格局的隐含机制。本文利用东莞市2000年、2005年、2010年Landsat7 ETM+影像和2014年Landsat8 ETM+影像作为数据源,通过数据预处理及影像解译,获取该地区30 m分辨率土地利用分类图。模拟中涉及的土地利用类型有耕地、草地、林地、水体、城市用地、未利用土地6类。模拟过程从2
15、000年开始,使用RFACA模型得到2010年和2014年土地利用变化模拟结果。芒要一 万方数据第32页 地理与地理信息科学 第32卷曝瞧豫冁嘹。_F习。匿图3东莞市土地利用动态模拟空间变量Fig3 Auxiliary spatial variables of land use simulation in Dongguan方法,即每种土地利用变化类型的采样点个数与此类型占总像元的比例有关,并将总计50 000个采样点按照这一比例分配到每种土地利用类型中。23土地利用变化的动态模拟和预测在RFACA模型中,可以通过训练好的随机森林算法计算得出每种土地利用类型的转换概率,并在此基础上结合元胞邻域效
16、应、随机因子、限制性发展因素的共同作用,计算出元胞向每种土地利用类型转变的发展概率,实现动态模拟。模拟以2000年土地利用分类数据(图4a)作为初始状态,通过RFACA模型模拟得到2010年(图4c)、2014年土地利用情况(图4e)。在模拟过程中,邻域内已转变的各土地利用类型元胞数在每次迭代过程中动态计算。预测以2014年土地利用数据(图4e)为初始状态,结合东莞市土地利用变化趋势,通过RFA-CA模型得到2025年东莞市土地利用分布图(图4f)。24精度检验与评价由图4(彩图见封3)可知,本文采用RFA-CA模型模拟得到的土地利用结果在整体空间分布上同真实情况十分接近,呈现出耕地、草地、林
17、地面积减少以及城市面积扩张明显的趋势。预测得到的2025年土地利用结果显示,这种侵占耕地、草地、林地的城市扩张趋势会持续进行,东莞市城市面积将持续扩张,用地格局将更加紧凑。2014年二地利用真实结果 (e 1二014年上地利用模拟结*厂雌林地圈圈地豳l蛳川地洲j r l 2025年1一地利用预测结果尸同h图4东莞市2000-2014年多类土地利用动态模拟及预测与实际情况对比结果Fig4 Actual and simulated land use comparison in Dongguan from 2000 to 20 1 4万方数据第5期 张大川等:基于随机森林CA的东莞市多类土地利用变化
18、模拟 第33页本文分别计算了2010年和2014年实际与模型模拟土地利用混淆矩阵(表1),总体精度分别为822、847,Kappa系数分别为077、073,模型效果理想。表2、表3是本文基于RFA-CA模型和神经网络元胞自动机(ANNCA)E17 183模型通过混淆矩阵得到的模拟精度的对比结果。如表2所示,RFA-CA模型的总精度和Kappa系数均高于ANNCA模型。从表3可知,相比ANN-CA模型,RFA-CA模型模拟得到的多类别土地利用结果与真实土地利用一致性更高,其对未来土地利用预测的精度和可靠性也较高,同样适用于对土地利用格局的预测。表1实际与模型模拟土地利用混淆矩阵TaMe 1 1l
19、砼confnsion matrix between the actual and simulated land l雠耕地 2 410 100 0 200 540林地 130 5 600 30 150 940:叭轹 城翘曼篓葛z:蝥 撼未利用土地0 0 0 0 30整体精度0847表2 RFA-CA模型与ANN-CA模型精度对比 表4不同邻域取值对应的模拟精度年份 堕尘竺垒堡型垒盟坠竺垒夔型。整体精度Kappa系数整体精度 Kappa系数Table 3 Accuracy comparison of mI dasses betweenRFA-CA model and ANN-CA model在多类
20、CA中,邻域效应是影响元胞发展概率的重要因素,由于土地利用类型的复杂性,在对邻域效应的计算中不能只统计单一类别的元胞数量,如公式(4)所示,往往需要采用一个较大的邻域计算所有土地利用类型的数量,进而充分考虑中心元胞向其他所有土地利用类型转变的可能。但邻域选择过大可能会造成邻域内不同土地利用类型的数量过于接近,降低模型的精度。因此,如表4所示,本文针对多类CA的元胞邻域窗口的取值进行实验,发现模拟精度受到邻域大小取值影响较大,针对本文2000-2014年东莞市多类土地利用的模拟,最优邻域单元为5个,邻域大小为55邻域。25变量重要性分析随机森林算法可以利用袋外数据求得()OB误堡塑望匹!全! !
21、 ! ! ! !墼签整匡!堑! !;:!i 坠:!i 坠:!i !:! !:;!差以估计随机森林模型的精度,并用来评价变量的重要性。随机森林模型衡量特征变量重要性的常用方法有两种,分别是平均精度减少法和平均基尼系数下降法1 9|。平均精度减少法是将某一变量的取值变为0或随机数,而其他变量保持不变,使用误差传播公式,通过分析改变该变量后模型的误差增加情况来估计该变量的重要程度;平均基尼系数下降法则是遍历所有树节点,统计每个特征变量对应的基尼系数下降总和作为该特征的贡献度,本文采用该法计算变量的贡献度。在本文中,对随机森林分类器训练后,除未利用土地(所占比例过小)、水体(限制性约束条件),针对每一
22、种土地利用类型在分类器中使用袋外数据对各空间变量重要性进行了计算,结果如图5所示。根据图5a变量重要性计算的结果可以看出,对于整体上东莞市土地利用的变化情况,到道路(一般道路、高速路)距离、到火车站距离、到市中心距离等交通区位因素重要性最高,这说明,随着近20年东莞市城市用地的不断扩张,耕地、林地等用地面积不断被侵占,道路通达性越高、位置越优越的地区更便于与其他地区之间商品、信息、资金等的流通,进而一比旦对c;立度一精一别一类监一一A”他一Mm旦M一与翌艇n旦队一心叽一0o表万方数据第34页 地理与地理信息科学 第32卷促进其他用地向城市用地的转变,强烈地影响了东莞市土地利用格局的变化。对于P
23、OIs邻近因素,餐饮、超市、工厂和休闲娱乐设施的分布密度对模型的精度影响较大。东莞市的经济很大程度上依托于第二、三产业的发展口4|,工厂的分布影响了东莞市资金和技术转移的路径,餐饮、超市、娱乐设施等提供了吸引市民消费、方便市民生活的基本条件。因此,这些POIs因素丰富了东莞市土地利用变化的驱动力,POIs分布的密度也在一定程度上影响了东莞市土地利用变化的格局。对于城市用地(图5b),超市作为城市生活密切相关的场所,其分布密度重要性最高,此外,区位因素对模型精度的影响较大、重要性较高;这是因为距离城市中心越近的地方,享受到城市良好的基础设施、丰富的教育、卫生机构条件的机会越大,从而推动周边非城市
24、用地向城市用地的转变。经济增长与耕地数量之间存在类似库兹涅茨曲线型关系2 7。,耕地资源流失量与城市的经济发展有着密切的关系,尤为明显表现在城镇周边和交通沿线28,291;如图5c所示,东莞市的耕地类型变化同样强烈地受到了东莞市城市扩张的影响,距离主要道路和城镇中心越近的地区,耕地更容易被侵占,从而造成耕地资源的减少。高程是影响林地变化十分重要的因素E30,31,这是因为随着高程的上升,林地向其他用地转变的比例会降低,而在低海拔地区,林地则会大量的转变为园林、城市用地等用地类型;从图5d中直观看出,东莞市林地受高程的影响较大,在高海拔处制约了林地向其他用地的转变,在高程较低的地区,尤其是在高速
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 ca 东莞市 土地利用 变化 模拟 张大
限制150内