2023年基于大数据的城市居民职住锚点计算方法研究-居民数据.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2023年基于大数据的城市居民职住锚点计算方法研究-居民数据.docx》由会员分享,可在线阅读,更多相关《2023年基于大数据的城市居民职住锚点计算方法研究-居民数据.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年基于大数据的城市居民职住锚点计算方法研究:居民数据 2023年第1期 / 西部人居环境学刊 / 031 DOI: 10.13791/ki.hsfwest.20230105 高硕, 王铭扬, 鲁旭, 等. 基于大数据的城市居民职住锚点计算方法探讨J. 西部人居环境学刊, 2023, 32(01): 31-37. 基于大数据的城市居民职住锚点计算方法探讨 Research on Residence-and-Work Anchor Points Algorithm with Big Data in Urban Research 高 硕 王铭扬 鲁 旭 茅明睿 GAO Shuo, WANG
2、Mingyang, LU Xu, MAO Mingrui 摘 要 居住和就业是两个重要的居民时空行为要素,通勤行为规律能够干脆反映城市空间结构特征,而大数据的发展对城市职住通勤探讨供应了新的数据源与方法论。本文通过比较分析各个居民职住锚点计算方法,针对网络位置大数据提出基于密度的聚类算法;并以北京市东部及北三县地区为例进行案例分析。结论发觉:基于密度的聚类算法速度快、精确度高,适合网络大数据在城市探讨中的应用。 关键词 城市;大数据;锚点;算法;职住;通勤 Abstract: Residence and work are two of the most important time and s
3、pace behavior elements forcitizens.Toagreatextent,commutingpatternreflectsspatialstructureofacity.Nowadays,the development of information and communication techniques provides new data sources and methodology for urban studies. This paper introduces former algorithms for calculating residence-and-wo
4、rkanchorpoints,andputsforwardanewclusteringalgorithmforinternetLBSdatabasedonDBSCAN.Acasewiththedataproducedbythisnewalgorithm,commutingpatternsofeasternBeijingandBeisanxian,wasintroducedafterwards.Inconclusion,itsfound that the new algorithm for residence-and-work anchor points has satisfactory spe
5、ed and accuracy,andissuitablefortheapplicationofLBSdatainurbanresearches. Keywords: Urban; Big Data; Anchor Points; Algorithm; Residence-and-Work; Commute 0引言 随着近年来城市经济的发展,城市的物质环境和空间结构都经验着巨大演化1,城市探讨领域内新手段新方法层出不穷。在对城市空间结构的探讨中,学者起先更多地从人类空间行为的视角来解读城市空间格局2-3;并从制度改变的视角来挖掘空间转型背后的深层机制4。居住和就业是两个重要的居民时空行为要素。
6、城市居民的通勤行为是指居民离开居住地前往工作地的出行。它受城市中居住与就业空间分布方式的影响,发生于工作人口中。城市探讨中,提取居住与就业锚点可以描述居民的时空行为,统计空间单元的通勤属性,并由此反映城市的空间结构5-7。 与此同时,通信技术的发展使得大数据越来越多的被用于城市探讨中。基于大数据的职住探讨有比传统的问卷调查方式成本低、定位与时间精度高、覆盖人群广,擅长描绘居民时空行为等优点。基于大数据的城市居民职住锚点计算,是大数据视角下城市探讨的重要 中图分类号 U491;TU984.113文献标识码 B 文 章 编 号 2095-6304(2023)01-0031-07 组成部分。 目前在
7、城市探讨中应用的大数据以手机信令数据(包括手机通话基站、手机信令位置两部分)、公交IC卡数据及互联网LBS数据为主。学术界已有运用手机信令数据与公交IC卡数据进行职住锚点计算的探讨探究。手机信令数据计算锚点的算法为:转换个体活动序列、识别基站位置、运用Voronoi多边形与随机点生成法模拟职住锚点8。公交IC卡的数据处理中,则可以利用首次刷卡识别居住锚点、停留时长识别就业锚点9。由于互联网LBS数据具有时间不连续、规律性不强等特点,其应用基本仅限于瞬时人流的描述,很少将其用于反映居住、工作行为,也缺乏对锚点算法的探讨。本文将探讨手机信令数据、公交IC卡数据的锚点算法,并在此基础上探讨适用于互联
8、网LBS数据的锚点算法。 作者简介高 硕:北京城市象限科技有限公司,助理工程 师,gaos 王铭扬:北京师范高校物理系,访问学者鲁 旭:北京城市象限科技有限公司,高级工程师茅明睿:北京城市象限科技有限公司,高级工程师 ISSUE 1 FEB. 2023 / JOURNAL OF HUMAN SETTLEMENTS IN WEST CHINA / 032 1基于大数据的锚点计算探讨 1.1 已有算法 目前基于大数据的锚点计算方法,根据数据类型的不同主要分为公交刷卡9与手机定位的数据。其中,手机定位数据由运营商保存,分为两种1。 一、手机通话位置数据。此类数据保存的时间段较长。然而由于个体运用手机
9、通话的情景不同,是不规则稀疏采样的数据,可能出现定位次数特别稀疏,居住工作时段通话较少,通话位置在通勤途中等会导致误差的状况。 二、手机跟踪定位数据。此类数据是规则连续采样的,此类数据可以完整 地保存个体时空行为的轨迹,是志向的城市居民行为特征探讨的数据源。然而手机跟踪定位数据保存的时间较短,一般只有几天,在数据处理时可能会导致误差10-11。 因此,基于手机定位的锚点计算方法又分为基于通话基站12-14与基于手机信令位置13的两种方法。1.1.1 基于手机通话基站 基于不规则稀疏采样的手机通话数据计算职住锚点的算法包含三步。 第一步,将个体的通话记录转换为个体活动序列。许宇运用“活动地点活动
10、时间”数据模型(Activity-Location Time, LT),处理手机通话位置数据,L代表数据活动的基站位置,T代表活动时间1。 其次步,识别居住与工作时间用户通话运用的基站位置。首先设置工作时段与夜间睡眠时段,许宇等设置工作时段09:0018:00,夜间睡眠时段为00:0006:00。然后选取两个时段内定位次数超过阈值的基站,许宇等设为工作阈值6小时居住阈值4小时。 第三步,模拟职住地位置。运用Voronoi多边形表示基站服务范围,结合范围内用地性质结构,运用随机点模拟法生成职住地的坐标。1.1.2 基于手机信令位置 基于规则连续采样的手机信令数据计算职住锚点的算法与手机通话数据类
11、似,包含三步。 首先,从规则定位数据中提取出个体活动序列。其次,利用聚类分析识别职住地对应的基站位置。最终利用Voronoi多边形与范围内用地性质结构,模拟职住地位置。 聚类分析又称群分析,是利用数学工具对数据进行定量分类。聚类分析由若干模式组成,模式是一个向量,或多维空间的一个点。在空间锚点计算中,模式是由经纬度组成的二维向量。聚类分析的结果则是将这些“点”分成不同“簇”,并且尽可能地将相像性较大的“点”归为一簇,即我们须要的市民行为中“锚点”模式。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法。各个学者在锚点算法探讨中采纳了不同的聚类分析,如Migue
12、l通过PAM(A partitioning around medoids algorithm)聚类,许宇通过设定定位次数阈值聚类,Isaacman 15等运用回来结合聚类算法。 1.1.3 公交IC卡数据识别 公交IC卡的数据分为一日刷卡数据和一周刷卡数据两种,可采纳不同的锚点计算方式。 在 2023年调查中,99.5%居民的首次出行的动身地点是居住地。因此,基于一日刷卡记录,首次刷卡的站点可视为用户的居住锚点。而识别就业锚点的方法是:持卡人不是学生,在某个地点停留超过6小时,则此地视为该用户的就业锚点。 基于一周刷卡记录,首先根据一日刷卡记录的方式识别每日职住锚点。然后通过设置阈值(龙瀛等设
13、为500 m 9)进行聚类,得出该用户多个居住(或就业)锚点,选取定位次数最多的视为居住(或就业)锚点。1.2 数据介绍 本探讨所运用的数据源自腾云天下有限公司(TalkingData,以下简称TD)。北京腾云天下科技有限公司成立于2023年9月,是中国最大的独立第三方移动数据服务平台。腾云天下数据的数据量约为全国每天数十亿条;累计用户14亿个,目前每日活跃用户约为2.5亿个,每月活跃用户约为6.5 亿个。该数据采集自以智能手机为主的带有定位功能的智能终端,数据结构包括用户设备的唯一识别码信息(ID)、定位经纬度、定位时间(精确到毫秒);部分定位数据含有用户手机型号(与价格、操作系统类型)、来
14、源应用程序。另外,腾云天下通过对用户行为进行画像,供应年龄、性别、婚姻、车辆拥有状况等标签。1.3 锚点算法 腾云天下的互联网LB S定位数据来源于GPS,比起精确到基站的手机信令数据位置精度较高。而TD 数据来源于手机A PP,由于用户活跃程度不同、手机A PP 运用情景不同,导致数据定位频次特别不连续且不匀称。夜间睡眠时段APP活跃程度普遍较低,须要扩展睡眠时段的定义范围。工作时段由于外出、交通等缘由也有可能导致定位点不在就业地。因此,我们须要针对互联网LBS数据探讨更合适的锚点算法。 经过多种方法对比,我们确定采纳聚类分析确定锚点的方法。将LBS数据中,用户定位的经度与纬度看做两个维度,
15、那么我们须要找出在特定时间(如居住地定义为21点至次日7点、工作地定义为工作日的10点至17点)定位次数最多的簇,并将簇的核心对象定义为锚点。并对各种聚类算法的分类效果进行了对比16(图1)。 我们随机提取了一个用户在2023年10月的全部数据,依据定义的规则过滤出工作时段与夜间睡眠时段的定位点(图2),然后采纳K-means和基于密度的两种聚类分析方法进行分析,并对比其结果。1.3.1 K-means聚类 我们选取了P y t h o n 程序包中K-means+的算法进行锚点计算。首先,须要确定分组个数(K值)。尝试各种K值,比较数据处理用时和轮廓系数等指标。轮廓系数是评价聚类效果的指标,
16、结合了内聚度和分别度两种因素,结果越接近于1,表示聚类效果越好。选定用户工作时间定位点的聚类效果如下表所示:最终一列为轮廓系数,当K>2时轮廓系数均高于0.9,表示聚类效果很好;而K=3时用时最短,因此我们选取3作为分组个数(表1)。 2023年第1期 / 西部人居环境学刊 / 033 锚点算法的探讨探讨。因此,本章介绍了基于手机通话基站、手机信令位置,以及公交IC卡数据的锚点算法,继而介绍了针对LBS定位数据的锚点算法探究。 本文以随机抽取的某用户定位点为例,展示了K-means与DBSCAN两种聚类算法的锚点计算结果。图6显示了某用户夜间睡眠时段定位点与工作时段定位点,两者均有两簇较
17、为密集的聚集处(如圆圈所示)。 图3显示了运用K-means算法聚类出的居住与就业锚点。居住锚点1相对于聚集点 图1各聚类算法对比 Fig.1 a comparison of different clustering algorithms 群有少量偏移,居住锚点2与就业锚点1相对聚集点群重心有较大偏移;就业锚点2则出现较大误差,没有位于上方的聚集点群,而是位于另一个更低级的聚集点群。这种偏移可能是由于噪声点(定位距离实际锚点位置较远的点)对组群中心点的计算造成的影响。 图5显示了运用基于DBSCAN算法聚类出的居住与就业锚点。四个就业锚点均位于聚集的点簇中,位置精确偏移量少,分级清楚正确。 综
18、上,基于DBSCAN的聚类算法要明显优于传统聚类算法(如K-means),其优势表现在以下两方面:一、基于DBSCAN的聚类算法运算时耗较小。基于DBSCAN的聚类算法不须要输入分组个数(K值),K-means 算法中计算确定K值的过程须要多重迭代,在处理大批量数据时须要花费较长时间。二、基于DBSCAN的聚类算法运算结果精确。 基于DBSCAN的聚类算法可以识 接下来设定K=3,对全部工作时段定位点进行分组并求各个分组的中心点。在三个中心点中,根据组内定位点数量排序,取最高者作为第一就业锚点,其次位作为其次就业锚点。将同样的步骤用于全部夜间睡眠时段,计算出第一与其次居住锚点。图3展示了运用K
19、-means算法聚类的锚点结果。 1.3.2 基于密度的聚类 DB S C A N (Densit y-Ba sed S pat ia l Clustering of Applications with Noise)是基于密度的聚类算法,相比于其他聚类算法,DBSCAN具有以下明显优势:不须要提前输入聚类簇的数量;适合锚点计算中有多个居住地(或工作地)的状况;可以发觉随意形态的簇类;可以识别噪声点。 DB S C A N基本的输入参数有两个: 一、E邻域。给定对象半径为内的区域。在锚点计算中,半径为E的范围内定位点可以视为一簇,即一个锚点。二、核心对象。核心对象(或阈值)代表最少出现次数。在锚
20、点计算中,若一簇里面定位点天数超过该阈值,则该簇可以称为锚点(图4)。 另外,我们在DBSCAN的基础上增加了限定条件,即定位点的时间跨度要超过某阈值,保障“居住”或“工作”的行为是长期的,不是由短时间行为(如出差)产生。图5展示了运用基于DBSCAN算法聚类的锚点结果。 1.4 探讨:锚点算法对比 由于本探讨所运用的数据为腾云天下有限公司收集的基于互联网的移动智能终端定位数据,而目前缺乏针对LBS定位数据 图2某用户夜间睡眠时段定位点与工作时段定位点 Fig.2 locations of a certain user at sleeping and working hours 图3运用K-m
21、eans算法聚类的锚点结果 Fig.3 cluster results of algorithm by K-means ISSUE 1 FEB. 2023 / JOURNAL OF HUMAN SETTLEMENTS IN WEST CHINA / 034 表1某用户工作时间定位点在不同K值下的聚类效果 Tab.1 clustering results with different k for the working anchor point of a user 我们要对城市进行空间单元划分。划分主要参照北京市交通分析小区(TAZ);另 校正等级指数11111111 校正互信息11111111
22、 轮廓系数0.8850.9140.9390.9440.9510.9610.970.943 效度量数11111111 分组个数(k值)23456789 用时/s0.02300.02100.02400.02700.03100.03500.04000.0420 聚类内的平方和00000000 同质性11111111 完备性11111111 外,对于面积过大的交通小区以及北京之外的区域,以道路为界进行划分。最终得到探讨区域内的空间单元如图7所示。 我们将每个用户居住与就业锚点间的距离定义为通勤距离。然后将用户属性在空间单元上进行统计,得出单元属性,如居住人口数量及密度、就业岗位数量及密度、通勤距离平均
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 基于 数据 城市居民 职住锚点 计算方法 研究 居民
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内