罗茜1,焦利民1, 2, 3
1. 武汉大学 资源与环境科学学院 地理科学与国土资源系,武汉 430079;
2. 武汉大学 地理信息系统教育部重点实验室,武汉 430079;
3. 武汉大学 数字制图与国土信息应用工程自然资源部重点实验室,武汉 430079
基金项目:国家自然科学基金项目(41971368);国家重点研发计划项目(2017YFA0604404)
摘 要:探究城市人群活动模式有助于理解人群与城市空间的交互作用及影响机制。本文以武汉都市发展区为例,基于腾讯位置大数据,利用Tucker张量分解法和K-means聚类挖掘城市人群活动模式特征。结果表明:①用张量分解法处理地理位置大数据从多维度揭示城市人群活动时空模式是有效的;武汉都市发展区人群活动可分解为三种每日时间段模式、两种日常周期模式和五种地理空间模式,反映出武汉城市人群活动在时间段、周期和空间上存在显著差异。②得到四个层次空间结构,呈现为城市中心依次向外的圈层结构,各个聚类中以生活服务、购物服务、公司企业三种兴趣点功能为主。本研究可为优化城市管理和空间规划决策支持提供参考。
关键词:腾讯位置大数据;城市人群活动;时空分布;Tucker张量分解;武汉都市发展区
引文格式:罗茜, 焦利民. 2023. 地理位置大数据支持下的武汉市人群活动模式识别与分析. 时空信息学报, 30(1): 86-94
Luo X, Jiao L M. 2023. Population activity pattern recognition and analysis in Wuhan supported by geolocation big data. Journal of Spatio-temporal Information, 30(1): 86-94, doi: 10.20117/j.jsti.202301012
城市是一个有规律的动态复杂系统(Batty,2008),人类及其活动是城市中最重要的因素。人群在城市内部空间上的集聚分布与时间上的移动变化构成了丰富的高时空动态变化特征(Kang等,2012;钟炜菁等,2017),使城市空间富有复杂的人群活动含义。了解人群活动的时空规律有助于从时空角度揭示城市居民利用城市内部空间的特征,进而为城市规划布局、区域政策制定提供参考(Wang等,2021)。
新兴社会感知大数据能够高效、实时地记录城市人群活动的时空变化特征和地理位置信息(Liu等,2015;刘瑜,2016),已广泛应用于人群动态特征的挖掘(方志祥,2020)。近年来,出租车轨迹数据(庄浩铭和刘小平,2020;Liu等,2014)、智能交通卡数据(黄洁等,2018;郑晓琳等,2020)、夜间灯光数据(胡云锋等,2018;郭晓莹和唐雨竹,2019)、手机通信定位大数据(杨喜平和方志祥,2018;李婷等,2014)等为挖掘城市人群的活动特征、反映城市空间结构提供数据支撑,在挖掘人群的社会活动行为(Ahas和Mark,2005)、移动规律模式(González等,2008)、空间分布特征(张雪霞等,2021)等研究中得到了广泛应用。
相比而言,腾讯位置大数据具有覆盖空间范围广、涵盖人群多、连续长时序等特性。作为移动智能终端用户的地理位置数据,能够直接反映用户所在的时段和空间位置,具有直观性和可靠性,所包含的复杂高维度信息为多尺度分析人群活动特征提供了数据支持(方志祥,2021)。已有研究将腾讯位置大数据运用到城市人口估算(王晓洁等,2020;吴中元等,2019;Ma等,2018)、城市间人群交互作用(梁林等,2019;赖建波和潘竟虎,2019)和城市人群分布与活动模式特征(许珺等,2020;易嘉伟等,2019)等方面。然而,上述研究侧重于挖掘城市人群活动的时空结构特征,忽视了城市人群活动模式的特征变化与城市功能结构的关系。
为探究腾讯位置大数据中隐含的人群活动时空模式特征,并通过这一特征反映城市功能结构,需要对高维度的人群定位数据进行降维处理。通过张量分解法可以较好地寻找隐藏在复杂多维数据中的基本活动模式及不同维度之间的相互作用关系(Wang等,2021;Cai等,2019;Schein等,2015;Sun和Axhausen,2016)。此外,张量分解非负约束和稀疏约束能够有效降低高维数据稀疏性,已被用于缺失数据的构造、人群流动等研究,这为从高维度时空大数据中挖掘城市人群活动模式及变化特征提供新的途径,也为探索人群活动的模式特征和城市空间结构奠定基础。
武汉城市人群活动强度与范围分布广泛,在城市不同的功能区域表现出不同的人群活动,产生不同的人群集聚模式。本文以武汉都市发展区为例,应用Tucker张量分解法从腾讯位置大数据中挖掘出城市人群活动时空变化规律;同时结合K-means聚类方法和兴趣点(point of interest,POI)数据对人群活动特征所具有的城市功能含义进行解释。由此,探讨城市人群活动与城市空间结构特征的关系,从而理解人与城市空间的交互作用,进一步为城市内部精细化管理及空间规划的决策支持提供参考。
武汉位于113°41′~115°05′E,29°58′~31°22′N,是我国内陆特大城市之一,目前市辖13个行政区,市域面积约8570 km²。本文以武汉都市发展区作为研究区(图1),该区域是武汉最核心的发展地区,集中了大量的人口、产业和经济技术开发区等,区域内部的人群活动较为复杂。因此,探究该区域的人群活动模式特征,对于剖析城市功能结构、优化武汉及其他大中城市的未来规划管理都有着重要的意义。
随着互联网和移动通信技术的发展,越来越多的人使用手机进行移动定位服务。腾讯位置大数据收集面向智能手机用户的位置信息,包括使用腾讯公司旗下软件及第三方应用每次定位请求所获得的实时位置记录,该数据隐匿了用户隐私信息(王贤文等,2017)。腾讯位置大数据每天每秒不间断地获取全球用户的定位请求信息,所获取的定位数据能比较准确地反映用户进行移动定位的时间、地点和定位次数等。利用腾讯位置大数据可以反映住宅小区级别的精细尺度人口数量,有助于进行亚城市单元人群活动模式的探究(吴中元等,2019)。
Fig.1 Illustration of Wuhan location
本文数据来源于腾讯位置大数据网站(https:// heat.qq.com/),获取了2019年4月28~5月10日连续13 d的实时定位请求数据,时间尺度为30 min,格网尺度大小为1 km。将所有格网自西向东、从南向北从1开始编号,得到每个格网的ID,共得到2383个格网。腾讯位置数据的属性表(表1)包含格网ID,以及每30 min时段内的定位次数。将每个时段中所有格网的定位次数相加,得到都市区内定位总次数的变化规律(图2)。
表1 武汉都市发展区腾讯位置数据属性表(以4月28日为例;单位:次)
Tab.1 Attribute table of Tencent location data in Wuhan metropolitan area (as of April 28)
图2 武汉都市发展区总定位次数(以4月28日为例)
Fig.2 Total positioning counts times of Wuhan metropolitan area (as of April 28)
此外,本文将借助POI数据对所得结论进行验证。POI数据具有数据量大、类型丰富、涵盖的信息细致等特点(段亚明等,2018)。POI数据来源于高德API(https://lbs.amap.com/),共分为19类(池娇等,2016)。因道路附属设施、地名地址和室内设施等类型信息较少,且难以表征城市功能特征,因此,本文获取了武汉都市发展区内包括生活服务、商务住宅等在内的共9类POI数据。
腾讯位置大数据记录城市人群在时间和空间上的动态变化过程,包含从城市系统到人类个体的多维城市信息(涂伟等,2020)。该数据特性决定了其在时空上具有较高的维度。本文利用腾讯位置大数据,采用Tucker张量分解法对数据进行降维分析处理,从而挖掘城市内部人群的时空模式特征(图3)。
Fig.3 Analysis workflow of spatio-temporal characteristics of population activities based on geolocation big data
Tucker是张量分解的一种常见算法,可将其看作是一种高阶的主成分分析。n阶高维张量经过Tucker分解之后得到一个低维的核心张量与n个因子矩阵,其中,每个因子矩阵可以看作是张量各维度上的主要成分,低维核心张量可以类比为主成分因子,能够储存原始张量各个因子矩阵之间的联系(Kolda和Bader,2009)。
本研究采用数据为包含武汉都市发展区2383个空间格网、连续13 d、每天24 h的定位数据。根据数据特征,构建每日时间段T、日常周期D和地理空间位置M 三个维度张量X,X=(LT,LD,LM),,其中,P、Q、R分别为长度为24个时间段、13 d和2383个空间格网。经过Tucker张量分解后三个维度分别表示为,,;其中,I、J、K为各维度分解模数,分解得到的核心张量用表示。在使用Tucker张量分解之前需确定I、J、K分解模数值,通过目标函数式计算:
(1)
式中,X为原始张量;Y为重构张量;p、q、r为各维度长度。
核心张量蕴含有每日时间段与日常周期含义,这将地理空间位置、日常周期和每日时间段三个维度联系起来。运用条件概率建立起三种维度之间的关系,计算出在给定日常周期模式的情况下时间段模式对地理空间模式(式(2))、地理空间模式对时间段模式(式(3))的影响程度,即计算在已知日常周期模式的情况下,不同时间段模式和地理空间模式的核心张量占比。计算公式如下:
(2)
(3)
式中,、分别为在给定日常周期模式条件下,时间段模式和地理空间模式占核心张量的概率;、分别为核心张量中的时间段模式和地理空间模式分解模式值;为核心张量加和值。
为验证人群活动模式与城市空间功能含义的联系,引入POI数据表征城市区域的功能。为避免高频类型POI的影响,选取TF-IDF算法对城市POI数据进行分析。TF-IDF算法是一种文本挖掘中常用的加权技术,其核心思想是反映文档中某一字词的重要性。将其运用在POI计算中的基本思想是,如果某一类POI在聚类中表现丰富,而在另一聚类中表现匮乏,那么该类POI在聚类中具有较高的代表性。其表达式:
(4)
式中,为在聚类r中s类POI的个数;为聚类r中所有POI的个数;N为研究范围内所有POI的个数,ns为研究范围内s类POI的总个数。
利用Tucker模型分解之前要确定各维度分解模数值,表示各维度最佳分解模数。根据式(1)计算三个维度分解模数值,采用经验法(Sun和Axhausen,2016;Cai等,2019)以分组试验的方式对模数和约束参数进行逐个尝试,分别设置地理空间模式模数M∈[2,8],每日时间段模数 T∈[2,5],日常周期模数 D∈[1,4]。由图4知,不同模式组合下的目标函数结果,当每日时间段模数T=3、日常周期模数D=2、地理空间模式模数M=5时,目标函数能够较快趋于平稳,且未有过拟合情况,即根据分解模数可得核心张量,每日时间段、日常周期、地理空间位置。
Fig.4Objective function values of Tucker decomposition under different pattern combinations
Tucker张量分解后城市人群活动可分解为三种时间段模式,图5呈现了每日24 h中的人群活动强度变化。T 1模式的人群活动强度在中午12:00达到第一个峰值,后缓慢下降,傍晚18:00达到又一个小高峰值。T 1模式普遍符合城市人群白天活动特征,总结为日间活动模式。T 2模式在中午13:00左右达到小高峰,下班高峰结束后,呈现迂回上升的趋势。T 2模式较符合城市人群放松娱乐阶段特征,归纳为休憩娱乐模式。T 3模式从早上5:00开始至9:00城市人群活动强度增高,晚上18:00后呈现逐步上升状态,在21:00达到峰值。T 3模式在上班前与下班后人群活动都呈现较高强度,归纳为高峰出行模式。
Fig.5 Three daily time patterns of population activities
城市人群活动的日常周期规律可识别有两种模式(图6)。D1模式在4月28~5月10日呈现出先下降后升高的态势;在5月1日出现低谷,归纳为工作模式。D2模式则与D1恰好相反,先升高后降低;在5月1日这天达到峰值,归纳为假期模式。通过D1、D2两种分解模式,可以看出人群活动模式呈现明显差异。
Fig.6 Two daily periodic patterns of population activities
地理空间维度可分解为日间–工作(M 1)、工作–休闲(M 2)、假期–出行(M 3)、出行高峰(M 4)和假期–休闲(M 5)五种模式(图7)。运用式(2)和式(3)核心张量条件概率计算结果,如表2所示。
Fig.7 Five geospatial patterns of population activities
Tab.2 Calculation results of core tensor conditional probabilities
由图7、表2知,在给定日常周期模式的情况下,M 1主要表现为工作日的T 1,所占比率为0.997,远高于T 2和T 3;M 1在假期中表现为T 2,所占比率为0.739,明显高于T 1和T 3。因此,M 1主要表现为工作日的日间活动模式,即为日间–工作模式,不包含夜间休闲娱乐中的大多数场所。在地理空间上可以看出M 1模式下人群时空活动辐射范围较广,以江汉、硚口为主要范围的金融商贸中心、购物休闲商圈的人群活动强度最强。在工作日的日间活动中,人群活动较强区域主要为上班人群的工作场所和上学的高校片区。
M 2主要表现为工作日的T 2和假期的T 3,在假期给定M 2的条件下,T 3的概率仅为0.218,远低于工作日中T 2的概率。因此,M 2主要表现为工作日的休憩娱乐模式,即为工作–休闲模式。M 2中人群活动强度中心主要集中在武昌和洪山等形成的住宅及高校片区。M 1与M 2的分布范围较为相似,但M 1主要是日间活动中的工作场所,而M 2中表现为住宅区,以江汉、江岸等主城核心区域呈现明显的职住混合型现状。
M 3主要表现为工作日的T 2和假期的T 1。在给定M 3的情况下T 1的概率远大于T 2的概率。因此,M 3主要表现为假期中的日间活动模式,即为假期–出行模式,主要分布在旅游景区等地。由图7(c)知,在假期中城市内人群活动强度较高的区域主要分布在江汉的中山公园和江汉路步行街、江岸的汉口江滩等旅游休闲景点。
M 4主要表现为工作日和假期的T 3,且在两种日常周期模式中的概率均较高。因此,M 4主要表现为上下班高峰时人群活动的空间分布,即出行高峰模式。由图7(d)可以看出,在江汉、江岸和硚口的居民住宅密集区域人群活动强度大,早晚出行时段活动频繁,在武昌的住宅社区早晚高峰期人群更加活跃。
M 5在工作日和假期中都主要表现为T 2,但在给定M 5的条件下工作日的概率0.063远小于假期的概率0.820。因此,M 5主要是反映假期中人群活动休憩娱乐的空间分布状态,即为假期–休闲模式。在假期中,人群的午间和夜间活动主要集聚在江汉景点周围的餐饮住宿区域。M 5与M 3均表示假期中的人群活动,空间分布较为相似,都主要表现在城市中心的旅游景点附近。
上述五种地理空间模式反映了不同情景下城市内部人群活动时空变化规律。不同地理空间模式格网中包含不同的时间和空间向量,用以度量不同格网属性特征。采用K-means聚类法将地理空间模式相似格网聚为四类(图8),得到人群活动模式相似区域,呈现由城市中心依次向外的层次结构。其中,聚类1包含三环以内大部分城市中心区,主要表现为多个地理空间模式混合状态,具有城市核心区的复合功能特征;聚类2、3位于三环外的蔡甸、青山及洪山,对应《武汉市国土空间总体规划(2021—2035年)》中划定的临空经济区、长江新区及光谷等,该区域发展潜力大、工作岗位多,主要表现为地理空间模式中的日间工作、出行和休憩娱乐模式;聚类4位于城市中心外围,更多与假期出行、休闲娱乐相关。
Fig.8 K-means clustering results of geospatial patterns
城市内部空间中不仅包含人群活动的动态含义,还具有城市功能性含义。为探究每种聚类所体现的城市功能特征,评判现在城市功能的缺失与不足,将上述人群活动空间聚类进行对比验证,引入包括生活服务、商务住宅等在内的9类POI数据,利用TF-IDF方法加以分析。运用式(4)计算出各空间模式聚类中各类POI的重要程度,结果如表3所示。
Tab.3 TF-IDF values of POI types in each cluster
由表3知,聚类2、3的各类TF-IDF值排名基本相同,主要表现为日间工作、出行和日常休闲等人群活动,相应的购物服务、公司企业和生活服务类型POI较为丰富,但商务住宅、住宿服务、交通设施等还不够完善,应在经济发展新区等区域合理配套基础设施,促进人员流通就业。聚类1相比前两类,其生活服务和餐饮服务的占比都有所提高,体现出城市核心区商业功能更加完备、城市功能更加复合。值得注意的是,聚类4表现为假期出行和休憩娱乐模式,风景名胜与交通设施的TF-IDF值大于其他聚类,但其公司企业占比在该聚类内排名第一。为此,将聚类4的范围与武汉高速公路路网进行对比(图9),发现两者较为吻合,可见聚类4表征了城市人群在假期中有通过高速公路去往城市郊区或周边城市度假休闲的趋势。但住宿、购物和生活服务POI占比较小,应在聚类4中度假旅游景区附近合理提高相应配套,以满足人们生活需要。
Fig.9 Comparison results between Cluster 4 and expressways
精细尺度的人群活动分析是调控人类活动对地理环境影响需要解决的核心问题。本文利用腾讯位置大数据从格网尺度探索武汉都市发展区的人群活动模式与时空分布规律;结合K-means聚类法与POI数据得到武汉都市发展区的空间结构,揭示了城市人群活动中的功能含义。主要结论如下。
(1)从多维度视角下揭示了城市人群活动的时空含义,结合实际人群活动规律对Tucker张量分解的合理性进行检验,发现分解模式呈现显著差异,为挖掘城市人群活动模式与时空分布规律提供了新的思路。武汉市都市发展区人群活动主要可分为三种每日时间段模式、两种日常周期模式和五种地理空间模式,能够呈现出较为明显的时间和空间差异。
(2)结合POI数据在微观格网尺度下研究人群活动时空特征与城市功能含义,具体地捕捉了城市空间结构,将地理空间模式聚为四类,空间上呈现由城市中心依次向外的层次结构,各个聚类中以生活服务、购物服务、公司企业三种POI功能为主。由城市中心向外,公司企业和休闲娱乐功能性增强。不同人群活动模式下的城市功能特征存在差异,为城市内部区域的资源分配与运作情况提供参考。
位置大数据为挖掘城市人群活动模式提供可能,但大数据仍存在样本量偏差和处理难度较大等问题。运用Tucker张量分解能够快速有效地探索城市人群活动模式,并可推广到其他城市的研究中,但本文因为数据的局限性,仅探讨了13 d的人群活动变化,对城市人群活动时空分布的规律性总结还有待进一步完善。同时,从格网尺度和时空维度解释人群活动模式含义时,可以结合手机信令数据和微博签到数据等地理感知大数据进行深入探讨,或许能够揭示出城市空间结构变化的趋势等。这更能加深人群活动与城市空间交互性的认识,为城市规划等提供决策支持。
作者简介:罗茜,研究方向为地理时空大数据、城市土地利用。E-mail: 562156455@qq.com
通信作者: 焦利民,研究方向为城市化与国土空间优化、地理空间分析与建模等。E-mail: lmjiao@ whu.edu.cn
评论留言