• 收藏
  • 设为首页
  • 工作邮箱
微信公众号
分享
[字体: ]
分享到:
分享
基于手机信令数据的居民线下消费空间自相关分析
来源:大数据部   时间:2020-02-28

时空行为研究一直以来都是城市地理学研究的重点,大数据时代的到来促使传统的时空行为研究方法产生革新,并逐渐应用到对城市空间和城市等级体系的研究中。本文以居民线下消费为应用场景,利用手机信令数据、POI、土地利用分类图等多源数据,探索居民消费行为的时空分布特征

一、研究现状

当前,大数据背景下对时空行为的研究分为两类,一是基于GPS、GIS及网络日志结合的研究,如Kwan等(2004)[1]结合波特兰地区收集的10000个2天活动日志调查数据(日志体现的活动地点坐标是点对点数据,在获取居民出行路径数据时借助于GPS工具)和大尺度的地形图数据,运用核函数分析方法及3DGIS软件对居民的活动密度、分布以及变化进行了时空模拟;Edwards等(2009)[2]使用GPS和网页工具(能记录时间、速度、距离以及经纬度和运动方向),并结合Google地图,模拟了悉尼和堪培拉2个城市76个旅游者的行动轨迹,从而分析旅游者的出行路径、换乘的交通方式、出行遇到的障碍等特征。二是基于社交网络、手机信令、智能卡数据的研究,如Malleson等(2012)[3]挖掘了英国利兹城40万个用户在1年内的Twitter数据,结合核密度分析,根据特定Twitter用户在不同地方发布信息的密度或频次来判断用户的活动地点和行为,并构建了一个基于社交网络数据和传统人口普查数据的居民智能行为模型;龙瀛等(2012)[4]则利用1周855万个公交IC智能卡数据,在构建出行和“地点—时间—时长”两种数据处理模型的基础上,结合居民出行调查、城市土地利用信息,研究了北京居民的职住关系和通勤行为;Jun(2014)利用交通数据了解消费者行为;复旦大学城市发展研究院秘书长张伊娜副教授团队(2017)提出,上海市各商圈数据显示,除个别极热门商圈外,其他商圈的成单量与人流量的比例基本在0.1上下,人流量与消费量有较强的正相关性。

总体来讲,利用社交网络数据、手机信令数据、公交卡数据进行城市居民行为的研究对于城市的空间管理、交通管治、社会服务等方面的实践具有重要意义,较需要固定研究对象的GPS和网络日志等手段具有大样本量和低成本的优势,但现有研究较少,方法也尚未成熟。因此,本课题将以重庆市居民消费为应用场景,尝试将手机信令数据与其他多源数据相结合,从数据的时空特征角度,探究分析居民线下消费行为的影响因素。

二、研究方法

空间自相关的度量是用来检验在空间上具有一定规律性的空间变量在不同空间位置上的相关性。空间自相关研究方法与GIS系统相结合,可以有效地展现出空间单元的位置及与其他空间单元之间的相互关系,目前已应用到疾病传播、人口分布、经济发展等方面的研究中[5]-[8]。本文采用空间自相关分析方法对重庆市各区县居民线下消费行为的空间依赖性和异质性进行了研究。

1、全域空间自相关

全域空间自相关是对属性值在整个区域的空间特征的描述。用来检验空间变量的取值是否与相邻空间上该变量取值大小有关[7]。全域空间自相关的指标和方法主要有Global Moran’s I、Geary’s C 和Getis’C。Moran Index 值是空间统计分析中被广泛应用的空间自相关判断指标。I的取值范围从-1到1:当I =0时,代表空间无关;当I取正值时为正相关;当I取负值时为负相关。对于空间是否有自相关性存在,常采用统计验证的方式,即使用z 检验[7]标准化Moran’s I值,z值为正且显著时,表明存在正的空间自相关,z值为负且显著时,表明存在负的空间自相关,z值为零时,观测值呈独立随机分布。

2、局部空间自相关

全域空间自相关假定空间是同质的,即只存在一种充满整个区域的趋势。但事实上,区域要素的空间异质性并不少见[9]-[10],因此,需要发展区域统计方法来衡量每个空间要素属性在“局部(一般为相邻)”的相关性质。通过定义不同类型的“局部”范围(不同的空间连接矩阵),区域空间自相关分析可以 帮助更准确地把握空间要素异质性特性。本文采用空间联系区域指标(Local Indicators of Spatial Association, LISA),即Local Moran’s I来衡量局域空间自相关性[10]。每个区域单元的LISA是描述该区域单元周围显著的相似值区域单元之间空间集聚程度的指标,所有区域单元LISA的总和与全域的空间自相关指标成比例。

三、数据与分析

1、研究数据

本研究区域为重庆市,包括渝北、南岸、九龙坡、沙坪坝、江北、万州、涪陵、巴南、开州、合川、永川、江津、渝中、北碚等38个区县。所使用的数据主要包括手机信令数据、POI和土地利用分类图(2016),其中,手机信令数据是各区县2019722-2019728日的每日人口活跃数量。

2、试验结果分析

上文提到,商圈人流量与消费量有较强的正相关性,而本文使用的手机信令数据仅能衡量每个区县的人口数量,而非消费人流量,因此,首先应从手机信令数据中识别出消费人口数量。本文通过对手机信令数据与土地利用分类地图、POI数据进行空间叠加,识别手机用户的职住地,并且设定职住地之外、消费热点区域、逗留时长超过30分钟等一系列规则,筛选出区域线下消费人流量,如图1所示。

1 重庆市各区县日均线下消费人流量分布

基于重庆市各区县日均线下消费人流量数据,运用ArcGISGeoDA,分别计算全域和局部空间自相关指数,分时段对比居民线下消费行为的时空分布特征。

2.1日均线下消费行为空间自相关分析

计算重庆市各区县日均线下消费人流量的全域Moran I=0.267(图2),说明消费人流量的分布具有强空间聚集性,各区县之间的消费人流量受空间位置的影响较显著。

进一步计算LISA值,并在z检验的基础上绘制LISA分布图。LISA分布图表达了变量值在区域和其周围区域四种模式的局域空间联系,即高高(High-high)、高低(High-low)、低高(Low-high)和低低(Low-low)。High-high表示区域和其周围区域的属性值都较高,High-low表示区域的属性值较高,但其周围区域的属性值较低。Low-low、Low-high的含义与High-high、High-low正好相反。High-high和Low-low表明区域间具有较高的空间正相关,揭示区域的集聚和相似性。High-low和Low-high则表示区域间存在较强的空间负相关,区域具有异质性。由图3(右)可知,重庆市38个区县中,10个区县呈High-high模式,为高值聚集区;3个区域呈Low-low模式,为低值聚集区;5个区县呈Low-high模式,被高值区包围。

2日均线下消费人流量全域空间自相关分析

3 日均线下消费人流量局部空间自相关分析

2.2分时段线下消费行为空间自相关分析

对重庆市各区县连续7日的消费人流量数据分时段拆分,可进一步对比分析不同时段的消费行为特征,本文选取了工作日和休息日、白天和夜间两种划分方式。

分别计算2019722-2019726日和2019727日-2019728日的日均消费人流量,用于衡量各区县工作日和休息日的消费活跃度。结果显示:工作日和休息日的消费人流量全域Moran I的数值分别为0.265和0.282,休息日消费行为的空间依赖性更强。对比两个时段的Lisa图(图4),发现南川市在休息日的消费活跃度受周边区县影响较大,呈现Low-high聚集特征,与之重庆大都市区的生态后花园”定位不甚相符,仍有进步空间。

4 工作日/休息日线下消费行为LISA集聚图

分别计算白天和夜晚(22:00-6:00)的日均消费人流量,用于衡量各区县白天和夜晚的消费活跃度。结果显示:白天和夜晚的消费人流量全域Moran I的数值分别为0.258和0.282,夜晚消费行为的空间依赖性更强。对比两个时段的Lisa图(图5),发现长寿县消费人流量白天呈Low-High模式,夜晚则呈High-High模式,夜间消费活力强劲,与该地区夜生活相关POI数量较多的现状相匹配。

5 白天/夜晚线下消费行为LISA集聚图

四、结论

本文基于手机信令数据,对重庆市38个区县居民线下消费行为进行了空间自相关分析,探索了消费行为的空间依赖性及其作为经济发展水平微观化的空间异质性。一方面可以为我国居民消费趋势分析与预测提供理论依据,有助于提高消费领域宏观经济分析研判的科学性、合理性和完整性。另一方面,本文研究方法和结论可应用于城市边界、就业趋势、人口流动、高新技术产业监测等具有时空特征的领域,不仅能够辅助宏观经济预测研判,还能够服务于区域产业发现、空间规划、招商引资等环节,为区域发展带来经济效益。

 

参考文献

[1] Kwan M P, Lee J. 2004. Geovisualization of human activity patterns using 3D GIS: A time-geographic approach// Goodchild M F, Janelle D G. Spatially Integrated Social Science: Examples in Best Practice. Oxford: Oxford University Press: 48-66.

[2] Edwards D, Griffin T, Hayllar B, et al. 2009. Using GPS to track tourists spatial behaviour in urban destinations[J/OL]. Available at SSRN: http://dx.doi.org/10.2139/ssrn.1905286.

[3] Malleson N, Birkin M. 2012. Analysis of crime patterns through the integration of an agent-based model and a population microsimulation. Computers, Environment and Urban Systems, 36(6): 551-561.

[4] 龙瀛,张宇,崔承印. 2012. 利用公交刷卡数据分析北京职住关系和通勤出行. 地理学报, 67(10): 1339-1352.

[5] 林琳, 马飞. 广州市人口老龄化的空间分布及趋势[J]. 地理研究, 2007, 26(5): 1043-1054. LIN Lin, MA Fei. Spatial distribution and trends of the aging of population in Guangzhou[J]. Geographical Research, 2007, 26(5): 1043-1054.

[6] ORD J K, GETIS A. Local spatial autocorrelation statistics: distributional issues and an application [J]. Geographical analysis, 1995, 27(4): 286-306.

[7] 孟斌, 王劲峰, 张文忠, 等. 基于空间分析方法的中国区域差异研 究[J]. 地理科学, 2005, 25(4): 394-400. MENG Bin, WANG Jinfeng, ZHANG Wenzhong, et al. Evaluation of regional disparity in China based on spatial analysis[J]. Scientia Geographica Snica, 2005, 25(4): 394-400.

[8] 翁培文, 蔡博文. 空间离散指标:旧观念、新公式[J]. 台湾地理资讯 学刊, 2006, 4: 1-12. WENG Peiwen, Tsai Borwen. Spatial dispersion index: old conception, new formula [J]. Journal of Taiwan Geographic Information Science, 2006, 4: 1-12.

[9] ANSELIN L. Local indicators of spatial association-LISA [J].Geographical Analysis, 1995, 27(2): 93-115.

[10]GETIS A, ORD J K. The analysis of spatial association by use of distance statistics [J]. Geographical Analysis, 1992, 24(3): 189-206.

 

作者简介

陈东,女,博士,国家信息中心大数据发展部工程师,研究领域为时空大数据。

黄倩倩,硕士,国家信息中心大数据发展部,研究领域为机器学习、生物信息学。

邢玉冠,博士,国家信息中心大数据发展部,研究领域为信息处理、数据分析。

本文发表于由国家信息中心数字中国研究院编辑出版的《数字中国建设通讯》2019年第5