基于GPS数据的北京市居民活动规律性与可预测性研究

2015-02-10 02:26杜洋，柴彦威，杨家文，梁军辉，蓝建航

地理与地理信息科学 2015年6期

杜洋，柴彦威，杨家文，梁军辉，蓝建航

（1.北京大学城市规划与设计学院，北京 100871；2.北京大学城市与环境学院，北京 100871；3.北京师范大学地理学与遥感科学学院，北京 100875）

0 引言

随着交通规划由注重设施建设向注重居民出行需求管理转变［1］，居民活动时空间特征受到学者的广泛关注。现阶段，居民自主选择能力与移动性增加，个体能够到达空间范围在扩大［2，3］，个体行为的日间差异［4］和弹性［5］越来越强；但是，个体行为所受到时空固定性制约从未减弱［6，7］，Long等利用公交卡数据对于居民职住空间和通勤路径的提取和分析支持了这一观点［8］；刘瑜等通过研究提出城市尺度的个体行为具有随机部分（unforeseeable movements）和惯常部分（predetermined movements），并受到地理空间的影响［9］。一些学者提出，个体行为的规律性可由可预测性的概念进行定量测度，即居民未来行为可以被预测的可能性。可预测性越强说明居民行为越具有规律性，反之，则说明个体行为越具有物理学意义上的布朗运动特征［10］。这一概念的提出对于行为规律性的研究和行为研究在规划中的应用起到了重要作用。

随着定位技术、信息与通信技术（ICT）的发展与广泛应用，基于GPS、GSM等定位技术获取的个体行为时空数据为基于个体的居民活动可预测性分析提供了新的契机。Song等基于美国手机信号塔数据（5 000样本，30 d）进行个体活动可预测性分析，发现个体活动的可预测性普遍在93%以上［11，12］；Lu等基于科特迪瓦手机信号塔数据（50 000样本，120 d）研究得出理论上最大的个体活动的可预测性达到88%［13，14］。国内现阶段开展了一些汇总层面上针对交通流量可预测性的研究［15，16］，但是基于个体的居民活动可预测性研究尚缺乏相对完整的实证研究［17］。总结来看，国内外现阶段的研究首先普遍存在数据精度不足的问题。不论是 Wi-fi数据还是手机信号塔数据，由于服务范围较大的原因，空间精度相对较低；同时由于是被动收受数据，时间精度也不能得到保证。从研究视角看，国内现在尚处于汇总层面的可预测性研究，基于个体活动的非汇总层面的研究仍然空缺。

本研究关注个体活动的时空间可预测性，基于GPS手段收集居民一周真实时空路径数据，利用信息熵算法分析北京城市居民日常活动的可预测性的大小。在此基础上，结合居民的活动范围，探究活动半径是否会对可预测性产生影响；同时结合居民的活动规律，分析不同时间点居民活动可预测性的差异。

1 研究数据

本研究以北京为案例城市，于2012年9－12月对北京市上地和清河两个街道进行抽样调查，采用位置感知设备、互动式调查网站及电话访谈相结合的办法，通过居委会对两个街道选取样本，每个样本调查时间为一周，调查内容包括居民、居民社会经济属性、一周活动日志及GPS轨迹（样本活动的时空间坐标点是以3 min为间隔均匀获取），最终获得有效样本709个。调查样本中女性略多于男性，平均年龄34.6岁，85%以上居民具有高中以上学历，就业比例为89.5%。从空间属性看（图1、表1），由于调查区范围的限制，样本居住地和市中心距离分布偏离标准正态分布。就业地和市中心距离分布符合标准正态分布，职住距离和活动半径分布均符合泊松分布。

2 居民活动可预测性的个案分析

随机选取单个样本，对其一周出行轨迹进行可视化显示（图2），样本周一、周二、周五、周六沿同一条路径前往相同目的地，而周三、周四、周日又沿另一条相同路径前往另一个相同的目的地。为了更好地理解样本活动规律性的特征，将活动区域划分为1 km＊1 km的网格，运用网格计数法抽象样本的活动过程（图3）。结果显示，样本坐标点集中程度非常高，样本趋向于在几个特定的网格范围内花费其大部分的时间。直观看出，样本活动具有显著的规律性。

2.1 样本活动的熵值测度

信息熵是为了解决对信息的量化度量问题，表征的是样本在条件约束下，新增加一个坐标点所能提供给的信息量。如果样本只在一个网格范围内活动，那么这个样本的活动位置是确定的，新增加一个坐标点提供的信息量是0 bit，熵值为0；相反，如果样本在多网格范围内活动，如26个网格，那么新增加一个坐标点，提供的信息量就是6 bits，熵值为6。熵值越大表示活动位置越混乱，不确定性也越大，可预测性也越低。本文定义3个熵值：

（1）随机熵SrandI。SrandI表征不考虑样本i在每个网格范围内出现的时刻和出现的频率（即样本i在每个网格中出现的概率相同）的条件下，样本i活动地点可预测性的大小。计算公式如下：

式中：Ni表示出现样本i的轨迹点的网格个数。

式中：Ni表示出现样本i的轨迹点的网格的个数，Pk表示轨迹点落入网格k中的概率。

（3）真实熵Sreali。Sreali表征同时考虑样本i在每个网格中出现的时刻和出现的频率（即样本i坐标点真实的时空间序列，包括空间规律性和时间规律性）的条件下，样本i活动地点可预测性的大小。为了实现这样的考量，本文将样本每天的轨迹以1 h为单位分段，假设Tj＝｛X1，X2，…，Xm｝，代表样本在j时段内的m个活动位置坐标点，则Sreali的计算公式如下：

式中：P（T′）表示样本i在T′时段内轨迹点落入网格的概率分布。

2.2 样本活动的可预测性分析

信息熵是度量可预测性大小的一种方式，但是并不够直观。本文引入费诺不等式，对熵值进行处理。费诺不等式中，不确定性（即熵值Si）由两部分组成：一部分指接收到坐标集后，是否产生错误的不确定性H（PFano），一部分指错误发生后，到底是哪个坐标造成错误的最大不确定性log2（Li－1）＊（1－PFano），而其概率值P则表征不出现错误的最小可能性。假设，一个样本i有Li个可供选择的活动地点，对应熵值为Si，费诺不等式能够帮助计算得出样本可预测性的极限。其计算公式如下：

将代表样本熵值引入费诺不等式所得计算结果可知：当不考虑样本的时间规律性和空间规律性，而只考虑样本活动的空间范围（22 km2），那么样本的可预测性只有5.3%；当考虑了样本活动的空间规律性（每个网格中活动的频率），则样本的可预测性提升至78.64%；当既考虑了样本的空间规律性，又考虑了样本的时间规律性（活动点落入某个网格所处的时段），则样本的可预测性高达94.68%。可以看出，时间规律性和空间规律性是个体活动模式的重要组成部分，二者引起个体活动可预测性的大幅提升。

3 居民活动可预测性

3.1 活动可预测性的群体特征

基于以上对于3个熵值的定义，计算每个样本在3种条件下的熵值，汇总得到全体样本熵值概率密度分布图（图4），Srand分布较为分散，主要集中在3～5，比例为59.5%，峰值为4；Sunci分布比较分散，主要集中在1～3，比例为74.3%，峰值为2；Sreal的分布非常集中，分布在0～1的比例为91%，峰值为0.5。结果显示，北京市居民一周的活动空间大小为16 km2左右，居民一小时内平均活动空间大小为1.41 km2。3个熵值的分布集中度递进增强，熵值逐步缩小，说明随着条件限制的增强，居民可预测性差异逐步缩小，同时可预测性大幅提升。

计算每个样本在三种条件下对应的可预测性值，汇总得到全体样本可预测性概率密度分布图（图5），Pmax分布非常集中，普遍大于0.8，88.2%的样本取值大于0.9，11.5%的样本取值处于0.8～0.9之间；Punc的分布最为分散，样本取值相对均匀地分布在0.3～0.9之间；Prand则集中分布在取值较低的区间，93%的样本取值分布在0～0.3之间。上述结果反映出，居民的日常活动存在显著的空间规律性和时间规律性，如果忽视规律性的存在而仅仅考虑居民的活动范围，则居民的活动空间是均质的，无法确定居民更有可能在哪个网格范围内活动，可预测性非常低；当考虑了居民活动的空间规律性，也因此掌握了居民的空间偏好，可预测性大幅提升；当进一步考虑居民活动的时间规律性，可预测性就不再是基于居民整日的活动空间进行探讨，而是基于某一时段内（1 h）居民的可达范围进行探讨，居民活动可预测性非常高。

3.2 活动可预测性的变化规律

为了研究可预测性与活动半径之间的关系，这里用回转半径概念定义个体的活动半径。回转半径定义活动半径的优势在于其具有较强的稳定性和有界性［18］。公式如下：

式中：rcm表示该个体在统计时段内所有轨迹点质心的所在位置；ri为各个轨迹点；nc（t）为在t时刻的轨迹点数量，上标a表示对个体a进行统计。

分析结果表明，样本的活动半径服从泊松分布，95%的样本活动半径分布在0～10 km以内。对活动半径和可预测性二者进行显著性检验，结果显示两者之间相关系数为0.95，在0.01水平上显著相关。图6是活动半径与可预测性两者之间的散点图，可以看出，活动半径小于10 km的样本，可预测性与活动半径之间相关性较强，可预测性普遍大于92%；活动半径大于10 km的样本，可预测性与活动半径之间相关性较弱。

居民活动的可预测性在一日之内具有比较明显的变化规律。本文以小时为单元，进行时间分段，计算每个时间段居民活动的可预测性，得到可预测性的日变化规律图（图7）。从图7中可以看出，居民活动一日之内的可预测性呈现双谷分布，两个低谷分别出现在7：00－10：00和17：00－20：00，最低值（74%）出现在8：00－9：00，说明在这两个时段内，居民受到的制约性较小，活动弹性较大，活动的规律性较低。两个相对平稳的时段为10：00－17：00和23：00－6：00，可预测性分别维持在85%和接近100%的水平，居民日常活动中的工作和睡眠往往发生在这两个时段内，因此可预测性相对较高也较为稳定。

4 结语

本研究对709个样本进行可预测性计算，并探讨其规律性。结果显示，居民活动行为具有很强的可预测性，活动半径在10 km以内的居民移动行为可预测性普遍在92%以上；进一步分析发现，居民活动行为的可预测性与活动半径存在显著的相关关系；居民一日之内的活动行为可预测性具有明显的时间节律，呈现双波谷的变化特征。

从方法论看，本文基于时空间行为研究范畴内的个体活动惯常性与制约性，在非汇总层面对个体的活动特征进行讨论。这一研究提供了一个更人本化、精细化的城市交通预测研究视角。研究结果表明：尽管居民的时空间活动是自发的和多变的，但事实上因为制约性和惯常性的存在，活动行为具有非常强的规律性和可预测性。基于这样的认识，当本文涉及灾害分析、城市规划、交通管理、市政管理等领域的实践时，精确地对居民时空间活动进行预测便具有科学的依据。

本研究仍存在一定的不足。方法上，将样本的每一个坐标点当做一个孤立点看待，没有考虑样本活动时序特征对于可预测性的影响，即未将居民活动的时序规律性纳入研究框架，下一步有待完善；研究内容上，本文只探讨了居民活动可预测性的度量方式和现象规律，对于行为主体属性以及导致这一现象背后的原因分析不足。下一阶段，要结合居民的社会经济属性，探讨不同类型人群所呈现的可预测性的规律性及背后的成因，为个性化的居民出行引导以及智慧化的城市规划管理服务。

［1］ JONES P，CLARKE M.The significance and measurement of variability in travel behavior［J］.Transportation，1988，15：65－87.

［2］郭文伯，张艳，柴彦威，等.基于GPS数据的城市郊区居民日常活动时空特征——以北京天通苑、亦庄为例［J］.地域研究与开发，2013（6）：159－164.

［3］申悦，柴彦威.基于GPS数据的北京市郊区巨型社区居民日常活动空间［J］.地理学报，2013（4）：506－516.

［4］申悦，柴彦威，郭文伯.北京郊区居民一周时空间行为的日间差异［J］.地理研究，2013（4）：701－710.

［5］申悦，柴彦威.基于GPS数据的城市居民通勤弹性研究——以北京市郊区巨型社区为例［J］.地理学报，2012（6）：733－744.

［6］ KWAN M-P.Interactive geovisualization of activity-travel patterns using three-dimensional geographical information sys-tems：A methodological exploration with a large data set［A］.Transportation Research Part C［C］.2000.185－203.

［7］ SCHWANEN T，KWAN M-P，REN F.How fixed is fixed？Gendered rigidity of space-time constraints and geographies of everyday activities［A］.Geoforum，2008.2109－2121.

［8］ LONG Y，LIU X J，ZHOU J P，et al.Early birds，night owls，and tireless／recurring itinerants：An exploratory analysis of extreme transit behaviors in Beijing，China［J］.Physics and Society，CoRR abs／1502.02056（2015）.

［9］柴彦威.时空间行为研究前沿［M］.南京：东南大学出版社，2015.

［10］ SONG C，QU Z，BLUMM N，et al.Limits of predictability in human mobility［J］.Science，2010，327（5968）：1018－1021.

［11］ SONG C，KOREN T，WANG P，et al.Modelling the scaling properties of human mobility［J］.Nature Physics，2010，6（10）：818－823.

［12］ LU X，WETTER E，BHARTI N，et al.Approaching the limit of predictability in human mobility［R］.Scientific Reports，2013.3.

［13］ LU X，BENGTSSON L，HOLME P.Predictability of population displacement after the 2010 Haiti earthquake［J］.Proceedings of the National Academy of Sciences，2012，109（29）：11576－11581.

［14］王进，史其信.神经网络模型在短期交通流预测领域应用综述［J］.河南科技大学学报（自然科学版），2005（2）：22－26.

［15］姜桂艳，常安德，牛世峰，等.基于BP神经网络的交通数据序列动态可预测性分析方法［J］.北京工业大学学报，2011（7）：1019－1026.

［16］姜桂艳，常安德，李琦，等.基于出租车GPS数据的路段平均速度估计模型［J］.西南交通大学学报，2011（4）：638－644.

［17］刘瑜，肖昱，高松，等.基于位置感知设备的人类移动研究综述［J］.地理与地理信息科学，2011，27（4）：8－13.

［18］周涛，韩筱璞，闫小勇，等.人类行为时空特性的统计力学［J］.电子科技大学学报，2013（4）：481－540.