利用轨迹数据提取城市居民出行时空分布特征

2022-04-14 07:27陈伟亮杜久升
全球定位系统 2022年1期
关键词:时段轨迹热点

陈伟亮,杜久升

(河南理工大学 测绘与国土信息工程学院,河南 焦作 454000)

0 引言

近年来,随着移动定位技术在手持和车载等移动终端设备上得到广泛应用,越来越多的轨迹数据被保存并上传至网络空间,人们也越来越热衷于记录和分享他们的旅游或者出行的轨迹日志.如国外的雅虎网络相册旅游日志分享平台(Flickr)、推特(Twitter)和国内的微博、微信、滴滴打车平台等,这些数据通过泛在传感器的使用被完整系统地记录下来,为研究人类的行为模式提供了前所未有的机遇与挑战[1].有学者通过对轨迹数据的分析识别出了城市的结构和功能单元,为城市的管理和规划提出了建设性的指导意见[2-8].还有学者通过对轨迹数据的分析及预测识别出了异常的轨迹移动模式[9-10],为阻止犯罪和保障居民的安全提供有价值的信息.除了对人类行为模式的研究,利用轨迹数据预测居民的出行路线并提供智能推荐服务也是一个重要的研究热点[11-14].在轨迹数据的研究进程中,国内外众多专家学者都在积极探索轨迹数据的挖掘与应用,为进一步提高时空大数据的利用价值提供了宝贵的参考经验.

上述研究在不同程度上对城市居民的出行活动和城市空间结构进行了关注,但对于利用出租车上下客事件提取城市的热点区域并发现其与不同城市功能区之间联系的研究还较少.本文拟在前人研究轨迹数据的基础上,利用提取的出租车上下客分布点识别出城市的热点区域,挖掘城市居民出行的时空分布特征及其与城市不同功能区之间的潜在联系.

1 研究方法及技术路线

具体技术路线如图1 所示.

图1 技术路线图

总体分为四个阶段:第一阶段,完成数据库建立、数据清洗及乘客上下车点提取的工作,同时对偏离道路的轨迹数据进行地图匹配;第二阶段,以小时为粒度单位对乘客上下车点进行统计,得出工作日与休息日杭州市区居民不同时段出行活动轨迹的分布特征;第三阶段,对筛选出来的乘客上下车点分别使用基于密度的聚类算法(DBSCAN)和核密度估计(KDE)的方法进行分析,提取出居民出行活动的热点区域;第四阶段,根据第三阶段的分析结果筛选乘客上下车点数量排名前十的区域并将其与爬取到的高德地图兴趣点(POI)数据相匹配,得到相应的城市功能区域并以雷达图的形式展示各指标.

2 预处理及轨迹提取

2.1 数据来源及预处理

实验数据选取自杭州市2014 年9 月的某个工作日与休息日两天约9 000 辆出租车的轨迹数据,数据的属性描述如表1 所示.

表1 杭州市出租车轨迹数据字段描述

从现实世界中获取到的数据不可避免的存在一些问题,如数据的缺失、异常等,出租车轨迹数据也不例外,根据实验分析的需要,从3 个方面对出租车轨迹数据进行预处理,分别是越界值的删除、异常值的过滤和地图匹配.

1)经纬度越界.将在研究区域之外的轨迹数据点剔除.

2)异常值的过滤.对于某些存在缺省值和异常值的轨迹点,作删除处理.

3)地图匹配.一般情况下,正常运行的车辆,其轨迹点应是在相应的道路上,但是由于GPS 定位误差等因素影响,车辆位置存在一定量的偏移,需要对位置进行地图匹配,该处参考文献[15]的方法进行修正.

2.2 出租车上下客事件的提取

出租车轨迹数据中隐藏着丰富的城市信息,运用适当的方法可以提取出居民的出行活动规律,其主要原理为:出租车在运营过程中存在着上客和下客行为,而出租车的乘客上下车点作为某次行程的起迄点,某种程度上也代表了本次行程所产生交通需求的发生与吸引[16].故采用提取出租车乘客上下车点的方法挖掘居民出行的热点区域.

实验数据记录出租车载客状态的字段为“Sta”,当载客状态为空载时,其数据记录为0,当载客状态为载客时,其数据记录为1.同一编号的出租车完成一次载客状态的变更时,即发生了一次上客或下客行为,具体可以概括为以下内容:

1)运营开始,出租车在p1点发生上客事件;

2)行驶一段距离后到达目的地,出租车在p2点发生下客事件;

3)空载状态下行驶一段时间后,在p3点又发生上客事件;

4)载客状态下继续行驶一段时间,在p4点再次发生下客事件;

5)循环以上过程,直至当日该车运营结束.

图2 从出租车司机的角度抽象地概括了车辆行车轨迹片段,图3(a)、(b)分别为部分乘客上车点和下车点在电子地图上的展示.

图2 出租车行车轨迹片段

图3 部分出租车乘客上下车点可视化

3 基于乘客上下车点的时间特征分析

工作日期间,由于上下班通勤,居民乘车的目的性都较强,时空弹性也较小,而休息日期间,因为没有工作的限制,居民出行的随机性更强.考虑到凌晨24:00 至次日06:00 时段车流量较少,研究价值亦不高,故只选取早晨06:00 以后的乘车数据作为实验样本.为了更直观的显示差别,以小时为粒度单位对工作日和休息日两天居民乘车的乘客上下车点数据进行量化分析,得到不同时段居民出行乘客上下车点流量变化的特征曲线,结果如图4~5 所示.

图4 不同时段上车流量统计

由折线图可以看出,工作日全天居民乘客上下车点流量波动幅度都较大而休息日则相对较为平缓,两天的流量变化趋势总体保持一致,峰值分别出现在07:00—09:00 的早高峰、12:00—14:00 的午高峰、以及20:00—23:00 的晚高峰三个时段.

1)工作日期间,从早晨06:00 开始乘客上下车点流量开始陡然攀升,一直到上午08:00 左右达到峰值;午间12:00—14:00 出现了一个小波峰,考虑午间时段有部分乘客选择外出就餐或者去距离工作地点较近的娱乐场所休闲放松;傍晚16:00—18:00 出现了一个骤减的波谷,由于正处于下班高峰时段,居民的出行需求剧增,交通流也随之攀升,造成道路拥堵状况的发生,乘客上车和下车的频率也大大降低;晚间20:00—22:00 乘客上下车点流量达到顶点,23:00 之后才逐渐呈现降低的态势,符合正常工作日居民通勤出行的基本特征.

图5 不同时段下车流量统计

2)休息日期间,除了早间时段的巨大波谷之外,其他时间段的乘客上下车点流量分布相较于工作日而言都比较均衡.非工作日居民的出行活动大多属于个体行为,在出行时间上表现出随机性,如购物、休闲、娱乐等,符合休息日居民出行的基本特征.

4 基于乘客上下车点聚类点的热点区域挖掘

4.1 核密度分析

KDE 算法是一种常用的非参数估计方法[17-18],通常用于计算点、线要素测量值在指定邻域范围内的单位密度,它能够直观地反映出离散测量值在连续区域内的分布状况[19].同时,KDE 算法还遵循地理学的第一定律,即事物之间距离越近,对应联系就越密切,距核心要素越近则获得相应的密度扩张值也越大[20].

设x1,x2,···,xn为单元变量x的独立同分布样本点,则KDE 算法公式为

式中:h为距离衰减阈值,也就是输出带宽;n表示距x处直线距离小于或等于h的所有空间对象的数目;k0为核函数;xi表示第i个核心对象所在位置.在参考文献[21]方法的基础上,经过反复调校和实验对比,确定以350 m 作为理想的搜索半径.

4.2 DBSCAN 聚类算法

DBSCAN 聚类算法是一种较为典型的基于密度的聚类算法,在模式识别、图像处理、生命科学等领域被广泛应用,与k均值聚类算法(k-means)等基于划分的算法不同,DBSCAN 算法不需要预先规定所需分割的类数,而且可以识别任意形状的聚类簇.算法中有两个重要参数:定义密度时的邻域半径(Eps)和定义核心点时的阈值(Minpts).为了方便描述,将Eps 和Minpts 分别标记为 ε 和M,设数据集合X={x1,···,xn},引入以下概念:

1)ε 邻域:设xi∈X,称

为xi的 ε 邻域,其中D为距离函数.显然也有xi∈Nε(xi).

2)核心点、边界点、噪音点:若样本xi的 ε 领域内至少包含有M个样本,即

则称样本点xi为核心点,反之,假如样本数目小于M,但是他在其他的核心点的领域内,样本点xi即为边界点.倘若既不是核心点也不是边界点,那么xi就是噪音点,如图6 所示.

图6 核心点、边界点、噪音点示意图

3)密度直达:如果xi位于xj的 ε 邻域中,且xj是核心对象,则称xi由xj密度直达.

4)密度可达:设样本序列p1,p2,···,pT∈X,其中T≥2.若该样本序列满足pi+1可从pi直接密度可达的,其中i=1,2,···,T-1,则称pT是可以从p1密度可达.密度可达具有传递性.

5)密度相连:对于xi,xj,xk∈X,若xj和xk均可从xi密度可达的,则称xj和xk是密度相连的.密度相连满足对称性.

对于参数ε 和M,根据经验得出,当ε 取值固定不变时,M取值过小,则会产生过多的类簇,还会将一些噪音点也纳入进来对结果产生影响.反之,如果M取值过大,则会产生较少的类簇,还会将大量的非噪音点排除出去,包含对象较少的类簇就会被忽略.本文利用选取多组参数进行敏感度测试的方法,经过多次实验取值对比最终确定样本数据聚类的邻域半径 ε=300 m,阈值M=185.

4.3 实验分析

根据第3 节对居民出行时间分布特征的统计结果,选取07:00—09:00、12:00—14:00、20:00—23:00三个最具代表性的时段进行居民出行热点区域的识别和时空分布特征的挖掘.考虑到休息日居民在出行时间上比较自由,活动区间随机性也比较强,故只取工作日的数据作本节的分析.根据4.1 和4.2 节介绍的方法,针对筛选好的乘客上下车点数据,首先使用DBSCAN 算法提取居民出行热点区域乘客上下车分布点,再利用核密度分析的方法得出居民出行乘客上下车热点的热力状况.

07:00—09:00 时段,如图7(a)~(b)所示,上车热点大都散布在各个交通枢纽、居民住宅区、以及一些商圈酒店附近,各区域的热度值较为均匀;而下车热点则多集聚在城市的商务办公区、政务区以及医院商超等服务集聚区附近,如拱墅区-庆春路、西湖国贸中心板块;上城区-清泰街、第三人民医院板块等.总体来看,早高峰上车热点位置分布相对松散,而下车热点分布更为集聚,主要原因是商务区和办公区在分布上比居民住宅区等要更集中,基本符合早高峰时段居民的出行活动特征.

12:00—14:00 时段,如图8(a)~(b)所示,居民出行的上车热点分布相对集聚且热度值也较高,部分区域已形成一定的规模,这些热点主要集中在各商务中心区、政务办公区以及交通枢纽等附近.以中河高架路和中河中路为例,周边分布有大量的商务大厦、政府机构、写字楼、医院、火车站、旅游景点等,商务办公人群密集,以办公、就医以及休闲出行为主的出租车需求相对较高.该路段还与杭州市的地铁一号线相交,一定程度上承接了部分乘客的短距离出行需求.

图8 午高峰居民出行乘客上下车点热力图

与上车热点相比,下车热点的分布变化不大,考虑到工作日午休时间大部分乘客只是短暂离开公司去午餐或者去就近的休闲场所放松,并不会远距离出行,因此核心热点区域与上车热点相比并没有太大的变动.

20:00—23:00 时段,如图9(a)~(b)所示,该时段也是居民全天出租车需求量最高的一个时间段,相较于其他时段较为单一的出行目的,该时段居民的出行因素更为多样化,这是由杭城丰富的夜生活、个别企业晚间加班以及城市公交系统班次的减少或停运等多重因素共同导致.整体上看,上车热点多集中在商务中心区和办公区等场所,而下车热点主要集中在一些休闲娱乐场所以及住宅小区附近,分布上相较上车热点更为分散,集聚性也更弱.

图9 晚高峰居民出行乘客上下车点热力图

5 基于POI 的城市功能区的发现

由第4 节的分析结果可知,晚高峰是一天中出租车需求量最大、需求因素最多样的一个时段,通过对晚高峰时段居民出行活动规律的分析可以挖掘出隐藏的城市空间信息.选取晚高峰时段乘客上下车点流量排名前十的区域的数据绘制统计图,经过筛选后十个区域分别为:杭州武林广场、龙翔桥、城西银泰城、嘉里中心、黄龙体育中心、西湖文化广场、万塘路、翠苑、凤起苑、三塘,统计结果如图10~11 所示.

图10 晚高峰上车流量排名前十的区域

图11 晚高峰下车流量排名前十的区域

由图10~11 可知,上车点在21:00—22:00 开始出现集聚现象,22:00—23:00 达到高峰.其中武林广场、龙翔桥、黄龙体育中心板块尤为明显.下车点分布则是20:00—21:00 以及22:00—23:00 较多,除了上述区域外,凤起苑、三塘等住宅区板块也较为活跃,但其在21:00—22:00 时段对出租车的需求相对较低.

为进一步探究出租车上下客客流在该十个区域重点集聚的原因,选取风景名胜、餐饮服务、购物娱乐、公司企业、生活服务、住宅小区六个维度指标,利用从高德地图上爬取的各类POI 数据,以雷达图的形式刻画区域的城市功能,最终得到三种类别的城市功能区分类:

第一类:以购物娱乐为主的商圈,该类别地块购物娱乐和餐饮服务发达,风景名胜的数量也相对丰富.典型的代表区域有:杭州武林广场、龙翔桥、嘉里中心、城西银泰城,如图12 所示.

图12 商圈雷达图

第二类:以企业办公为主的商务办公地块,该类别公司企业数量较多.主要代表地区有:西湖文化广场、黄龙体育中心、万塘路,如图13 所示.

图13 办公用地雷达图

第三类:以生活居住为主的居民住宅地块,该类别地块住宅小区数量走高,生活服务和餐饮服务指标也表现良好.主要代表区域有:三塘、翠苑、凤起苑,如图14 所示.

图14 住宅用地雷达图

结合晚高峰时段的乘客上下车点客流可知,武林广场和龙翔桥等板块主要承担居民购物、娱乐、休闲等城市功能,上车和下车热力状况一直保持高涨状态,说明杭城市民下班后去购物休闲是常态,侧面也反映了杭城居民丰富的夜生活;下车点数量在21:00—22:00 骤减,达到一个相对波谷状态,主要是由于加班工作及娱乐消费人群在该时段对出租车需求较低;22:00 以后出租车的下车流量有小幅回升,部分是由晚间结束工作以及购物消费的人群返回私人住处引起,而居民住宅区的分布又较为分散,从而导致晚高峰下车客流集聚效应的减弱.

6 结束语

实验基于海量的出租车轨迹数据,从时间和空间两个维度剖析了杭州市居民工作日与休息日两天出行活动的轨迹特征,给出了一种融合核密度估计与POI 分类的密度聚类算法,实现了对居民出行热点区域挖掘和不同城市功能区的发现.研究表明:城市居民的出行特征除了工作日和休息日之间的区别外,同日不同时段之间也表现出巨大的差异性,并且这种差异性还受到不同城市功能区的影响.本文的研究成果除了可以用来预测居民的出行需求以外,同时也可以为城市规划和交通管理等提供参考意见.

猜你喜欢
时段轨迹热点
解析几何中的轨迹方程的常用求法
轨迹
轨迹
第70届黄金时段艾美奖主要奖项提名
4月高考热点关注
西藏文物 迎来大修时段