出租车GPS数据可视化分析

2019-05-14 08:25任亚飞金睿莫金亮刘法超
数字技术与应用 2019年2期

任亚飞 金睿 莫金亮 刘法超

摘要:本文是对来源于成都科泰科技有限责任公司的《绵阳GPS数据》的提取、分析和利用,详细阐述了基于大数据处理的出租车GPS数据可视化分析。

关键词:大数据处理;GIS地图匹配;出租车GPS数据

中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2019)02-0219-02

出租车平台所产生的数据,没有深入的挖掘有用的信息来透彻分析,会造成信息浪费。本文是对来源于成都科泰科技有限责任公司《绵阳GPS数据》的利用和应用问题,主要进行基于大数据处理的出租车GPS数据可视化分析。通过MATLAB对绵阳出租车GPS数据的算法分析,可以得出本市居民和外来游客的出行特征、兴趣喜好和生活方式等,再结合GIS地图匹配,我们能准确的向出租车上的乘客投放相应范围的优质商家广告,为乘客提供更加优质的服务。

1 分析方案

使用MATLAB、GIS等专业工具提取、处理并存储租车平台所产生的有效数据,结合出租车接客轨迹数据进行分析计算与数据集成,得出出租车上下客的时空分布规律。

出租车GPS轨迹数据提取方案如图1所示,关键技术:(1)大量数据的预处理,包含数据清洗和数据提取,得到可以数据。(2)有效数据分析,包含对出租车车载系统数据类型的分类研究,对不同类型(如时间、经纬度、载客情况等)进行不同的处理。(3)结果可视化图形表示,二维形式的直观图形表示。

2 数据处理

2.1 异常数据处理

本文研究的数据主要使用《绵阳GPS数据》,经查证,四川省绵阳市坐标范围为东经102°45′~105°43′和北纬30°42′~33°03′,市区海拔高度在429m~728m。此范围以外的坐标数据属于异常数据,将该异常数据所在组整组剔除。

空车时VarName10的数值为0,有客时VarName10为1。空重车数据为非0、1时该数据属于异常数据,将该异常数据所在组整组剔除。

此数据包含4368644组数据,样本量很大且表内缺失值所占样本比例<5%,可以使用列删法直接剔除表内缺失数据。

此数据中GPS数据采集时间间隔有15秒采集一次和60秒采集一次两种,本次数据分析的目的是为出租车精准广告投放系统提供精确的绵阳出租车上下客的时空分布规律,60秒时间间隔的数据不采用,只分析15秒时间间隔的数据。

其中,GPS相邻两条数据时间间隔出现异常主要有以下三种情况:(1)出租车GPS信号被高大建筑物遮挡或经过隧道时;(2)出租车GPS传输过程中出现不可避免的延迟和丢包现象时;(3)剔除经纬度和海拔异常数据、空重车异常数据、缺失数据所在组数据时[1]。

由于数据传输延迟一般在2秒以内,所以相邻两组数据时间间隔超过17秒的数据属于异常数据。由于这类数据时间间隔较大,无法计算出上下客点坐标。将时间异常的数据所在组整组剔除,对时间异常数据的剔除前需要对时间进行排序,使用MATLAB的对比函数可以快速实现,可以有效解决个别时间排序混乱问题,提高数据清洗的严谨性。

2.2 数据提取

本文使用的数据来源于成都科泰公司提供的绵阳市交通运输管理处的采集数据,主要使用MATLAB工具进行数据处理。每组数据包含出租车车牌号、记录数据的时间、经度、纬度、高度、Speed、GpsSpeed、RealGpsSpeed、RealSpeed、空重车。空重车变量是0时为空载状态,1时为载客状态。7×24小时不间断采集出租车GPS数据,包含了绵阳1-2月共4368644组数据。

将预处理后的数据按车牌号分组提取出子矩阵,再将每个子矩阵中的数据按时间进行排序,得到相同车牌号并按时间排序的矩阵数据[2]。提取出空重车变量变化时的数据,上下客事件即发生在这组数据。其中,当空重车变量发生变化,初步判断从1变为0为出租车下客点,从0变为1即出租车上客点。

提取出上下客点,可得到某时段的出租车下客空间分布规律。对此数据的分析目的是找出绵阳市出租车乘客出行空间特征,主要是对的上下客地点分布和上下客热点区域进行分析,得到绵阳市区出行吸引量较多的区域,进一步找到这些区域对出行乘客吸引程度高的原因。

3 使用Geographic Information System(以下简称GIS)进行GPS数据和路网数据匹配

3.1 下载电子地图并载入数据

OpenStreetMap(OSM)是一款由网络大众共同打造的免費开源可编辑的地图服务。在OpenStreetMap的官网上直接下载绵阳市电子地图数据。可选数据格式有SHAPEFILE、GEOJSON、OSM PBF、OSM XML等。由于本次数据处理需要使用GIS来进行GPS数据和路网数据匹配,所以选择SHAPEFILE格式下载,进行实验。

将GPS轨迹数据(Excel格式)添加为点数据,将OSM数据转为线数据,GPS轨迹数据坐标系和电子地图的数据坐标系统都是WGS1984地理坐标,不用作坐标转换。但需要在下面的匹配过程中,剔除电子地图中的河流数据和人行天桥数据。

3.2 GPS数据和路网数据匹配

由于数据清洗时剔除了经纬度、海拔、空重车和时间的异常数据和缺失数据,以及数据提取后,400M的原始数据仅剩下8M有用数据,每辆车的数据无法形成轨迹,所以暂时无法使用车辆行驶轨迹和行驶方向等额外信息来进行马尔科夫模型的处理。本文路网匹配先使用几何算法中的点到线距离对比的方法,在后续研究中,加大数据量后可实现对车辆行驶轨迹的处理和分析。

使用GIS投影工具、邻近表工具、连接工具、字符计算器等联合处理,来计算每个GPS距离最近道路的距离。在分析过程中,一部分GPS数据由于信号定位问题,如图2所示定位到河流中(图中金黄色的点为出租车GPS上下客的定位点),其数据可以判断为是不可信的。另一部分的GPS数据由于离道路非常远,如图3所示其最近道路距离值亦非常大,但是根据现有的道路数据,它的计算判断为准确的。

通过获取离GPS数据点最近的道路,计算GPS数据点离道路最近点,求得两点间的距离。最后,得出出租车用户上下客空间分布规律如下图4所示。

4 GPS数据分析应用

近年来,随着GPS智能终端的普及越来越多的人开始习惯于记录并分享轨迹日志。基于这些日志可以分析并挖掘出用户的一些行为特征,从而为用户提供个性化的基于位置的智能服務,有效地提升和改善用户的应用体验。

GPS数据的分析与挖掘可以应用到生活的方方面面,可以通过某路段的平均车速监测堵车情况;可以为打车平台对空车进行实时调度;可以作为城市交通规划的重要依据;可以作为出租车公司管理优化依据;可以用来分析出行高峰时间段和区域之间的具体情况;也可结合消费行业分析客户喜好,从而可作为出行规划和选址的依据。

本文通过MATLAB对绵阳出租车GPS数据的算法分析,得出城市出租车上下客点时空分布规律。在后续研究中,将分析出本市居民和外来游客的出行特征、兴趣喜好和生活方式等,再结合GIS地图匹配,分析得出优秀商家、景点、医疗教育等。最后,结合特殊时段下,出租车辆所在的当前区域内,合适的优质商家、景点、医疗教育等各方面信息投放于出租车内、顶部和后窗上等位置,推荐给乘客和出行大众[3]。

(1)对于顾客方便:基于物理位置的广告,当顾客对广告内容感兴趣时,无需多花费考虑的时间,就可以去广告所展现的地方,体验相应的服务。时效性:用户的行为和兴趣都是有时间限制的,一般广告很多人第一眼看到感兴趣时想要前往的概率是非常大的,可前往距离太远当时并没有时间,想着有时间再去,但是很多时候都会忘记。

(2)由于所推荐的广告并不是店家投放,而是由数据分析得出,避免了粗制滥造,优化了顾客选择体验。

5 结语

本文利用城市出租车GPS轨迹数据的可视化分析,得到城市出行的规律和需求,并结合乘客和出行大众的需求,提出了出租车GPS数据可视化分析对出租车精准广告服务的基础性和重要性,从而为城市出行提供更优质的服务和体验。

参考文献

[1] 何雯,李德毅,安利峰,等人.基于GPS轨迹的规律路径挖掘算法[J].吉林大学学报(工学报).2014(06):1764-1770.

[2] 吴川.出租车车联网大数据平台及时空分布态势研究[D].山东大学,2017(11).

[3] 江文君.试论出租车大数据在城市交通中的应用[J].中国高新区,2017(12):194.

Visualization Analysis of Taxi GPS Data

REN Ya-fei, JIN Rui, MO Jin-liang, LIU Fa-chao

(Sichuan Vocational and Technical College of Communications,Chengdu Sichuan  611130)

Abstract:This paper extracts analyses and utilizes GPS data of Mianyang taxi from the Chengdu Ketai Science and Technology limited liability company. This paper elaborates the visualization analysis of taxi GPS data based on big data processing.

Key words:Big Data Processing; GIS Map Matching; Taxi GPS Data