基于Dropconnect的CorrelationNet预测乘客出租车需求*

2020-04-16 13:31黄敏毛锋钱宇翔沙志仁
关键词:需求预测出租车时空

黄敏,毛锋,钱宇翔,沙志仁

(1. 中山大学智能工程学院,广东 广州 510006;2.广东智能交通系统重点实验室,广东 广州 510006;3. 广东方纬科技有限公司,广东 广州 510006)

进入大数据时代,交通运输管理和控制变得更加数据驱动[1-2]。近年来,大城市的出租车上都配备GPS传感器。在城市交通系统中,出租车在满足城市出行需求方面发挥着至关重要的作用。因其方便、舒适、快捷,已经成为城市中短距离出行的重要交通工具[3]。然而,现阶段出租车服务存在一个矛盾。一方面,出租车空载率较高;另一方面,乘客搭乘出租车困难。这种现象隐含着出租车存在运行效率低的问题,也在一定程度上导致了环境污染和交通拥堵[4]。为了提高出租车服务的运行效率,一个重要的手段就是提高城市每个区域不同时段乘客出租车需求预测的准确性。现有的交通预测方法可以分为两类:基于时间信息方法和基于时空信息方法。大多数预测方法是利用时间信息来预测交通,并且交通数据总是表示为时间序列。最常见的方法是自回归积分滑动平均模型(ARIMA)[5],通过挖掘交通流的时间变化模式,然后利用该信息进行预测。ARIMA模型假设未来时刻的交通量和历史时刻交通量成线性关系。一般来说,未来交通量和历史时刻交通量之间是非线性关系,且存在不确定性。因此,学者们又提出了许多非参数方法来表示交通量时间序列的不确定性和非线性关系,以及预测交通。如:支持向量回归(SVR)模型[6-8],人工神经网络(ANNs)[9-10]和贝叶斯网络[11-12]。直观地说,如果只利用时间信息预测交通,预测准确性是不够的,特别是需要预测多个位置的交通情况。为了提高交通预测的准确性,研究者们进一步提出了使用交通时空特征信息的预测方法。常见的方法有输入向量包含时空信息的深度学习[13],多变量时间序列方法[14-15]和基于张量的方法[16-17]。 这些方法利用由时间特征和空间特征组成的信息进行交通预测,它们通常比基于时间信息的方法能实现更好的预测效果。

对相关文献进行回顾之后,在以前的工作中发现了两个局限:① 基于时间信息的方法(SVR方法,ANNs方法等)忽略了交通空间维度包含的信息,仅仅使用时间维度的信息用于预测。而,交通系统是一个时空维度高度相关的系统[18];② 基于时空信息的方法,一个难点在于确定用于交通预测的时空特征信息,尤其是空间维度的特征信息。时空特征信息的确定将很大程度影响预测精度。上述所有方法,很难说在任何情况下一种方法明显优于其他方法。一个重要原因是,交通预测准确性很大程度取决交通时空特征信息的选择。但研究表明[13],在使用深度学习方法进行交通预测时,具有良好的预测能力和鲁棒性。本文结合基于时空信息方法和深度学习方法,提出一种使用dropconnect方法的深度学习网络CorrelationNet, 用以预测乘客出租车需求。 该方法包括两个阶段:时空特征选择和dropconnect正则化[19]。 在第一阶段,分别分析乘客出租车需求在时间维度上和历史时刻出租车需求的相关性,以及在空间维度上和附近区域出租车需求的相关性,并根据相关性分析结果确定用于交通预测的时空特征信息。另外,所设计的深度神经网络添加了时空相关性分析机制,形成了新的深度学习网络CorrelationNet。 在第二阶段则使用dropconnect训练新的深度学习网络CorrelationNet,以防过度拟合。研究成果能有效提高乘客出租车需求预测的有效性。

1 乘客出租车需求预测方法

1.1 基于时间信息方法

DN=(d1,d2,…,dN)

(1)

(2)

其中,f1(·)表示乘客历史出租车需求到未来时刻乘客出租车需求的映射函数。

1.2 时空相关性分析

基于时间信息的方法仅利用交通的时变特征信息,该方法需要解决的关键问题是,选择前几个历史时段的乘客出租车需求用于未来时刻的预测。本文利用相关性分析来确定用于预测未来乘客出租车需求的历史时段数目,并确定和各个区域乘客出租车需求相关性大的相邻区域。 本文采用的相关性分析指标是皮尔逊相关系数。

(3)

其中,k表示用于预测乘客未来出租车需求的历史时段数目,wi表示第i个时段乘客出租车需求对于未来时刻预测的相关权重。

(4)

(5)

(6)

通过计算di与其前k个时间间隔的时间特征之间的皮尔逊系数,可以得到一个相关系数矩阵:

(7)

(8)

其中,cov(di,dj)表示di、dj之间协方差,D(di)表示di方差。

将乘客出租车需求表示成时间序列,通常未来时刻乘客出租车需求与其前几个时段需求相关。一般地,相关系数大的值,其对应的时间特征之间的相关性也大。对于每个时间间隔,通过移除相关系数小的时间特征,并确定h个时间特征用于乘车出租车需求预测。

1.2.2 空间相关性分析 乘客出租车需求空间相关性分析类似于时间相关性分析。不同之处在于,空间相关性分析只计算区域乘客出租车需求与其相邻区域的皮尔逊系数。一个重要原因是在大城市,土地通常被规划为不同的功能区域。城市居民在相同的功能区域具有相似的出行模式。因此,本文假设每个区域乘客出租车需求和其相邻区域乘客出租车需求存在很大相关性。

(9)

对于每个区域Rj(j=1,2,…,M),计算与其相邻区域dk,Rk∈A(Rj)的皮尔逊系数,可以得到区域Rj和其相邻区域的相关系数向量Σj={Σj,k,Rk∈A(Rj)},并有:

(10)

对于每个区域Rj(j=1,2,…,M),将确定2个空间维度上和其乘客出租车需求相关性大的区域。本文只选择2个空间相关性大的区域的原因是一些区域只有三个相邻的区域,如果选择3个或更多的空间特征用于预测,可能导致过拟合。

1.3 Dropconnect

通过时空相关性分析,选择用于乘客出租车需求预测的时空特征信息后,本文的研究问题可以进一步描述为:

对于多个区域Rj(j=1,2,…,M),在时间T(第i时间段内),将各个区域的时空特征信息综合考虑,表示为:

X=(x1,x2,…,xM)T

Rj1,Rj2∈A(Rj)

(11)

(12)

其中,f2(·)表示乘客历史出租车需求时空特征信息到未来时刻乘客出租车需求的映射函数。

本文采用深度学习方法来预测每个区域乘客出租车需求。尽管已经确定了用于预测的时空特征特征,但有些选择的特征信息也可能和未来乘客出租车需求相关性小,甚至可能不相关。本文通过在神经网络全连接层使用dropconnect[19]方法来表示这种不相关性。图1给出了dropconnect网络的图示。

图1 Dropconnect网络

在dropconnect网络,随机地将节点中的每个与其相连的输入权重以1-p的概率变为0。在训练阶段期间,神经网络全连接层就会随机变成各种稀疏的连接层,以减少过拟合。实验表明,dropconnect可以提高神经网络的泛化能力,提高预测准确性。

对于一个全连接网络,假设输入层是x,权重参数为W,偏置参数为b,激励函数为a(·),输出层为y,则可以将全连接层输出用公式(13)表示:

y=a(Wx+b)

(13)

在神经网络全连接层使用dropconnect方法时,输出层可以表示为公式(14):

y=a((P·W)x+b)

(14)

其中,P是掩膜矩阵,它的每一个元素都满足二项伯努利分布Pij~Bernouli(p)。

本文提出使用dropconnect方法的CorrelationNet用于乘客出租车需求预测,具体框架如图2。和深度神经网络比较,本文设计的神经网络,在输入层和特征空间之间添加了时空相关性分析机制,这种新的神经网络称之为CorrelationNet。同时将dropconnect应用于神经网络每个隐藏层的全连接。 Lv等[13]指出,用神经网络进行交通预测,隐藏层的最佳数量至少为2且不超过5,本文中的CorrelationNet由三层隐藏层组成。

图2 使用dropconnect的CorrelationNet

本文在时间维度,将1天分成N个时间段;在空间维度,将实验区域划分成M个等面积的小区域。本文的主要目的是根据乘客历史出租车需求时空特征信息,预测M个区域未来的乘客出租车需求。

从图2可以看出,乘客出租车需求预测主要包含两个步骤:时空特征选择和模型学习。在步骤一,采用时空相关性分析,选择和未来乘客出租车需求相关性大的时空特征信息。通过相关性分析,从M×N维输入特征信息中选择M×(h+2)维时空特征信息用于预测。步骤二的模型学习是个监督学习问题。本文设计的CorrelationNet在每层隐藏层使用dropconnect方法。在隐藏层1,dropconnect权重参数矩阵维度是(h+2)×n1,并采用Relu函数作为激励函数,就可以在隐藏层1得到M×n1维数据,并作为隐藏层2的输入。经过三个隐藏层,最终在输出层得到M×1维数据作为预测结果。

(15)

(16)

2 实例应用和结果

广州位于中国南部,是广东省的省会,常住人口约1 500万人。为了评估新的深度学习网络CorrelationNet的性能,将该算法应用于广州市乘客出租车需求预测中。本文使用平均绝对误差(MAE)和均方误差(MSE)来评估预测方法的准确性,并将实验结果与支持向量回归(SVR)方法,人工神经网络(ANN)方法的预测结果进行对比。

2.1 数据描述和预处理

实验数据集是来自广州市1 800多辆出租车在2015年6月1日至6月24日之间的6亿多条GPS记录。每条记录包含出租车ID,GPS记录时间,GPS记录的位置信息(经纬度),出租车的速度,出租车载客状态等。 通过地图匹配和检测出租车载客状态变化,可以对出租车每次载客的行驶路径复原。

首先,确定乘客出租车需求预测的时间间隔。在交通预测问题中,时间间隔通常取5到30 min,进行短期交通预测。HCM[20]推荐使用15 min作为时间间隔,以利于后期的交通分析。然后,要解决的另一个重要问题是区域划分。通常,出租车司机在某个区域下客后,他们会行驶到该区域及附近区域乘客经常搭乘出租车的地点。这样的区域不能划分太大,否则出租车司机就需要花费较长时间在该区域寻找需要搭乘出租车的乘客。本文采用Veloso等[21]在研究中的区域划分方法,使用500 m×500 m的小方格将实验区域划分成等面积的小区域。通过该方法,可以将实验区域划分为983个小区域,本文选择了983个小区域中的200个小区域进行实验,选择的区域如图3所示。图3中,一些区域无乘客搭乘出租车的数据,则删除这些区域。

图3 实验区域乘客出租车需求热力图

2.2 评价指标

很多指标可以评价实际观测值和预测值之间的误差,从而评估所提出预测方法的性能。本文使用两个指标:平均绝对误差(MAE)和均方误差(MSE)来评估预测方法的准确性。该两个指标的定义如下:

(17)

(18)

2.3 实验结果

将所提出的深度学习网络CorrelationNet的实验结果,与支持向量回归(SVR),人工神经网络(ANN)和CorrelationNet方法的预测结果进行对比。 SVR和ANN方法是基于时间信息的预测方法。SVR法是通过寻找函数,拟合未来乘客出租车需求和历史乘客出租车需求的线性及非线性关系。ANN法是将历史乘客出租车需求输入神经网络,通过最小化乘客出租车需求观测值和预测值的误差平方和训练网络,然后进行预测。后两种方法是基于时空信息的预测方法,差别是CorrelationNet方法在神经网络的各层隐藏层没有使用dropconnect。文中,使用广州市2015年6月1日至6月21日之间工作日的出租车GPS数据进行实验。以6月1日至6月5日、以及6月8日至6月12日的数据作为训练集, 6月15日至6月19日的数据作为测试集。

表1给出了四种方法对测试数据集的预测结果。从表中可以看到,SVM方法在0~15 min和15~30 min时段内,乘客出租车需求预测优于ANN方法。这表明SVR方法是一种相对先进的预测模型,优于其它许多预测方法。将ANN方法与CorrelationNet方法进行比较,可以看出基于时空信息的方法比仅利用时间信息的方法拥有更好的性能。对比基于时空的两种方法,可以看到使用dropconnect的CorrelationNet方法比CorrelationNet方法有更好的预测效果。这是因为在CorrelationNet中使用dropconnect可以减少过拟合,提高预测精度。另外,基于时空信息的两种方法比基于时间信息的两种方法,能达到更好的预测效果。在所有四种方法中,使用dropconnect的CorrelationNet方法具有最好的预测效果,这表明本文提出的方法更适合于乘客出租车需求预测。

图4-5可视化了四种方法的预测结果。从图中可以看出,对于0~15 min和15~30 min时段内的乘客出租车需求预测,使用dropconnect的CorrelationNet方法和SVR方法都可以达到不错的预测结果。但,使用dropconnect的CorrelationNet方法在拟合偏差点方面比SVR方法具有更好的性能。对于ANN方法和CorrelationNet方法,可以看到一些区域乘客出租车需求预测结果是负值,和实际不符。这解释了使用dropconnect的CorrelationNet方法性能优于CorrelationNet方法的原因:当采用CorrelationNet方法进行预测时,利用训练数据集训练的网络过拟合,因此它无法在测试数据集上达到良好的预测性能。

图4 [0,15]min SVR, ANN, CorrelationNet and CorrelationNet with dropconnect方法的可视化预测结果

图5 [15,30]min SVR, ANN, CorrelationNet and CorrelationNet with dropconnect方法的可视化预测结果

表1 SVR,ANN, CorrelationNet,CorrelationNet with dropconnect预测结果对比

3 总 结

深度学习和大数据挖掘, 在交通管理和控制方面的应用引起了学者关注。本文提出一种使用dropconnect的CorrelationNet方法,用于乘客出租车需求预测。该方法可以自动提取用于出租车需求预测的时空特征信息,并且减少过拟合,提高预测精度。实例证明,本文的预测算法在预测效果方面优于SVR, ANN及CorrelationNet方法,更适合用于乘客出租车需求预测。利用该算法更有助于提高出租车服务和运行效率,使出租车在城市出行中变得更有竞争力。

出租车GPS数据不可避免的问题是数据缺失。在未来的工作中,将研究在不同数据缺失率情况下各方法的预测效果。此外,还将引入基于张量的方法以预测乘客出租车需求。

猜你喜欢
需求预测出租车时空
跨越时空的相遇
浅谈需求预测在企业中的应用
镜中的时空穿梭
乘坐出租车
基于BP神经网络的济南市物流需求预测
基于灰色模型对上海市电力需求预测分析研究
玩一次时空大“穿越”
凭什么
时空之门
开往春天的深夜出租车