基于BP神经网络的公交动态行程时间预测方法研究❋

2020-12-18 03:40王舒康

中国海洋大学学报（自然科学版） 2020年2期

韩勇，周林，高鹏，王舒康，陈戈

(1.中国海洋大学信息科学与工程学院，山东青岛 266100；2.青岛海洋科学与技术国家实验室区域海洋动力学与数值模拟功能实验室，山东青岛 266237；3.青岛市交通运输公共服务中心，山东青岛 266001)

随着我国社会经济快速发展，城市化步伐不断加快，城市交通拥堵问题日益凸显，公共交通作为高效利用道路资源的交通方式，可有效地缓解城市道路交通拥堵，如何对公交行程时间进行精准预测，从而缩短城市居民候车时间，提高公交决策部门调度决策能力，提升公交服务吸引力，是城市公共交通智能化发展的迫切需求。目前，国内外学者在行程时间预测领域已经取得了广泛的成果，预测方法包括了历史趋势方法的预测[1]、卡尔曼滤波模型方法[2]、非参数回归模型预测[3]、支持向量机模型[4]及人工神经网络模型[5]等。然而，现有预测模型多针对静态的路段过程，即直接对出发点到目的地之间的路段过程进行时间预测，而公交行程是随时间、站点变化的连续时空过程，现有预测方法无法直接应用到连续站点的公交行程时间预测中，这些弊端都影响了公交行程时间预测的准确性。本文综合考虑时间周期、站点、站间距离、天气等多种影响因素，针对动态路段过程，构建了面向连续站点的公交动态行程时间预测模型，实现了对跨越多个站点公交行程时间的预测，最后通过实例分析，对本模型的有效性和精度进行验证。

1 公交行程时间影响因子分析

公交车行程时间的准确预测是交通流诱导体系中的关键一环，影响公交车辆行程时间预测的因素[6-7]具有随机性和不确定性，且复杂多样[8]。总体来说，可以将影响因素分为两类：一类是相对不变的因素，如每一条线路中公交站间之间的距离、站间的路口数量与红绿灯数量及公交站所属的区域等；另一类则是动态变化的因素，如天气因素、节假日、早晚高峰等。本文基于现有获取的数据，通过对公交车辆的运行特征和道路环境的实际考察和分析，最终确定预测模型的输入变量及理由如表1所示。

表1 公交行程时间影响因子

2 BP神经网络介绍

2.1 BP神经网络基本原理

BP神经网络是一种多层前馈神经网，其基本思想是：利用网络的预测输出与期望输出之差对网络的各层连接权重进行由后向前的修正，通过大量训练样本的训练，使损失函数的值收敛到事先规定的某个阈值之内，或是达到预先设定的迭代次数，网络停止传播，训练完成。其拓扑结构如图1所示。

该算法重复两个阶段的循环，即信号的正向、反向传播和权重的更新过程。首先输入信号从正向逐层向前传播：

输入样本→输入层→各隐含层(处理)→输出层。

然后使用损失函数将输出层的结果与期望的输出进行比较，如果不符合，那么误差值会被反向传播：

输出误差(某种形式)→隐含层→输入层。

图1 BP神经网络拓扑结构

2.2 参数分析

(x1,x2,……，xm)为输入数据集，为输入层第i个神经元与隐藏层第k个神经元的连接权重，为隐藏层第k个神经元与输出层第j个神经元的连接权重，(y1,y2,……，yn)为输出数据集，a为隐藏层阈值，b为输出层阈值，在训练开始之前a，b是随机初始化为[0,1]区间的值，对于BP神经网络模型，本文主要优化其连接权值与阈值。

3 基于BP神经网络的公交动态行程时间预测模型

3.1公交动态行程时间预测原理

本文的公交行程时间包括两部分：公交静态行程时间与公交动态行程时间。公交静态行程时间是指公交车通过相邻两个站点间的行程时间。公交动态行程时间是指公交车经过多个连续站点的行程时间。

假定在t时刻，公交从第i站到i+1站的行程时间公式为：

Ti=f(i,t)。

(1)

那么，从第i站开始到第j站的整个公交行程时间是：

T总=f(i,t)+f(i+1,t+Ti)+…+f(j,t+

Ti+Ti+1+…+Tj-1)。

(2)

由公式(2)所示，它并非是将某个t时刻所有站点行程时间进行累加，从i到i+1站的运行时间是Ti，那么从i+1站到i+2站之间的运行时间并非是t时刻的运行时间，而是t+Ti时刻的运行时间，对于动态行程，公交车在经过不同站点的时刻不同，因此，无法用单一时刻的所有站点的静态行程时间的简单累加来表征连续时空过程下的动态行程时间。故对于从公交车在任意t时刻从i站到j站的运行时间是一个迭代求解的过程，其原理如图2所示。

因此，本文对于公交车动态行程时间的预测分为两个部分：首先基于BP神经网络对公交车静态行程时间预测模型进行设计；然后再基于静态行程时间预测模型对连续多个站点的公交动态行程时间预测模型进行设计，实现对跨越多个连续站点的公交动态行程时间的预测，其预测流程如图3所示。

图2 公交动态行程时间计算原理

图3 公交动态行程时间预测流程设计

3.2 公交静态行程时间预测模型

公交静态行程时间预测即是对公交相邻站点的公交行程时间进行预测，该步骤是公交动态行程时间预测的重要基础，因此，构建出可行、准确的公交静态行程时间预测模型就显得十分重要。本文基于BP神经网络，利用其能较好的拟合非线性特征的这一优势，结合公交历史数据集，构建出公交静态行程时间预测模型，其构建流程如图4所示，构建方法主要分为以下步骤：

图4 公交静态行程时间预测模型构建流程

(1)对公交历史数据进行预处理，剔除异常值，提取特征因子，构建输入、输出数据集。

(2)根据输入、输出数据集的维度及体量构建BP神经网络，包括网络层数、各层神经单元个数及激活函数的选择，各层网络权值、阈值及学习率的初始化等。

(3)将输入数据集按照一定比例划分为训练集、验证集及测试集，对网络进行训练，该过程包含两个过程，信息正向传播过程与误差反向传播过程，正向传播计算各层的输出结果，反向传播，采用梯度下降策略，对各层权重以及阈值进行调整，当输出层的结果与期望的输出值的误差收敛到预先设定的某个阈值之内或是达到预先设置的迭代次数，训练停止。

(4)使用测试集检验评估模型的预测精度，若不符合要求，需重新调整网络结构或训练数据集的结构和体量，重新进行模型训练，直至符合预测要求为止。

(5)将公交数据输入模块与训练好的预测模型进行集成，得到公交静态行程时间预测模型。

3.3 公交动态行程时间预测模型

公交动态行程时间预测即是对连续多个站点的公交行程时间进行预测，它是以公交静态行程时间预测模型为基础，采用动态迭代的方式，将单个站点的公交静态行程时间进行动态叠加，得到连续站点的公交动态行程时间。其构建方法主要分为如下步骤：

(1)获取在上一节构建的公交静态行程时间预测模型。

(2)根据公交车行程时间预测需求，从公交数据库中提取所需数据，并且按照模型输入格式生成预测数据集。例如：需要预测125路公交在明天上午8:43时刻从“海大崂山校区”到“国信体育馆东站”间的行程时间，根据前文输入变量的确定，需要从数据库提取125路公交台东方向8:40时刻(8:43时间聚类属于8:40时刻)在海大崂山校区的公交车昨天以及上周的运行时间，明天的天气情况，同时还有“海大崂山校区”到“国信体育馆东站”之间的路段所在区域、星期等；

(3)在生成预测数据集后，将第一站的数据输入预测模型进行预测，将预测所得第一站静态行程时间与需求中的起始时刻进行累加(非时间聚类后的时间段)，根据累加时间结果判断是否超过了10 min的时间聚类阈值，如果超过则需要更新下一站预测数的起始时刻，否则不需要更新，更新时间点示例如图5所示。

(4)重复第(3)步，将之前的起始时间与该预测时间进行累加，作为下一个站点的输入变量，依次迭代计算出预计到达目的站点的行程时间，直到根据预测需求已将所有站点预测结束，最终输出公交车连续行程时间的预测结果。

4 实例分析

4.1 数据获取

本文以青岛市城市公交为研究对象，以具有代表性的125路公交车为例进行公交动态行程时间预测。如图6所示，125路公交车运行线路遍布整个青岛四大主城区，市南区、市北区、李沧区、崂山区，起点站为海大崂山校区站，终点站为台东站，途经公交站点40个、全程运营里程为26 km，首班车发车时间6:40,末班车发车时间为21:40,发车间隔为10 min，是青岛市的主要公交线路之一。选择数据的时间跨度为2014年10月上旬至12月上旬，包括双休以及节假日，数据量达到24万条，“天气后报网”可以提供历史的天气数据，“中国空气质量在线监测分析平台”可以提供相关空气质量信息，具体的原始数据形式及字段说明如图7、图8和表2、表3所示。

图5 更新时间点示例

图6 青岛市125路公交线路图

图7 青岛市125路公交线路图

图8 天气信息样例数据

4.2 参数设定

4.3 评价指标

首先，为了评价模型的预测效果，本文将BP神经网络、SVM与LR进行横向对比；其次，本文采用交通信息预测领域通常采用的评价指标，如MAPE、MAE、MedAE、RMSE和R2确定系数等，对模型进行评价；最后将静态公交行程时间预测模型与动态公交行程时间预测模型的预测结果进行对比，通过对比来进一步突出基于BP神经网络的公交动态行程时间预测模型预测特点及适应性，上述指标具体公式如下：

“核心素养”这一概念涵育了学习方式和教学模式的变革。书法作为极富中华文化特色的艺术形态，其审美、技法都是根植于中国传统哲学思想和文化背景的，是我们向青少年传递中华美学，落实华夏文化，培养核心素质的重要载体和有效途径。书法的主阵地是书法课堂。对书法课堂教学内核、要素、实施路径、评价导向等等问题的研究，将为我们开启书法“核心素养”时代的大门。

(1)MAPE(Mean Absolute Percentage Error)，即平均绝对误差百分比，是衡量预测精度的指标之一，其值越小，代表预测效果越好，其公式为

(3)

表2 公交车到离站表结构

表3 天气信息数据属性结构

(2)MAE(Mean Absolute Error)，即平均绝对误差，绝对值防止误差相互抵消可以更好的反映误差的实际情况，其公式为

(4)

(3)MedAE(Median Absolute Error)，即中值绝对误差，它通过计算真实值和预测值之间误差绝对值的中位数，将异常值对预测效果的影响去除，是数据异常性的稳健度量，其公式为

MedAE(Rt,Ft)=median(|R1-F1|,
|R2-F2|,…,|Rn-Fn|)。

(5)

(4)RMSE(Root Mean Squared Error)，即均方根误差，通过计算预测值和真实值之间误差平方和均值的平方根来衡量预测值和真实值之间的偏差大小，是描述预测模型精确度的一种方式，其值越小，说明预测模型越准确[12]，其公式为

(6)

(5)R2确定系数(Coefficient of determination)，它通常用来评价模型的解释能力，即反映了模型的拟合程度，可以衡量未来预测数据是否可以被预测模型预测[13]。R2越接近1，模型的拟合程度越高。其公式为:

(7)

上述各公式中：Rt表示真实值；Ft表示预测值；式(7)中Rt.mean表示所有目标输出值的均值。

4.4 预测结果

为了将模型进行横向对比验证，我们选取不同环境下的测试数据对模型进行验证，以全面考察不同模型的预测效果。因此，我们将测试数据分为两种类型，一种是正常环境，如晴天、非高峰期、非拥堵路段、非节假日；另一种是异常环境，如雨天、高峰期、拥堵路段、节假日。我们选择晴天、非高峰期、非拥堵路段、非节假日的公交运行数据，根据以上要求，我们选择2014年12月4日、周四，时段为9:30，125路公交车开往台东方向在市南区的“银川路”站至“延安路南站”共计22站为测试站点对模型进行测试，预测效果对比如图9所示，所有误差指标计算结果如表4和5所示。

图9 正常环境不同预测模型对比

从图9可以看出，基于BP神经网络的公交动态行程时间预测模型的整体预测趋势与目标输出更加接近。由表4可以看出，基于BP神经网络的预测模型的预测误差稳定性更好，精度更高，误差均在50 s之内。观察表5，其模型解释能力(R2确定系数)最好，为0.905 1，而基于SVM的预测模型的R2确定系数为0.743 6，与基于BP神经网络的预测模型相差0.161 5，其绝对误差百分比也是三者中最低的，为11.74%。基于LR的预测模型的虽然拟合效果也较好，但是从平均绝对误差百分比(MAPE)，平均绝对误差(MAE)，均方根误差(RMSE)可以看出，基于BP神经网络的预测模型的精度更高，误差更小。由此可见，从总体指标综合来看，本文的基于BP神经网络的公交动态行程时间预测模型精度更高、效果更好。

表4 正常环境实际运行时间与预测值对比

续表4

站点Station实际运行时间Real travel tims/sBP绝对误差BP absolute errorSVM绝对误差SVM absolute errorLR绝对误差LR absolute error辛家庄165.5014.043 3-11.716 6-2.416 2远洋广场413.00-41.779 2-155.704 6-76.181 9浮山所128.331.682 012.885 3-2.874 6二中分校145.0032.914 920.894 224.286 9徐州路56.50-2.439 2-0.039 2-11.931 9山东路南站152.506.052 9-6.405 50.536 9泰州路201.67-33.566 6-46.121 3-35.129 8芝泉路93.00-1.118 9-3.249 6-10.681 9延安路南站191.7548.140 029.420 646.474 4

针对异常环境，我们选择雨天、高峰期、拥堵路段、节假日的公交运行数据，拥堵路段数据的选取具有动态性与相对性，因此，我们选择2014年12月6日(周六)，时段为8:30，125路公交车开往台东方向在市南区的“麦岛”站至“芝泉路”站共计11站为测试站点对模型进行测试，预测效果对比如图10所示，所有误差指标计算结果如表6和7所示。

表5 正常环境不同模型的评价指标

图10 异常环境不同预测模型对比

从图10中可以看出，三种模型在总体预测趋势方面均能与目标输出吻合，基于BP神经网络的公交动态行程时间预测模型的整体预测趋势与目标输出更加接近，由表6可以看出，基于BP神经网络的预测模型的预测误差稳定性更好，精度更高，其最大绝对误差为83.526 3 s，最小绝对误差为1.677 8 s，平均绝对误差低于其他两类预测模型。观察表7，基于BP神经网络的预测模型的解释能力(R2确定系数)最好，为0.815 4，而基于LR的预测模型的R2确定系数为0.563 3，与基于BP神经网络的预测模型相差0.252 1，其平均绝对误差百分比(MAPE)、中值绝对误差(MedAE)、均方根误差(RMSE)也是三者中最低的，分别为17.95%、17.60、34.47，表现出较好的预测性能。三类模型在异常环境下预测结果的各项误差指标值均高于其各自在正常环境下的预测结果的误差指标值，因为，在异常环境下，交通状况更加复杂，不确定因素影响更加显著，行程时间普遍更长，这与日常出行规律相符。综合不同环境下预测结果误差指标值来看，本文的基于BP神经网络的公交动态行程时间预测模型在正常环境与异常环境下均表现良好，预测结果精度更高、效果更好。

表6 异常环境实际运行时间与预测值对比

表7 异常环境不同模型的评价指标

为进一步说明基于BP神经网络的公交动态行程时间预测模型对公交车在连续时空过程中对运行时间这一动态特征的拟合能力，本文将基于BP神经网络的公交静态行程时间预测模型与公交动态行程时间预测模型进行对比，同理，我们选取与上文相同的正常环境数据和异常环境数据，以此来测试公交动态行程时间预测模型的预测能力，正常环境测试数据预测效果如图11所示，各项评价指标如表9所示，异常环境测试数据预测效果如图12所示，各项评价指标如表10所示。

由图11可知，公交静态行程时间预测模型与公交动态行程时间预测模型的预测曲线总体均符合真实趋势。由于进行了10 min为一个单位的时间聚类划分，在站点数量较少时，由于各站间行程时间累计总和未超过10 min的阈值，故静态预测模型与动态预测模型的预测效果相同(即图11、图12中两种模型的曲线相重合)，但是随着站点增多，公交行程时间累计超过10 min后，如图11中，从青岛大学东院站开始，其后的路段可以明显看出，基于本文的对连续站点的公交行程进行时空维度的多次迭代的预测效果更加贴近真实值，从表9中的各项评价指标对比可以看出，基于本文的连续站点动态预测模型的预测结果均优于静态预测模型。综合表8和9来看，公交静态行程时间预测模型与公交动态行程时间预测模型在异常环境下各项评价指标的值均明显优于其各自在正常环境下各项评价指标的值，说明公交静态行程时间预测模型与公交动态行程时间预测模型的预测性能均受环境因素的影响，但公交动态行程时间预测模型受环境因素影响较小，显示出其在复杂环境中独特的预测优势。这进一步验证了基于本文面向连续站点的公交动态行程时间预测模型对于公交行程时间的预测处理更加稳定，预测效果更好。

图11 正常环境公交静态预测模型与动态预测模型对比Fig.11 Comparison of bus static prediction model with bus dynamic prediction model in usual condition

图12 异常环境公交静态预测模型与动态预测模型对比

表8 正常环境不同模型的评价指标

表9 异常环境不同模型的评价指标

5 结语

基于BP神经网络构建了公交车动态行程时间预测模型，采用青岛市125路公交车的历史运行数据，结合5个评价指标，对预测模型进行了多维度评价。结果表明，本文构建的公交动态行程时间预测模型较好地预测了跨越连续多站点的公交行程时间，使用该模型可实现连续多站点的公交行程时间预测。由于影响公交车行程时间的非确定因素很多，人工选取特征的方法有一定局限性，未来将结合深度学习的特征自学习能力进一步提高模型的预测精度。