考虑道路交通状态的公交运行时间预测

2020-06-15 04:34祝佳莉池贤昭耿小情
工程与建设 2020年2期
关键词:决策树道路交通路段

祝佳莉, 陈 鹏, 刘 滨, 池贤昭, 耿小情

(武汉理工大学 交通学院,湖北 武汉 430063)

0 引 言

公交运行时间能够为乘客出行提供路径选择依据,对乘客出行决策而言非常重要。而目前由于交通拥堵等原因,公交运行时间的预测不准确,不光给乘客带来麻烦,也给公交运营调度、计划排班等带来一系列问题。因此建立一种准确的公交运行时间预测模型具有重要的意义。国内外诸多学者对其展开了研究。Teng Jing[1]等基于公交自动定位数据建立预测模型,但没有考虑道路交通状态的影响。辛建霞[2]采用历史数据均值法、时间序列法预测公交路段运行时间,忽略了对运行时间的影响因素的考虑。Marko和Marjan[3]根据历史数据采用回归算法预测公交运行时间,虽然预测结果较好,但是预测模型比较复杂。由于公交车运行时间受到实际交通状况的影响很大,在基于不确定性因素的条件下,任远等[4]考虑了运行时间的非线性、非高斯特点,采用粒子滤波算法实时预测公交到站时间。陈科宇[5]提出了一种基于支持向量回归和区间上下界估计方法的公交行程时间预测方法,考虑了公交运行过程中的不确定影响因素,然而该方法只是将点预测值变成预测区间,并没有将道路交通状态作为变量进行研究。

公交运行时间的不确定性来源有很多,其中道路交通状态的变化是导致不确定性的一个重要因素,已有的方法对于公交车运行过程中受到的道路交通状态影响考虑得较少,缺乏对其指标的深入分析。在考虑以上问题的基础上,本文提出将前车的速度均值及方差作为道路交通状态指标,以量化公交在路段上运行过程中道路交通状态的不确定性,并通过指标相关性分析进行深入研究,在此基础上构建了随机森林模型,用以进行公交运行时间预测。

1 道路交通状态指标选取

1.1 符号表达

为了描述方便,本文中所涉及的字符描述统一如下:

Ω:站点集合。

A,B:站点编号,其中A,B∈Ω,A,B>0,且为整数。

lAB:表示A、B站点之间的路段。

N:公交车集合。

i,k:公交车编号(i,k为自然数),表示公交车到达路段的时间顺序;其中i,k∈N,k

ti:第i辆车的运行时间(ti>0),s。

Δtk,i:第i辆车与第k辆车的车头时距,s。

vari:第i辆车的速度方差,km2/h2。

1.2 指标选取

道路交通状态是指交通运行的整体情况在某一路段或者区域内的客观表现,在一定程度上可以用来表示道路的拥堵情况[6]。公交车在运行过程中主要受到道路交通状态的影响,由于其具有随机性和变化性,如何量化道路交通状态成为提高公交车到站可靠性的关键。

道路交通状态反映了道路的拥挤程度,而车速会由于拥堵程度而变化,路段越畅通,行车速度越快。参考《城市交通管理评价指标体系》,本文采用前车的车速作为衡量道路交通状态的指标[7,8]。

如图1所示,以路段lAB上第i辆公交车为研究对象,第k辆车是在第i辆车之前的某一辆车,假设公交车在路段上不发生串车。

图1 公交运行过程图

2 公交运行时间预测模型

决策树[9]是经典的有监督学习方式,由根节点、内部节点和叶子节点三部分组成。决策树在进行属性划分时容易出现过拟合现象,无法很好地在数据上实现泛化,并且对数据的变化很敏感,不够稳定,无法确保返回全局最优。随机森林算法[10]是对决策树算法的改进,通过构建决策树的时候对数据进行随机训练,预测时综合多棵决策树的结果,能够处理高维度的数据,对误差使用无偏估计,模型泛化能力强,如果有特征遗失,仍可以维持准确度,具有更强的鲁棒性。

随机森林算法可以处理分类问题和回归问题,因此本文构建随机森林回归模型预测公交运行时间,其预测算法流程如图2所示。

图2 随机森林公交运行时间预测算法流程

基于随机森林的公交运行时间预测算法流程为:

(1)从原始数据集D中采用有放回随机抽样法抽取λ个子集Di,Di中样本的容量与D相同。若D中样本为n,每个样本被抽取的概率为1/n,循环抽取n次,D中每个样本抽取的概率为(1-1/n)n,当n足够大时(1-1/n)n≈0.368,保证了子集样本的差异性。

(2)假设模型共有M个特征变量,对每个子集Di随机抽取m个特征,根据基尼系数重复选择决策树最优特征用于分裂节点,直到基尼系数小于设置的阈值,此时生成一棵分类回归树。

(3)每一棵决策树得到一个公交运行时间预测值,计算λ个预测结果的均值作为最后的预测结果,计算公式为:

(1)

式中:λ表示随机森林中决策树的个数,Ti(x)表示第i棵决策树预测的公交运行时间。

本文以MSE(mean square error,均方误差)和MAPE(mean absolute percentage error,平均绝对百分比误差)作为模型的性能评价指标,其计算公式分别为:

(2)

(3)

3 实例分析

3.1 数据采集与处理

本文选取了天津市35路公交的自天塔南至东风里路段2017年10月8-24日的公交数据为实验对象,共800个样本。在进行研究之前需要对原始数据进行预处理,去除对于GPS数据偏离较大的点,对于缺失数据,采用插值填补,将前后两个数据的平均值作为插入数值。以二进制“0”和“1”表示事件发生有无标记高峰和周末。经过处理后得到的预测模型输入数据见表1。选取10月8-22日的700个数据作为公交运行时间预测的学习模型,10月23-24日的100个数据用于分析预测模型的性能。

表1 预测模型输入数据

3.2 指标合理性分析

由于目标车辆i与前车之间有一定的时间间隔,时间间隔的取值决定了用前车的速度作为衡量指标的效果。若取值过大,虽可以有效地定性分析交通状态,但无法反映其时变特征,若取值过小则会导致计算量增大,判别效率低下[11,12]。因此在进行指标选取之前需要分析前后车的车头时距是否满足标准。

通过随机选取路段上车头时距(图3)进行统计分析可知,Δti-1,i的分布基本符合均值为254、方差为59.7的高斯分布,Δti-1,i落在3~7 min范围内的有91%,Δti-2,i也基本上在6~15 min范围内,满足3 min≤Δtk,i≤15 min的要求[13]。因此可以将前面两辆车的速度均值、方差作为衡量目标车辆运行时道路交通状态的指标。

图3 车头时距分布图

3.3 输入变量的选取

本文采用随机森林回归模型进行公交运行时间预测,为保证预测模型的精度,首先需要对指标进行多重共线性判断,选取有效的预测模型输入变量。一般可以采用Pearson相关系数来筛选存在共线性的变量。两个变量之间的Pearson相关系数定义为它们的协方差和标准差的商,计算公式为:

(4)

计算自变量两两之间的相关系数及自变量与因变量之间的相关系数,当自变量之间的相关系数大于0.7,且自变量与因变量的相关系数小于0.05时,则可以认为自变量之间存在共线性,反之可认为不存在共线性。相关性分析结果如图4所示。

图4 共线性判断

图4中,公交运行时间预测模型的输入变量为前车的速度均值、前车的速度方差、前车的运行时间、前车的车头时距、高峰与否、周末与否。从图4中可以看出自变量之间的Pearson相关系数均小于0.7,可认为自变量之间不存在共线性。

3.4 参数设置

在随机森林算法中,决策树的数量和每棵树使用的最大特征数是两个关键参数,构建公交运行时间预测模型的关键是确定这两个参数的取值。随机森林允许单个决策树使用特征的最大数量,因此将该值设置为9。决策树的数量通过试验来决定,试验发现当决策树数量大于100时模型的误差基本稳定,因此在保证模型精度的条件下,本次实验将决策树的数量设置在200。

为分析随机森林预测模型的性能,本文选取了在回归预测方面适用性较广泛的人工神经网络[14](artificial neutral network,ANN)作为对比。构建单层的ANN预测模型,隐藏单元设置为4个。

3.5 结果比较

将考虑道路交通指标与不考虑道路交通指标的随机森林模型进行对比,结果如图5所示。对比两个模型误差,增加了本文所提出的指标之后,考虑道路交通指标模型的MSE降低了42.71 s2,平均绝对百分比误差降低了15.44%,选取的道路交通状态指标提高了公交运行时间预测模型的精度。

图5 不同指标间的随机森林预测结果曲线图

同时在考虑道路交通状态指标的基础上,构建了随机森林和ANN预测模型进行对比,如图6所示。

图6 ANN与随机森林模型预测结果曲线图

由图6可知,随机森林模型预测曲线更加能够反映公交运行时间的变化趋势,拟合效果更好。对比模型的均方误差和平均绝对百分比误差(表2),随机森林模型的MSE为43.66 s2,相较于ANN误差降低了36.15 s2;MAPE为11.66%,相比于ANN,预测精度提高了11.91%。两个指标都说明基于随机森林的公交运行时间预测模型优于ANN。

表2 模型的预测性能比较

4 结 论

本文在提出将前车的速度均值和方差作为目标车辆的道路交通状态指标的基础上,构建了基于随机森林的公交运行时间预测模型。通过天津市35路公交的自天塔南至东风里路段2017年10月8-24日的公交数据进行实例分析,得出以下的结论:

(1)前车的速度均值和方差能够作为目标车辆的道路交通状态指标,将其作为公交运行时间的输入变量后对预测模型的精度有很大的改善。

(2)基于随机森林的公交运行时间预测模型比基于人工神经网络的公交运行时间预测模型精度更高,并且参数较少,操作简单,能够为高精度的运行时间预测提供参考。

猜你喜欢
决策树道路交通路段
冬奥车道都有哪些相关路段如何正确通行
《道路交通安全法》修改公开征求意见
一种针对不均衡数据集的SVM决策树算法
基于XGBOOST算法的拥堵路段短时交通流量预测
高速公路重要路段事件检测技术探讨
决策树和随机森林方法在管理决策中的应用
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
现代道路交通文化景观探究与实践
欢迎订阅2017年《道路交通管理》杂志