基于深度强化学习的交通灯配时优化

2019-12-23 03:24

福建质量管理 2019年22期

关键词：交叉口路网卷积

(沈阳理工大学辽宁沈阳 110159)

目前，普遍的交通灯配时方法是及与强化学习方法进行的，且普遍应用于单交叉口，然而，强化学习方法局限于动作空间和样本空间都很小的情况。交通路网的状态往往是复杂的，往往用强化学习的算法会忽略路网本身特征。只对单交叉口进行控制会出现拥挤扩散问题。

本研究基于深度强化学习对全路网搭建合适的交通灯配时模型，使用这种方法提取有效的特征进行预测，调整参数，得到最佳结果。

一、基于多感受野路网的感知型交通配时模型

(一)多感受野路网模型

因为像素具有自然的空间顺序，传统的卷积神经网络的应用于图像中，但是路网中道路的状态不似图像具有自然顺序的空间位置信息，卷积神经网络在处理交通路网状态数据时需要具备一定的刻画空间特征的能力。因此本研究提出的方法需要将路网中道路状态转换成具有空间顺序的状态。将路网划分成多个相互重叠的感受野，既保证了感受野之间的联系，又保证了路网感知的全局性。

(二)基于多感受野路网的深度强化学习模型

1.状态

我们根据整个路网的道路拥挤度定义状态S。先将整个路网分成若干个感受野，感受野为若干条道路的集合，然后将感受野中道路的车辆密度规范化为密度矩阵C，将矩阵C确定为对路网状态S的表示方式输入到卷积神经网络中。

2.动作

动作At是路网中所有交叉口相位a(x)t∈A,A={0,1}的序列，在我们的实验中采取两个相位。相位一就是南北方向上的车辆允许通行，东西方向上的车辆禁止通行，相位二是东西方向上的车辆允许通行，而南北方向的车辆禁止通行。交叉口x在时间步t时的相位表示为a(x)t，当选择相位一时，a(x)t=0，反之选择相位二时，a(x)t=1。

3.奖励值函数

wx,t为交叉口x的入边车辆在时间步t的信号时长内的总和。当上一时间步t-1的累计车辆数小于时间步t的累计车辆数时，智能体应该受到惩罚。反之，当上一时间步t-1的累计车辆数大于时间步t的累计车辆数时，智能体应该受到奖励。所以，交叉口x第t个时间步的奖励rx,t如下公式1定义：

rx,t=wx,t-1-wx,t

(公式1)

4.DQN模型

本研究中，将控制问题建模为强化学习问题。然后，利用深度卷积神经网络从原始实时交通数据中提取有用的特征，并输出最优的交通信号控制决策。交叉口复杂的交通状况构成了巨大的交叉口状态，很难找到这些状态的转换概率。我们不直接求解公式2，而是利用参数化卷积神经网络(cnn)来近似这些最优Q值q(s,a)，从而使神经网络的输出Q(s,a;θ)≈Q*(s,a),其中θ是将从原始交通数据中学习的特征/参数。

(公式2)

在预训练阶段智能体将随机选择动作a。在训练阶段的时间步t时，以一定的概率从预测神经网络中得到at。将动作at施加到环境中，环境将奖励rt和下一时间步的状态St给传智能体。得到的作为样本经验存到经验池中，为了加速训练过程，使用随机梯度下降的算法，从经验池中随机取m个数量的经验样本数据，随机优化一定数量样本的训练数据上的损失函数。应用Double DQN机制，将m个经验样本的集合中的S作为主卷积神经网络输入层得到估计Q值，将S’输入到辅助网络和主神经网络中，用主网络选择出来的a’选择辅助网络输出得中输出的，然后计算估计Q值与目标Q值的均方误差。此研究中使用Adam优化算法反向传播优化主卷积神经网络的参数取值。

二、结果讨论

本实验采用国际通用路网仿真系统SUMO，共160个交叉路口，进行20000秒的模拟实验。分析本文提出方法的表现如表1所示，一级流量下的路网饱和度较低，发现在低饱和路网中我们提出的方法的车辆平均等待时间比基于Q-Learning(QL)单交叉口控制下减少了1.8%，比基于QL协同控制减少了0.9%。在路网车辆数上比QL单交叉口控制减少了45.6%，比QL协同控制增加了8.3%，从中我们发现随着路网车辆的饱和度逐渐上升，我们提出的方法的优势明显增加。说明基于深度强化学习的协同交叉口控制确实在高饱和路网中显现出明显作用。

表1 在不同流量下基于DQN协同交叉口配时的优化效果表

三、总结

本文利用深度学习发掘复杂路网路网整体的特征，通过与强化学习相结合，整体实现对交通路网交叉口的控制决策。实验表明，本文提出的改进深度强化学习在协同交叉口控制上的算法在不同的路网出车数量、不同路网规模和不同的绿灯时间上都有提升。在今后的研究中，我们会将单一时刻扩展到连续时刻对路网特征的提取，提高DQN协同控制的表现。