安全驱动的城市交叉口自适应信号控制方法*

2023-11-07 13:43张功权常方蓉金杰灵黄合来

中国安全生产科学技术 2023年10期

张功权,常方蓉,金杰灵,黄合来

(1.中南大学交通运输工程学院,湖南长沙 410075;2.哈佛大学哈佛医学院,马萨诸塞州波士顿 02115;3.中南大学资源与安全工程学院,湖南长沙 410012)

0 引言

城市汽车保有量的增加造成严重的交通事故、拥堵和环境污染等问题,这类问题在城市交叉口区域尤为明显。为提高道路通行效率,scats和scoot等自适应交通信号控制(adaptive traffic signal control,ATSC)系统已被广泛应用于城市交叉口交通组织管理[1]。ATSC系统能够根据检测器获取的交通流信息动态地调整信号相位或时长。然而,该系统依赖于系统中人工预设的信号方案或简化的交通模型,在面对时空维度复杂多变的城市交通流时,其控制效果欠佳[2]。此外,ATSC系统对交叉口的安全影响并未得到统一验证。研究表明:ATSC系统的应用减少了交通事故次数[3-4],而有些研究发现ATSC系统的应用未改变交通事故的发生频率,却增加了交通冲突的频率和严重程度[5-6]。为提升ATSC系统的控制效果,强化学习(reinforcement learning,RL)在交通信号控制应用中取得显著进展[7]。

基于RL的交通信号控制系统在控制效果上优于传统的交通信号控制方法,其优点在于可以定义1个或多个智能体,通过与交通环境的实时交互反馈,学习和调整控制策略,对交通信号进行长期的自适应控制。然而,现实世界中交通流具有动态性和高维性,RL无法运用表格形式存储所有的交通状态。因此,深度强化学习(deep reinforcement learning,DRL)被用以简化和概括交通流特征,使智能体能够发现新交通状态与已有交通状态的相似性,从而减少计算维度和存储空间。基于DRL的交通信号控制系统在动态交通流和交叉口信号控制应用中具有优越的性能[8-9],其优势在于能够让智能体通过与复杂交互环境的实时交互学习最优策略,无需精确标签数据,更好地适应复杂性、缺乏标签数据、多目标优化和实时决策的信号控制问题。

DRL是深度学习(deep learning,DL)和RL的结合体,它使用DL将状态泛化至多维空间,通过神经网络将状态映射至动作值(action-value)。基于值和基于策略方法是DRL的2个主要类别。经典基于值的DRL使用深度Q网络(deep Q network,DQN)作为动作价值函数的逼近器,将交通状态映射到动作Q值。Hua等[10]提出1种相位门控模型,采用DQN学习不同交通信号相位的Q值。Nishi等[11]提出决斗DQN来提高智能体的学习效率和稳定性。在此基础上,Liang等[12]利用双重决斗D3QN(dueling double deep Q network,D3QN)学习动作价值函数,解决深度Q网络的高估问题。行动者-批判者(actor-critic,AC)算法是经典基于策略的DRL,通过批判者给行动者当前动作打分的方式,更新动作选取的概率。Chu等[8]采用优势AC算法,将“批判者”价值函数分为状态值和动作优势,提高智能体对最优交通信号控制策略的学习速率。Pang等[13]使用深度确定性策略梯度算法改变绿灯相位的持续时长。基于值的DRL适用于离散控制问题求解。在交通信号控制应用中优于基于策略的DRL。然而,大部分基于DRL的交通信号控制研究聚焦于如何提高算法的学习速率和稳定性,并且优化目标专注于考虑通行效率,对交通安全的影响缺乏评估。

鉴于此,本文提出1种安全驱动的自适应交通信号控制算法。基于多目标强化学习,构建信号控制算法框架和D3QN模型,更适用于交通信号控制问题求解;使用离散交通状态编码定义智能体获取的交通状态信息,将信号相位设计为动作集,并分别选取交通安全、通行效率和尾气排放的表征指标,构建综合奖励函数,主动提升城市交叉口的安全性。在长沙市某交叉口的真实流量和模拟流量条件下,与现有交通信号控制方法相比,验证所提方法的有效性和可行性。

1 研究背景

1.1 深度强化学习

RL是1种面向目标的机器学习算法,通过与环境在离散的时间间隔内持续交互,学习实现目标的最佳策略。在每个时间间隔,智能体观察环境的状态s,根据当前知识策略π选择动作a,进而接收反馈奖励r,并以一定概率pa转移至下一状态。在交互学习过程中,智能体通过最大化长期奖励的数学期望不断更新知识策略,直至收敛为最优策略。Q值或动作值是指基于当前状态和策略,选择动作获取的期望回报,如式(1)所示:

Qπ(s,a)≐Eπ[Gt|st=s,at=a]

(1)

式中:Eπ为在策略π下采取动作的期望值;Gt为累积的未来奖励;st,at为在时间步t的交通状态和动作选取。

将式(1)分解为Bellman方程,如式(2)所示:

(2)

式中:s′,a′分别为在时间步t+1的交通状态和动作选取;r为在状态s选取动作a得到的奖励;p为状态转移概率;γ为折现因子,表示未来奖励的重要性。γ越高,意味着未来的奖励更重要。

最优Q值函数定义如式(3)所示:

(3)

最优策略求解如式(4)所示:

(4)

式中:A为智能体动作的合集。

不同于RL使用表格的方式存储所有样本,DRL使用经验回放来更新计算Q值的神经网络,将来自交互的样本(s,a,r,s′)存储在经验记忆中。从记忆池中随机地抽取小批量样本,通过随机梯度下降法训练深度神经网络以逼近Q值。随机抽样的方式可以中断记忆池中样本的强相关性,从而稳定收敛。

DRL的最优策略如式(5)所示:

(5)

式中:wθ为神经网络权重;θ为神经网络参数。

1.2 多目标深度强化学习

RL的优化目标通常都是单一的。对于多目标优化问题,RL需要表示和计算目标之间的关系,也需要权衡和协调目标收益的差别,这使问题变得复杂。在一些基于RL的ATSC系统的研究中,提出多目标优化问题的求解方法,主要分为3类:1)动态切换优化目标,Houli等[14]开发3种不同优化目标的RL算法,并植入ATSC系统,但根据交通状况,只能有1种算法被激活,无法实现全局最优;2)为每个优化目标分别设置动作价值函数,取权重求和[15]。当优化目标不相关时,此方法有利于算法收敛,但会加大计算维度和成本;3)将每个优化目标的奖励函数求和或加权平均,创建综合奖励函数,Khamis等[16]提出1种具有7个优化目标的ATSC系统,但优化目标皆与效率有关。此方法通过RL奖励函数机制融合多个优化目标,有助于问题求解,但各个优化目标的奖励函数处理方式有所欠缺,特别是当优化目标的关系和量纲无法统一时,求和或加权平均的方式无法构建有效的奖励函数。

因此,本文采用第3类方法求解城市交叉口安全、效率、环保三目标优化问题,针对优化目标量纲无法统一的问题,使用归一化模型和熵权法构建综合奖励函数,稳定算法收敛过程。

2 安全驱动的自适应信号控制算法

2.1 算法框架

安全驱动的自适应信号控制算法(D3QN_SD)框架由城市交叉口环境、智能体和信控单元组成,如图1所示。智能体在观察当前交通状态后,应用D3QN模型计算Q值并选择动作,以期获取与优化目标相关的最大奖励。信控单元执行智能体选择的动作,调整交通信号相位,改变交通状态。

图1 算法框架Fig.1 Algorithm framework

具体而言,在时刻t,收集交叉口的交通信息,定义其为状态st,并输入至智能体。遵循贪婪策略,智能体选择1个动作at。根据动作信息,信控单元保持当前交通信号相位或切换至另一个交通信号相位。在采取动作at之后,交叉口的交通状态在下一时刻t+1变为st+1。基于交通状态变化和奖励函数定义,计算状态-动作(st,at)的奖励值rt,并将(st,at,rt,st+1)作为经验存储于记忆池中。最后,智能体通过经验回放方法从记忆池中抽取样本,更新D3QN模型,并学习最佳控制策略。

2.2 状态设计

在交通状态的传统定义中,通常选择车辆队列长度或进道口交通流信息。然而,车辆队列长度无法区分移动车辆的信息和静止车辆的位置信息,交通流信息只描述了过去一段时间内车辆的交通信息,而忽略了当前车辆的信息。为解决这些局限性,一些研究提出了通过实时图像、均匀车道划分和离散交通状态编码(discrete traffic state encoding,DTSE)来表示交通状态的方法[17]。因此,本文使用非均匀量化和DTSE方法设计交通状态,将交叉口的实时交通状态转换为元胞,以矩阵的形式输入至智能体。

以双向6车道的交叉口为例,进道口长500 m。沿着车辆的行驶方向,最左侧、中间和最右侧车道分别用于车辆左转、直行、右转或直行。图2显示了交叉口西进道口的状态设计图。最左边的车道被划分为1行元胞,最中间和最右边的车道被分割为1行元胞。在每一行元胞中,从交叉口附近以7 m为增量划分10列元胞。交叉口附近的每个元胞只能容纳1辆车,可以准确反映车辆的位置和运动信息。距离交叉口最远的单元格长度为180 m。因此,交通状态设计为8行10列的元胞状态矩阵。如果元胞内有车辆,则其值为1,否则为0。

图2 交通状态设计Fig.2 Schematic diagram of traffic state design

2.3 动作设计

智能体通过动作选择决定延长当前信号相位或切换至另一相位。动作集定义为A={EWG,EWLG,SNG,SNLG},分别代表东西直行或右转绿灯,东西左转绿灯,南北直行或右转绿灯,南北左转绿灯。4个绿灯信号相位持续时间为10 s,如图3所示。相位不切换时,延长当前信号相位10 s;相位切换时,系统将执行4 s的黄灯。

图3 绿灯信号相位Fig.3 Green light signal phase

2.4 奖励设计

奖励作为DRL技术的关键部分,是优化目标的直观体现,用于衡量执行动作的质量。本文分别设计3个奖励函数模型对应安全、效率、环保3个优化目标,并基于归一化模型和熵权法,构建综合奖励函数。

交通冲突是道路交通安全的主要评价指标,本文以TTC(time-to-collision)小于3作为交通冲突是否发生的判断标准[18-19],以相邻时间步交通冲突次数的差值作为表征安全的奖励,如式(6)所示:

(6)

式中:CTC(t+1),CTC(t)分别表示在时间步t+1和t的累积交通冲突次数。

在交叉口场景,交通延误主要来源于车辆等待红灯所损失的时间,故以相邻时间步车辆等待时间的差值作为表征效率的奖励,如式(7)所示:

(7)

式中:CWT(t+1),CWT(t)分别表示在时间步t+1和t的累积车辆等待时间。

车辆尾气排放的主要成分是CO2,根据SUMO的污染排放模型(PE)获取CO2排放量,以相邻时间步车辆CO2排放量的差值作为表征环保的奖励,如式(8)所示:

(8)

式中:PE(t+1),PE(t)分别表示在时间步t+1和t的累积车辆CO2排放量。

鉴于3个奖励函数模型的量纲不同,构建归一化模型如式(9)～(10)所示:

(9)

式(9)中:x为奖励函数计算值;xmax,xmin分别表示大于0的数中最大和最小值。

(10)

根据归一化模型,综合奖励模型如式(11)所示:

(11)

式中:wTS,wTE,wCE分别表示安全、效率、环保3个奖励函数模型的权重值。权重值的大小说明优化目标的重要程度,本文以安全作为主要优化目标,效率和环保作为次要优化目标,故wTS,wTE,wCE初始取值0.5,0.25,0.25。

为保证模型稳定收敛,获取最优控制策略,基于每次动作获取的奖励值,使用熵权法实时调整奖励函数模型的权重值,min-max标准化函数,将3个奖励函数的量纲统一,标准化后取值位于[0,1]之间,如式(12)所示:

(12)

式中:min {xi},max {xi}表示i项奖励值的最小和最大值。

计算各个奖励函数的归一化值如式(13)所示:

(13)

式中:xij表示第j项奖励函数在第i次动作时计算的奖励值。

各个奖励函数在每次动作时计算的奖励值所组成的标准化矩阵如式(14)所示:

Y={Pij}m×n

(14)

式中:m为累计动作次数;n为奖励函数数量。

计算第j项奖励函数的熵值如式(15)所示:

(15)

计算第j项奖励函数的差异系数如式(16)所示:

gj=1-Hj

(16)

计算第j项奖励函数的权重值,即wTS,wTE,wCE的取值,如式(17)所示:

(17)

每次智能体决策时,即更换或延长信号相位时,每项奖励函数的权重值都会重新计算,以寻求全局最优解。

2.5 算法流程

图4所示的是D3QN模型结构,由卷积神经网络(convolutional neural network,CNN)和全连接神经网络(fully connected network,DNN)组成。元胞状态矩阵通过卷积层和全连接层映射到动作的Q值。由于矩阵的每一行表示车道的交通流信息,卷积层的滤波器大小设为1×3,步长为2,用于提取每个车道的特征。卷积层的输出经过池化层抽象为1个状态向量,并输入至全连接层。Q值量化了智能体在未来能获得的奖励,所以最优动作选择具有最高的Q值。

图4 双重决斗Q网络模型Fig.4 Double dueling deep Q network model

算法伪代码如表1所示。

表1 算法伪代码及流程Table 1 Algorithm pseudo code and flow

3 实验与验证

3.1 仿真场景与参数设置

本文基于湖南省长沙市时中路和凉塘路交叉口的真实场景,在微观交通仿真软件SUMO中搭建实验环境,如图5所示。交叉口道路为双向6车道,道路长度约500 m,宽度约20 m。沿车辆行驶方向,最左侧车道允许左转,中间车道允许直行,最右侧车道允许直行和右转。在未发生交通冲突的情况下,位于最右侧车道的车辆在红灯时允许右转。算法模型通过使用Python编程语言和深度学习框架TensorFlow(Keras)实现,以Nvidia GeForce RTX 3060Ti作为硬件环境。

图5 实验场景Fig.5 Experimental scene

考虑城市交通流的随机多样性,为全面训练D3QN_SD模型,采用WeiBull分布模拟城市现实高峰和低峰的交通流特征,其概率密度函数如式(18)所示:

(18)

式中:λ是尺度参数、a是形状参数,设为1,2。车辆从任意方向进入交叉口,左转、直行、右转的比例为1∶6∶1。

算法使用CNN和DNN计算Q值。CNN共3层,内核尺寸3×3;DNN共5层,宽度为400。模型采用Adam优化器,均方误差作为损失函数。仿真和算法参数具体设置如表2所示。

表2 仿真和算法参数设置Table 2 Setting of simulation and algorithm parameters

3.2 实验评估与结果分析

为验证算法的优化效果和鲁棒性,实验分为2部分:1)模拟车流场景下控制效果对比,采用随机种子seed分别生成500,1 500车辆,模拟低流量和高流量场景进行测试;2)真实车流场景下控制效果对比,采用时中路和凉塘路交叉口早高峰车流数据进行测试,共991辆车。

对于所有测试场景,选取平均交通冲突次数、平均行车延误、平均CO2排放作为算法性能的评价指标。鉴于DRL无需数据标签,在信号控制问题上优于有监督学习方法,为验证所提方法的实用性和创新性,将本文提出的D3QN_SD算法与现有交通信号控制方式和其他DRL模型进行比较:1)定时信号控制(fixed-time signal control,FTSC),根据Webster法计算各个绿灯相位的时长,采用实验交叉口的实际红绿灯时长;2)感应信号控制(actuated signal control,ASC),根据感应线圈获取的车流量数据自动调整绿灯时长,实验设置绿灯最小时长为15 s,最大时长为60 s;3)强化学习信号控制(D3QN),使用与D3QN_SD一样的算法框架和神经网络结构,区别在于优化目标仅考虑通行效率,即奖励函数模型使用车辆等待时间。

图6是在随机交通流条件下算法训练过程的累积奖励值对比,D3QN_SD比D3QN的收敛速率更快,表明提奖励函数模型归一化的方式统一优化目标的量纲,使强化学习智能体的策略学习方向更加明确,加快了学习速度,减少计算成本。图7～8表示在采用WeiBull分布模拟500,1 500车辆的城市高峰期场景下,各个信控方法在实时交通冲突上的控制效果。可见,在D3QN_SD的控制下,交通冲突数量始终低于另外3种方法,特别是在流量峰值(第6时间步)和高流量场景,说明D3QN_SD能有效减少交通冲突次数,提升道路安全水平。根据表3,在低流量和高流量场景下,相比于D3QN,D3QN_SD平均冲突次数减少20.13个百分点和28.45个百分点。此外,在效率和环保的评估上,D3QN_SD的平均行车延误减少7.18个百分点和8.96个百分点,CO2排放量减少3.66个百分点和3.51个百分点,表明D3QN_SD的控制效果均优于D3QN。

表3 交叉口不同流量条件下算法的性能Table 3 Performance of algorithm under different traffic flow conditions at intersection

图6 收敛速率Fig.6 Convergence rate

图7 低流量场景下实时交通冲突Fig.7 Real-time traffic conflict in low traffic flow scene

图8 高流量场景下实时交通冲突Fig.8 Real-time traffic conflict in high traffic flow scene

图9 真实流量场景下实时交通冲突Fig.9 Real-time traffic conflict in real traffic flow scene

本文还在真实车流场景下进行实验,车流数据如图5(a)所示,D3QN和D3QN_SD提前在模拟车流中训练200回合。由表3可知,基于DRL的信控方法在平均冲突次数、行车延误、CO2排放上效果显著,均优于FTSC和ASC方法,因为当交通流量增加时,交通流分布具有高度随机性,传统的控制方法难以见效。在真实车流场景下,相较于D3QN,D3QN_SD的平均冲突次数减少11.17个百分点,CO2排放减少4.13个百分点,但行车延误增加了2.99个百分点。由于真实早高峰交通流特征和模拟交通流之间存在差别,D3QN_SD在提升效率上无法始终优于D3QN,但能稳定改善交通状况,减少交通冲突次数。

综上所述,相较于FTSC、ASC、D3QN算法,D3QN_SD在单交叉口场景下能够更快的学习最优信号控制策略,有效减少交通冲突、行车延误和CO2排放,提升交叉口交通安全、通行效率与环境保护。随着车流量的增多,D3QN_SD算法的控制效果越好,特别是在高流量条件下。

4 结论

1)基于多目标强化学习框架,设计以安全为主导的综合奖励函数,构建自适应交通信号控制方法(D3QN_SD);D3QN_SD可基于实时交通状态,选择最佳交通信号控制策略,从而减少交通冲突。

2)应用定时信号控制、感应信号控制、强化学习信号控制方法,与D3QN_SD进行比较,结果显示D3QN_SD在减少交通冲突、交通拥堵与尾气排放方面均表现较优。

3)D3QN_SD在不同流量场景下可稳定学习最优信号控制策略,交通冲突的优化效果随着交通流量的增加而提升,适用于城市关键交叉口节点,有助于改善道路安全。