基于强化学习下城市道路交通信号控制研究

2021-03-05 01:28陈圣颖
黑龙江交通科技 2021年2期
关键词:交通信号等待时间信号灯

陈圣颖

(深圳市金溢科技股份有限公司,广东 深圳 518000)

0 引 言

在城市交通的自动管理程序中,交通信号起着中枢神经的作用,可以在时间上调度和分配发生冲突的交通流。但是,往往因为交通信号控制的方案缺乏合理性,经常造成交叉路口和多条道路发生拥堵,所以交通信号控制方案的科学合理地制定,是避免交通拥挤、堵塞的关键措施。而基于城市道路交通流的不确定性、时变性以及非线性,具备一定的建模难度,难以通过数学模型的精确性对交通信号控制方案进行优化,从而需要一个应对以上交通流特点的科学有效控制措施,而强化学习的智能体优势在与环境的交互中学习以及自适应构成优良、有效地控制手段,本文将从以下几个方面进行研究。

1 强化学习

1.1 公式算法

强化学习以一类算法的形式存在,借助从起始的完整的随机操作,不间断的探索、尝试,从每一次的错误中总结经验,找到可以遵循的内部规律,最后找到实现目标地最佳途径。该学习方法的核心蕴涵是引导智能体在环境里不断学习。强化学习由以下四个方面所构成:state(环境变量)、Agent(智能体)、action(策略行为)和reward(奖惩)。强化学习的基本过程是借助每个时间步(timestep)把一个行为(action)生成,然后与环境发生作用,达到最大化预期积累的目的。见图1。

图1 强化学习框架

强化学习各个时间步的累积奖励用下面的公式进行表示:

(1)

式中:G表示未来T个时间步针对第t个时间步的奖励积累值,各个时间步的奖励值设定为R。从时间轴的角度,容易获得的是近处的奖励值,难以获得的是远处的奖励值,由此可以确定模型的训练目的,最大限度地在时间轴上,确保远处的奖励值最大化。毋庸置疑,模型设计不能只是短期利益,必须着眼积累长期利益。要想实现价值目的或长远利益的目标,给每个时间步的奖励增加人权重是模型公式的变化,以此对这个时间步奖励难度的表示,貌似某种注意力的体系。所以新形成的累积奖励公式为

(2)

式中:r∈(0,1)。不难看出,时间步越远,r被乘的就越多,表示获得该时间步奖励的难度。

1.2 模型的分类

强化学习的模型分为没有任何的先验的外观或者形状的模型(model-free)和人为的外观模型(model-based)。前者的模型类型是指特定环境中,模型会被输入一定的变量,而模型会根据输入的变量进行策略的动作反应;而后者的模型类型则是对环境的理解,进行有效预期环境中特定条件下将来状态。上面的model即为借助模型表示环境以及对环境的模拟。

1.3 更新方式

强化学习的更新方式分为回合更新和单步更新。例如,针对计算机里的游戏场景,也是开始和结束构成游戏的回合。回合更新的形式是在游戏回合开始后,智能体必须等待回合结束再对模型进行更新;而单步更新则是体现在模型更新在游戏操作的每一步都可以进行。

1.4 Q-learning算法

该算法类属于价值的强化学习算法,即预计采取的行为在某一时间步的奖励值利用Q-table来记录和表示。该算法是以确定奖励和惩罚的具体标准,例如哪些是该获得正奖励的正向行为,哪些是该受到惩罚的负向行为,这些都是通过Q-learning进行决策。如表1所示,该系统可以设定为两种行为,用a1和a2来表示,S1表示为状态1,S2表示状态2。在S1状态时,在获得奖励值方面a1比a2要高,由此模型利用a1可以达到状态S2。

表1 Q-table示例

在S2状态时,在奖励值获得方面采取a2比采取al要更高,所以模型要利用a2,然后达到下一个状态。Q-learning以这样的行为准则对每个时间步的行为作出选择,并对环境形成作用力。当状态达到S2的时候,该模式便会更新,这就是该模式的学习程序,基于Q(S2,a1)小于Q(S2,a2),把状态2(S2)能得到的最大奖励值Q(S2,a2)与衰减系数r相乘,另外与S1到S2的奖励值R进行相加,同时,学习效率a与作为S1到S2的真实奖励值的差值相乘,最终的步骤是对以前的Q(S1,a1)值进行累加,就可以被视为,就被作为Q-table中的Q(S1,al)的更新值。

2 强化学习在交通信号控制中的应用

2.1 交通信号控制的状态描述

对交通信号控制进行描述,有不同类型的两种方法。

2)构件信息标准化的应用,解决了不同专业之间的沟通问题,建筑、室内、结构、城规等相关技术人员可以用同一个信息化模型进行工作,有利于专业人员相互讨论交流合作。

(1)根据信号灯状态进行描述

对城市交叉路口附近所有可能发生的状况进行表示,该方式要求各个路口控制器Agent对一切可能发生的状况进行学习,直至全部车辆总共等待时间实施映射。基于交通状况的不确定性,将造成学习空间爆炸的情况。

(2)根据车辆状态进行描述

描述交通状态尝试从单个车辆的视觉去进行。在该模式中,对单个车辆的等待时间实施值函数的评估,在对交叉路口控制器Agent进行决策的时候,必须对附近范围内所有车辆熟知。但车辆只是以运动对象的形式被控制器Agent观察到,并不能对值函数的值进行计算和储存。交叉口的控制器完成值函数的计算和存储的任务,而Agent只是局限于车辆状态的观察。

2.2 模型化的强化学习在交通信号控制中的应用

由于交通信号控制应用了模型的Q学习算法,所以采用了以模型为基础的交通信号控制方案,即所谓的TCI模式。此方法的基础是描述车辆状态的措施。设定当前信号灯进行反应的状态下,全部的车辆都知晓目的地的等待时间。从而各个车辆都拥有的路口信号灯转绿的收益值。而此收益值的计算方式是该车辆红灯等待时间减去绿灯等待的时间。可以利用对应对信号灯车道上的车辆收益值总和的计算,选择的该交叉口的最优动作为最大收益值的信号灯组合。

TC1模式利用采取值函数Q(s,l)显现在状态s和置身路口信号灯动作为l的背景里车辆目的地到达整体等待的时间。到达目的地的总的等待时间。状态S=[node direction position destination]node,显现为车辆置身的交叉路口,而在该交叉路口车辆的行驶方位设定为direction,而车道上车辆的具体位置设定为position,车辆的终点地设定为destination,动作l∈{red green}。定义值函数V(s)显现地是处在S状态下车辆预期到达终点的平均的时间等待。更新的Q值函数的公式如(3)所示。

Q=(s,r)=∑P(s,l,s)(R(s,l,s)+rV(s))

(3)

式中,折扣因子为r(0

更新V值函数的公式如(4)所示。

(4)

式中:p(s,ls)显示车辆在S状态下以及当前信号灯采取动作l的情况下进入下一状态s的可能性。p(lls)显示S给定状态下信号灯的反应动作l的可能性。利用最大貌似概率模型实施计算,形成的公式分别如式(5)和式(6)显示

(5)

(6)

式中:当前信号灯采取动作l的情况下到达下一状态以及车辆状态S的表示为C(s,l,s),而路口信号灯动作为l的情况发生的次数以及车辆在S状态下的表示为C(s,l),车辆置身状态S发生的次数用c(s)表示。

R(s,l,s)显示车辆在信号灯实施行动l以后从状态S转移到状态S的实时奖赏值,其计算可以利用下面(7)的公式

(7)

当状态S和状态S不相等的时候,就是车辆能够继续前行的标志,得到的奖励为零。当状态S和状态S相等时,显示车辆因为红灯或者在向下一个车道进入的时候因为车辆堵塞不得已在原地停留,此刻要求车辆务必等待一个时间步,能获得1个奖励值,但这样的奖励值是变相的惩罚值。

下面的公式(8)显示TC1模式的最优动作选择策略:

(8)

信号灯l置身的车道上的车辆等待队列用queuei来表示。等待投票机制是TC1利用的模式。该模式只是关注车辆等待状态下的收益值,就是说只是允许置身等待状态下的车辆实施投票,那些还在行驶状态下的车辆无法投票,主要因素是那些行驶中的车辆不受信号灯改变的影响,可以继续前行。

交通研究机构将TC1方法进行仿真实验,试验的软件为GLD。试验数据表明,TCI方式比定时信号控制措施更有优势,比较起来整体性更佳,也更健壮。更可以有的放矢地控制交通信号,大大降低了车辆的行驶的等待时间,降低了道路拥堵的系数,交通网络的通行能力显著提高。

3 结束语

随着大数据技术在道路交通领域的广泛应用,以及逐渐积累完善的城市交通数据,城市交通信号控制的发展会呈现结构更加复杂化,主要体现在拓扑、智能化以及数据驱动等技术层面。而与之相适应的是强化学习和深度学习技术在道路交通领域的创新和融合。而针对自动驾驶技术和车联网的广泛实践,让传统的城市道路交通检测技术面临一定的挑战,相匹配的措施就是不断扩充交通信号控制的实时数据。在这样的背景下,会带动车辆智能驾驶和交通信号控制的并驾齐驱,迎来道路交通全新的智能时代。

猜你喜欢
交通信号等待时间信号灯
五家渠市交通信号控制系统可行性改造研究
城市轨道交通信号智能运维系统应用与实践
你承受不起让每个客户都满意
《城市轨道交通信号图册》正式出版
信号灯为什么选这三个颜色?
交通信号智能指挥模型
安装在路面的交通信号灯
顾客等待心理的十条原则
顾客等待心理的十条原则
信号灯为什么用