基于双评论家的多智能体深度确定性策略梯度方法

2023-10-27 02:51丁世飞郭丽丽

计算机研究与发展 2023年10期

丁世飞杜威郭丽丽张健徐晓

1（中国矿业大学计算机科学与技术学院江苏徐州 221116）

2（矿山数字化教育部工程研究中心（中国矿业大学）江苏徐州 221116）

强化学习（reinforcement learning,RL）作为一种机器学习方法，其主要思想是使智能体通过最大化从环境中获得的累积奖励来学习最优策略.Q-learning是单智能体强化学习领域中的经典方法之一，但其难以应对动作空间和状态空间维数较高的环境.深度Q网络（deepQ-network,DQN）利用深度神经网络逼近价值函数来解决这个困难.得益于DQN 在高维空间中展现出的优越性能，学者们基于此方法提出诸多深度强化学习（deep reinforcement learning,DRL）[1-4]方法.

随着DRL 在机器控制[5-7]、人机游戏[8-10]等单智能体领域取得显著成功，许多工作将单智能体DRL方法扩展到多智能体设置并应用到真实环境中，如自动驾驶[11-12]、交通控制[13-14].然而，实现高效的多智能体强化学习通常会面临2 个主要困难：可扩展性问题和部分可观测性限制.一方面，利用环境的所有信息进行决策可能会导致大规模的联合状态动作空间.随着智能体的数量增加，状态动作空间规模将呈指数增长，这导致智能体的规模难以扩展，即产生可扩展性问题.另一方面，部分可观测性限制要求智能体只根据自己的局部观测历史来选择动作和做出决策.这虽然提高了决策效率，但也严重限制智能体探索最优动作的能力，同时造成了环境的不稳定性.

为应对部分可观测性限制带来的问题，Lowe 等人[15]提出了多智能体深度确定性策略梯度（multiagent deep deterministic policy gradient,MADDPG）方法.该方法引入集中训练和分散执行（centralized training with decentralized execution,CTDE）框架：在集中训练阶段，智能体可以访问全局信息；在分散执行阶段智能体只根据局部观测历史选择动作[16-18].随着MADDPG 方法在应对部分可观测限制情况时展现出的优越性能，基于CTDE 框架的多智能体强化学习（multi-agent reinforcement learning,MARL）方法不断涌现，CTDE 框架也成为MARL 中最常用的框架之一.此外，为了解决CTDE 范式的可扩展性问题，学者们提出了各种价值函数分解方法[19-22].尽管MADDPG 已成为MARL 中最常用的基线方法之一，以MADDPG 为代表的CTDE 方法存在的Q值高估问题没有得到广泛研究.Q值高估问题源于bootstrapping 目标中常用的max 算子.具体地，Qlearning 中的max 算子用最大估计值逼近最大期望值，这将导致价值高估：其中表示给定状态下动作ai的Q值的随机变量.Q值高估问题会损害智能体的行为，导致智能体学得次优的策略[23-24].

在CTDE 方法中，Q值高估问题同样存在.具体地，假设有n个智能体，每个智能体有L个动作，每个动作的Q值独立地由均匀分布U（0,1）得到，则1/2.同时=Ln/(Ln+1)，由于联合动作空间的大小L随智能体的数量呈指数增长，趋向于1，且大于，由此可得CTDE 方法存在Q值高估问题.在CTDE 方法中，个体智能体的决策质量取决于集中训练的评论家网络，评论家网络的价值函数高估问题可能会造成更严重的影响.因此，研究MADDPG 为代表的CTDE 方法中存在的价值高估问题显得尤为必要和具有挑战性.

为应对这个挑战，本文提出基于双评论家的多智能体深度确定性策略梯度（multi-agent deep deterministic policy gradient method based on double critics,MADDPG-DC）方法来避免价值函数的过高估计.本文的核心思想是通过在双评论家网络上的最小值操作来避免价值高估.此外，为保证学习的稳定性和效率，本文采用延迟策略更新技术.通过延迟行动者网络更新，减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性，从而实现更高质量的策略更新.本文的主要贡献和创新点有3 点：

1）从理论和实验层面上分别证明了MADDPGDC 存在严重的高估问题，并通过引入双评论家网络结构避免价值高估，从而促进更好的策略学习.

2）为保证策略学习的效率和稳定性，在提出的MADDPG-DC 中引入延迟行动者网络更新的方法，进一步提高策略更新的质量，使智能体更高效地学习最优策略.

3）在多智能体粒子环境和交通信号控制环境上对所提出的MADDPG-DC 方法进行了实验评估，实验结果表明提出的方法在仿真环境和实际系统上都具有可行性和优越性.

1 基础理论

1.1 Dec-POMDP

MARL 问题一般建模为去中心化部分可观测马尔可夫决策过程（decentralized partially observable Markov decision process,Dec-POMDPs）[25].具体地，Dec-POMDPs 用元组G=〈S,A,P,R,O,n,γ〉表示，其中部分可观测环境的状态记为s∈S，智能体i可获得的局部观测值记为oi∈Oi.智能体i根据其局部观测值oi决定其动作ai∈A,联合动作表示为a=(a1,a2,…,aN)∈A,环境状态基于状态转移函数P:S×A→S和联合动作转移至下一个状态.智能体i的学习目标是最大化其累计折扣奖励值，其中γ ∈[0,1]为折扣因子，rit表示智能体i在时间步t获得的奖励值.

1.2 多智能体深度确定性策略梯度

MADDPG 方法的关键思想是：在训练阶段，每个智能体都接收全局信息来学习一个集中的Q函数；在执行阶段，每个智能体只使用局部信息来选择动作.MADDPG 利用CTDE 框架与行动者-评论家结构，其中集中训练的评论家网络获得了全局信息，而分散的行动者网络只能获得个体的局部观测历史.

具体地，假设一个包含N个智能体的环境，智能体的策略是连续的，用µ={µ1,µ2,…,µN}表示，策略的参数是φ={φ1,φ2,…,φN}，智能体i的策略梯度J(φi)=E[Ri]表示为

2 MADDPG-DC 方法

在本节中，首先通过理论和实验证明，MADDPG存在过高估计价值函数的问题，然后介绍提出的改进方法，即基于双评论家网络的多智能体深度确定性策略梯度方法.

2.1 MADDPG 中的价值函数高估问题

首先，给出理论证明以论证MADDPG 中存在价值函数的过高估计问题.定义策略参数 φ，表示智能体i的由对应评论家网络指导的行动者网络的近似参数，并用表示由真实价值函数指导的行动者网络的参数：

2.2 MADDPG-DC

MADDPG 中存在的价值函数过高估计一般会导致2 个问题：一方面，价值高估会在多次更新后导致显著的偏差；另一方面，价值估计偏差会进一步导致策略更新的不准确.评论家网络对次优动作进行过高的评估，从而导致在接下来的策略更新中引导行动者网络对次优动作的选择.

在降低单智能体深度强化学习中的价值函数过高估计问题方面，已有多项工作取得了成功，其中深度双Q网络采用目标值网络和当前值网络结构来进行独立的价值估计，利用当前值网络的价值估计来选择最优动作，利用目标值网络的价值估计来评估最优动作，将最优动作的选择和价值估计分开，降低了对次优动作过高估计价值的可能性[2].

MADDPG 方法中的评论家网络也采取相似的目标值网络和当前值网络结构进行更新：

然而，由于MADDPG 方法的策略变化缓慢，导致目标值网络与当前值网络过于相似，难以进行有效的独立的价值估计，过高估计的问题仍然存在.如图1 所示，本文实验评估了MADDPG 中存在的估计偏差问题.

Fig.1 Comparison of estimation biases for MADDPG and MADDPG-DC图1 MADDPG 和MADDPG-DC 的估计偏差对比

在多智能体粒子环境（multi-agent particle environment）中的捕食者猎物（predator-prey）环境上，测量MADDPG 和MADDPG-DC 在学习过程中的价值估计的估计偏差、采样状态和经验回放池的动作，确定真实的和估计的Q值.结果如图1 所示，一个非常明显的过高估计偏差发生在MADDPG 的学习过程中，而MADDPG-DC 在学习过程中不存在明显的估计偏差.

MADDPG-DC 使用双评论家网络结构来避免价值高估，2 个评论家网络的目标函数分别为

MADDPG-DC 通过在双评论家网络上进行最小值操作，能够避免价值估计过高的问题.虽然该更新规则可能会导致价值低估，但价值低估不会在策略更新过程中显式传播[26-28].MADDPG-DC 方法的评论家网络的目标函数为

MADDPG-DC 方法利用目标网络来减少目标更新过程中的误差.由于高误差状态下的策略更新会导致智能体动作的发散，MADDPG-DC 方法引入延迟行动者网络更新的方法，将行动者网络的更新频率设置为低于评论家网络的更新频率，以使得行动者网络的策略更新前的误差最小化.具体地，设定评论家网络每更新3 次后，行动者网络更新1 次.同时为确保误差最小，缓慢地更新目标网络：

在评论家网络每3 次迭代后，对于智能体i，基于评论家网络利用确定性策略梯度方法更新行动者网络.通过延迟行动者网络更新，MADDPG-DC 方法减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性，从而实现更高质量的策略更新.

图2 展示了MADDPG-DC 的网络结构，在训练阶段，只对行动者网络和双评论家网络进行训练，而行动者目标网络和评论家目标网络用于稳定行动者网络和双评论家网络的学习效果.算法1 给出了MADDPG-DC 的伪代码.

Fig.2 Network structure of MADDPG-DC图2 MADDPG-DC 的网络结构

算法1.MADDPG-DC.

2.3 方法复杂度分析

MADDPG-DC 方法使用神经网络来促进评论家的训练，其中神经网络使用多层感知器（multilayer perceptron,MLP）架构.首先，对于使用MLP 架构的单智能体强化学习方法而言，其训练复杂度是O(M×T(S×H+H×A)).其中M为回合数，T是每回合的时间步数；S表示输入层的大小，也表示智能体的观测集合的大小，H表示神经网络隐藏层的大小；A表示输出层的大小，也表示智能体的动作集合的大小.

对于MADDPG-DC 的训练阶段，每个评论家网络用单一的值来评估多个智能体的联合动作和观测结果，其复杂度为O(M×T(N×(A+S)×H+H×1)),N表示智能体的数量.在执行阶段的复杂度方面，由于每个智能体都是独立行动，不需要评论家网络和其他智能体的交互，因此每个智能体在给定时间步数上执行1 个动作的复杂度为O(S×H+H×A).MADDPG方法的复杂度与MADDPG-DC 一致.

3 实验结果

本节在各种复杂的平台和任务上进行了实验，以验证MADDPG-DC 方法的优越性和有效性.首先在MARL 领域中广泛使用的多智能体粒子环境进行了仿真实验；然后在交通信号控制环境的真实系统中评估MADDPG-DC 方法，以证明该方法在真实环境中应用的可行性.

3.1 多智能体粒子环境

首先使用MARL 中常用的多智能体粒子环境进行实验.实验配置如表1 所示.环境是2 维连续的，包含K个相互协作的智能体、Z个地标和L个敌对的智能体.本文在多智能体粒子环境中的3 个环境上进行了实验，以验证所提方法的有效性.

Table 1 Experimental Configuration for Multi-Agent Particle Environments表1 多智能体粒子环境的实验配置

1）捕食者-猎物环境.如图3 所示，这个环境包含了3 个合作的捕食者，即智能体1，2，3；1 个移动速度更快的猎物，即敌方智能体和2 个阻碍前进的障碍.捕食者需要协作来追赶猎物，如果捕食者成功捕获猎物，捕食者得到奖励，而猎物得到惩罚.

2）物理欺骗（physical deception）环境.该环境包括2 个合作的智能体、1 个敌对的智能体和2 个地标物体.2 个合作智能体的目标是在敌对智能体不知道地标物体的情况下，从一个地标到达另一个地标.合作智能体的奖励取决于其中一个智能体到达目的地的最小距离.

3）世界（world）环境.在包含4 个移动较慢的智能体和2 个移动较快的敌对智能体的世界环境中，较慢的智能体的目标是学会合作以捕获2 个移动较快的敌对智能体.

本文将提出的MADDPG-DC 方法与多种基线方法在以上3 个环境中进行对比实验.实验选择了MADDPG[15]、反事实的多智能体策略梯度[18]（counterfactual multi-agent policy gradient,COMA）、值分解网络[19]（value-decomposition networks,VDN）方法、QMIX[20]这4 种基于CTDE 框架的方法作为基线方法.COMA使用一个基于反事实基线的评论家网络结构来推导智能体学习策略的优势函数.VDN 和QMIX 是价值函数分解方法的代表性方法，使用个体价值函数的组合来估计联合价值函数.

由于这些基线方法全部基于CTDE 框架，于是都存在价值函数高估问题.所有实验在CPU Intel Xeon Silver 4210 和GPU Nvidia RTX 2080 上使用5 个随机种子构建.对于MADDPG 和COMA，使用与MADDPGDC 相同的参数，如表2 所示.VDN 和QMIX 包括更复杂的网络结构，参数如表3 所示.

Table 3 Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments表3 VDN 和QMIX 在多智能体粒子环境上的超参数

图4～6 展示了各方法的平均奖励值.在捕食者-猎物环境中，在参数相对一致的情况下，MADDPG和QMIX 方法下的智能体未学得稳定的策略，导致平均奖励呈下降状态.本文提出的MADDPG-DC 方法在训练一开始的表现低于价值函数分解方法VDN，但最终收敛到更高的平均奖励值.在物理欺骗环境下，MADDPG-DC 收敛得最快且学得的平均奖励值最高，而MADDPG，COMA，VDN 方法未能学得最优的策略.在世界环境下，除了QMIX 以外的大部分方法都采用收敛到稳定的策略，而MADDPG-DC 同样取得了最好的表现.综上，对比其他存在价值高估问题的基线方法，MADDPG-DC 方法取得了更好的性能.

Fig.4 Performance comparison on predator-prey environment图4 捕食者-猎物环境下的性能比较

Fig.6 Performance comparison on world environment图6 世界环境下的性能比较

此外，为探讨双评论家网络结构和延迟行动者网络更新这2 个因素对性能提升的影响，本文设计了消融实验.实验中使用2 个变体：使用双评论家网络结构但不延迟行动者网络更新的MADDPG-D 和不使用双评论家网络结构但延迟行动者网络更新的MADDPG-C.将这2 个变体与原始MADDPG 方法以及同时使用双评论家网络结构和延迟行动者网络更新的MADDPG-DC 进行了比较.首先，比较MADDPGD 与MADDPG 的性能表现.图7～9 展示了不同多智能体粒子环境环境下的消融实验.实验结果表明，在捕食者-猎物环境和世界环境下，MADDPG-D 的学习性能显著，并持续优于MADDPG 且收敛到稳定的策略.在物理欺骗环境下，虽然MADDPG-D 的表现持续优于MADDPG，但其学习曲线在后期也呈现下降趋势.

Fig.7 Ablation experiment on predator-prey environment图7 捕食者-猎物环境下的消融实验

Fig.8 Ablation experiment on physical deception environment图8 物理欺骗环境下的消融实验

Fig.9 Ablation experiment on world environment图9 世界环境下的消融实验

进一步，为验证延迟行动者网络的有效性，首先对比MADDPG，MADDPG-C，MADDPG-D 在3 个环境中，MADDPG-C 的性能相比MADDPG 有一定的提升,但无法超过MADDPG-D 的性能.接下来，对比MADDPG-D 和MADDPG-DC 的表现.如图7～9 所示，在捕食者-猎物环境和世界环境下，MADDPG-DC 收敛更快，且收敛至更高的奖励值.在物理欺骗环境下，MADDPG-DC 相比MADDPG-D，其可以收敛到稳定的最优策略.由此可见双评论家网络结构和延迟行动者网络更新这2 个因素对方法的性能都有提升作用，且同时使用2 个改进因素的效果大于单独使用任意1 个的效果.

3.2 交通信号控制环境

随着城市化的快速发展，车辆数量的增加不可避免地导致交通拥堵程度的增加.通过优化管理方法可以实现交通系统的可持续发展[29].交通信号控制（traffic signal control,TSC）是一种有效的优化策略，它有助于改善交通状况、减少拥堵、缩短出行时间[30-31].为了应对TSC 的规模需求，学者们尝试在多智能体系统中使用RL.

在局部观测和通信受限的情况下，将TSC 定义为由分散的强化学习智能体控制交叉口的协作MARL 问题是一种有效且通用的方法.其中一种思路是使用独立Q学习（independentQ-learning,IQL）方法建模[32]，在这种方法中，分散的强化学习智能体独立地学习各自的策略，并将其他智能体当作环境的一部分.IQL 方法可以解决可扩展性问题，但当其他智能体改变自己的策略[33]时，IQL 会出现不收敛和不稳定性问题.

然而，现有的工作包括IQL 方法通常采用分散训练和分散执行框架，这个框架通常会存在环境不稳定性问题[34].基于CTDE 框架的MARL 是一种有效的改进，如MADDPG 方法.然而，在TSC 中，MADDPG方法的性能表现一般[35].其原因可能是在复杂环境下，MADDPG 中价值估计的不准确导致了智能体行为的发散或者智能体学得了次优的策略.同时，MADDPG在分散执行阶段缺乏通信学习机制[36-38]，而通信学习机制对于保证整体交通状态的控制稳定性和效果具有重要意义.

本文应用MADDPG-DC 和CTDE 框架来处理TSC 问题.为验证MADDPG-DC 在实际系统中的可行性和有效性，本文在成都市实际交通网络[39-40]上进行了实验.利用城市交通平台模拟真实的交通状况.实验将每个交叉口的交通信号控制器建模为一个智能体，将网络交通状态建模为全局状态.

在真实的交通信号控制环境中，为证明MADDPDC 方法的有效性，选择IQL[32]、MADDPG[15]和最大压力控制（max pressure control）[41]等3 种方法作为基线方法.IQL[32]基于分散训练分散执行框架，分散的智能体独立地学习各自的策略，而MADDPG 利用CTDE 框架.最大压力控制是TSC 领域最先进的控制方法之一，通过选择信号相位，最大化通过交叉口的车辆数量.

评价结果以各交叉口的交通拥堵情况和车辆通行效率为主要评价指标，包括3 个主要指标: 平均队列长度、平均延迟和平均行驶时间.平均队列长度是指在交叉口的所有车辆的平均等待队列长度.平均延迟是指交通路口的所有车辆的平均等待时间除以队列长度.这二者的值越高，表示方法的性能越差.平均行驶时间是指整个交通网络中车辆从起点行驶到终点所花费的平均时间.同样地，平均行驶时间的值越高，表示该方法的性能越差.

首先，本文从合成道路数据集中随机选取合成交通网络来训练MADDPG-DC 方法以及其他基线方法，仿真实验运行了8 000 回合.交通信号控制环境下的MADDPG-DC 的超参数如表4 所示.基线MADDPG和MADDPG-D 也设置相同的超参数进行训练.IQL的超参数如表5 所示.最大压力控制不是一种MARL方法，其参数设置保持和文献[41]一致.

Table 4 Hyperparameters of MADDPG,MADDPG-D,MADDPG-DC Under Traffic Signal Control Environments表4 交通信号控制环境下MADDPG,MADDPG-D,MADDPG-DC 的超参数

Table 5 Hyperparameters of IQL Under Traffic Signal Control Environments表5 交通信号控制环境下IQL 的参数

然后，在真实交通网络中对训练后的方法分别进行1h 的时变交通流训练.考虑到计算成本，实验在1h 后停止评估.图10 和图11 分别展示了各方法下的真实交通网络中的平均队列长度和平均延迟.从图11 可以看出，MADDPG-DC 方法的平均队列长度小于其他基线方法.在模拟时间为2 700 s 时，MADDPG-DC 方法下的平均队列长度达到峰值，约为0.63 辆.而对于其他基线方法，MADDPG 方法在2 980 s时达到约为1.41 辆的峰值，MADDPC-D 方法在2 980 s时的峰值在0.92 辆以上，IQL 方法在3 010 s 时的峰值在2.69 辆以上，最大压力控制方法在2 730 s 时的峰值在1.65 辆左右.

Fig.10 Average queues for different methods in real traffic networks图10 真实交通网络中不同方法的平均队列

Fig.11 Average delay of different methods in real traffic networks图11 真实交通网络中不同方法的平均延迟

对比图10 和图11 可以发现，不同方法的曲线大部分都有相似的趋势.大多数曲线在前期增加，然后在不同的时间到达峰值，最后趋于下降.因此，可以推断这2 个指标是相关的.随着车辆队列的增加，交叉口的平均延迟也会增加.值得注意的是，所有方法通过积累的交通数据进行学习后，都不同程度地减少了队列长度.

表6 给出了不同方法在实际下的表现.可以发现，MADDPG-DC 的表现优于MADDPG-D，说明延迟行动者网络更新的有效性.同时MADDPG-D 的表现其次，证明双评论家网络结构实现了更准确的价值估计，进而促进更高质量的策略学习.

Table 6 Performance of Different Methods in Real Traffic Networks表6 不同方法在真实交通网络中的性能

图11 展示了所有方法的平均队列长度变化曲线.如图11 所示，MADDPG-DC 方法在所有方法中表现最好，且MADDPG-D 的表现其次.2 种变体方法在初期的曲线非常接近，但MADDPG-DC 在3 050 s 达到约26.42 s/辆的峰值，而MADDPG-D 在时间3 250 s达到的峰值超过44.02 s/辆.MADDPG曲线虽然在模拟时间1 700～1 900 s 之间有所下降，但之后一直呈现上升趋势.IQL 方法和最大压力控制方法都直到结束时才出现一定程度的下降.

此外，值得注意的是，所有平均延迟曲线在前期均呈平稳上升趋势.最大压力控制方法和IQL 方法在后期仍然呈上升趋势，而MADDPG-D 方法和MADDPG-DC 方法在前期达到峰值，但在后期趋于下降.无论是IQL 方法还是最大压力控制方法都不能依靠一种可持续的策略来快速恢复拥堵的交通网络. 与 MADDPG 相比，MADDPG-D 受益于更准确的价值估计可以学得更好的策略.与MADDPG-D相比，MADDPG-DC 倾向于一种更稳定和可持续的策略，能够实现更快的交通拥堵恢复.MADDPG-DC的平均队列长度趋于0，说明该方法对于减少交叉口拥堵，提高车辆行驶效率发挥了重要作用.

4 总结和展望

为更好地估计MARL 方法中的价值函数，本文提出基于双评论家网络的多智能体深度确定性策略梯度方法.通过理论和实验论证MADDPG 存在价值高估问题，并提出双评论家网络结构来避免价值高估.此外，为提高策略更新的质量，延迟行动者网络更新.实验结果表明，本文提出的方法在多智能体粒子环境的多个环境上的表现显著优于MADDPG 等其他基线方法.此外，交通信号控制环境上的实验结果证明所提方法在真实环境中的可行性.

然而，大多数基于CTDE 框架的MARL 方法可能都存在价值高估或低估的问题，本文没有对其他基于CTDE 的MARL 方法进行深入研究，这是未来的一个有趣且有价值的研究方向.同时，在价值函数分解方法和其他CTDE 方法中实现更好的价值估计将是我们下一步的工作.

作者贡献声明：丁世飞提出论文的研究方向及指导论文写作；杜威负责论文的撰写及研究框架设计；郭丽丽、张健、徐晓负责实验指导及论文写作指导.