基于层次情节性元强化学习的对抗行为评估

2021-04-15 09:52孟庆海

指挥控制与仿真 2021年2期

聂凯,孟庆海

(中国人民解放军91550部队,辽宁大连 116023)

1 基于强化学习的对抗行为评估研究现状

军事仿真推演可以通过多次训练和评估提高指挥员能力和水平,其中对手行为的模拟十分重要,红方指挥员只有和逼真而强大的对手对抗训练,才能达到训练效果[1]。仿真推演的难点在于模拟人的智能行为,其中敌方对抗行为的模拟和预测一直困扰着军事仿真推演界[2-3]。军事仿真推演中的敌方对抗行为预测分为初级层(判断行动的意图,局部合理并且专业地应对)和高级层(能按红方作战目标,具备全局决策能力并自主组织作战行动),本文主要讨论初级层。

随着人工智能技术的快速发展,很多军事智能化项目是基于不确定性仿真建模的敌方对抗行为的模拟和预测,如“深绿”的核心技术本质上是基于实时态势的动态仿真,其“闪电战”模块是对未来多种不确定性开展仿真,预测出可能结果,为决策服务[4]。同时以AlphaGo为代表的深度强化学习技术为敌方对抗行为的智能模拟和预测提供了借鉴[5],在多个游戏应用上取得了很好的效果。但下棋游戏和作战打仗还有很多不同,态势要素的多样性、作战对抗性、对手的隐蔽性和欺骗性引起的不确定性等导致面向仿真推演的敌方对抗行为评估更加困难。且其核心技术强化学习虽然取得了较大进展,提出了有模型强化学习(策略迭代、值迭代)、无模型强化学习(基于值函数、策略搜索)、深度强化学习(Deep Reinforcement Learning,DRL)等[6-9],但面对战场态势的迅速变化,仍然满足不了敌方对抗行为评估的速度要求,原因:一是为了使新学到的信息不把之前学到的经验覆盖,参数更新的增量都非常小;二是弱归纳偏置需要考虑更多的可能性,放慢了学习速度[10]。因此,强化学习算法的训练速度成为制约其实际军事应用的关键。

其解决思路之一为将学习任务建模为多任务强化学习,使用元学习(Meta-Learning)对任务进行总结和归纳。Finn等[11]提出与模型无关的元学习方法(Model Agnostic Meta Learning,MAML),通过历史经验的应用来快速、高效地适应不同任务。Ritter等[12]将长短期记忆单元(Long Short Term Memory,LSTM)引入元学习中,当任务重复出现时,智能体无须重新探索,采用过去经验就可以加速学习。

另一解决思路为分层强化学习。将目标任务分割成独立的子任务,对每个子任务设立单独的任务层级,为每个层级设计相应的奖励函数,通过优化总奖励函数实现加速。主要分为基于选项(option)的强化学习、基于分层抽象机(hierarchical of abstract machines)的分层强化学习、基于MaxQ值函数分解的分层强化学习和端到端的分层强化学习等四类[13]。随着深度学习的快速发展,越来越多的端到端分层强化学习开始出现[14]。

为了提高强化学习速度,还提出了情节性元强化学习和分层元强化学习的解决思路。情节性深度强化学习(Episodic DRL)能够给过去发生的事件,保留一个明确的记录(Explicit Record)。当遇到新事件需要做决策时,可以把当前事件的内部表征跟储存的各种过去事件进行对比,匹配分数最高的中选[12]。情节性DRL和元RL结合在一起,形成情节性元强化学习(Episodic Meta-deep Reinforcement Learning,Episodic Meta DRL)[15]。

分层元强化学习将元学习与分层强化学习相结合,如Frans[16]借助meta-learning实现面对新任务的快速学习,在结构上采用分层策略的结构,通过使用共享的primitives(执行多个时间步的策略)能够在没有见过的任务上提升样本效率。总共有两套超参数θ和φ,其中φ是共享的 “primitives”代表根据以往任务学习到的通用的子策略。θ是上层策略的超参数,用来学习task-specific的宏观策略,以根据不同的新任务来调用子策略。

然而,作战仿真推演作为一项即时策略活动,对强化学习速度要求很高。敌方对抗行为评估的分层次、分阶段和经验、知识的可利用性,为加快强化学习速度提供了新思路。

本文将文献[16]的双层结构拓展为三层结构,分别对应于态势感知、理解和决策三个任务,并把环境知识和经验集成到学习算法,提出基于层次情节性元强化学习的敌方对抗行为评估方法,协同加快强化学习速度。设计了层次情节性元强化学习智能体结构,给出了具体流程;采用可微分神经字典DND[17]的情节记忆系统,解决参数增量的问题,并在LSTM里叠加设计好的情节记忆系统,恢复LSTM里的活动模式;最后选用OpenAI Gym平台[18]和飞行器攻防对抗智能博弈平台对方法进行测试验证。

2 敌方对抗行为评估建模

2.1 飞行器攻防对抗智能博弈平台

飞行器攻防对抗智能博弈平台是一种半实物仿真系统,用于模拟当前红蓝双方的飞行器对抗及指挥员决策过程。红蓝对抗双方可以是指挥员或基于强化学习的智能体模型,智能体通过多次仿真推演训练,在与战场环境的交互中获得最优攻防决策建议。基于强化学习的飞行器攻防对抗智能博弈平台工作流程如图1所示。

图1 基于强化学习的飞行器攻防对抗智能博弈平台工作流程

2.2 敌方对抗行为评估模型

根据“OODA环”理论,敌方对抗行为评估是一个循环迭代过程,即不断地进行态势感知、理解与决策这一循环过程,最终实现预测敌方行为并战胜敌方的目的。这可以建模为一个多任务强化学习问题,由于战场情况的动态变化,将整个作战过程分为n个任务,即T1…Tn,每个任务Ti(i=1…n)为一个情节(episode),可包含多个子任务。

根据任务的需要,将层次情节性元强化学习的双层结构拓展为三层结构,分别对应于态势感知、理解和决策三个任务。当父任务被表述为强化学习问题时,通常可表述为半马尔可夫决策问题,这是因为其动作是持续一定时间的子任务。

在态势感知阶段,智能体通过与战场环境交互或被动观察战场环境的样本来收集信息,通过卷积神经网络(Convolutional Neural Networks,CNN)等实现态势感知。智能体根据收集的信息和交互结果,确定强化学习算法的结构与参数。最后结合元学习经验和外部知识,确定最优奖励函数和多任务强化学习的各层次策略。

以飞行器攻防为例,通过CNN对敌方对抗行为及态势图像进行捕捉与识别,构建当前敌方状态特征集合,以我方对策及对抗态势作为其环境,接着利用池化层将多维矩阵进行降维,送进强化学习模型,最后通过多个全连接层,输出敌方实体可能行为情况,具体模型如图2所示。

图2 敌方对抗行为评估模型

飞行器攻防对抗智能博弈平台中敌方对抗行为评估的层次情节性元强化学习模型,包含智能体和环境,分别对应飞行器指挥员和对抗仿真环境,对抗仿真环境能够控制仿真速度。该环境可以获得当前对抗行为及态势的图像信息,决策的数据为经过多传感器融合后的目标特征,即状态S。整个马尔可夫决策过程(Markov Decision Process,MDP)可由四元组〈S,A,P,R〉定义,其中，状态(S):S为有限状态集合。在飞行器攻防对抗智能博弈平台中,红蓝双方指挥员或智能体模型的状态s可表示为一组32维向量,包括:位置(以飞行器的经度、纬度、高度三元组坐标表示,如(B、L、H))、飞行距离、速度、姿态角(俯仰角、偏航角)、所处状态(上升、巡航、下降、末端制导、干扰、摧毁或被摧毁、协同)等。

动作(A):A为有限动作集合,主要指飞行器可能的运动方向,每次执行动作,在态势图像中飞行器会采取向上、下、左、右4个方向中的一种来移动一格。

状态转移概率(P):P表示在当前状态s下采取了动作a后,进入下一时刻状态s′的概率。

奖励函数(R):在状态s执行了动作a后到达下一状态时,智能体得到的奖励,其表达式为R(s,a),其中s∈S,a∈A。在仿真结束时,如果命中目标,则另外给+10的奖励,反之,则为-10。层次情节性元强化学习针对每个子任务定义一个奖赏函数。

3 层次情节性元强化学习智能体结构

层次情节性元强化学习HE Meta DRL主要基于将环境知识和经验集成到学习算法的思想,它采用HE DRL和Meta RL协同加快强化学习速度,元学习是在LSTM里实现的,并在上面叠加了一个情节记忆系统。HE Meta DRL结构如图3所示。

图3 HE Meta DRL结构图

3.1 层次情节性元强化学习方法流程

整个方法分为三层,一层为顶层,θ是其策略超参数,二层为一级子层,φk=πφk(a|s)(k=1,…,K)为其策略参数,三层为二级子层,γkj=πγkj(a|s)(j=1,…,J)为φk对应的子动作的策略参数。

假设存在满足某个分布的任务集合,PM代表一个MDP集合满足的分布。φ和γ被所有的任务共享,表示以往任务学习到的通用的子策略,并存储于可微分神经字典DND中。

层次情节性元强化学习的总目标奖励函数为

(1)

公式(1)的目标是要找到共享的参数φ和γ,能够在面对新的MDP时仅仅通过更新θ能够实现新的奖励。方法具体流程为:

1)首先在顶层更新阶段,固定现有的子策略参数φ,仅对主动作的策略超参数θ进行更新。更新仅与状态值、主动作和主奖励有关,顶层策略每隔N个时间步选择一个子策略,如图3中的浅蓝色框内部分。即从PM中采样一个MDP,然后初始化一个智能体,使用之前记忆存储的子策略集合,顶层策略使用随机参数。执行顶层更新来优化θ,并进入联合更新阶段。

2)接着在一级子层更新阶段,同时对θ和φ进行更新。对φ更新的时候仅对在这个短时期激活的子策略超参数进行更新,并将主动作当作状态值的一部分,如图3中的浅黄色框内部分。

3)最后在二级子层更新阶段,同时对θ、φ和γ进行更新,对γ更新的时候仅对在这个短时期激活的子策略超参数进行更新,如图3中的浅红色框内部分。最后得到总目标奖励函数。

3.2 基于可微分神经字典记忆的元强化学习LSTM

情节记忆系统采用可微分神经字典DND存储key/value对[19]。元强化学习作用是恢复LSTM里的活动模式,情节记忆会对各种过去的事件进行编目。在决策过程中,采用和LSTM存储好的活动模式关联代替依据匹配分数选择下一步的动作,并通过LSTM总结出智能体学到的东西。当智能体再遇到了类似情况,就基于过去经验恢复一些隐藏的动作,指导决策策略,进一步加快强化学习速度。基于可微分神经字典记忆的元强化学习LSTM的结构如图4所示。

图4 基于可微分神经字典记忆的元强化学习LSTM结构图

查询关键字h的值由CNN编码而成。对于每个动作a∈A,单记忆模块定义为Ma=(Ka,Va),其中Ka和Va是向量的动态矩阵。DND中一个lookup被执行后可以将关键字h映射到一个输出值o上。hi是矩阵Ka的第i个元素,k(x,y)为向量x和y的一个核。DND基于关键字采用k-nearest近邻算法检索值,且它是一个可微过程,能够使基于梯度的神经网络训练产生关键字，最终实现将(s,a)放入记忆系统。

3.3 协同方法

在HE Meta DRL智能体中,任务环境c被嵌入为关键字,LSTM的单元状态被存储为值。为了协调现在工作存储单元和新感知输入cin的贡献,引入乘法门it和ft,并为可恢复工作状态增加一个新项rt(k)⊙cep(k),其中rt(k)是可复原门,即r-gate,cep(k)(k=1,2,3)为情节性存储的恢复状态,k为层次强化学习的层级数。具体公式为

ct(k)=it⊙cin+ft⊙ct-1+rt(k)⊙cep(k)

(2)

将公式(2)中的rt(k)⊙cep(k)定义为协同影响因子,通过k调节不同层级对计算结果的影响。

协同过程:

在HE Meta DRL智能体中,元学习是在LSTM里实现的,不过上面叠加了一个情节记忆系统,作用是恢复LSTM里的活动模式。情节记忆会对各种过去的事件进行编目供查询,在决策时,关联LSTM存储好的活动模式。

4 验证

选用OpenAI Gym平台和飞行器攻防对抗智能博弈平台对方法进行测试验证,并选用元强化学习[20](Meta Reinforcement Learning,L2RL)和基于上下文相关的元强化学习[15](Context Meta Reinforcement Learning,L2RL+context)作为测试基准。OpenAI Gym平台和飞行器攻防对抗智能博弈平台中的强化学习训练部分运行于Linux下,使用Python编程实现,即Ubuntu16.04 64位操作系统、Python3.5,使用Anaconda管理Python环境,采用PyCharm作为Python编程集成开发环境,并基于TensorFlow框架。硬件为多块GPU (RTI 2080Ti,11GB RAM)组成的深度学习系统。

4.1 实验1:基于OpenAI Gym平台的倒立摆CartPole-V0

采用OpenAI Gym平台验证L2RL、L2RL+context和HE Meta DRL在倒立摆任务CartPole-V0上的表现。OpenAI GYM中CartPole-V0的最大步长为200步。实验中的上下文为二进制字符串C={0,1}l,l=10为字符串长度,智能体的挑战为当上下文背景重新出现时,它能够基于过去存储经验迅速探索到最佳臂。在DND中k-nearest近邻算法的k=1,并将50维向量通过cep输入LSTM。

真实环境中训练3个模型时的迭代次数为100 000次及以上,为了更好地显示结果,使用TensorboardX[21]将结果中的episode奖赏真实累积值(剧烈波动的阴影曲线)平滑为深色曲线,以下两个实验采用相同方法。三种模型在CartPole-V0任务下的episode奖赏如图5所示。

图5 CartPole-V0任务下的episode奖赏

从图5可以看出,HE Meta DRL的episode奖赏明显多于L2RL和L2RL+context,分层机制和情节性记忆系统起了作用。

4.2 实验2:基于OpenAI Gym平台的情节性两步任务

情节性两步任务(Episodic“two-step task”)由Daw于2011年提出[22],在每个情节性单元中包含一个两阶段马尔可夫决策过程MDP,主要用来评估L2RL或HE Meta DRL模型能够学习模型相关或模型无关控制的能力。采用OpenAI Gym平台验证三种算法L2RL和HE Meta DRL在情节性两步任务上的表现。任务的[P(R|s1),P(R|s2)]设置为[0.9,0.1]或[0.1,0.9],这些参数有10%的机会在每个情节性单元中复现。两种模型在情节性两步任务下的episode奖赏如图6所示,其他设置如实验1。

图6 情节性两步任务下的episode奖赏

从图6可以看出,HE Meta DRL的episode奖赏明显多于L2RL。

4.3 实验3:基于攻防对抗智能博弈平台的敌方对抗行为评估

实验中的数据来自于实际演训和飞行器攻防对抗智能博弈平台的仿真推演。实际演训数据包含了飞行器攻防对抗产生的多维度、全要素和全样本数据,也含有人的认知和指控行为、多方博弈产生的对抗数据,是最接近实战的作战数据,但受限于演训次数,数据量有限;飞行器攻防对抗智能博弈平台通过设置想定背景、关键行动及通过控制仿真时钟速度来加快仿真速度,获取海量多次对抗仿真推演数据。

对抗环境因素:飞行器攻防对抗智能博弈平台中的战场仿真环境为一个1 000 km(长)×1 000 km (宽)×100 km(高)的立体区域内,并将该空间划分为网格状地图,并映射为二维态势图,采用卷积神经网络进行识别。

对抗规模:目前规模为1对1,后续将扩展到多对多对抗,即多智能体系统。

对抗态势:在1对1飞行器攻防对抗任务中,利用HE Meta DRL对蓝方飞行器的突防策略进行学习,红方飞行器则由指挥员亲自参与对抗训练或采用智能体模型。在对抗时,红蓝双方都配置有目标探测、识别、跟踪与拦截装置,可对敌方飞行器进行拦截。

边界条件:在状态s执行了动作a后到达下一状态时,智能体得到的奖励,其表达式为R(s,a),其中s∈S,a∈A。在仿真结束时,如果命中目标,则另外给+10的奖励,反之,则为-10。层次情节性元强化学习针对每个子任务定义一个奖赏函数。当红方飞行器被拦截或突防成功命中目标时仿真结束,具体奖赏设置如表1所示。

表1 奖赏设置

4.3.1 评价指标与设置

为了评估对抗结果,使用对抗获胜率进行评价,对抗获胜率越大,该算法优势越明显,具体定义为[23]

(3)

其中VR为对抗获胜率,N为测试轮数,在这里ar和ab分别指红方指挥员和蓝方对抗算法,Vi(ar,ab)为第i轮ar方和ab方对抗获胜指标:

(4)

其中，Si(ar),Si(ab)分别为ar方和ab方在第i轮的得分。

同时，定义平均成功时间来衡量算法成功完成对抗任务的效率。若N轮测试有L轮成功,则平均成功时间定义为

(5)

4.3.2 验证结果

进行5 000次攻防对抗训练,每个仿真步长为0.1 s,在对当前对抗态势图像裁剪和压缩后,将其特征作为一次观测,存入训练数据集合{episode={(xt,at,xt+1,rt+1,dt+1)}}中,xt包含红蓝双方的特征。基于图2中的CNN将原始特征压缩并编码后输入HE Meta DRL模型。HE Meta DRL与模型L2RL、L2RL+context及红方指挥员之间进行对抗,对抗结果如表2、3所示。

表2 三种模型与红方指挥员对抗获胜率VR(%)

从表2可以看出，HE Meta DRL获胜率高于L2RL、L2RL+context及红方指挥员,可见设计的模型效果较好,分层机制和情节性记忆系统发挥了作用。与红方指挥员的对抗获胜率是三者之中最低的，但大于50%,可表明，经过多次训练的层次情节性元强化学习智能体能够超越人类。

平均成功时间越低，说明模型对抗获胜的效率越高,从表3可以看出，HE Meta DRL是三个模型中最高效的,从绝对时间在80～90 s之间可以看出,相对于经典深度强化学习模型,HE Meta DRL完成任务的速度提高很快,实现了层次情节性DRL和元RL协同加速的设计目标。但与军事即时决策的要求相比,还需进一步提高速度。

表3 平均成功时间步数

5 结束语

为了加快基于强化学习的敌方对抗行为评估速度,提出了基于层次情节性元强化学习的敌方对抗行为评估方法HE Meta DRL。基于OpenAI Gym平台和飞行器攻防对抗智能博弈平台在倒立摆任务、情节性两步任务和敌方对抗行为评估任务上对方法进行了验证。从验证结果可以看出:1)层次分解的优势是在整个问题精简表征和存在可重用或独立的子任务时减少计算复杂度。通常在分解减少复杂度和分解后问题能达到的优化程度方面存在折中;2)基于可微分神经字典DND的情节记忆系统,解决了参数增量的问题,与元强化学习的结合,利用了之前学习得到的策略,能够协同加速强化学习。未来,将对模型及其参数进行优化,使评估速度进一步加快,满足军事即时决策的要求。