基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策

2021-09-23 13:25郭万春解武杰董文瀚
空军工程大学学报 2021年4期
关键词:步长重构经验

郭万春, 解武杰, 尹 晖, 董文瀚

(1.空军工程大学航空工程学院, 西安, 710038; 2.空军工程大学教研保障中心, 西安, 710051)

近年来,各种控制理论和方法研究为自主空战决策提供了解决方案。文献[1]利用差分博弈论,将空战模型建模为一个确定的、完全信息的追逃博弈模型。文献[2]研究了一种实时自主一对一的近似动态规划空战方法。文献[3]采用了一种基于可达性的方法来解决追逃博弈问题。此外,还有多级影响图法[4]、滚动时域法[5]和基于统计学原理的方法[6]等。由于现实环境的不确定性以及真实测试昂贵、耗时和危险等原因,这些探索大多停留在理论研究阶段,难以付诸工程实践和实战。

深度强化学习(deep reinforcement learning,DRL)正成为利用AI解决决策问题的主流研究方向[7-10]。文献[11]采用了深度Q学习(deep Q-learning network,DQN)的方法控制无人机的速度和转角,然而DQN对次优动作高估的状态动作值超过最优动作的动作值时将无法找到最优动作,并且它只能处理离散的、低维的动作空间,这与大多实际情境不符。文献[12]使用异步的优势行动者评论家算法(asynchronous advantage actor-critic,A3C)训练无人机进行空战,利用多线程的方法,同时在多个线程里分别与环境进行交互学习,避免了DQN中出现的经验回放相关性过强的问题,但是训练出的无人机空战性能有待提高。文献[13]假定对战的两架飞机速度恒定,使用深度确定性策略梯度算法(deep deterministic policy gradient, DDPG)训练了无人机,虽然取得了良好的训练效果,但是训练出的追击策略较为单一,并且没有考虑飞机的火力打击区域,仅仅以两机间的距离在某一范围内作为成功打击目标的准则。

本文讨论自主空战中深度强化学习在无人机反追击的应用。考虑非对称性的追逃博弈问题,具有扇形火力打击区域的两架无人机进行追击/反追击的空中对抗,攻击(以下标注为ATTACK)无人机采用纯追踪法(pure pursuit)打击目标,目的是训练速度不大于ATTACK无人机的智能(以下标注为RL)无人机摆脱其追击并进行反制。

1 问题描述

无人机自主机动反追击使用参数化动作空间马尔科夫决策过程[14]的形式化框架,由一个五元组构成:。RL无人机通过与环境交互学习状态到动作的映射关系以此获得最大累计期望回报。假设这是一个理想模型,环境的动态特性P(·|(s,a))=1是确定的,即不存在风等对无人机飞行有干扰的因素。时间步为t时观测到的无人机状态st∈S。RL无人机从可用的行动集合A中选用行动at∈A,环境在at的作用下,转换至新状态st+1,在进行状态转移到下一个新状态的同时产生奖励r(st,at)。RL无人机根据新观测到的状态st+1,再做出新的决策,采取行为at+1,依次反复进行直至达到环境的终止状态。γ∈[0,1]为未来回报折扣因子,RL无人机旨在寻找一个策略π使得其从任意初始状态s0出发在达到终止状态时获得最大的累计奖励:

(1)

根据文献[15],无人机反追击模型可描述为:

(3)

设ATTACK无人机和RL无人机的偏航角分别为α和β,则其位置信息分别为XATTACK=(x1,y1,α),XRL=(x2,y2,β)。

根据文献[11],ATTACK无人机对RL无人机进行火力打击的示意图如图1所示。

图1 火力打击示意图

ATTACK无人机进行火力打击的规则为纯追踪法:其速度方向将时刻指向RL无人机,试图将RL无人机追击在自己的打击范围内,该策略在文献[16]中被证明是十分有效的追击手段。根据最优追逃策略[17],设ATTACK无人机相邻两次时间步长内的偏航角变化量φATT满足:

(3)

2 无人机反追击Markov决策过程建模

2.1 无人机飞行状态空间

由于两架无人机在同一高度上进行追击与反追击的空中对抗,记位置信息为D=(x1,y1,α,x2,y2,β),在每个时间步长的开始,以ATTACK无人机的位置和偏航角为基准,将原有的坐标系逆时针旋转α角,使新坐标系的原点位于ATTACK无人机处,并且x轴方向与ATTACK无人机的偏航角重合。在新坐标系下,得出RL无人机的位置满足以下关系:

(4)

(5)

β′=β-α

(6)

新坐标系下无人机的相对位置信息为:

D′=(0,0,0,(x2-x1)cosα+(y2-y1)sinα,

(x2-x1)sinα-(y2-y1)cosα,β-α)

(7)

值得注意的是,这个新坐标系是随着ATTACK无人机的位置和偏航角实时变化的,由于ATTACK无人机也在做机动,所以每一时间步的原点和坐标的横纵轴方向,在真实物理空间上是不一样的,引入这个坐标系只是为了描述它们的相对位置。相对位置信息的6维向量有3维始终为0,因此通过相对坐标系可以进一步将无人机的飞行状态空间压缩一倍。构造新的观测状态为:

s=((x2-x1)cosα+(y2-y1)sinα,

(x2-x1)sinα-(y2-y1)cosα,β-α,Nz)

(8)

2.2 无人机飞行动作空间与终止奖励函数

在每个时间步的开始,无人机从其动作空间允许的速度和转向过载向环境提供一个动作,给定的动作会立即更新当前的速度和偏航角,在剩余的时间步长中保持不变。其中ATTACK无人机采用纯追踪法的策略,保持一个恒定的速度,可以选择从一个连续范围的转弯角度,使用纯追踪法可以让ATTACK无人机稳步拉近与对手的距离并接近对手使其置于火力打击范围。RL无人机使用强化学习算法,它的动作空间包含速度和转向过载值,定义为:

A={v,Na}

(9)

两种无人机机动能力数据见表1。

表1 机动能力数据

定义反追击成功时的回报,即:

(10)

3 基于深度强化学习的无人机反追击算法

值函数过估计的问题既在DQN中存在,也存在于“行动者-评论家”网络。在DQN中采用的双重深度Q学习[17](double deep Q-learning network,DDQN)方法可以一定程度上降低过估计的误差,但在“行动者—评论家”网络中使用类似DDQN的方法是无效的,因此本文采用双延迟深度确定性策略梯度算法TD3来解决值函数过估计的问题;为了提高训练前期的效率和训练后期的稳定收敛,将经验回放区进行重构并改进传统的随机抽样策略。

3.1 无人机反追击算法框架

经验回放区重构将成功经验和失败经验分为两个经验回放区。如果RL无人机反追击任务满足式(10)中r(s,a)=1,则被认为是暂时的成功经验储存在成功经验回放区中,记为Rs;相反,满足r(s,a)=0,则将失败经验储存在失败经验回放区中,记为Rf。由于RL的奖励过程中存在着时间延迟,所以存储在Rs中的一些即将达到失败前的经验也与失败有关。因此,可以把这些经验从Rs以ηf的比例提取出来。具体来说,对每一个时间步,如果是成功经验,将被直接储存在Rs中;如果是失败经验,将存放至Rf,同时以ηf的比例从Rs中提取出上述的失败经验。

改进传统的随机采样策略:更新时,行动者和评论家同时从Rs以ξs比例以及从Rf抽取(1-ξs)的样本来进行优化。其中,考虑训练前期的效率和训练后期局部最优的制衡,ξs应随着训练总迭代次数M衰减:

(11)

经验回放区重构的TD3方法见图2。

图2 经验回放区重构的TD3方法框架图

传统TD3使用经验回放区解决训练数据间的相关性,在环境中探索得到的样本数据,以状态转换序列为单元存放于回放区中,当记忆库满时,则删掉旧的样本数据,保证回放库中的容量不变。每次更新时,行动者和评论家都会从中随机的抽取一部分样本进行优化,来减少一些不稳定性。但是,随机采样会导致训练效率低,收敛性能差。本文提出的经验回放区重构可以一定程度上解决这一问题。

从重构经验回放区采样得到一个小批量的训练数据,TD3通过梯度上升/下降算法更新当前网络的参数。然后再通过优化的滑动平均方法更新目标网络的参数,使得目标网络参数缓慢变化,以此提高学习的稳定性。

3.2 基于改进TD3的无人机反追击决策算法

TD3采用行动者-评论家框架,包含6个神经网络,见表2。

表2 TD3中的神经网络

拟合策略函数的策略网络πφ,参数为φ,输入为当前状态st,输出无人机的动作:

at=πφ(st|φ)

(12)

策略网络图见图3,网络参数见表3。

图3 策略网络

表3 策略网络的参数

网络参数通过确定性策略网络梯度定理更新:

(13)

目标策略网络πφ′的参数为φ′,输入为下一状态,输出下一状态的动作:

at+1=πφ′(st+1|φ′)

(14)

拟合状态动作值函数的Q1网络Qθ1和Q2网络Qθ2,参数分别为θ1和θ2,输入为当前状态st和实际执行的动作at,输出为状态动作值即Q1值和Q2值:

Qi=Qθi(st,at|θi)

(15)

Q1网络还输出状态动作值函数对动作的梯度∇aQθ1(st,at|θ1)用于式(13)的参数更新。

状态动作值网络见图4,网络参数见表4。

图4 状态动作值网络

表4 状态动作值网络的参数

(16)

TD3在两个目标Q网络中选择较小的Q值,防止DDPG中评论家网络对动作Q值过估计的问题:

Q′=min{Q1′,Q2′}

(17)

对于Q1网络和Q2网络,定义损失函数:

(18)

通过损失函数的反向传播算法更新得到Q1网络和Q2网络的参数。其中y表示时序差分(temporal-difference,TD)目标值:

(19)

(20)

Q1网络和Q2网络的TD误差分别为:

TDerrori=y-Qθi(st,at|θi)

(21)

对评论家更新2次后,行动家再进行更新,策略网络πφ、Q1网络和Q2网络的参数通过滑动平均分别得到目标策略πφ′网络和目标Q1网络和Q2网络的参数:

(22)

无人机反追击决策算法训练流程如下:

初始化经验回放库Rf、Rs、策略网络πφ、Q1网络和Q2网络,并将它们的参数复制给目标策略网络πφ'和目标Q1网络和目标Q2网络。For episode = 1,2,…,M: a←πθμ(s)+ε,其中ε~N(0,σ),给行为添加噪声; 获取无人机飞行仿真环境的初始状态。 For t = 1,2,…,T: 根据当前策略和探索噪声,获得行为a; 执行行为a,获得回报r(s,a)和下一个状态s';

状态转换序列存储于回放记忆库Rf、Rs中; Rf、Rs中分别以ξs和(1-ξs)的比例抽取N个状态转换序列,作为策略网络和Qi网络的训练数据; 根据式(20)计算 a; 根据式(19)计算时序差分值y; 根据式(18)更新Q1网络和Q2网络参数; IFt mod 2: 根据式(13)计算样本策略梯度,更新策略网络; 根据式(22)更新目标策略网络和目标Q1网络和Q2网络。 End if End forEnd for输出最优策略网络参数以及最优策略。

4 仿真验证与分析

设置训练集为M=10 000,随机初始化两架无人机初始位置与姿态信息。其中ATTACK无人机的初始位置在原点,偏航角在[0,2π]内均匀分布;RL无人机的初始位置是以原点为中心的横纵坐标x、y变量呈正态分布的随机分布,其中x、y方向标准差均为0.5 km。这样的随机初始化可以做到让RL无人机在一个时间步长后摆脱追击并进行反制,实际上加快了收敛速度。超参数设置见表5。

表5 超参数

分别使用面向连续动作空间的确定性策略方法TD3算法和DDPG算法进行训练,每100次训练记录当前100次训练的胜率。训练效果见图5。

图5 训练效果对比图

可以看出,与基准DDPG算法相比,本文方法的胜率约高出10%左右。改进后的TD3算法虽然在训练的后期与传统的TD3算法能达到的胜率相差不大,但是由于经验回放区的重构,新的采样策略代替原始的随机采样策略,使得在训练伊始可以更多学习到任务成功经验序列,使改进后的TD3算法在训练前期的收敛速度较快,波动也较弱。

算法训练完成后,对训练集进行大量仿真测试,在训练集中进行4 000次对抗,每次包括100个时间步长,该时间步之内未能分出胜负则为平局。仿真表明,RL无人机成功实施反追击的次数为3 761次,成功率为94.025%,达到了预定目的。与TD3算法和DDPG算法的对比见表6。

表6 测试效果对比表

可以看到,改进后的TD3算法胜率略高于TD3算法,明显高于DDPG算法,但是由于整个算法当中比DDPG多了两个神经网络的参数,所以从决策时间来看,决策时间均略长于DDPG 算法。

在测试集中,RL无人机使用本文训练好的策略进行反追击的胜率也很难低于93%。图6~10展示了测试集中具有代表性的双机轨迹,从中可以观察到典型的RL反追击策略。图6~9显示了RL无人机为了获胜所采用的最常见的策略,图10展示了RL平局时的大部分场景。

图6 轨迹1

图7 轨迹2

图8 轨迹3

图9 轨迹4

图10 轨迹5

如图6所示,RL无人机通过在被追击的早期改变速度同时调整转向过载值来做出长期决策:一开始加速是防止在前期就被击中,随后进行减速和转弯机动,诱骗对手也进行转弯大机动,从而拉开与对手的距离,再之后采用的策略类似于图7。

如图7所示,RL无人机在ATTACK无人机前面先进行转弯机动,随即降低速度,由于ATTACK无人机按照纯追踪法以不小于RL无人机的恒定速度向其方向移动,最终,ATTACK无人机最终被锁定在RL无人机的前方的火力打击区域内。

如图8所示,RL无人机通过调整速度和转向过载围绕ATTACK无人机轨迹两侧蜿蜒的方式进行机动,逐渐缩小与对手的距离,最后同样采用类似图7的策略,使ATTACK无人机飞行至自己的前方,被锁定在自己的火力打击范围内。

如图9所示,RL无人机还可以学习到的策略是机会性的,不需要做过多的机动即可以在较短的时间步长内取得对抗的胜利而非依靠上述提及的策略。根据一些合适的初始条件,RL无人机基本不调整转向过载地径直飞行,只是在前期需要采用类似于图6的策略调整速度防止前期被攻击。

如图10所示,还可以学到一种在规定时间步长内平局的策略,即RL无人机诱导ATTACK无人机一起做圆周运动,以此让ATTACK无人机的扇形火力区域无法攻击自己。

5 结论

本文针对无人机近距空战的自主机动反追击问题,提出经验回放区重构TD3算法。该方法将经验回放区重构为成功、失败两个经验回放区,取代传统的随机采样使用基于成功、失败经验区的采样策略。仿真结果表明,RL无人机学到的策略在训练集上兼顾了训练前期的学习效率与训练后期的稳定收敛,在测试集上展示了较好的性能。

本文研究基于无人机的状态全局可观测这一假设条件,而真实空战环境下,受我机感知范围限制,敌机位置等态势信息并不能时刻被精确获取。针对不完全信息博弈条件进行空战决策研究,更具挑战性和实用性,将是本文下一步研究的重点。

猜你喜欢
步长重构经验
“双减”能否重构教育生态?
长城叙事的重构
2021年第20期“最值得推广的经验”评选
基于干扰重构和盲源分离的混合极化抗SMSP干扰
一种改进的变步长LMS自适应滤波算法
基于变步长梯形求积法的Volterra积分方程数值解
董事长发开脱声明,无助消除步长困境
起底步长制药
2018年第20期“最值得推广的经验”评选
用四维的理念重构当代诗歌