基于自适应动态规划的多对一追逃博弈策略

2022-01-22 10:45袁斐然刘春生陈必露
电光与控制 2022年1期
关键词:权值控制策略动态

袁斐然, 刘春生, 陈必露

(南京航空航天大学,南京 211000)

0 引言

受益于军事领域的广泛运用,追逃博弈理论自被ISAACS提出后就受到了各国学者的青睐[1]。近年来,伴随着战区通讯指挥系统和新式武器装备的入列,战争逐渐向着集团化、智能化方向发展。传统一对一追逃博弈结构已无法满足协同作战的需求,多对一追逃博弈理论应运而生。文献[2]提出了多对一追逃条件下成功追击(逃逸)的必要条件,为后续研究提供了理论基础;文献[3]研究了目标速度更快时的多对一追击方式;文献[4]进一步研究了高机动性目标与快速追击者间的追逃博弈过程;KUMKOV等[5]总结了多方追逃零和博弈问题的研究近况,指出目前关于多对一博弈问题的研究依然局限于简单的线性动态博弈。

当前,多对一追逃问题的一个重要应用是导弹协同攻防问题。随着高超音速导弹等一批高性能导弹投入使用,传统线性模型与先进导弹协同攻防过程匹配度不佳,会造成制导精度显著下降。而在非线性模型中研究微分博弈制导律则不可避免地需要计算非线性偏微分HJI方程[6]。近年来,自适应动态规划(ADP)算法的发展为处理该问题提供了新思路,即通过构造神经网络,在线迭代逼近最优解。文献[7]研究了“领导-跟随”模式下基于ADP的非线性多智能体系统控制问题;文献[8]结合容错控制技术和ADP算法,提出了非线性最优容错控制律设计方案;文献[9]将ADP技术应用于一对一导弹非线性追逃模型,证明该方法相较于传统比例导引和最优制导方法具有更好的追击性能;文献[10]进一步研究了ADP算法在多对一导弹拦截问题中的应用。

令人遗憾的是,目前基于ADP技术的导弹多对一追逃问题,多将逃逸策略设为已知函数,仅对多弹协同追击策略进行研究,而在实际作战过程中,追逃双方策略选择应是一个动态博弈过程。受此启发,本文首次利用ADP算法研究非线性多对一追逃博弈系统的最优控制问题。考虑到微分博弈理论中追逃策略总是成对出现,多对一追逃问题中,逃逸方面对多方追击时必然会出现多个不同逃逸策略难以选择的问题,创新性地提出:整体逃逸策略是各单一逃逸策略的动态加权。通过引入适当的代价函数,使得单一评价网络同时适用于追逃博弈控制策略的计算和策略融合方式的计算,降低了计算复杂度。最后,通过对二维平面导弹协同攻防模型仿真验证,证明提出的追逃博弈策略的有效性。

1 问题描述

考虑一个描述多对一追逃博弈的非线性系统,其中,追击方采用“领导-跟随”模式,那么第i个追击者动态可表示为

(1)

式中:xpi(t)∈Rn,为第i个追击者的状态变量;ui∈Rm和vT∈Rk分别为追逃双方控制输入信号;fi(xpi)∈Rn,为满足局部Lipschitz连续的可微函数;gi(xpi)∈Rn×m和ki(xpi)∈Rn×k为已知的有界连续函数。

领导者动态可表示为

(2)

式中:u0为领导者跟踪控制输入信号;f0(xl 0(t),u0,vT)∈Rn,为已知的非线性函数。

假设1 描述追击方通信拓扑结构的有向图有一个生成树并定义相关参数ai j,bi如下:如果第i个追击者能获取第j个追击者信息,那么ai j=1;如果第i个追击者能获取领导者信息,那么bi=1,否则均为0。

基于假设1,第i个追击者的局部邻域跟踪误差动态为

(3)

对应局部邻域一致性误差方程为

(4)

在多对一追逃博弈中,逃逸方需要同时考虑每个追击者的威胁,而式(1)和式(4)仅描述了逃逸方和第i个追击者之间的动态关系。此时,计算获得的逃逸策略应是逃逸方控制输入信号vT的一个分量,记为vT i。

定义局部合作性能指标函数为

(5)

定义对应的Hamilton函数为

(▽Ji(ei))T(fei(t)+(bi+di)(gi(xpi)ui+ki(xpi)vT i))-

(6)

式中,▽Ji(ei)=∂Ji(ei)/∂ei。对应HJI方程可表示为

(7)

(8)

此时存在N个单一逃逸控制策略,整体逃逸控制策略(即逃逸方控制输入信号)vT设计为针对不同追击者单一逃逸控制策略的自适应加权,即

(9)

式中,ψi(t)∈[0,1],表示和为1的修正权系数。

为设计修正权系数,令策略融合性能指标为

(10)

2 神经网络控制器设计

(11)

成立。选取逼近性能指标函数的单评价网络

(12)

式中:Wci∈RL0,为理想权值向量,L0∈R,L0>0,为隐含层节点数;σi(ei)∈RL0,表示神经网络激励函数;εci(ei)为神经网络逼近误差。

(13)

联立式(8)与式(13),分布式最优控制律可表示为

(14)

近似的Hamilton函数可表示为

(15)

基于梯度下降法,选择针对第i个追击者的评价神经网络权值更新律

(16)

在稳定性分析前,补充以下两条必要性假设。

假设3 对于第i个子系统,Wci,σi(ei)及其偏导数,εci(ei)及其偏导数均为有界量。

假设4 针对第i个追击者的子系统的邻域信号是稳定的。

定理1在假设1~4成立的前提下,对于非线性追逃博弈系统式(1),选取式(14)所描述的博弈策略以及式(16)所设计的评价网络权值更新律。当选取恰当的调整参数后,提出的追逃博弈最优控制策略可以保证局部邻域跟踪误差信号以及权值估计误差是最终一致有界的(Uniformly Ultimately Bounded,UUB)。

证明如下。

选取如下形式的Lyapunov函数

(17)

(18)

令λmin(·)为矩阵最小特征值,bεi是一个正常数且满足‖▽εci(ei)‖≤bεi,则有

(19)

(20)

或者

(21)

根据Lyapunov理论,定理1中所有信号均为最终一致有界。

证毕。

3 显性协同制导追逃问题的应用

导弹协同制导追逃博弈问题是典型的多对一博弈问题,本文考虑领弹携带2枚从弹显性协同追击机动目标情况。导弹的控制目标为同时命中目标保证打击效果,目标的逃逸目的为避免被同时击中以提高战场生存率。

3.1 多导弹追逃博弈模型

考虑多弹协同拦截同一机动目标的相对运动关系,如图1所示。

图1 多弹协同拦截示意图Fig.1 Schematic diagram of cooperative guidance problem

第i枚导弹与目标相对运动关系可以表示为

(22)

(23)

3.2 整体逃逸策略设计

假设领弹与其2枚从弹之间的通信拓扑结构参数为a11=a12=a22=0,a21=1且b1=1,b2=0。

结合式(9)与式(10),整体逃逸策略的求解问题转化为如下形式优化问题,即

(24)

s.t.

对应Hamilton函数为

(25)

式中,▽eiJψ=∂Jψ/∂ei。考虑到J2项中不包含变量e1,则有▽e1Jψ=▽e1J1。同理,▽e2Jψ=▽e2J2。结合最优控制必要条件,使用神经网络式(13)输出估计式(25)中未知量,可得整体策略算式为

(26)

4 仿真验证

仿真结果如图2~5所示。

图2 弹目运动轨迹示意图Fig.2 Trajectories of the target and the missiles

图3 追逃双方控制策略Fig.3 Control strategies of the two sides

图4 弹目相对距离Fig.4 Relative distance between the target and the missiles

图5 评价网络权值变化Fig.5 Changing of weights of the critic network

图2给出了追逃全程弹目相对运动轨迹。从中可知,2枚从弹为了保证同时打击,飞行轨迹均有延长,进行“绕路”后击中目标。图3描绘了弹目追逃过程中三者所需的侧向加速度及整体逃逸控制策略计算参数的变化。图4刻画了目标与领弹及其2枚从弹之间的相对距离关系。可以看到,经过博弈后追逃各方达成均衡态势,受目标逃逸影响,各弹命中时间间隔减小但并未同时击中目标。图5给出评价网络权值变化情况,经过一段时间学习,权值收敛至其理想值附近。

注2 图3和图5末端发散现象解释为:因为击中目标时弹目相对距离急剧减小至零,视线角变化速率趋于无穷大。此时已经击中目标,系统式(23)所描述的制导过程的动力学特性不再适用。

为进一步验证提出的导弹协同攻击策略的打击效果以及整体逃逸策略的有效性,在保证其余参数不变的情况下,目标改为正弦机动aT=30sin 2t。

仿真结果如图6、图7所示。

图6 对比组运动轨迹示意图Fig.6 Trajectory of the comparative group

图7 对比组弹目相对距离示意图Fig.7 Relative distance of the comparative group

图6为目标正弦机动时追逃轨迹,从中可以看出,3枚导弹几乎在同一位置击中了目标;图7显示了目标与导弹的相对距离关系,不难发现,各枚导弹击中目标的时间间隔很小。由此证明协同攻击控制策略有效,提出的逃逸策略比正弦机动逃逸效果更好。

5 结束语

本文研究了多对一追逃博弈问题,并结合导弹追逃模型提出了具体的多方追逃控制策略。首先通过设计邻域一致性误差系统,将多对一追逃博弈问题转化为多智能体系统一致性控制问题。考虑到追逃博弈策略总是成对出现以及单一目标的逃逸控制策略难以选择的问题,本文提出了整体逃逸策略计算方法,进而将策略选择问题转化为约束优化问题。通过引入ADP技术,构造单评价神经网络在线逼近最优解。最后通过与正弦机动逃逸策略进行对比仿真,验证了多对一追逃策略的有效性。

不同于已有的导弹多对一协同拦截方案,本文同时提出了追逃双方的控制策略。这不仅对导弹防御系统的发展具有一定意义,设计的逃逸策略对导弹突防问题以及战场高价值目标生存问题也具有一定价值。

虽然本文设计了针对任意数量追击者的整体逃逸策略融合方式,但当博弈方数量大于3时,策略向量维数较高,需要结合实际情况设计额外约束条件。在线性系统中,该问题已有成熟的解决方案[5],而针对非线性多对一博弈系统的简化方式有待进一步研究。

猜你喜欢
权值控制策略动态
国内动态
一种融合时间权值和用户行为序列的电影推荐模型
计及SOC恢复的互联电网火储联合AGC控制策略研究
国内动态
基于递归模糊神经网络的风电平滑控制策略
国内动态
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
动态
现代企业会计的内部控制策略探讨
强规划的最小期望权值求解算法∗