基于智能对抗进化的联合火力打击任务规划方法

2019-08-06 01:49刘昊张策丁文韬

兵工学报 2019年6期

刘昊，张策，丁文韬

(1.国防大学联合作战学院, 河北石家庄 050000; 2.国防大学研究生院, 北京 100091)

0 引言

联合火力打击任务规划是根据联合火力打击任务等约束条件，运用辅助决策工具对联合火力打击行动进行筹划计算，包括计算兵力弹药满意度、辅助制定联合火力打击计划、评估火力打击效果等[1]。其核心问题是解决联合作战中的动态火力分配问题，即根据战场态势和敌我动态博弈情况实时生成目标打击清单，动态分配火力打击力量和打击目标，以实现联合火力打击效能的最大化[2]。其难点在于火力打击任务规划不仅计算我方火力分配的效能最大化，还必须考虑敌方火力打击对我方造成的影响，这是因为敌我初始火力分配的微小差别将导致最终打击效果的千差万别，极大地增加任务分配推演计算和算法实现的复杂度。

国内外研究人员已经针对任务规划问题探索了多种解决方法，其中：特征评估法[3-5]通过算法公式计算影响战果的评估指标，效率高但推广性差；改进遗传算法[6-9]利用生物进化思想寻找当前状态下的全局最优解，构造简单但环境依赖性大；动态博弈法[10-13]通过博弈论形成敌我双方之间的纳什均衡，动态适应性强但计算复杂性剧增；神经网络法[14-16]模拟智能体的自学习能力，依靠经验解决问题，理论完美但训练数据来源受限。上述方法存在的普遍问题是：关注静态条件下对我方火力打击效能的评估，未考虑将敌我双方纳入网络体系实施对抗推演，使火力打击计划片面化、简单化；关注评估指标的理论计算，未考虑对抗推演中的有效性检验，使火力打击计划偏离战场实际；关注当前态势下的最优分配结果，未考虑敌我双方态势变化的可能性，使火力打击计划更脆弱。

本文在总结前人方法的基础上，借鉴自然界物种间的对抗进化机理，在遗传算法基础上设计对抗进化算法，实现敌我双方任务规划的无上限对抗进化，产生出在当前态势及未来可能态势下解决任务规划问题的最优个体，并通过仿真实验验证了该方法产生的最优个体自我学习能力以及在解决联合火力打击任务规划问题上的智能性。

1 问题描述

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

并保证我方弹药消耗比例do约束条件如下：

(9)

(10)

问题的难点在于：1)各节点的发现概率决定了目标打击清单，目标打击清单决定了各波次打击任务的火力分配结果，火力分配差异影响最终评估结果，如何从不确定的发现概率中找到确定性的最优化火力分配，是任务规划问题的难点[17]；2)敌我双方均在寻找最优化评估结果，且双方火力分配的微小调整均对各自最终评估结果产生重要影响，如何实现敌我双方的对抗推演评估也是算法难点。本文试图构造敌我双方多波次的火力打击对抗评估模型，通过对抗推演统计敌我双方的评估函数分值，以此判断胜负结果并找到最佳火力分配方法。

2 算法构建

针对联合火力打击动态分配问题难点，智能对抗进化算法设计目标包括：1)实现由不确定的发现概率得到确定性的评估结果；2)建立敌我双方互为评估条件的对抗评估机制。智能对抗进化算法以遗传算法为基础，引入双种群对抗评估机制，在设置初始个体的基础上实现敌我双方种群间的对抗进化，在众多代繁衍后产生能够解决联合火力打击任务规划问题的最优个体。算法流程图如图1所示。

图1 智能对抗进化算法流程图Fig.1 Flow chart of intelligent confrontation evolution algorithm

2.1 生成敌我超网络

超网络概念是美国科学家Sheffi[18]在处理交织网络时提出的，特指高于而又超于现存网络的网络，体现出超越一般网络的复杂性和涌现性。为了确定敌我火力分配任务的打击排序，本文将敌我双方节点区分为观察单元、判断决策单元、信息传输单元、行动单元、其他单元5类；按照各目标的信息通联属性，构建出侦察情报网、指挥控制网、信息传输网、火力打击网，并在各子网基础上构建作战超网络。图2为以敌方战场态势信息构建的超网络示例。

2.2 生成敌我双种群

本文中的个体特指具备一定智能程度的任务规划对象，即给定当前状态的目标打击清单，能够唯一地输出联合火力打击任务规划的智能体。对于一个固定的目标打击清单，个体必能产生唯一对应的火力打击任务分配表。本文对DNA定义为：由随机整数组成的二维动态数组，整数值、组内个数均不固定，用以模拟生物DNA随机变异、由简单向复杂进化的自然特性。个体数据结构如表1所示(敌我双方双种群内的个体结构相同)。

图2 敌方作战超网络示例Fig.2 Example of a friend-foe operation super-network

表1 个体数据结构

繁殖变异用于产生新生个体，以优秀个体作为父代，通过1/1 000的随机变异操作产生不同于父代的子个体。繁殖变异算法流程图如图3所示。

图3 繁殖变异算法流程图Fig.3 Flow chart of reproductive mutation algorithm

设种群内个体上限数目为1 000. 其中，输入压缩种群阶段，种群中个体数目小于1 000；选中父个体阶段，在种群中选取最高评分且遗传次数最少的个体作为父个体，若存在多个个体，则采用轮盘法确定父个体；复制新个体阶段，将父个体完整复制产生新个体；变异操作阶段，通过千分之一的随机变异操作修改新个体的DNA动态数组信息；算法输出规模为1 000的扩充种群。

2.3 更新目标清单

由于敌我双方处于信息不透明状态，在初始目标清单基础上，火力打击方必然会使己方处于观察- 判断- 决策- 打击(OODA)循环中的节点发现概率增大，当发现概率到达发现阈值时即被对方侦察，目标清单上即显示该节点，因此每波次火力打击后敌我双方的目标清单均需更新，用于剔除已消灭目标并引入新发现目标。更新目标清单算法流程图如图4所示。

图4 更新目标清单算法流程图Fig.4 Flow chart of target list updating algorithm

(11)

删除已消灭节点阶段，删除毁伤程度超过80%的节点；添加新发现节点阶段，将发现概率超过80%的节点加入目标清单。

2.4 个体转录

转录是指以DNA为基础产生蛋白质酶以控制生物体性状的过程，本文中特指在输入目标打击清单后，个体DNA数组通过内部算法，产生唯一对应的火力打击任务分配表的过程。具体算法步骤如下：

步骤1穷举所有可能的火力分配任务。每个火力分配任务包含“打击目标编号、使用部队编号、火力打击起止时刻”。

步骤2数据非线性推演。为每个火力分配任务和DNA数组，对应计算f(zi)函数并留存计算结果。设火力分配任务输入值为目标重要程度zi，DNA数组初始维数为10，对应数组值为d，推演公式如下：

(12)

若为首段输入，则输入打击目标的重要程度；若为第i段输入，则以zi=f(zi-1-1)代入f(zi)函数进行计算。

步骤3判定是否实施该火力分配任务。若结果f(zi)<50，则不实施；反之则实施；按f(zi)的分值由大到小排序，选取前10的火力分配任务。

步骤4去冗余操作。去除超程任务；去除弹药不足任务；去除兵力不足任务；去除执行冲突任务；输出最终的火力分配表如表2所示。

表2 个体对应火力分配表示例

注：T为战斗发起时刻。

2.5 计算火力打击排序

根据OODA循环理论，火力打击过程可抽象为“观察(Observe)-判断(Orient)-决策(Decide)-打击(Act)”4种行动的不断循环，则胜利的关键在于通过加快己方的OODA循环，在敌人对己方前次行动作出反应之前发起新的行动，从而迟滞或打破敌人的OODA循环，以达成制胜的目的。OODA循环理论可以解决敌我双方火力打击任务的排序问题。在敌我作战超网络中，侦察情报网对应“观察”环节，指挥控制网对应“判断”和“决策”环节，火力打击网对应“打击”环节，则可通过超网络中各节点的通联效率作为评判OODA循环效率的依据。

本文设置敌我双方各火力打击任务的排序规则如下：1)超网络中观察单元、判断决策单元、行动单元之间的循环越短，该行动单元的OODA循环效率越高；2)超网络中的各子网越健全，网络中行动单元的OODA循环效率越高；3)行动单元的OODA循环效率越高，火力打击排序越靠前。设超网络中第i个单元的易毁伤程度为hi；与第t个行动单元相连接的观察单元数目为m，判断决策单元数目为n，信息传递单元数目为k，分别对应的单元编号为im、in、ik. 定义第t个行动单元的观察效率为Gt：与其相接的观察单元重要程度越高，机动能力越强，越难以毁伤，则观察效率越高。Gt的计算公式如下：

(13)

式中：him、zim、dim分别表示易毁伤程度、重要程度、机动能力指标。

定义判断决策效率Ct：与其相连接的判断决策单元重要程度越高，越难以毁伤，固定位置时间越长，则判断决策效率越高。Ct的计算公式如下：

(14)

式中：hin、zin、din分别表示易毁伤程度、重要程度、机动能力指标。

定义信息传输效率St：与其相连接的信息传输单元重要程度越高，越难以毁伤，固定位置时间越长，则信息传输效率越高。St的计算公式如下：

(15)

式中：hik、zik、dik分别表示易毁伤程度、重要程度、机动能力指标。

定义OODA评估指标Pt，其计算公式如下：

Pt=lg(max{Gt,1})×lg(max{Ct,1})×

lg(max{St,1}).

(16)

按Pt排序实施火力打击，更新打击目标方的毁伤程度，更新实施打击方的弹药消耗和发现概率。设某个作战单元在第p波次火力打击中的易毁伤程度为hp，参与火力打击的部队毁伤能力为kp，兵力消耗比例为bp，更新各节点毁伤程度的计算公式为

(17)

更新发现概率的计算公式为

fp=fp-1+rand{Gt,Ct,St}×
rand{10,…,30}.

(18)

此外，每波打击中随机对一个目标发现概率赋值100.

2.6 计算敌我双方对抗结果

敌我双方对抗评估用于在火力打击结束后，通过敌我双方兵力、弹药损耗，计算出敌我双方综合评分的过程。对抗评估算法流程图如图5所示。

图5 对抗评估算法流程图Fig.5 Flow chart of confrontation evaluation algorithm

(19)

(20)

计算对抗评估参数阶段，用T1描述在固定火力打击次数情况下对更重要的节点实施火力打击；用T2描述实际火力打击次数和规定火力打击次数的差异率；用T3描述各节点的平均毁伤程度。设第is个行动单元的火力打击次数为ris，重要程度为zis，对抗评估参数T1、T2、T3的计算公式如下：

(21)

(22)

(23)

计算综合评分阶段，使用熵权法将对抗评估参数降维为单一评估指标。设敌我双种群共进行了v次对抗推演，则在第q次对抗推演中，第p项评估指标对应评估参数矩阵T中的子集为tpq. 首先对评估参数矩阵T做归一化处理，得到归一化矩阵P，其中子集ppq的计算公式如下：

(24)

然后计算每次对抗推演中每项评估参数对应的熵值ep为

(25)

式中：当ppq=0时，ep=0.

计算每次对抗推演中每项评估参数对应的权重tp为

(26)

最后计算并输出本次对抗推演的综合评分Mq为

(27)

对敌我双方计算综合评分，判断评分高的一方为胜利方。

2.7 双种群优胜劣汰

优胜劣汰用于构造敌我双方动态博弈环境，在博弈中胜者留存并繁衍后代，败者淘汰以释放资源。优胜劣汰算法流程图如图6所示。

图6 优胜劣汰算法流程图Fig.6 Flow chart of fittest algorithm

图6中，结束条件设置为：当我方种群中个体的胜利次数和敌方种群中个体的胜利次数比例超过某一阈值时，可判定结束。

3 仿真分析

为了验证智能对抗进化算法在联合火力打击任务规划的优越性，采用文献[7]提供的改进遗传算法作为对比算法。仿真实验计算机配置如下：联想笔记本电脑运行MFC程序；Intel酷睿双核处理器T7300 2.0 GHz；3 GB内存；32位Windows7操作系统；vc6.0编程环境。敌我双方目标态势特征属性如表3所示，各类目标的网络关联情况示例如表4所示，火力打击兵器毁伤属性如表5所示。

表3 敌我双方目标态势表示例

表4 营指挥所的目标关联表示例

表5 火力打击兵器毁伤属性表示例

表4为以营指挥所为中心的各目标类型与其关联情况。

表6为以炮兵阵地为火力打击力量对各目标类型实施火力打击，能够达成规定毁伤程度所需的打击次数。运用该算法设计制作“智能联合火力打击任务规划软件”以服务于作战筹划实践。软件操作界面如图7所示。

表6 炮兵阵地的火力毁伤能力表示例

图7 软件操作界面Fig.7 Software operation interface

3.1 参数有效性分析

本文实验参数求取过程如下：随机枚举500个敌方火力打击任务规划，在调节我方各参数适用范围基础上计算个体的适应度值，以500次仿真计算结果的平均值作为参数优选参考依据。所用参数如表7所示。

3.2 各代最优个体适应度分析

为了检验算法的适应度变化情况，以敌我双方双种群为基础实施自由对抗，每次对抗记为1代，并记录我方个体对抗中的适应度分值；同时引入文献[7]中的改进遗传算法作为对比实验，以敌方初始种群作为对抗环境代入改进遗传算法中计算各代最优个体的适应度分值。经过500代迭代进化的适应度变化情况如图8所示。

表7 参数取值范围表

图8 各代最优个体适应度分值统计Fig.8 Optimal individual fitness scores for each generation

实验结果表明：智能对抗进化算法相比于改进遗传算法的适应度结果，适应度分值呈现阶段性收敛和陡降状态，改进遗传算法由于敌方环境固定不变，适应度分值收敛于固定分值，而后的进化计算由于结果不变而导致进化停滞；智能对抗进化算法则处于敌我双方动态变化过程中，敌方环境的动态变化导致我方最优个体结构做出动态调整以应对敌方环境变化，调整必然导致适应度分值产生陡降，而每次陡降过程中产生的个体结构有后代个体继承并作为DNA传递，因此智能对抗进化算法相比于改进遗传算法的环境适应能力更强。

3.3 最优个体对抗结果分析

为了验证算法的自我学习能力和对抗优越性，取智能对抗进化算法中的敌方各代最优个体作为对抗环境，取改进遗传算法经过500代进化获得的最优个体作为对比实验个体，通过智能对抗产生我方最优个体，每次对抗记为1代，共推演400 000代，分析我方和对比实验与敌方最优个体对抗的胜败比率，以此判断智能对抗进化算法是否具备优于遗传算法的自我学习进化能力。我方胜利次数统计如图9所示。

图9 各代最优个体胜利次数统计Fig.9 Statistics of the victories of best individuals in each generation

实验结果表明：随着对抗进化迭代次数的增加，敌方最优个体不断改进自身结构，改进遗传算法的最优个体初期可获胜，随后被敌方最优个体压制，并在总体进化进程中无翻盘可能；智能对抗进化算法中的我方最优个体可通过改造自身结构积累获胜经验，具备随时翻盘的可能。

为了验证智能对抗进化算法获得最优个体的任务规划能力优越性，实验设计从敌方种群中随机抽取1 000个个体作为对抗环境，以改进遗传算法获得的最优个体作为对比实验个体，使敌我双方个体逐一对抗并记录胜负，以此判断智能对抗进化算法在任务规划能力上的优越性。最优个体胜利情况统计如图10所示。

图10 最优个体随机对抗胜利次数统计Fig.10 Statistics of optimal individual random confrontation wins

实验结果表明，智能对抗进化算法获取的最优个体在胜率上明显优于改进遗传算法，相比于智能对抗进化产生的最优个体，改进遗传算法获取的最优个体由于严重依赖固定的敌方环境而产生了过拟合，导致其在敌方环境变化上的适应度分值明显下降，并促使胜率低于智能对抗进化的最优个体。

3.4 算法时空消耗分析

为了验证算法对个体结构改善情况，实验抽取对抗过程中产生的最优个体并统计其存储容量，以改进遗传算法的各代最优个体存储容量作为对比实验个体，结果如图11所示。

图11 最优个体存储容量统计Fig.11 Optimal individual storage capacity statistics

实验结果表明：随着进化代数的增加，改进遗传算法获取的最优个体存储容量趋近收敛，并在多代进化后陷入进化停滞，个体结构不再改变；智能对抗进化获取的最优个体随着对抗进化代数的增加，个体数据结构呈线性增长，伴随着结构复杂性的提升，个体对敌方动态环境的适应性相应增强。

为了检验算法的计算效率，取各代最优个体实施对抗并统计时间消耗，以改进遗传算法的最优个体作为对比实验个体，以随机抽取的100个敌方个体作为对抗环境，取100次对抗平均时间作为评估指标，结果如图12所示。

图12 最优个体对抗时间消耗统计Fig.12 Optimal individual vs. time consumption

实验结果表明，相比于改进遗传算法最优个体，智能对抗进化算法的最优个体由于自身结构复杂度提升，对抗时间消耗也相应增大，但考虑到战场中只使用智能对抗进化的多代最优个体，因此时间消耗在可承受范围内。

3.5 任务规划结果显示

联合火力打击任务规划的最终结果是生成辅助决心建议，因此将多代进化的最优个体和敌方当前态势获取的实时个体进行对抗，并生成对抗结果，转化为辅助决心建议格式如下：依据当前敌我态势以及目标打击清单，我火力打击综合胜率为XX%，不能完成火力打击任务，建议补充兵力弹药或能够完成火力打击任务；建议使用X号个体作为火力打击任务分配算法，其综合胜率达XX%；预计执行完火力打击任务时，我火力打击部队兵力剩余XX%，弹药剩余XX%.

4 结论

本文基于对抗进化思想，在遗传算法基础上构造出敌我双方的对抗进化机制，通过多代的优胜劣汰和遗传变异，积累应对各种情况的遗传因子，获取能够应对各种情况的最优个体，进而实现联合火力打击任务规划的自我进化和迭代，产生了符合作战实际需求的任务规划。仿真实验结果表明，该算法相比于标准遗传算法具有更大的灵活性，能够动态匹配目标打击清单和敌我双方作战态势，具备解决特定问题的人工智能算法基础。