未来智能空战发展综述

2021-10-21 12:39孙智孝杨晟琦朴海音白成超葛俊

航空学报 2021年8期

孙智孝，杨晟琦，朴海音,2,*，白成超，葛俊

1. 航空工业沈阳飞机设计研究所，沈阳 110035

2. 西北工业大学电子信息学院，西安 710072

3. 哈尔滨工业大学航天学院，哈尔滨 150001

目前机器智能已迈入深度学习时代，人工智能所赋能的空战博弈研究已经取得了实质性进展。随着智能空战时代的到来，世界主要航空大国及相关研究机构均将着力点聚焦到了新一代智能空战体系的探索和研究，加大了对自主无人系统装备以及智能化技术的研发投入，全面推动航空装备与人工智能技术的融合发展，涌现出一大批有代表性的研究成果。

美国国家航空航天局(National Aeronautics and Space Administration，NASA)在20世纪60至90年代持续专注研发基于专家规则的智能空战系统，将人类在空战领域的知识和经验构建成知识库，多次尝试用人工智能系统替代飞行员去执行空战决策[1-5]。除此之外，遗传算法和遗传模糊树等启发式方法也被应用到智能空战领域[6-8]，其中采用遗传模糊树的“阿尔法空战”系统，首次验证了基于人工智能的空战决策机制具备战胜人类飞行员的潜力[6]。近些年，随着机器学习的爆发，以深度学习和深度强化学习为代表的自演进智能算法在空战行为涌现方面表现出巨大优势，诸多基于此类方法研发的智能空战项目逐渐被提出[9-13]。比较有代表性的是美国国防高级研究计划局(Defense Advanced Research Projects Agency，DARPA)开展的人工智能近距空中格斗项目，该项目挑战赛的冠军队伍采用深度强化学习方法在人机大战中以大比分战胜人类飞行员[12-13]，证明了机器学习类方法在解决空战决策问题方面潜力巨大。

虽然智能空战领域的研究取得了诸多进展，但仍有很多技术难题需要攻克。在面对高动态、强实时、不确定、非完美的复杂空战环境时，传统的基于规则的专家系统已经无法满足作战需求。而新兴的机器学习类方法虽然在能力涌现、自演进、自学习等方面具有优势，但面对实际的工程落地，仍需突破诸如智能空战的不确定性、可解释性、安全性和可迁移性等瓶颈。

基于上述分析，本文重点梳理了智能空战技术研究和应用的发展脉络，分析了各个发展阶段具有代表性的项目，总结了智能空战决策相关的基础理论，分析了智能空战技术的研究脉络，阐述了必须解决的技术难点和其中存在的挑战，并展望了未来智能空战的发展趋势，为未来智能空战系统工程化应用这一重要而又富有挑战性的研究领域提供了发展建议和探索方向。

1 智能空战之“形”——工程实践

自20世纪60年代以来，智能空战理论和工程实践研究获得了国内外学术界与工业界的持续关注。回顾其发展历程，从表象上看，历经了专家机动逻辑、自动规则生成、规则演进、机器学习及演示验证等5个主要历史阶段(如图1所示)。从本质上看，智能空战研究正在从以人类经验为主的传统专家系统迈向以机器智能自我演进为特征的全新范式。这一认知清晰地勾勒出未来智能空战系统技术探索的发展路线与技术挑战，正所谓“由表及里”，即智能空战之“形”。

图1 智能空战发展脉络Fig.1 Development process of AI based air combat techniques

1.1 专家机动逻辑阶段：NASA兰利研究中心AML系统

针对智能空战的研究最早起步于20世纪60年代，Burgin和Owens自1969年起着手在NASA兰利研究中心的资助下为该研究中心的微分机动模拟器(Differential Maneuvering Simulator, DMS)开发了名为自适应机动逻辑(Adaptive Maneuvering Logic，AML)的机动决策软件[1]，其采用的主要决策算法是基于IF-ELSE-THEN逻辑的专家系统。AML不仅可以模拟敌方的战斗机与操控模拟器的飞行员进行实时对战，同时也可以通过操控模拟对抗中交战双方的2架飞机来实现飞机及武器系统的参数研究等工作。

AML系统是智能空战技术的首次系统性尝试。NASA认为，空战中机动决策过程存在高度实时性、不确定性，难以给出准确的求解模型，而经验丰富的战斗机飞行员熟知空中对抗的战术态势和机动要领，故可以借助专家系统基于空中对抗态势做出相应的快速决策，从而实现无人机在自主空中对抗中的机动决策功能[2]，因此AML系统的主要研究基础是专家系统。

AML系统开发耗时近20年，虽然是人类历史上第一次用人工智能替代飞行员的大胆尝试，但受限于当时的技术条件，仍存在诸多缺憾。例如① 提升AML的规则库耗时冗长且非常依赖飞行员对决策结果的评估；② 系统需将飞行员对机动动作的偏好选择以硬编码的形式写入决策算法中等[1-2]。

1.2 自动规则生成阶段：NASA兰利研究中心PALADIN系统

20世纪90年代，由于新型的高性能飞机开始服役，为了应对大幅拓展且快速变化的空战战术环境，NASA兰利研究中心继而支持开发了战术引导研究与评估系统(Tactical Guidance Research and Evaluation System，TGRES)[3]。该系统由战术决策生成器(Tactical Decision Generator，TDG)[4]、战术机动模拟器(Tactical Maneuvering Simulator，TMS)[5]以及微分机动模拟器(Differential Maneuvering Simulator，DMS)3个主要部分组成。而帕拉丁(PALADIN)系统是TGRES项目中以AML为基础开发的基于知识的战术决策生成器。与AML不同的是，PALADIN并不依靠飞行员的经验建立知识库，而是依据飞机本身数据以及空战战术的对抗仿真结果建立知识库，从而可以为缺少实战经验的新型飞机提供丰富的决策支持。除此之外，PALADIN系统的规则库采用了模块化设计思路，从而将运算速率大幅提升了90～100倍[4]。

对比AML系统，在PALADIN系统的研究过程中，洛克希德·马丁公司和艾姆斯研究中心也积极参与，代表了智能空战从先期的理论研究逐渐转向大规模的跨域系统工程研究。与AML相比，PALADIN系统最大的创新在于尝试了对空战动力学和策略搜索空间进行数学建模，研究领域从纯空战机动决策跨越到载荷调度和武器使用。最为关键的是，其规则推理逻辑可以基于仿真手段通过TDG模块自动生成，这打破了人类对空战既有知识的认知边界，给出了全新的形式化的空间知识表达[4]。

1.3 规则演进阶段：“阿尔法空战”系统与空中双边对抗学习系统

2016年6月，辛辛那提大学与美国空军研究实验室(Air Force Research Laboratory，AFRL)共同披露了“阿尔法空战”系统[6]，该系统在模拟空战中战胜了有着丰富经验的退役美国空军上校基恩·李。其核心算法采用遗传模糊理论体系，基于人类专家知识构建了多个并行模糊推理机，根据其映射关系确定输入输出连接，进行实时决策，解决了需要连续实时决策的高维复杂问题。“阿尔法空战”系统的初始策略结构主要依赖人类的先验知识建模，由于目前人类对空战机理的认识具有一定程度上的局限性，其解空间搜索能力很大程度上受限于人类设计好的结构[6]。作为运用人工智能技术求解空中对抗博弈问题领域的里程碑成果，“阿尔法空战”系统成功将演化计算应用于求解复杂空中对抗问题，在策略参数研究方面做出了积极的探索。

双边对抗学习系统[7]是波音公司和西英格兰大学开展的机动对抗人工智能程序，该系统与“阿尔法空战”系统同样基于“先进仿真、集成、建模框架”(Advanced Framework for Simulation, Integration and Modeling，AFSIM)[8]进行开发，但研究的重点在于通过大规模遗传算法进行对抗自博弈，以期来验证智能空战决策能够脱离人类知识限制，依靠机器智能创造出全新的空中对抗战术策略。双边对抗学习系统与“阿尔法空战”系统类似，也将态势—机动对编码为基因形式，通过大量随机态势生成海量对抗样本，从而驱动遗传算法在庞大的对抗博弈树空间中寻求适应度的最佳值。与“阿尔法空战”系统的区别在于，双边对抗学习系统明确指出，其对抗训练并非针对某个特定的想定场景来进行，在环境适应性上更加鲁棒。

“阿尔法空战”系统及双边对抗学习系统所代表的规则演进类方法首先验证了基于人工智能的空战决策机制具备战胜飞行员的能力，同步说明了相关技术途径是可行的。其次，开发“阿尔法空战”系统历经长达数十年的基础条件准备，比如AFRL的AFSIM仿真系统作为基础智能对抗仿真平台，支撑了多个先进研究项目的研制，这说明支撑智能空战研究相关的仿真基础持续建设投入是必要的。最后，双边对抗学习系统证明了不需要人类的介入，单纯在机动层面，机器智能也具备创造全新的对抗机动战术的能力与潜力。

规则演进阶段相比于专家机动逻辑阶段和规则自动生成阶段在智能化程度上有了很大的提升，但在技术应用中仍遇到了一些困难。例如依赖人类先验知识进行初始设计的问题仍然存在，这将导致训练更容易过拟合到人类已知的战术策略。此外，规则演进类方法一般基于常规的遗传算法或遗传模糊系统，其自学习能力与机器学习类方法相比仍存在一定的差距。

1.4 机器学习阶段：空战自适应动态规划系统、直升机机动飞行学习系统和“阿尔法狗斗”

2010年，麻省理工学院公开了空中对抗自适应动态规划(Approximate Dynamic Programming，ADP)系统[9-10]。ADP的主要思想是通过线性或者非线性的结构近似地表达所处状态的效用函数，并通过值迭代或者策略迭代方法生成决策策略。该系统随后在其“渡鸦”飞行对抗环境中开展了博弈测试，证明了ADP能够脱离人类给定的策略规则完全自行学到有效且完整的平面对抗战术。通过分析ADP，可以发现其具有如下特点：① ADP能够在环境中探索学习到大量有效策略，如果模型抽象得当，理论上有可能创造出人类未知的空中对抗策略；② ADP只能解决平面对抗离散动作优化问题，因而很难直接应用于实际的空战系统；③ ADP需要对手空战策略模型，而这些模型在实际情况中往往难以获得。

2010年，斯坦福大学吴恩达(Andrew Y. Ng)团队开发了直升机机动飞行学习系统[11]。基于逆强化学习实现了无人直升机的控制策略生成，同时具备在一定外界扰动环境下的鲁棒性，从实机测试结果可以看出该控制策略飞行表现要优于飞手的控制，更加稳定可靠。但与空战对抗问题相比，直升机机动控制问题要相对简单，因此很难认为这种方式可以直接应用于智能空战系统。

本阶段与空战应用背景结合更紧密的是人工智能近距空中格斗项目—“阿尔法狗斗”。该项目挑战赛由DARPA战略技术办公室主办，旨在对人工智能“狗斗”算法进行演示验证。最终经过激烈角逐，苍鹭系统公司成为了冠军。在最后的人机大战中，F-16飞行教官Banger以0:5的结果惨败[12]。根据公开的信息可知，苍鹭系统公司采用了深度强化学习技术及多智能体分布式训练系统架构。从试验数据回放来看，AI获胜的关键在于其卓越的瞄准能力和敏捷的机动操纵能力，而对创造性战术的理解能力却比较欠缺。简而言之，AI在“态”的精度和“感”的速度上占得先机，但在“势”的判断和“知”的预测上还不具备优势[13]。

除此之外，2020年11月，Red6与EpiSci公司通过技术模拟实现了智能算法与有人教练机的空中对抗。该教练机利用Red6公司提供的机载战术增强现实系统以投影的形式在飞行员头盔视野中显示战场环境，相应的，智能算法方面搭配了EpiSci公司提供的战术AI系统以进行战斗中的战术动作选择。同年晚期，美国U-2侦察机也装备了人工智能辅助决策系统—Artoo，此智能辅助决策系统具备控制侦察机的传感器系统执行相关任务的能力，例如探测并识别导弹发射装置，以及控制传感器和战术导航系统的使用等。

1.5 演示验证阶段：Skyborg验证机

2019年3月15日，美国空军战略发展规划与实验办公室(Strategic Development Planning and Experimentation，SDPE)为自主无人作战算法验证平台(Skyborg)项目发布了能力信息征询书[14]。拟在2023年推出Skyborg作为人工智能空中对抗实验验证平台。Skyborg将直接支撑《2018年美国人工智能战略》[15]和2019年发布的《人工智能倡议》[16]，即在满足紧迫业务的同时，保持美国在智能空中对抗领域的领导地位。Skyborg由2个系统组成：第1个是R2-D2型人工智能系统，它将作为副驾驶员乘坐载人战斗机，像卢克·天行者一样，在不久的将来，空军飞行员可以通过语音命令与该智能系统开展交互；第2个是可以自主驾驶无人飞行器的人工智能系统，类似波音的“忠诚僚机”或者奎托斯防御公司的XQ-58A瓦尔基里。

从AML开始，历经近50年的技术积累，虽然美国空军在2019年预判现有能力已足够开发统一的智能空战平台，但观其发展部署现状，即SDPE办公室仍旧在为其原型作战平台形成早期作战能力而努力，可以看出现有的智能化能力及水平还难以在实战装备上落地。不可否认，虽然智能化技术在Skyborg验证机上的应用部署意义重大，对于推动智能空战对抗实战化应用具有里程碑价值，但是仍然存在诸多问题与挑战：① 智能化程度该如何定义；② 人机权限该如何划分；③ 任务类型如何选择；④ 是否具有一定的普适性；⑤ 学习能力如何提高；⑥ 渐进学习的机制如何构建等等。

2 智能空战之“魂”——基础理论

随着航空科学技术的发展，现代空战逐渐演化为以空空导弹为主要进攻手段，依托综合态势感知与战术决策，在人类飞行员的操纵下，进行的多回合、高复杂度、强风险性空中对抗。一个完整的交战过程涉及多个复杂的认知决策环节，如态势理解、战术机动和攻击占位等。其决策的智能化程度、精准度以及适配度直接决定了空战的胜负。目前，空战决策主要依赖人类飞行员完成，为后续达成媲美乃至超越人类的空战水平，打破人类固有战术认知与生理机能限制，发展先进的智能空战自主决策技术是确保制胜未来空天战场的核心关键。

同时由于空战具有高动态性、强实时性、不确定性和非完美信息等特点，该问题通常被建模为非完美信息下的多优化目标动态博弈问题。目前针对智能空战决策问题的研究主要涵盖3大方向：用于建模及求解空战攻防博弈问题的博弈理论、将空战问题建模为多目标决策优化问题以及对应的优化理论、具有自学习能力可以不断进化的人工智能决策技术(如图2所示)。这些方法是实现全自主空战认知决策的核心关键技术，即智能空战之“魂”。

图2 部分智能空战决策典型方法Fig.2 Partial typical methods of intelligent air combat decision

2.1 基于博弈理论的方法

博弈论是研究多个理性决策者之间竞争与合作关系的数学理论和方法[17]，将博弈论应用于军事作战方向已是国内外主要的研究热点，尤其是针对高动态强对抗条件下的博弈问题。基于博弈理论的空战问题研究主要有微分博弈[18]和影响图博弈[19]。其中，微分博弈是博弈论的重要分支，属于动态博弈范畴，适用于解决空战中追逃博弈问题；影响图博弈是创造一种基于专家知识的概率拓扑结构和参数学习方式来代替飞行员，能以可控的、可解释的以及可理解的方式求解空战决策问题[19]。

1) 微分博弈

微分博弈一般用于求解近距空战中格斗双方的机动占位决策问题[20]。在使用航炮作战的近距空战中，一方需要占据敌方的尾后向以获取攻击占位，其对手则需要通过有效机动尽快摆脱攻方的攻击锁定。在以红外空空导弹为主攻武器的现代近距空战中，即使先进红外格斗导弹发射无须以占据敌方尾后位作为先决条件，但敏捷占位仍是空战博弈必须解决的重要问题。文献[21]将微分博弈应用至一对一视距内空战的自主机动决策环节，基于空战双方的相对几何关系、相对速度等信息，构建了一种用于描述双方空战优势的分数矩阵。通过将分数矩阵结合微分博弈，形成了一种分层决策架构。其顶层的行为决策用于输出宏观的机动意图，如进攻、防守等；底层的机动决策用于输出具体的机动指令，如指令过载、横滚角速率等。

经过改进的微分博弈算法也可以应用到超视距空战的机动决策求解过程中[22]。超视距空战有2个目标，一是结合导弹攻击区进行机动占位以尽可能地使敌方落入己方导弹攻击区内；二是通过机动占位使己方尽可能地逃离敌方导弹攻击区，这种问题描述使得超视距空战的机动决策也可以被建模成经典的追逃博弈问题。文献[22]提出了动态逃逸区的概念，通过适时地进行动力学逃逸，可以帮助战斗机逃脱已发射导弹的攻击。动态逃逸区和微分博弈相结合后，使得被攻击方不仅能获知规避导弹的最晚时机，而且能得到实施安全逃逸的连续实时指示信息。

2) 影响图博弈

为更好地利用人类专家知识进行空战博弈决策结构建模，文献[19,23-28]提出了影响图博弈求解方法。影响图是一种有向无环图，用于描述一种概率决策结构，通过将影响决策的随机变量进行拓扑排序以构建层次决策能力，从而简化最终决策随机变量后验概率计算难题。考虑到其概率决策结构由人类专家建立，因此这种方法使决策过程天然具备透明性、可追溯、可理解等优良特性[23]。

经典的影响图博弈最初只考虑单一的决策者，文献[24]将其扩展到多决策者情况，并且在后续的研究中提出了基于非合作博弈理论的多决策者博弈的影响图实现[25-26]。另一方面，文献[27]将影响图博弈概念扩展到动态多阶段决策问题中，但是并未引入博弈理论。文献[19]将动态多阶段决策问题和博弈理论相结合，提出非零和多阶段影响图博弈，用于描述一对一空战中的飞行员的序贯决策行为。文献[28]在考虑了非完全对手信息的情况下，将影响图与状态估计方法结合，采用无迹卡尔曼滤波对信念状态进行预测估计，同时为了满足空战实时性要求，采用滚动时域控制求解建立的模型。

虽然应用博弈理论可以解决诸多空战决策的相关问题，但随着空战决策需求的不断提高及研究的不断深入，博弈论的相关方法也暴露出很多缺陷：

1) 首先是真实空战问题的建模复杂性，由于真实空战环境信息量巨大，状态瞬息万变，各决策方法存在耦合复杂的作用关系，且信息存在不确定、不完备性，如何精确合理地对真实空战问题进行建模是进行空战决策的首要瓶颈。

2) 其次是随着博弈个体及决策空间的增长带来的维度爆炸问题，由于决策过程需要将博弈中每个参与者对其他参与者的行为进行评估，因此对于大量博弈参与者的决策问题会带来巨大的决策空间维度，直接影响求解的效率及精度。

3) 最后是最优策略求解的困难性，面对复杂动态的空战决策问题无法求得纳什均衡的解析解，因此如何高效、准确地进行最优策略的数值求解是需要解决的另一瓶颈。

2.2 基于优化理论的方法

空战决策问题也可以被形式化为多目标优化问题，并使用经典数值优化算法进行求解，如动态规划、遗传算法、贝叶斯推理、统计学优化等算法均在空战决策领域得到了一定程度的应用[9,29-35]。

文献[9]提出了一种基于近似动态规划的空战策略寻优算法。近似动态规划与经典动态规划的区别是，该方法无须在每个离散状态下进行预期累计奖赏的展开计算，而通过构建一个连续函数逼近器来近似表示未来时刻的累计奖赏，因此具有更短的计算时间。文献[29]将空战博弈看作为一个马尔可夫过程，利用贝叶斯推理计算空战态势，并根据态势评估结果自适应调整机动决策因素的权重，使目标函数更加合理。然后针对空战博弈具有高度动态性和大量不确定性的特点，采用模糊逻辑建立了4个机动决策因素的函数，可有效提高机动决策结果的鲁棒性和有效性。文献[30]提出了一种非线性模型预测跟踪控制器来解决无人机的追逃博弈问题，该控制器可对固定翼无人机的三维规避机动进行编码，将追逃控制问题建模为代价优化问题，通过梯度下降解决轨迹优化和追逃博弈。文献[32]使用人工免疫机制解决空战机动选择问题，将敌机当作抗原，通过相对位置速度表征，将机动动作当作抗体，利用遗传算法和进化算法模仿免疫系统应对抗原的自适应能力，这种机制使得智能体具有较强的记忆能力，能记录过往成功的经历以便在相似场景下快速反应。文献[33]在上述基础上将序列关联数据挖掘和战术免疫机动系统模型相结合，以适应更加动态的战场变化。文献[34]提出了一种基于统计原理的无人战斗机鲁棒机动决策方法。为了降低无人战斗机作战机动决策的敏感性对典型机动库进行了改进，设计了空战态势参数的鲁棒隶属度函数。然后将统计方法引入到鲁棒机动决策中，并对无人战斗机对抗机动和非对抗机动两种典型空战情况进行了仿真，结果表明该决策方法在引导无人机向有利态势发展方面具有较强的鲁棒性和优化能力。文献[35]通过可达集理论和目标状态权重的自适应调整机制对目标意图进行预测，同时在态势函数中引入鲁棒设计，在一定程度上克服了不完全对手信息的问题，结合目标意图预测通过模糊逻辑进行机动决策。

基于优化理论的空战决策方法在多个细分应用领域均有涉及，但由于空战状态空间的连续性和复杂性，大多数数值优化方法在求解这种高维度、大规模的问题时，其计算性能往往无法满足空战决策的实时性需求[36]。因此，这类方法大多用于离线的空战策略优化研究。

2.3 基于人工智能的方法

人工智能类的空战决策方法主要包括基于规则的专家系统和基于深度神经网络的自演进机器学习类方法。其中，基于深度神经网络的自演进机器学习类方法主要以深度学习和深度强化学习2种形式为主。

1) 基于规则的专家系统

基于规则的专家系统采用类似IF-ELSE-THEN的谓词逻辑构建产生式规则[37-39]，明确地定义决策系统“什么情况下该做什么”，是人工智能的初级形态。由于专家系统易于工程化且决策行为具有完全可解释的优点，使其在工程中得到了更为广泛的应用，但也存在一定局限：① 对于基于规则的专家系统而言，空战规则是其核心，而现有智能空战产生式规则的设计主要依赖人类空战专家完成。考虑到完整的空战规则集合不仅包括进攻和防守等基础战术，更重要的是需要明确界定各种边界条件以防止出现未定义的情况，从而对决策结果产生未知影响；② 由于空战状态空间维度较为庞大，规则设计过程中往往会面临“维数灾难”问题[40]。即使一对一空战规则能够通过较为理想的设计覆盖实战情况，但随着交战智能体数量的线形增长，规则设计的复杂度呈指数级增长，建模具有该复杂度的空战智能体仅仅依靠单纯的人工手段是不可能完成的；③ 基于规则的算法其自主决策能力存在很明显的认知上限，其行为表现不会超出设计者预先设定的能力，因此空战智能体的行为缺乏多样性，更无法演化出不同于人类做法的创新性战术行为。

一些研究将专家系统和其他方法相结合以弥补基于规则的专家系统方法的不足。例如文献[41]将专家系统和模糊贝叶斯网络相结合构建了混合策略决策系统，弥补了纯规则方法带来的行为局限性。文献[37]将专家系统和滚动时域控制相结合，弥补了基于规则的专家系统适应性差的缺点。

2) 基于深度学习的空战行为克隆

深度学习是近年来人工智能领域的研究热点方向之一，其理论和方法在诸多领域取得了广泛应用，在诸如计算机视觉[42]、自然语言处理[43]和用户推荐系统[44]等复杂问题中取得了巨大成功。直接通过专家标注的数据监督训练空战决策智能体的方式被称为行为克隆[45]。顾名思义，具有空战经验的飞行员在仿真器中亲身参与空战决策，仿真系统将每个决策时刻下的状态和对应的飞行员决策动作记录下来作为训练样本，然后进行离线训练，通过神经网络强大的拟合能力，拟合出空战态势和此态势下所需的决策动作之间的函数关系，这相当于机器在克隆飞行员的动作。在应用部署时，将实时空战状态输入训练好的神经网络模型进行前向传播，输出决策指令。空战行为克隆的算法框架如图3所示。其典型研究包括文献[46-48]，一般而言，这种方法能够使智能体快速学会基本战术机动行为。

图3 空战行为克隆算法框架Fig.3 Algorithm framework of air combat behavior cloning

空战行为克隆是一种数据驱动的机器学习方法，无需对空战动力学的内在机理进行完善的数学建模，其不足包括：① 训练数据完全来源于飞行员手动标注，因此训练出的深度神经网络空战决策能力无法超过产生标注的某个飞行员；② 若采用多个飞行员标注数据完成算法训练，将导致训练梯度冲突，往往导致训练难以收敛；③ 监督学习需要一定数量的训练样本，受限于标注专家的精力和时间成本，工程上往往无法提供所需的标注量。但是，行为克隆对空战博弈策略的演化建立了一个基于专家认知的初始基准，虽然无法通过该方法直接训练得到可以直接应用的智能体，但该方法可以看作是深度强化学习自我博弈学习方式的空战知识初始化手段，能够显著加快强化学习算法的收敛速度和学习效率，这一观点已在棋类博弈[49]、星际争霸2[50]等多个相关领域得到了证实。

3) 基于深度强化学习的自博弈对抗

深度强化学习是近年来人工智能领域最为成功的方法之一[51-52]，谷歌的DeepMind团队在Atari游戏环境中通过深度学习和强化学习的有机融合，提出了深度Q网络(Deep Q Network，DQN)[53]，率先实现了人类专家级别的操控水平。深度强化学习一般被形式化为马尔可夫决策过程求解问题：智能体从当前环境获取观测，产生决策动作并与环境进行交互，环境根据智能体的表现反馈奖赏给智能体，智能体收到奖赏后不断修正自己的行为，好的奖赏将会激励智能体继续做出一致行为，相反，则将惩罚智能体使其避免做出类似行为。深度强化学习智能体通过大量上述试错模式，以最大化预期奖赏的方式进行学习和进化，以获取最优策略。空战强化学习的算法框架如图4所示。

图4 空战强化学习算法框架Fig.4 Algorithm framework of air combat reinforcement learning

与之类似，空战智能体也可以在仿真环境中通过与对手不断地自博弈对抗，演化出足以匹敌人类飞行员甚至超越人类顶尖水平的空战战术。文献[54]将空战优势函数作为奖赏函数，通过模糊逻辑方法将状态空间泛化和连续化，提出了模糊Q学习。文献[36,55]采用DQN实现了无人机近距机动动作学习。文献[56-57]提出了启发式思想与强化学习相结合的思路，将专家知识作为启发信号，通过强化学习进行先验知识以外的探索，实现了空战策略启发式探索和随机式探索结合的效果。文献[58]解决了多智能体空战的决策问题，提出了多智能体分层策略梯度算法，通过自博弈对抗学习使智能体涌现出专家级的空战战术策略(如图5所示)；此外，还模仿人类分层解决问题的能力，构建了一种分层决策网络用来处理复杂的离散/连续混杂机动动作。

图5 智能体通过强化学习涌现空战战术[58]Fig.5 Agents learning emerging air combat tactics through reinforcement learning[58]

综上，深度强化学习通过和空战环境的持续交互，可以开展自我对弈从而生成全新的战术模式，甚至是人类从未见过的全新战术[58]。由于其策略一般由深度神经网络拟合，因此深度强化学习空战算法的工程化落地必须解决一系列关键技术，如算法从仿真环境向真实物理世界的迁移、神经网络的可解释性和安全性保障等[59-61]。

3 智能空战之“道”——未来挑战与展望

人工智能技术与空战问题的交叉融合，为高动态、不确定、非完美信息条件下的空战博弈问题求解带来了新的途径。以深度强化学习为代表的人工智能方法，不仅在棋类博弈、德州扑克等实际问题求解上呈现出超越人类的表现[49,62]，而且揭示了这一全新模式可以创造出替代人类飞行员遂行完整空战任务的全新空中对抗形态。可以预见，在不远的将来，空战对抗模式必将发生深刻变革，这一变革必然带来智能空战技术演化创新所涉及的全新需求与巨大挑战，如非完美信息的博弈[62]、多智能体协同[63]与迁移学习[64]等。面向求解这些问题的科学探索与工程实践，清晰地指明了智能空战技术的未来发展方向和前进道路，即智能空战之“道”。

3.1 智能空战发展趋势分析

1) 智能空战需求发展——从平台能力建设到体系协同建设

纵观以往空战的发展历程可以看出，各代战斗机的研发均以提高单机作战效能为主，通过提高战斗机在空战过程观察、判断、决策行动(OODA)各环节的能力来提高整体作战效能。随着信息化时代的繁荣以及智能化时代的到来，空战逐步向体系博弈对抗发展，各平台间的信息交互成为体系建设的基石，而智能则贯穿于整个空战博弈体系对抗的OODA过程之中。未来空战将以博弈体系建设为中心，重点发展智能态势感知体系、智能态势认知体系、智能博弈对抗决策体系以及分布式异构平台协同作战体系。

2) 智能空战应用发展——从“飞行员助手”到“空战专家”

随着未来先进作战思想和武器装备的不断发展，未来空战环境也逐渐向强对抗、高动态、强干扰、强不确定性等高度复杂环境转变，对智能空战技术的需求也从飞行员助手向空战专家演变，人工智能技术相比于人类飞行员在信息获取、反应时间、计算速度、技战术动作等方面具有绝对优势，可突破人类固有战术认知与生理机能限制，将在未来空战中占据主导地位。随着计算机科学、机器学习技术、大数据等新技术的快速迭代，与军事作战研究融合愈发紧密的智能技术必定引发空战体系、装备及相关技术的一系列革新，也必将引发未来智能空战形态的进一步变革。

3) 智能空战技术发展—从以人类智能为主到以机器智能为主

智能空战技术正在由传统的博弈理论和优化理论向具有自学习能力的人工智能理论发展。传统方法以飞机本体为中心，由人类主导构建空战对抗的过程模型，求解空战策略。受限于人类的认知边界、模型的表达能力以及策略的求解能力，得出的空战策略往往无法超越人类的固有认知。而下一代具有自学习能力的人工智能方法可以通过自博弈训练的方式学习到超越人类认知的空战策略，是一种全新的以机器智能为主的发展模式。与此同时，该模式面临着不确定性、可解释性、可迁移性以及可协同性的问题，这些将成为未来机器智能空战模式的重点发展方向。

3.2 智能空战关键问题阐述

1) 空天战场的深度不确定性

未来空天战场将面临要素多元化、对抗状态随机化、决策博弈智能化、态势信息片段化等典型的深度不确定性挑战。其中不确定状态下的非完美信息[65-66]空战决策能力将成为应对该挑战的关键突破点。非完美信息会直接影响对敌方目标进行有效的识别、定位、预测及攻击等一系列作战行为，将导致空战决策缺乏足够的信息基础，从而降低决策响应及准确程度。故如何在非完美信息博弈中实现对敌方的智能搜索、意图预测及战术推理，做到“找得到、猜得准、打得赢”，是在未来高动态不确定空战背景下必须解决的核心问题。

2) 智能空战策略的解释性与安全性

人工智能的可解释性是指人工智能算法能够以人类可理解的方式进行解释或表达[67]，智能空战策略的解释性旨在生成人类可理解的空战策略。基于深度神经网络的人工智能算法的输入与输出映射关系复杂，以目前的技术手段还无法完整了解整个神经网络模型的内部运作方式。这导致当人工智能算法出现错误决策时，我们无法清晰地获知算法出错的原因，从而无法对算法做出精准的修正[68-69]。因此，为了使人类能够充分理解智能空战算法决策的内在逻辑，从而使飞行员充分信任智能空战系统，就必须深入研究人工智能方法的解释性。同时，智能空战算法应能充分理解安全高度、安全飞行包线及失速边界等飞行安全要求，避免因遭受欺骗或干扰而导致的错误决策行为。因此，对于智能空战问题来说，能否突破智能算法的解释性和安全性技术将直接影响人工智能在空战领域的成熟落地。

3) 从虚拟仿真到真实飞行的迁移

从虚拟仿真到真实环境的迁移学习(Simulation to Reality，Sim2Real)[61,64]是强化学习中的难点问题之一。在智能空战问题中，直接使用算法驱动全尺寸真机开展训练，存在以下问题。① 样本效率问题：强化学习算法在解决智能体控制问题时所需要的样本量一般会达到千万数量级[70]，在现实环境中采集如此数量级的实战样本需要庞大的成本；② 训练过程安全性问题：由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错，因而在某些时刻其行为会严重影响飞行安全。如果在虚拟仿真环境中进行强化学习算法的训练，以上两个问题均可迎刃而解。但是，由于虚拟仿真环境相对于真实物理环境始终存在误差，导致在虚拟仿真环境中学习到的最优策略无法直接应用在真实物理环境中。因此，研究智能空战策略从虚拟仿真环境到真实飞行环境的迁移学习成为了智能空战工程实践过程中必须解决的技术难题。

4) 智能空战策略的协同性

现代空战具备典型的体系化、层次化和协同化特征，因此未来的智能空战系统也理应具备多智能体协同空战联合策略求解能力。在多智能体系统中每个智能体的策略不仅取决于自身，还取决于其它智能体的策略，导致智能体的策略学习具有不稳定性，这使得多智能体系统的策略学习变得更加复杂[71]。在更大规模的多智能体空战对抗博弈过程中，基于规则的专家系统和传统的优化理论方法难以较好地处理“维数灾难”和策略不稳定问题，而基于深度神经网络的自演进机器学习类方法为解决此类问题提供了新的可能[72]。多个智能体能否自组织并演化出媲美甚至超越人类的协作策略，是多智能体协同空战算法必将面对的技术难题。

3.3 智能空战未来展望

通过对上述智能空战发展趋势的几点思考，可以看出人工智能技术与空战领域的融合既是当前的研究热点，也是未来的发展方向。将会对后续航空装备需求想定、体系发展、装备迭代以及技术革新等多个方面产生深远影响，有望成为制胜未来空天战场的核心能力：

1) 机器主导的认知型智能将是未来空战单体智能的发展方向

未来空战中的单体智能形态将经历从“以人为主导的规则型智能”到“人有限参与的机器学习型智能”再到“以机器为主导的认知型智能”的演化路线。早期以专家系统为代表智能空战技术，严重依赖人类对空战的认识，属于知识驱动的规则型智能。近几年智能空战技术正向着数据驱动的机器学习型智能方向迈进，这种以深度神经网络为代表形式的智能，通过对大量空战数据样本的训练，在人为加入奖惩机制的情况下能够涌现出类人的决策行为，甚至创造全新战术。其具备持续学习的能力，能够通过训练执行多类型任务，具有较强的战场适应能力，属于人工智能在空战领域发展的过渡阶段。而在未来，随着人工智能技术的进一步发展，以脑认知科学为基础，以模仿人类核心思维模式为目标的认知型智能将成为智能空战技术未来的核心，有望适应空战高动态、强实时、不确定和非完美的复杂环境，驱动智能空战技术迈入高级阶段。

2) 群体智能将是未来空中作战体系的主流形态

单个平台的作战效能存在一定局限，为了提高执行复杂、困难任务的作战效能，作战平台需要以集群的形式组织在一起共同执行任务。未来空中集群作战体系形态无论是人机混合智能集群还是全自主智能集群，都对群体智能的实战化应用提出了迫切需求。在该模式下，多个作战平台有机地组织在一起，相互产生“化学反应”，实现作战能力涌现，将获得“1+1>2”式的颠覆性的作战能力。在机器智能技术充分提高了参战个体的智能化程度后，可以预见，群体智能将逐渐在未来空中作战体系中占据重要的位置。

3) “智能×”将成为“三化融合”航空装备设计的新理念

“+智能”是指在不突破原有装备形态的基础上，引入新的智能维度对其加以改造，从而实现原有装备的功能拓展和性能增强。以Su-35“决斗”系统和美国忠诚僚机为例，Su-35“决斗”系统实现了基于专家系统的空战智能增强决策模式，能够面向飞行员提供实时智能战术建议。在忠诚僚机中，无人僚机按有人长机的命令执行任务，实现有人机为主导的作战编队能力增强。“+智能”设计理念虽然引入了智能增能，但本质上仍然以机械化、信息化装备实体为先导。而“智能×”是以智能化为引领，形成机械化、信息化和智能化高度融合的具有跨代特征的先进形态，最大限度地发挥出装备的机械潜能和信息优势，有望更充分地适应未来的装备发展与作战需求。

4) “高智能”有望成为未来无人制空作战装备的跨代特征

航空装备的跨代发展是需求牵引与技术推动共同作用的结果[73]。在隐身四代机和未来高性能制空作战装备的参与下，未来空战任务必将对驱动战斗机遂行跨代空战的智能主体提出更高要求。受限于人类生理、心理限制，飞行员的态势感知能力、决策质量和操作准确度均难以保持长时间的巅峰状态；另一方面，人类反应时间存在上限，进一步限制了飞机的快速响应能力。而以人工智能为核心的下一代无人制空作战装备，有望全面超越人类的决策效率与准确性，极大地提高作战效能。在机器主导的认知型智能技术推动下，“高智能”有望成为未来无人制空作战装备的跨代特征，引领新一轮空中对抗装备根本性变革。

4 结论

本文阐述了智能空战技术研究和应用的发展脉络，回顾了主流空战自主决策问题的建模与求解方法，揭示了智能空战技术正逐渐从基于规则的专家系统全面迈向基于深度神经网络的自演进机器学习方法这一根本发展趋势。进一步分析得出了以深度强化学习为代表的人工智能算法是在目前技术条件下创造出具有合理、可靠且丰富多样战术行为的空战智能体的关键途径，强调了未来在智能空战科学研究及工程实践中正在或即将面对的技术挑战：包括智能空战的不确定性、解释性、安全性、迁移性以及协同性等，为未来智能空战技术研究勾勒出一条可行的探索路径，为人工智能理论与航空科学技术的跨领域交叉融合提供了新的发展思路。