基于深度学习的军事辅助决策智能化研究

2018-11-06 12:01张晓海操新文耿松涛张妍莉
兵器装备工程学报 2018年10期
关键词:态势战场辅助

张晓海,操新文,耿松涛,张妍莉

(1.国防大学 联合作战学院, 石家庄 050084; 2.中国人民解放军95894部队, 北京 102211)

随着科学技术的发展和军事理论的不断创新,我军辅助决策系统经过多年建设,取得了长足进步。在数据采集、传输、存储、处理等方面有了不少成果,基本满足了实际应用的需求。然而,现有的决策支持系统在情报处理、态势认知、文书生成和方案评估等方面距离智能化要求还有很大的距离,与未来智能化战争的发展趋势不相适应。近年来,以深度神经网络为代表的新一代人工智能技术迅猛发展,在经济、医疗、交通、工业等众多领域均取得了令人瞩目的成果。特别是AlphaGo[1]的出现,使人工智能再一次成为焦点话题,其所采用的深度学习技术和人工智能方法,有力促进了社会多个领域的智能化建设,必将对军事辅助决策智能化发展产生重大启示意义。

1 深度学习的前世今生

1.1 从神经元到深度学习

研究深度学习,要追溯到20世纪40年代初。McCulloch和Pitts受到人类神经系统的启发,提出了人工神经元的雏形。它由大量的节点(神经元)相互联接构成,每个节点代表一种特定的输出函数(激励函数),节点之间的连接代表通过该连接信号的加权值(权重),网络的输出取决于网络的连接方式、权重和激励函数,如图1所示。

然而,人们很快发现这种单层感知机模型始终无法解决简单的异或问题,且当时的算力也无法支撑庞大的计算量,神经网络进入了第一个低潮期。1986年,反向传播算法(BP)[2]因成功解决异或问题,引发了神经网络的第二次热潮。但在20世纪90年代初期,BP算法被指出存在梯度消失、局部最优和过拟合等问题,神经网络的热潮逐渐趋于冷淡。而此时,统计学习方法快速发展,支持向量机(SVM)在线性分类问题上表现突出,AdaBoost、随机森林能够很好地抑制过拟合问题,Kernel SVM成功解决了非线性分类问题,这些成果使神经网络更加陷入了无人问津的境地。直至2006年,Hinton等[3]提出了梯度消失问题的解决方案,拉开了深度学习的帷幕,深度学习进入了快速发展期。2012年,Hinton课题组构建的AlexNet,首次使用ReLU激活函数,解决了梯度消失问题,并添加Dropout层以减小过拟合,最终在ImageNet图像识别比赛中一举夺冠,在分类性能上碾压了基于统计模型的参赛系统。此后,卷积神经网络、循环神经网络、进化神经网络等模型不断涌现,逐步打开了人工智能新世界的大门。它们不仅在模式识别、信息检索、自然语言处理等多个人工智能领域都取得了重大突破,还可以对复杂模式进行分类,在决策问题中产生巨大影响。因此,人工智能再一次成为了信息科技的研究热点。

1.2 什么是深度学习

深度学习(Deep Learning)[4]属于人工智能领域中的子领域,图2表示了人工智能及其子领域的相互关系。

深度学习是一种含有1个输入层、1个输出层和数个隐藏层的深层神经网络,每层有若干个神经元,神经元之间有连接权重,这种深层结构可利用大规模标签样本逐层学习,自动生成特征量,从而解决非线性问题的求解。深度学习模型具有很好的灵活性和可扩展性,因而受到广大研究者们的热切关注。传统人工神经网络与深度学习模型的区别,如图3所示。

提到深度学习,不得不提闻名全球的围棋智能程序AlphaGo。AlphaGo就是以深度学习为主体,结合强化学习和蒙特卡洛树搜索方法,在输入3 000万局棋谱进行深度学习后,利用强化学习技术进行自我对弈,从而达到甚至超越了人类围棋水平。多年前,IBM公司研发的国际象棋程序“深蓝”也曾击败人类顶尖棋手。然而“深蓝”使用的是穷举法,这种穷尽走子的策略在极度复杂的围棋中就不适用了。但AlphaGo使用的深层神经网络,承载了数百万计的参数,通过深度学习就能学习到甚至超出人类已有的围棋知识。AlphaGo的成功告诉我们,深度学习具有高效的特征提取和知识表达能力,这让我们看到了深度学习等新一代的人工智能技术用于军事辅助决策智能化的可能性。

1.3 深度学习的瓶颈问题

从人工智能的诞生至今,每一个新的模型或算法在解决有关问题的同时,也都带来了其他的问题,深度学习也不例外。虽然它具备了更加强大的特征提取和知识表达能力,但并不能盲目乐观。李世石在战胜AlphaGo的比赛中,第78步走出了“神之一手”。让人们没有想到的是,AlphaGo在进行了比平时多出一倍的深度搜索后,直接崩溃了,连续犯了近十步棋的低级错误,最终输掉了第四局比赛。从这个角度看,AlphaGo在面对未知时,依然表现出了脆弱的一面。可见,深度学习有着自身的局限性,同样面临着诸多瓶颈问题:

1) 对数据和算力的依赖

一方面,支持向量机(SVM)等浅层结构模型可以在数据量一定的情况下有很好的表现,而深度神经网络则需要输入大规模的数据样本才能展现出自身优势。因此,无监督训练、小样本特征提取、模型优化和分布式训练等领域非常值得研究。另一方面,深度学习技术对算力需求很高,现有的CPU芯片技术用于深度学习时,模型的学习效率会受到一定程度的制约。深度学习之所以能够取得突破,其中一个重要原因就是使用GPU进行深度学习,因为GPU在模型训练时较CPU具有更高的效率。所以,在算法不断优化的同时,研制能快速训练大规模深度神经网络的处理器同样重要,这需要对智能芯片的设计原理、体系结构、指令集和编程语言等实施进一步的发展创新。

2) 解释智能体的“黑匣子”

AlphaGo在李世石走出“神之一手”时,原本还有取胜的机会,但AlphaGo却突然崩溃,从职业顶尖水平骤降到业余水平,走出了让人啼笑皆非的几步棋。AlphaGo对于这步棋究竟是如何理解的,可以说包含数百万个参数的深层神经网络就如同封闭的黑匣子,无从知道在机器学习过程中,到底学到了哪些特征,对于知识又是如何理解的,这使得我们很难找到它犯错的真正原因。因此,在未来的研究中,打开“黑匣子”,理解神经网络的深层功能,不仅有助于了解深度学习的决策机制,对构建更为强大的人工智能系统也至关重要。

3) 深度学习理论基础的研究

很多研究者希望将深度学习作为一种通用模型,应用到所有领域,但人们很快便发现深度模型在某些方面的能力具有局限性。近年来,深度学习有了更好的数学支持,模型的理论研究取得了阶段性的成果。然而,目前的研究发展依然呈现出两极化的分布,大部分人更偏向于工程化,而进行理论研究的只占小部分。相比于深度学习平台的快速发展,更需要从神经网络结构和参数调整机制上进行创新,以突破深度学习的理论瓶颈。

2 军事辅助决策的智能化挑战

未来战争中的智能化辅助决策系统,应能准确理解指挥员的真实意图,快速准确地找到合适的决策资源,给出合理建议,处理决策问题,从而减轻指挥员的决策负担。高度智能化的军事辅助决策系统的出现,将彻底颠覆人们对军队指挥的传统认知。

国外开展军事智能辅助决策相关研究比较早,以美军DARPA机构开展的“深绿”[5]项目为代表,其目的是预测战场态势,帮助指挥员进行情况判断,并提供决策方案。该项目于2007年7月启动,但实际上到2014年仍未完全结束,主要困难在于战场态势的理解、仿真推演的高复杂度、用于决策数据的不同要求、决策粒度的区分等等。如果说“深绿”的失败是由于当时的数据处理能力不足,从而导致传统人工智能方法在解决态势认知问题时存在瓶颈,那么AlphaGo的成功,则证明了以深度学习为代表的新一代人工智能技术,在面对大数据和复杂的战场环境时,或许可以实现突破。

国内较为成熟的主要以专家系统、多智能体系统(MAS)等为主。如空中军事打击智能决策支持系统[6]可利用多智能体技术,辅助生成空中军事打击行动决策方案,并进行仿真和评估;军事科学院研发的《进攻一号》[7]军事专家支持系统,建立了4 000多条规则和一个定性与定量相结合的高效推理机制,能够自动生成作战决心的参考方案,辅助指挥员定下决心。上述研究取得了一定成果,但更多依靠传统人工智能技术,具有局限性。2017年9月,“赛诸葛”全国兵棋推演大赛中,中科院自动化所研发的AI系统“CASIA-先知V1.0”首次战胜了人类选手,展示出深度学习等人工智能技术在对抗博弈领域的强大能力。但目前基于深度学习的辅助决策系统还处于起步探索阶段,距离实际应用还有很长的路要走。

综上所述,分析辅助决策系统的难点,主要有以下几个方面。

1) 战场态势理解

在作战指挥中,决策的目的是定下决心和制定行动计划,其前提是分析判断敌我情况,找出关键问题,即对战场态势充分掌握。因此,研究发展智能化的辅助决策系统,首要解决的就是战场态势认知问题。首先,从获取知识的角度看,真实战场信息的获取异常困难,无法得到完备的信息,甚至部分情报可能是虚假的,从不完备信息中提取出可用于辅助决策的战场情况信息,是态势理解的一大难点;其次,从指挥层次的角度看,系统通过量化手段进行态势理解,但随着指挥层次的提升,部分态势信息将无法进行量化,只能采用定量和定性相结合的方式去描述,这使得机器理解认知的过程更加困难;第三,从指挥粒度的角度看,陆军的指挥决策相较于海军和空军更加困难,这是由于人比飞机和舰艇更为自由,且数量更加庞大,指挥粒度的选择极易对态势判断产生影响。

2) 作战意图预测

AlphaGo的成功启示我们,利用深度强化学习,也许可以实现模拟环境下自我对抗演练,但前提是要对双方每一步作战意图进行准确的预测。战争是一个复杂系统,影响决策的因素多,战场情况瞬息万变。在作战行动的推演中,预测敌方下一步行动或下一阶段的作战意图极其困难。首先,战争没有固化的规则可言,作战双方在决策过程中不会按照一致的规则出招;其次,推演过程是双方通过对多个目标的实时控制实现的,预测未来情况的时序深度如果把握不好,将导致组合爆炸或预测失真,无形中增加了作战意图预测的难度;再次,在较高的指挥层次下,作战意图并不是简单的局部作战行动的整合,这与指挥员的战法和指挥艺术息息相关,尤其对于战略级的作战意图,甚至还掺杂了政治、外交等更加难以量化的诸多因素。

3) 训练样本获取

深度学习是基于数据的,模型需要大量样本进行训练,而现实战争面临最大的问题就是训练样本匮乏。算上演习的数据储备,距离实际应用还有很大差距,即使演习和模拟仿真会随时间推移积累更多的数据,但为这些数据添加标签同样费时费力。同时,目前更多依靠现有的兵棋推演系统来生成训练样本,但兵棋系统在客观反映战争复杂系统中影响作战的诸多因素方面还需要更加完善。因此,使用这些样本进行训练很大程度上更像是纸上谈兵,模型最终训练得到的很可能是人造的规律,在实际作战中是否有利用价值还需要打一个问号。另外,人的因素很难进行量化,比如一支身经百战、战斗经验丰富的部(分)队,能够完成看似不可能完成的任务,战争史上,以少胜多、以弱胜强的战例数不胜数,这在模拟数据中又应如何描述和反映?

4) 指挥层次影响

辅助决策系统通常是基于模型构建的,辅助决策的能力主要表现为定量分析。构建智能化的辅助决策系统,指挥层次对于方法模型的选择至关重要。在联合作战中,一体化的指挥决策层级在战役级以上,而指挥层次越高,信息的量化就越复杂,决策面临的困难也越大。尤其上升到战略层次时,指挥艺术将比指挥技术更为重要。因此,为避免决策分支的指数爆炸或失真,在面向不同的指挥层次构建辅助决策系统时,对于输入应当选择何种粒度最为合适?适用于不同粒度的模型应当如何选择?决策的周期又应当如何决定?

5) 智能算法运用

从人工智能的发展来看,每一种模型既有长处又有短处,不同的智能算法都有其自身的特点和应用范围,将多种人工智能方法进行有机结合,是智能系统取得成功的关键因素。因此,面对辅助决策中的不同任务进行建模,哪一类神经网络更适用,哪一种激励函数最合理,哪一种方法抑制过拟合最有效等等,都是需要面对的问题。再比如,对于很多难以通过定量手段解决的问题,如何将定性与定量方法进行结合?对于标签样本匮乏的现状,有监督学习和无监督学习应如何有机结合?对于一些局部的特定问题,基于规则和基于统计的模型依然表现更为出色,深度学习又该如何与之结合?这些问题都将对军事辅助决策智能化发展带来诸多挑战。

3 军事辅助决策智能化的思考

结合深度学习和辅助决策的瓶颈问题以及难点挑战,对于军事辅助决策的智能化发展,可以从以下几个方面进行探索。

1) 战场信息处理

未来战争是由信息主导的,但制约正确决策的并非是信息本身,而是从海量数据中提取重要信息的能力,这些重要的信息才是进行作战意图预测、战争发展趋势分析、作战行动决策的基础,只有进行过整理、解释、选择后生成的知识层面的战场信息才能有效用于态势理解,即对作战双方的基本情况信息(包括作战能力、企图、手段、步骤等)的标准化处理。一方面,应着重关注战场信息大数据挖掘的研究,如战场态势的感知判断,信息内部因果关系的理解,战场知识的搜索、判断、归类和度量,对不同格式数据(图像、视频、语音和文本等)的自动分析等;另一方面,从知识表示的角度出发,基于深度学习的态势理解解决了特征选取的难题,因此,可以通过构建符合战场态势特性的深层神经网络,利用已有演习的真实数据进行逐层训练,从而加强对战场态势的抽象理解。另外,应当对专家知识等已有的研究成果加以高效利用,比如可以组织经验丰富的军事专家为生成的样本集添加标签,以提高战场信息处理能力。

2) 训练样本积累

从目前深度学习的研究现状来看,训练样本依然是智能辅助决策系统研究的重要基础,因此,必须注重训练样本积累,以满足深度学习的需要。第一,由于我军长时间处于和平状态,缺乏现代战争的作战经验和相关数据,因此,训练样本只能从历史演习数据中获取,规模非常有限。为解决训练样本积累问题,一种可行的途径是通过兵棋模拟对抗进行数据的积累,同时利用专家知识对失真样本数据进行修复,以提高样本质量;另外,可以使用生成对抗网络(GAN)自动生成大量对抗样本,从而满足研究需要。第二,对样本集的信息维度应进行合理控制,虽然高纬度数据样本能使战场态势信息更完备,但过高的维度将严重影响到算法效率;反之,样本信息维度选择过低,又难以有效描述战场信息,这就需要根据作战层次对指挥粒度的要求来具体分析,并决定取舍。第三,研究更好的特征编码和标准化处理方法,统一规范数据格式、信息流程、数据库结构等,以实现对训练样本的统一管理和有效利用。

3) 智能技术运用

现阶段,深度学习的能力还达不到通用智能的要求。在智能技术应用过程中,不能单纯依靠深度神经网络一个模型。近期的研究也表明,在一些特定任务中,现有的深层神经网络模型在解决认知和决策等问题上还有很长的路要走,融合多种人工智能技术手段将更加有效。比如类似支持向量机(SVM)等传统浅层模型,可以在小规模样本条件下达到比较好的效果;基于规则的方法,可以对战场知识进行有效归纳,在现有条件下可发挥很大的作用;融合记忆机制、时间序列等策略的深度学习模型架构,比如长短时记忆网络(LSTM)可以实现时序特征的记忆,对于具有时空特性问题具有很大的研究价值;基于栈式自编码器(SAE)的深度学习模型,采用无监督预训练和有监督训练相结合的方式,也是研究意图识别的一种有效方法。因此,融合运用各种智能技术,充分发挥各类模型的自身优势,对解决战场态势理解和指挥决策的特定问题具有重要的方法论意义。

4) 人机交互能力

在人机交互过程中,应当尽可能达到输入数据格式化、生成数据可视化,极大降低指挥员的计算机技术门槛,提高智能辅助决策系统在战场态势的应用、显示和实时性需求,这就需要自然语言处理和图像识别等技术在特定任务中达到实际应用的要求。一是在战场态势融合过程中,通过自然语言处理、语音识别、图像识别等方法手段,可实现对情报信息进行整合,形成态势图,并能够实时更新态势信息,以满足战场动态变化要求;二是合理运用图像识别技术,对标图进行自动识别,结合情报信息,对敌我双方的编成部署、武器效能、火力覆盖范围等进行自动计算,辅助分析敌我力量对比,保障指挥员正确定下战斗决心;三是生成作战方案应同时满足计算机和指挥员的双重需求,格式化的方案数据可直接输入系统进行评估,非格式化的方案以自然语言方式生成,便于指挥员的审阅和修订。

4 军事智能辅助决策基本模型建立

在军事辅助决策系统中,战场目标识别、作战意图预测、作战方案生成、模拟对抗博弈、人机交互等模块,均可以利用深度学习及相关人工智能方法来解决智能化问题。本文针对深度学习技术的应用,仅对战场目标识别、作战意图预测和模拟对抗博弈3个主要问题的基本模型进行了初步探索。

1) 战场目标识别

目标识别技术被应用在战场侦察、敌我识别、精确制导等多个方面,在智能化指挥信息系统中,自动、准确、快速地识别战场目标,是理解战场态势的基础。在复杂战场环境下,战场目标识别不仅仅是目标分类,对目标的定位同样重要。以图像识别为例,可以采用R-CNN[8]模型完成识别任务,先确定约1 000~2 000个物体候选框,然后将所有候选区域输入卷积神经网络(CNN)提取特征向量,接着采用支持向量机(SVM)判别器对各个候选框中的物体进行分类,最后,对于属于某一特征的候选框,训练一个回归器进一步调整其位置,回归目标参数x和y分别为选框中心横、纵坐标,w为选框宽,h为选框长度,具体模型如图4所示。

2) 作战意图识别

对作战意图进行识别预测,可从战场态势和战场情报信息中抽取与意图相关的信息,再对特征信息进行综合分析,并结合相关的作战规则,得出目标的作战意图。作战意图识别是在不完全信息条件下的复杂战场态势认知问题,且标签数据样本规模也受到限制,模型训练难度较大。一般采用无监督训练和有监督训练相结合的方式构建模型,以达到优势互补,如图5所示。原始数据由真实演习数据和兵棋系统生成的模拟数据构成,经过归一化、特征编码等预处理过程,生成标准化的训练样本,用于无监督学习;利用指挥员和军事领域专家的经验知识,对标准样本集进行手工标注,得到带标签的数据样本,用于有监督学习。通过无监督预训练,可以生成更好的初始化权重分布,再经过有监督学习进行参数的调优,可以达到比较好的效果。

3) 模拟对抗博弈

AlphaGo棋艺精湛,除了3 000万局人类棋谱的输入,还有3 000万局的自我博弈。受AlphaGo的启示,将深度神经网络与强化学习结合,利用仿真推演平台对战场数据与作战辅助决策进行综合处理分析,让决策模型依托兵棋模拟系统进行自我博弈的强化学习,从而不断提高作战辅助决策的效能。训练模型如图6所示,对当前状态进行特征提取,将特征融合至状态St-1。经过深度学习网络,完成当前状态的评估,得到行动at的回报Rt,通过Rt对深度网络进行奖惩。对于整个作战过程,系统需要对每一个节点进行计算评估,以发现最优行为序列。需要注意的是,从DeepMind挑战星际争霸2的经验来看,机器采用从零学习的策略是不可取的。复杂战场环境中的决策更是如此,对模型初始阶段的训练应当依托人类经验进行训练。在模型能够自行处理部分简单任务后,再进行自我模拟对抗的强化学习将更加有效。

5 结论

指挥决策不单单是一种技术,更是一门艺术,正确的决策,不能只依赖定量方法,还要从难以进行定量分析的政治、战略角度进行定性分析。深度学习的出现,改变了人工智能领域的发展路线,使人们看到了智能化指挥决策的可能性和发展机遇,但与此同时,也要看到深度学习的局限性和军事辅助决策智能化发展的困难和挑战。现阶段的人工智能技术,即使是深度学习也还无法实现创造性思维,强人工智能依然遥远,计算机还无法独立生成一个有思想有价值的作战方案。在未来很长的一段时期,机器还只能以辅助角色出现,最终的决策权依然掌握在人类手中。

猜你喜欢
态势战场辅助
历史虚无主义的新近演化态势与特征
战场上的神来之笔
倒开水辅助装置
C-130:战场多面手
贴秋膘还有三秒到达战场
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
例谈何时构造辅助圆解题
也门,西方反恐的第三战场
5月份工业经济运行态势良好