基于深度学习的战略威慑决策模型研究

2018-01-18 00:31荣明杨镜宇

指挥与控制学报 2017年1期

荣明杨镜宇

威慑的目的是不战而屈人之兵.冷战时期威慑的核心是美国以核报复相威胁,其目的在于防止或威慑苏联对美国及其盟国发动核攻击或常规进攻.威慑理论也是在这样的大背景下发展起来的.冷战的结束并没有同时宣告核时代的结束,而只是改变了核武器存在和发挥作用的国际环境,核威慑仍是美国威慑理论的组成都分.威慑也出现了新的特点,特别是核威慑条件下的常规威慑如常规导弹威慑、太空威慑、网络威慑等,逐步成为当代威慑的主要样式.

战略威慑对抗仿真实验为研究战略威慑问题提供了一种新的手段.它是以仿真的方法研究战略威慑问题,通过构建战略威慑对抗环境,模拟对抗两国战略威慑下的决策行为,实现战略威慑对抗实验.基于战略威慑对抗仿真实验需求,对对抗两国决策模型进行研究,可为武器装备战略威慑有效性评估提供模型资源支撑,同时还可以为战略兵棋系统实现人—机对抗演练、机—机对抗分析功能提供参考.

战略威慑决策模型是战略威慑仿真中必须要解决的核心问题.国内外对战略威慑决策模型研究比较少,究其原因主要是使用计算机对战略决策问题进行建模分析是困难的,战略决策的艺术性较强,影响因素众多,很多因素难以定量表达,如人的情感因素.现在计算机的人工智能技术也难以很好地模拟人的智能行为,决策行为属于智能行为.一些战略决策仿真研究通过对国家内部个体(人或组织)的决策行为仿真,再“累加”为国家行为的方法对国家战略决策进行仿真[1],这些研究的仿真效果并不好,没有得到普遍认可.对于国家内部个体(人或组织)的运行规则的实证研究是缺乏的,缺少这些个体的数据和抽象模型,去表达这些个体决策行为是不现实的,对战略威慑决策进行仿真需要在方法上另辟蹊径.

今年,随着深度学习技术的飞速发展,在态势感知与理解方面人工智能取得了长足的进步.虽然目前还难以替代人的智慧,然而在某些狭小的领域却可以达到专家水平[1−2],模拟智能行为同样是可行的.战略威慑决策就是战略决策中一个“狭小领域”,主要研究如何对威慑相关问题进行决策.根据课题要求,我们要仿真威慑博弈中具有某国特点的决策行为,而非求解最优方案,即某国家面对某种战略威慑态势时“应该”会做出怎样的决策,同时仅要求决策仿真的结果.因此,我们尝试使用深度学习的方法进行战略决策模型的建立.

1 战略威慑决策模型建模分析

决策有很多方法,如AHP、多属性决策、遗传算法等,而决策仿真要仿真具有某国家特质的决策行为,更适合采用神经网络、产生式规则、模糊规则推理等方法.胡晓峰将仿真模拟方法分为3种:“基于模型分析的模拟”、“基于数据分析的模拟”和“基于智能分析的模拟”[3−5].其中基于模型分析的模拟需要建立能够揭示仿真对象规律的数学或逻辑模型,基于数据分析的模拟需要仿真对象大量的数据来构建模型,基于智能分析的模拟需要利用知识和经验制定规则进行推理.根据前面的分析,适合把这一问题按照国家决策层次流程拆解为上下两部分,对应构建两部分模型,综合运用仿真方法来解决.上层决策为国家的顶层战略决策,决策的问题是选择“退让”还是“(继续)抗衡”的大战略问题,称为高层国家行为决策.这个决策主要考虑的影响因素是国家利益,战略选择的结果较宏观、数量较少,国际关系领域有相应的实证研究和抽象模型,适合选择“基于模型分析的模拟方法”.下层决策为具体战略行动的选择,称为行动层国家行为决策,影响因素很多,可选择的行动选项多,行动规律更为复杂,难以建立数学模型在有限的时空下求解,也缺少实证研究数据进行数据分析建模,适合采用“基于智能分析的模拟方法”,使理论与经验相结合,定性与定量相结合.

经过调查和讨论确定威慑博弈中国家行为决策要素.影响高层国家行为决策的要素主要是国家利益,即国家对于可能结局的收益大小,外化为国家对此的偏好.而国家对各种结局偏好受到冲突本身的成本、各种国内政治成本、国家敢于冒风险的程度、国家间合作分歧的程度、如果引发冲突获胜的概率等要素的影响.行动层国家行为决策要素主要是高层国家行为决策结果、对对方行动所展现出的实力、决心大小的认知和国家对于威慑的承受水平.以下将根据这些要素具体构建国家行为决策模型.

威慑方决策模型基本结构如图1所示,高层决策以态势变化和对方行动数据为基础,行动层决策以高层决策结果为基准,决策的行动会使外围模型态势变化,进而影响对抗双方决策.虚线部分为决策模型外的模型,为决策模型提供态势数据,受慑方决策模型与之相似.

2 战略威慑决策模型

高层国家行为决策面对的是双方作为理性的行为体互动对抗中的决策问题,博弈论的框架很适合描述求解互动对抗双方的理性的决策行动,Bennett[6]、Quackenbush[7]等国际战略专家通过对COW(The Correlates of War project,战争相关指数项目)数据库中百年来各个国家冲突统计数据实证研究,验证了国家的战略威慑决策基本上都符合博弈论模型推导的结果,因此用博弈论模型作为高层国家行为决策模型来模拟国家的战略威慑决策行为是可靠的.

根据研究背景假设和抽象,建立双方单边威慑博弈模型如图2所示.此博弈模型作为威慑方和受慑方内部的战略层决策模型,但双方得到的态势信息是不同的,即威慑方和受慑方分别根据自己的博弈模型和获取的态势等信息做出决策.求得某方在某态势下的博弈均衡就可以得到此方在此态势下的策略选择即战略层决策的结果.

2.1 决策效用值求解

求收益首先要计算国家对不同选择的喜欢程度,即国家偏好结构.计算过程比较繁琐,以受慑方为例简述如下,首先根据COW数据库中威慑方和受慑方国家的数据,按照Bennett和Bueno de Mesquita的方法计算S分数和国家冒险倾向r i,S分数表明威慑方与受慑方国家间冲突与合作的程度,r i表明国家敢于冒风险的程度,i为国家标识.通过Bueno de Mesquita实证检验的公式计算基础效用值U C(SQ)、U C(ΔC)、U C(Δd),3 个效用值分别代表受慑方选择妥协的效用、受慑方向威慑方提出利益值、威慑者向受慑方提出的利益值,也可以根据冲突的背景和专家的经验设定这3个基础效用值的大小.

根据外围仿真模型提供参数:冲突中受慑方使用武力的国内政治成本φc、受慑方妥协的国内政治成本γc、冲突本身给受慑方的成本ωc、冲突中受慑方胜利概率p c,和式(4)～式(7)[7]计算受慑方其他选择的效用值,对得到的所有效用值进行排序得到受慑方效用偏好.

由国家偏好等数据计算相关门限参数c t、c s、d n、p c、p d和不完全信息博弈下的均衡,不同态势影响下的国家偏好结构和限定条件各不相同,可能的均衡结果也不同,如表1所示.

2.2 深度学习决策模型建立

借鉴AlphaGo的思想,通过增强学习和价值网络,完成对战略威慑决策模型的建模[8−10].增强学习(Reinforcement learning)可以对战略威慑决策模型神经网络ρσ进行加强.ρρ的网络结构和功能与有监督学习策略网络ρσ完全相同.其增强学习的主要过程是:首先取 ρσ为第 1代版本 ρσ1,让 ρσ1与 ρσ1自对弈N局,产生出N个新的结果,再用新的结果训练ρσ1产生第 2 代版本 ρσ2,再让 ρσ2与 ρσ1自博弈N局,训练产生第3代版本ρσ3,第i代版本随机选取前面的版本进行自对弈,如此迭代训练n次后得到第n代版本ρσn=ρρ,就产生了增强学习的策略网络ρρ.

我们构建的战略威慑决策模型的价值网络V是一个具有10层的卷积神经网络,与策略网络具有相同的结构.主要功能是:输入当前的战略态势,输出下一步在战略威慑行动的估值,以此评价行动的优劣.策略网络和价值网络的主要作用是降低博弈树的搜索宽度和搜索深度,通过剪枝来控制搜索空间的规模.但是要作出合适的决策,不仅要依赖搜索空间的降低,还需要采用合适的搜索算法.运用蒙特卡洛树搜索(Monte Carlo tree search,MCTS)算法来实现对威慑博弈树的搜索.MCTS算法的原理是:随机抽取威慑行动,通过最终威慑结果来更威慑行动措施的价值.随机威慑行动的概率,与威慑行动价值成正比.如此进行大量的随机模拟,让好的方案自动涌现出来.

2.3 行动层国家行为决策仿真模型

如果战略层决策模型的决策结果是“(继续)抗衡”,那么行动层国家行为决策模型将进行具体行动的决策.根据威慑的逻辑,威慑受威慑实力、威慑决心以对这两者的认知的影响.这一决策过程如图2所示,在认知判断部分对对方的实力、决心、态势信息等进行判断评估,决策部分根据判断评估结果进行决策.

这一过程受多个属性影响,需要根据问题背景模拟具有某国家特点的决策行为,由前面的分析,适合采用深度学习的方法来进行决策仿真,综合利用文献资料、专家经验在运行调试中不断拟合决策行为.威慑决策过程中认知判断部分通过对对方行动信息、态势信息、战略层决策信息中的相关参数判断评估,得到对对方实力、决心大小的评估判断.决策部分通过对决心、实力的评估结果和其他相关参数,得到适合行动的属性值.采用特征向量匹配算法,对行动库中的行动进行匹配,选择最适合的行动.

3 结论

当前对于战略威慑博弈国家行为决策仿真的相关研究还比较少,针对这一决策仿真的特点,分析探索适合的方法,提出了“基于深度学习的决策模型”的方法,综合博弈论、深度学习、模糊规则、结合专家经验构建了相应的仿真模型.目前归纳了20余种战略威慑行动,建立了基本的行动库和规则库,已经开发完成了原型仿真系统,验证了方案的可行性.另外,还需要在运行调试中进一步完善相关数据规则,不断提高运行效果.应该说采用深度学习方法进行战略威慑决策模型研究是一种可行的初步尝试,最终威慑模型决策效果还要在后继的研究中继续深入,不断提升.

1 TAYLOR G,FREDERIKSEN R,VANE R R,et al.Agent-based simulation of geo-political con fl ict[C]//Conference on Nineteenth National Conference on Arti fi cial Intelligence,2004:884−891.

2 胡晓峰.美军训练模拟[M].北京:国防大学出版社,2001.

3 陈聪,蒋鲁峰,孟大伟,等.兰德战略评估系统的软件设计、应用与发展[M].北京:航空工业出版社,2015.

4 温柏华,司光亚,胡晓峰,等.第三方智能决策代理决策行为模型研究与实现[J].系统仿真学报,2005,17(11):2808−2810.

5 魏宾,胡晓峰,司光亚,等.战争决策行为建模与仿真的研究[J].系统仿真学报,2003,15(12):1678−1682.

6 NEGNEVITSKY M.人工智能:智能系统指南[M].陈薇,译.北京:机械工业出版社,2012.

7 胡晓峰,司光亚,吴琳,等.战争模拟原理与系统[M].北京:国防大学出版社,2009.

8 SILVER D,HUANG A.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484.

9 WILLIAMS R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine Learning,1992,8(3):229−256.

10 SUTTON R S,MCALLESTER D,SINGH S,et al.Policy gradient methods for reinforcement learning with function approximation[C]//Advances in Neural Information Processing Systems 12,2000:1057-1063.