周兴旺,从福仲,庞世春,侯满义,辛腾达
(空军航空大学,长春 130000)
基于贝叶斯混合博弈的空袭火力资源分配决策模型*
周兴旺,从福仲,庞世春,侯满义,辛腾达
(空军航空大学,长春130000)
从博弈论的角度出发研究空袭火力资源的分配问题,针对空袭编队和防空火力单元攻防对抗过程中存在的不确定性、静态性以及动态性,建立基于贝叶斯混合博弈的空袭对抗火力分配模型。通过构造贝叶斯混合博弈树,采用逆向回溯法分别建立不同的博弈分析模型,利用混合粒子群算法求解那什均衡。仿真结果表明:以博弈论为背景研究空袭作战火力分配问题,符合真实的作战坏境,有效性好,有较高的理论应用价值。
博弈论,贝叶斯博弈,混合粒子群算法,火力分配
20世纪80年代以来,世界范围内发生的几场高技术局部战争充分体现了空袭与反空袭已成为信息化战争的主要作战样式,空袭火力的优化与分配直接决定着战争的进程和胜负。目前,国外对空袭火力分配作了很多的研究,而国内的相关研究却很有限,除了零星的几篇UAV对地攻击[1]和武装直升机对地攻击[2]火力分配外,大多都局限于防空火力资源[3-4]的分配研究中,难以满足我国加快建设强大人民空军的发展要求和研究空袭作战的发展趋势。
常规编队对地突击作战是空袭战争的主要作战力量,本文就是基于常规编队的突击特点为背景研究空袭作战的火力资源分配。常用的火力分配(Weapon Target Assignment)方法有传统解析分配算法[5]、智能优化分配算法[6]和混合优化分配算法[7]。但是这些方法的共同点都是基于一方最小的武器资源消耗和最大的攻击或拦击效果来选择火力资源的分配策略,从博弈论的角度分析,这种分配策略忽视了对方的决策方案对自己分配策略的影响,即这种均衡策略可能是不可置信的那什均衡策略,存在着较大的风险指数。
基于不完全信息动态博弈[8](dynamic game of incomplete information)的思想,空袭火力资源分配中涉及两个局中人,即空袭方A和反空袭方D;涉及一个虚拟的局中人,“自然人”N2,N2首先选择博弈局中人D的类型(“防空火力强”(Strong Fire,SF)和“防空火力弱”(Weak Fire,WF)),局中人D自己知道,局中人A不知道,但A对D的类型有自己的先验认识α;在自然选择之后,局中人A开始行动。此过程为有先验知识的贝叶斯博弈过程。
A有A1和A2两个行为选择,A1首先行动,可以选择“防区外发射”(Stand-off Launch,STL)和“防区内突击”(Protection Zone Within,PZW)两个行动。当选择PZW时,攻防双方A2和D均能攻击到对方,双方都不确定谁先采取行动,却都在争取首先攻击对方,所以此阶段可以理解为双方同时采取行动的静态博弈过程;当选择STL时,攻防双方A2和D中有一方不能首先攻击到对方,局中人的行动有先后顺序,A2掌握主动权首先行动,D处于被动状态,D在探测发现到A行动进入自己的防区并对自己构成威胁后选择自己的应对行动,所以此阶段可以理解为行动有先后顺序的动态博弈过程。
整个空袭火力分配问题可以用贝叶斯混合博弈树进行描述,如图1所示。
图1 贝叶斯混合博弈树
2.1PZW静态博弈部分模型的建立
当博弈阶段经过局中人A1选择PZW行动后进行到信息集x5或x6时,博弈类型变为攻防双方同时选择战略的静态博弈过程。
设防区内空袭突击飞机集合为{F1,F2,…,FH},防空火力单元集合为{D1,D2,…,DK},xij=1(或者0)表示第i架空袭飞机攻击第j个防空火力单元(或者不攻击而处于防御状态)。yji=1(或者0)表示第j个防空火力单元反击第i架空袭飞机(或者不反击而处于防御状态)。Ψ和φ分别表示电子干扰机对所有防空火力单元发射导弹命中概率的影响率和反空袭方释放地面干扰对所有突击飞机发射导弹命中概率的影响率。φij表示第i架突击飞机自身干扰对第j个防空火力单元发射导弹命中概率的影响率。()和()分别表示第i架突击飞机对第j个防空火力单元的(命中精度)毁伤概率和第j个防空火力单元毁伤对第i架突击飞机的(命中概率)毁伤概率。突击飞机编队的价值矩阵为,,防空火力单元的价值矩阵为,…,分别表示第i个突击飞机和第j个防空火力单元发射各自一枚导弹的价值,和分别表示第i个突击飞机发射导弹的价值和第j个防空火力反击突击飞机导弹的价值。
收益是局中人在博弈中的所得或损失。本阶段博弈中空袭方的收益必然是敌方的损失,反空袭方的收益是我方的损失,即此博弈为两人有限零和博弈,博弈双方收益之和为0。则双方的收益函数为
ud=-ua
2.2STL动态博弈部分模型的建立
当博弈阶段经过局中人A1选择STL行动后进行到信息集x4或x7时,博弈类型为博弈双方行动有先后顺序的动态博弈过程。空袭方A2首先行动,反空袭方D在观测到A2的行动后选择自己的行动。
STL动态博弈部分可以用一个五元函数表述为G=(Γ,Hi,Ai,,Ui),局中人集Γ为{A2,D}。Hi表示博弈树中局中人i的信息集的集合,为其行动集合,其中A(hi)是在信息集hi的行动集合。表示为每一个信息集hi上的行动空间A(hi)的笛卡尔积,即。一般地,一个局中人可选择的纯战略总数#,等于。Ui是局中人i的收益。
设防区外发射的空袭导弹集合为 {M1,M2,…,MZ},防空火力单元集合为{D1,D2,…,DK}。Ψ和φ*分别表示电子干扰机对所有防空火力单元发射导弹命中概率的影响率和反空袭方释放地面干扰对所有空袭导弹命中概率的影响率。和分别表示第i个空袭导弹对第j个防空火力单元的(命中精度)毁伤概率和第j个防空火力单元对第i个空袭导弹的拦截成功概率。空袭导弹的价值矩阵为,防空火力单元的价值矩阵为表示第j个防空火力单元发射一枚导弹的价值,vjd表示第j个防空火力单元拦截空袭导弹的价值。
则空袭导弹的收益函数为
ud=-um
2.3贝叶斯混合博弈模型的求解
对于图1这样的既有静态博弈部分又有动态博弈部分的贝叶斯混合博弈树的求解,不能简单地仅用纳什均衡、子博弈精炼纳什均衡或者贝叶斯纳什均衡直接进行分析,应该根据各部分的特点和结果采用分块处理思想。本文采用逆向回溯法,分别自下而上对每一部分应用相应的纳什均衡求解策略:
步骤1:对于信息集x5或者x6开始的博弈采用纳什均衡求解方法;
步骤2:对于子博弈Γ(x4)或者Γ(x7)采用子博弈精炼纳什均衡求解方法;
步骤3:对于原博弈也就是子博弈Γ(x1),结合步骤1和步骤2的均衡结果采用贝叶斯纳什均衡求解方法得到整个贝叶斯混合博弈的均衡结果。
定义1贝叶斯博弈[8]的纯战略贝叶斯纳什均衡是一个类型依存的行动组合,其中每个局中人在给定自己的类型ti和其他局中人的类型依存行动的情况下最大化自己的期望效用。称4.1行动组合是一个纯战略贝叶斯纳什均衡,如果对于∀i∈Γ,均满足:
定义2扩展式博弈[8]的战略组合是一个子博弈精炼纳什均衡,当且仅当满足如下两个条件:
1)它是原博弈的纳什均衡。
2)它在每一个子博弈上给出(或构成)纳什均衡
不论是纳什均衡还是子博弈精炼纳什均衡首先都得求得纳什均衡。而原博弈的贝叶斯纳什均衡最优战略必然是每一个后续子博弈上的纳什均衡最优战略,所有原博弈Γ(x1)的核心问题是求得Γ(x4)(或者Γ(x7))和Γ(x5)(或者Γ(x6))的纳什均衡。
以Γ(x5)为例,设局中人A2的混合战略为x= {x1,x2,…,xM},局势{ai,dj}对应的纯战略收益为vija,则可得到其纳什均衡值为:
上式可转化为线性规划问题来求解,即:
传统求解上式规划问题的方法有制约函数法,Lagrange乘子法等。但这些方法适用范围有限,处理的都是相对简单的优化问题,而且精度不高,难以用编程实现。目前处理优化问题比较理想的方法是采用混合智能算法。本文采用混合粒子群算法[9-10],通过在粒子群算法中引入遗传机制,加快收敛速度并提高精度。具体的算法实现步骤如下:
步骤1:分别构造博弈双方的收益函数并建立收益矩阵;
步骤2:建立博弈双方求解纳什均衡的目标函数;
步骤3:设置算法的种群数popsize,最大迭代次数gen,以及交叉pc和变异率pm;
步骤4:随机产生每个粒子的位置和速度初始化粒子群;
步骤5:以目标函数作为遗传算法的适应度函数,以当前粒子为个体最优粒子,计算每个粒子的适应度;
步骤6:对粒子先进行实数编码并转化为遗传算法的二进制编码;
步骤7:将第i个粒子位置分别与个体最优粒子和全局最优粒子进行交叉变异并排序。选择适应度最大的粒子(如果目标函数是越小越好,则选择适应度最小的粒子)对第i个粒子位置、个体最优粒子和全局最优粒子进行更新[1]。
步骤8:重复步骤5~7,直到达到最大迭代次数,输出结果为全局最优粒子。
采用上述混合粒子群算法可以直接求得Γ(x5)(或者Γ(x6))的纳什均衡,而对于Γ(x4)(或者Γ(x7))开始的博弈必须先将其扩展式表述通过行动集合的笛卡尔积运算转化为战略式表述,才能进行混合粒子群算法的纳什均衡求解。
假设有3个空袭作战飞机,有3个防空火力单元,A在防区外具有一架电子干扰机,D在地面具有干扰源。假定同一作战飞机对不同防空火力单元和同一防空火力单元对不同空袭飞机(或空袭导弹)的命中精度和毁伤概率相等。同一空袭飞机对不同防空单元命中概率的影响率相等,其部分数据假设如表1和表2。当防空火力弱时,Ψ=40%,φ=15%,φ*=12%;当防空火力强时Ψ=20%,φ=30%,φ*=25%。popsize=50,gen=100,pc=0.6,pm=0.05。
为提高作战效能,在不同的空袭阶段其攻防双方对目标的毁伤率达到85%,可以认为目标的功能已丧失,并停止对其攻击或拦截。一般实战中对一个目标进行空袭时为了防止脱靶并提高命中率,普遍采用双连发或者三连发,本文默认对一个目标攻击时,每次双连发,不够双连发的以单计算。
表1 空袭飞机及空袭导弹相关参数
表2 防空火力单元及防空导弹相关参数
3.1PZW静态博弈部分均衡分析
首先需要确定空袭飞机和防空火力单元的攻防对抗战略,再通过收益函数为空袭飞机和防空火力单元分别建立收益矩阵B1和B2,最后求得均衡战略。
当自然选择防空火力单元弱时,通过分析:对于一对一空防对抗状态,我方采用防区内突击空袭 , 战 略 为 (1,2,3;1,2,3),(1,2,3;1,3,2),(1,2,3;2,1,3),(1,2,3;3,1,2),(1,2,3;2,3,1),(1,2,3;3,2,1),例如(1,2,3;1,2,3)代表空袭方的一个战略,表示为突击飞机F1空袭防空火力单元D1,F2空袭D2,F3空袭D3,其收益矩阵分别为6*6维;若为多对一或者一对多空防状态,则其收益矩阵就为27*27维,计算量呈指数级增加,难以用传统方法求解。本文采用混合粒子群算法,可以克服计算量的问题,且速度快,收敛性好。为了简化计算量,假设空防对抗为一对一。
根据双方攻防战略建立B1和B2,采用混合粒子群算法步骤,通过Matlab编程,得到空袭方的那什均衡战略为(0.046,0.104,0.241,0.082,0.425,0.102),收益为2.351。同理可得当自然选择防空火力单元强时的均衡战略为(0.051,0.106,0.208,0.392,0.125,0.118)收益为-0.785。
为了说明本文提出的算法在求解纳什均衡的优势,将该算法与普通粒子群算法的仿真结果对比如表3。
表3 算法性能对比
表3可以看成,采用混合粒子群算法求解纳什均衡明显优于普通粒子群算法。
3.2STL动态博弈部分均衡分析
具备防区外发射的导弹分别是3架空袭飞机上挂载的3种型号的导弹,共计7枚,编号为M1,M2,…,M7。一般实战中对一个目标进行空袭时为了防止脱靶并提高命中率,普遍采用双连发或者三连发。本文分为3组空袭组合:M1和M2为一组,M6和M7为一组,剩下的为第3组。经过分析,空袭方的可选行动有6个,为(1-2,3-5,6-7;1,2,3),(1-2,3-5,6-7;1,3,2),(1-2,3-5,6-7;2,1,3),(1-2,3-5,6-7;3,1,2),(1-2,3-5,6-7;2,3,1),(1-2,3-5,6-7;3,2,1),分别用 λ1,λ2,…,λ6表示。其中(1-2,3-5,6-7;1,2,3)表示M1和M2空袭D1,M3、M4、M5空袭D2,M6和M7空袭D3。反空袭方在观测到空袭方的行动后选择自己的行动,其可供选择的行动也为6个,行动集合跟空袭方相同,只是一个是空袭,一个是拦截,分别用λ1,λ2,…,λ6表示。从图1中知,反空袭方有6个信息集,则其战略空间为可选行动集合的笛卡尔积为36个,此时,空防对抗博弈的战略式表述为一个6*36维的矩阵,并建立收益矩阵B3和B4。当自然选择防空火力弱时,采用混合粒子群算法步骤,通过Matlab编程,得到空袭方的那什均衡战略为(λ3;{λ4,λ3,λ3,λ6,λ5,λ1}),(λ4;λ6,λ4,λ1,λ3,λ4,λ2)和(λ6;λ2,λ5,λ1,λ2,λ3,λ6)。根据定义2,经过分析知前两个均衡战略在由反空袭方D开始的子博弈上不构成纳什均衡,所以(λ6;λ2,λ5,λ1,λ2,λ3,λ6)是唯一的子博弈精炼纳什均衡,其均衡结果为空袭方选择λ6行动,反空袭选择λ6行动,得到收益1.473。同理可得当自然选择防空火力单元强时的均衡战略为(λ3;{λ4,λ3,λ4,λ6,λ2,λ5}),得到收益0.276。
3.3贝叶斯混合博弈均衡结果分析
3.1节和3.2节分别完成了静态博弈部分和动态博弈部分的纳什均衡求解,此时对于整个博弈可以看成是只有自然虚拟人N2、局中人A1和A2组成的贝叶斯博弈。SF和WF分别是局中人D的类型,局中人A1不知道D的类型,只知道自然人N2以α的概率选择SF,以1-α的概率选择WF。根据定义1并结合贝叶斯法则,得到贝叶斯纳什均衡的临界概率满足为:
带入数据的α*=0.453。即当空袭方判断α≥0.453时,空袭方的最优战略是A1首先选择行动STL,接着A2选择行动λ3,D在观测到A2的行动后选择自己的最优行动λ4;即当空袭方判断α<0.453时,空袭方的最优战略是A1首先选择行动PZW,接着A2和D同时选择战略,A2的最优战略是以(0.046,0.104,0.241,0.082,0.425,0.102)的概率选择(1,2,3;1,2,3),(1,2,3;1,3,2),(1,2,3;2,1,3),(1,2,3;3,1,2),(1,2,3;2,3,1),(1,2,3;3,2,1)。实战中,反空袭方为了最小化自己的损失,往往通过制造假象迷惑空袭方对α的正确判断,同样空袭方也为了最大化自己的收益,通过经验和侦察不断修正对α后验信念(概率分布)的认识和判断。
本文采用博弈论的思想研究不确定条件下空袭作战火力资源分配问题。这种建模方法克服了传统分配方法从单方面优化分配策略的缺陷,将各种分配策略聚合在攻防双方相互对抗和不断优化调整的博弈环境下,是真实作战环境的直接映射,意义明显。同时本文采用混合粒子群算法求解纳什均衡,计算速度快,收敛性好。仿真结果表明,该建模思路有效性好,真实性高,具有很强的军事应用价值。
[1]史志富.基于贝叶斯网络的UCAV编队对地攻击智能决策研究[D].西安:西北工业大学,2007.
[2]丁倩.空袭方案因素分析及优化研究[D].长沙:国防科学技术大学,2010.
[3]谭乐祖,杨明军,任东彦.弹炮结合防空动态火力分配模型[J].火力与指挥控制,2011,36(1):177-180.
[4]高志华,陈健,文建国,等.基于遗传算法的要地防空武器系统最优火力分配模型研究[J].计算机与数字工程,2013,41(5):733-736.
[5]丁红岩,董晓明,寇祝.基于模糊AHP的水面舰艇编队攻潜武器分配[J].指挥控制与仿真,2013,35(4):138-142.
[6]PAN Q K,SUGANTHAN P N,WANG L,et al.A differential evolution algorithm with self-adapting strategy and control parameters[J].ComputersandOperationsResearch,2011,38(1):394-408.
[7]吴志飞,马曲立,翁辉,等.基于量子免疫遗传算法的火力分配优化问题[J].海军工程大学学报,2014,26(1):76-80.
[8]罗云峰.博弈论教程[M].北京:清华大学出版社,2010.
[9]宋占玲,王忠武,王锐,等.空袭目标威胁的优序法排序[J].四川兵工学报,2014(6):140-142.
[10]舒健生,武健,赵建波.基于改进粒子群算法的巡航高度优化[J].电光与控制,2010,17(2):5-9.
[11]陈华东,王树宗,王航宇.基于混合粒子群算法的多平台多武器火力分配研究[J].系统工程与电子技术,2008,30(5):880-883.
Decision-Making Model Research of Air-raid Firepower Resources Allocation Based on Bayesian Mixed Game
ZHOU Xing-wang,CONG Fu-zhong,PANG Shi-chun,HOU Man-yi,XIN Teng-da
(Aviation University Air Force,Changchun 130000,China)
From the perspective of game theory to studying air-raid firepower resources allocation,for air-raid formation and defense firepower unit existing uncertainty,static and dynamic in the process of attack-defense,the firepower distribution model of air-raid countermeasures based on bayesian mixed game is built.By constructing a bayesian mixed game tree,using the reverse backtracking to setting up respectively different game analysis model,using hybrid particle swarm algorithm to solving the Nash equilibrium.The simulation results show:based on the game theory as background to researching the air-raid firepower assignment problem,conforms to the real operational environment,have good effectiveness,high theoretical and application value.
game theory,bayesian game,hybrid particle swarm algorithm,firepower distribution
E911
A
1002-0640(2016)07-0018-05
2015-06-05
2015-07-07
*
国家自然科学基金资助项目(11171350)
周兴旺(1990-),男,陕西咸阳人,硕士研究生。研究方向:军事运筹与决策建模。