融合动作剔除的深度竞争双Q网络智能干扰决策算法

2021-09-23 13:26宋佰霖
空军工程大学学报 2021年4期
关键词:时隙成功率决策

饶 宁, 许 华, 宋佰霖

(空军工程大学信息与导航学院,西安,710077)

电磁空间是继陆、海、空、天的第五维战场,电子对抗是在电磁空间进行军事斗争的主要手段。在感知、决策、行动、评估的闭环电磁频谱作战过程中,干扰决策是进行有效对抗的重要环节,然而目前人工决策的实时性与科学性较差,难以适应未来战场瞬息万变的态势。近年智能决策成为研究热点,出现了基于遗传算法、粒子群算法[1-2]等优化理论的干扰参数寻优方法,这些方法需要较多的先验信息,实用性不强。而随着人工智能技术的迅速发展,无需先验信息的强化学习理论在电子战领域得到初步应用。如Amuru等人[3]将决策干扰参数的过程建模为多臂赌博机模型,提出干扰赌博机(jamming bandit,JB)算法,该算法可自适应地优化干扰信号直至最佳;在干扰信号参数方面,颛孙少帅等人[4]提出一种双层强化学习的干扰决策算法,以牺牲交互时间来提升算法收敛速度,决策干扰参数。此外,该团队还利用正强化的思想来提高最优动作被选中的概率,以更少的交互次数获得更好的干扰效果[5]。在雷达对抗领域,邢强等人[6]针对雷达工作模式及数目未知情况,研究基于Q学习的智能雷达对抗方法,可实现秒量级的收敛速度。黄星源等人[7]利用双Q学习对战场的干扰效果进行自主学习,实现对雷达干扰资源的认知决策。Q学习作为一种基于表格搜索型的强化学习算法,无法解决高维决策问题。而深度Q网络(deep Q network,DQN)[8]可利用神经网络进行Q学习算法中的函数拟合,能够处理高维的态势信息。基于此,张柏开等人[9]提出了对多功能雷达的DQN认知干扰决策方法,当可执行的任务数量增多时依然有较好的决策效率。

上述研究主要解决静态环境中的干扰参数决策和资源分配问题,很少研究变化环境中的决策问题,并且有关通信电子战的智能决策研究主要针对通信方使用固定通信参数时如何学习干扰参数,而实际场景中,通信方受到干扰后通常会优先选择切换波道以躲避干扰。因此本文研究侧重频率击中的智能干扰决策,针对通信干扰决策问题提出一种融合动作剔除的深度竞争双Q网络智能干扰决策方法(action elimination dueling double deep Q network,AED3QN )。该方法在Double DQN算法基础上通过采用竞争结构的神经网络决策干扰方案,并引入干扰动作剔除机制来加快学习最佳干扰策略。当通信方采用未知且变化的通信抗干扰策略时,相对已有算法该算法能更快地学习到对应的干扰策略,实现更高的干扰成功率并获得更大的干扰收益。

1 对抗场景与马尔科夫决策过程

1.1 对抗场景

图1 波道碰撞示意图

假设通信方传输数据采用数字调制进行通信,设通信信号的低通等效表达式为:

(1)

式中:Px表示通信接收机收到的平均信号功率;g(t)表示实值脉冲波形;T是码元间隔;xm是随机变量表示该数字调制方式的码元符号。

设干扰信号的低通等效表达式为:

(2)

由于通信收发双方是完全同步,故在经过匹配滤波和抽样判决后在通信接收机处收到的信号表达式为:

(3)

(4)

(5)

式中:σ2为环境噪声方差。

1.2 马尔科夫决策过程

根据对抗场景,本文将干扰通信波道的场景建模为马尔可夫决策过程(MDP)[10]。马尔可夫决策过程可用元组表示,其中S代表状态空间,A代表动作空间,P代表状态转移概率,R代表奖励函数。4个元素具体定义如下:

状态空间S:在时隙t,环境的状态可表示为:

st=(fc,fj)

(6)

式中:fc为t时隙通信方所在波道;fj为t时隙干扰方所在波道。其中fc∈{1,2,…,N},fj∈A,A为干扰方的动作空间。

动作空间A:在时隙t,干扰方会根据当前算法选择一个波道进行干扰,干扰动作表示为at,at∈{1,2,…,N}。

状态转移概率矩阵P:在时隙t,干扰方根据当前所处的环境状态st选择动作at,环境转移到下一个时隙t+1状态st+1,则状态转移概率为:

p(s′|S,a)=Pr{St+1=s′|St=s,At=a}

(7)

且满足:

(8)

奖励函数R:假设在时隙t环境状态为st,干扰方选择干扰动作at,环境达到状态st+1后干扰方可获得奖励r。干扰方的目标是保持持续稳定的干扰,因此在确保当前干扰成功的条件下,也需要准确预测出通信方在受到干扰后会选择的下个波道。故规定干扰方某时隙干扰成功获得的收益与到当前时隙为止干扰方连续干扰成功的时隙总数成正比,干扰方某时隙干扰失败获得的收益与到当前时隙为止通信方连续正常通信的时隙数成反比。定义干扰奖励函数为:

(9)

式中:k为比例常数;t1、t2构成的时隙区间[t1,t2](t2>t1),表示通信方在此区间内受到干扰方连续干扰;t3、t4构成的时隙区间[t3,t4](t4>t3),表示通信方在此区间内均正常通信。

将干扰方获得的干扰总收益定义为所有时隙内获得的奖励总和即:

(10)

式中:t为通信时隙;rt为干扰方在该时隙获得的干扰收益。

2 融合动作剔除的深度竞争双Q网络决策算法

2.1 动作剔除

在缺少先验信息时,干扰方对于何种干扰动作的干扰效果最好无从得知,常常需要尝试不同的干扰动作去进行探索。而在实际环境中尝试不同干扰动作成本及风险较大,故需兼顾利用目前已知效果较好的干扰动作。面对探索和利用的困境,DQN算法[9]和Q学习算法[6]均采用多臂赌博机中的ε-greedy策略,如式(11)所示:

(11)

即以1-ε的概率选择当前状态下收益最高的动作,以ε的概率进行随机选择。

本文借鉴文献[11]提出的多臂赌博机策略EUCBV,利用干扰动作的干扰效能设置置信上界值,从干扰动作集合中剔除干扰效能低于该上界值得干扰动作,减少对无效干扰动作不必要的探索,如图2所示。

图2 EUCBV策略

EUCBV策略为:

π(a|s)=

(12)

依据各动作的效能设置置信上界值,剔除无效动作,即若动作i满足式(13),则剔除动作i。

(13)

式中:A(s)表示在状态s的可选动作集合。

EUCBV策略和经典多臂赌博机策略如UCB1等策略[12-14]的性能对比见图3。

图3 策略对比

从图3可看出EUCBV策略在解决探索-利用困境中表现最佳,证明了在未知环境中通过估计价值方差来剔除无效干扰动作的可行性。

长期以来,变电站建设沿用的是就地采购砂石、砖、钢筋、水泥等建筑材料,现场捆绑钢筋,搅拌混凝土、浇筑、养护、填充、粉刷的传统模式。这种施工模式往往会因作业队伍技术水平参差不齐而使得工程质量受到影响。在国家电网公司“三通一标”和“两型一化”中,对变电站建设提出了更高的要求,工业化、模块化、标准化的装配式建构筑物将成为变电站建设发展的方向。

2.2 深度竞争双Q网络

Q学习和DQN算法在估计动作价值时均采用选取最大估计值,如式(14),这在学习过程中会导致过估计,最终使得学到的策略偏离最佳策略。

yQ=r+γQ[s′,arg maxaQ(s,a;θ);θ]

(14)

式中:s表示状态;a表示动作;r为执行动作后获得的即时奖励;γ为折扣因子;θ为网络参数;Q(s,a;θ)表示Q函数。

针对过估计问题,借鉴文献[15]利用在线网络进行动作选择,本文利用目标网络估算其价值降低过估计对算法学习过程的影响,见式(15):

yDoubleQ=r+γQ[s′,arg maxaQ(s,a;θ);θ]

(15)

式中:θ为在线网络的网络参数,θ-为目标网络的网络参数。

此外,为了进一步比较相同环境状态下不同干扰动作的优劣,更准确地剔除无效动作,借鉴文献[16],采用竞争结构的神经网络,引入优势函数来评估某个干扰动作在当前状态相对其他动作的好坏程度。如图4所示,将全连接神经网络的单个输出改为两个输出,一个输出当前状态的价值,另一个输出干扰动作的优势函数,最终合并为干扰动作的Q函数。

图4 竞争网络结构

干扰动作的Q函数表示为:

Q(s,a)=V(s;θ,α)+A(s,a;θ,β)

(16)

Q(s,a)=V(s;θ,α)+

(17)

引入竞争网络结构后,可将每个动作的Q值拆分为状态值函数加上每个动作的优势函数。而优势函数恰恰体现了该动作的相对优劣,故将优势函数替换式中的即时奖励部分,利用优势函数表征的动作相对优劣情况可得到更准确的无效动作剔除方法,如式(18)所示。

(18)

2.3 融合动作剔除的深度竞争双Q网络智能干扰决策算法

本文在深度竞争双Q网络基础上,引入无效干扰动作剔除机制,结合对抗场景提出了融合动作剔除的深度竞争双Q网络智能干扰决策算法(AED3QN)。

算法框架如图5所示。AED3QN算法包含两个神经网络,分别是在线决策网络和价值评估网络,每个网络均采用竞争网络结构。在线决策网络根据当前环境状态st给出所有干扰动作的干扰效能,根据式(18)进行无效干扰动作的剔除,在新干扰动作集合中依据贪婪策略选择干扰动作at并执行。价值评估网络根据该干扰动作并结合环境状态给出该干扰动作的干扰效能rt,得到下一个环境状态st+1,将交互经验(st,at,st+1,rt)存入经验回放池。训练时,在经验回放池中随机采样S个经验样本,根据式(19)进行梯度下降来训练在线决策神经网络。

图5 AED3QN智能决策算法框图

(19)

式中:α为学习步长。

每隔一定时间将在线决策网络参数赋值给价值评估网络。

3 实验仿真与分析

本文在干扰方先验信息较少的条件下,研究当敌方采用切换通信波道的抗干扰手段时,在未知敌抗干扰策略时干扰方如何决策干扰方案才能获得更好的干扰效果。

仿真实验中,通信方有一对信号发射接收机,干扰方只对通信接收机进行干扰,通信接收机可更换通信波道躲避干扰。通信方为达到通信安全目的,采用伪随机波道切换策略,并且每隔一段时间改变通信波道切换的策略。预设的通信波道及通信波道切换策略对于干扰方而言未知,且干扰方为确保功率集中每次只能选择一个波道释放干扰信号。实验从干扰成功率和干扰总收益2个方面对比本文算法(AED3QN)、Q学习算法[6]和DQN[9]的性能。0~5 MHz频率范围内划置了N个正交波道,设每个波道的带宽均为Bi,为了减少仿真环境存在的随机性与偶然性,每组仿真实验重复1 000次,取1 000次仿真实验数据的平均值作为最后的实验结果。实验及模型参数设置见表1。

表1 实验及模型参数

通信方使用伪随机波道切换策略进行通信,通过设置随机种子,产生伪随机数列,数列中的元素代表波道序号,根据伪随机波道序列切换波道。并且每隔一定时间变更随机种子重新生成伪随机波道序列,策略时频图样如图6所示,黄色频点表示所在波道的中心频率。

图6 时频图样

当通信方采用伪随机波道切换策略且每2 000回合改变一次随机数种子时,AED3QN算法、DQN算法和Q学习算法的干扰效果见图7。

从图7(a)的干扰成功率曲线可以看到,初始阶段随着训练回合的增加,3种学习算法通过与环境不断交互,并学习利用交互得到的历史经验,干扰成功率迅速上升。其中Q学习算法最先达到80%的干扰成功率,而DQN和AED3QN算法曲线轨迹相仿,初始阶段学习速率不及Q学习,但在1 000回合后干扰成功率逐渐超过Q学习。而当每2 000回合通信方改变策略时,在每次策略改变后3种算法的干扰成功率均有显著下降,其中DQN算法下降幅度最大,原因在于环境的快速改变使得神经网络学习到的拟合函数需重新拟合,而神经网络相比于Q表需要更多的数据进行训练。AED3QN算法由于在训练网络的同时进行无效干扰动作的剔除,降低了决策空间的维度,在敌方策略发生改变后,能更快地学习到对应的干扰方案。图7(b)中AED3QN和DQN算法获得的干扰总收益明显高于Q学习,从曲线变化趋势可以看到当通信方的策略发生改变时,AED3QN算法可以更快地学习到应对的干扰方案,表现出比其他2种学习算法在变化环境中更强的学习和适应能力。

图7 通信方第2 000回合改变策略干扰效果对比

当通信方加快改变波道切换策略的速度时(每过1 000回合改变一次通信策略),此时算法干扰效果见图8。

由图8可知,当环境变化加快时3种算法最终的干扰成功率都有相对较大幅度的下降。而从图8(b)的干扰收益曲线可以看到,在每次环境变化后AED3QN算法的干扰收益出现短暂下降后能更快地回升,稳健性更强。表2给出了3种算法的干扰效果对比。

图8 通信方每1 000回合改变策略效果对比

表2 干扰效果对比

表2中,当通信方改变通信策略时,本文算法无论是干扰成功率还是最终获得的干扰总收益均高于DQN和Q学习算法。当敌方策略改变后,本文算法能更快地学习到新的对抗方案,在变化环境中表现出更强的稳健性。

4 结语

本文设计了一种通信干扰智能决策方法,在深度双Q网络基础上,采用竞争结构的神经网络来输出干扰方案,利用竞争结构中的优势函数进一步对比各干扰动作的优劣,剔除无效的干扰动作,加快算法学习速度。仿真结果表明,当环境发生改变时本文所提出的方法能达到更高的干扰成功率,稳健性更强,与已有方法相比性能更优。但本文也存在一些不足,例如环境发生改变后本文算法仍需要一定的时间重新学习适应环境,这在连续动态变化的环境中效率不高。今后的工作主要围绕如何更充分地利用与环境交互得到的历史经验,加快重新学习环境模型的速度。

猜你喜欢
时隙成功率决策
成功率100%,一颗玻璃珠入水,瓶子终于坐不住了!
基于阵列天线的数据时隙资源比例公平动态分配方案设计
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
院前急救心肺复苏成功率的影响因素研究
把握主动权,提高油罐火灾扑救成功率
基于时分多址的网络时隙资源分配研究
决策大数据
决策大数据
决策大数据
诸葛亮隆中决策