一种面向异构传感器网络的智能辅助决策系统设计

2021-09-22 06:13王诏丰李博骁高原陆泽健

电子技术与软件工程 2021年15期

王诏丰李博骁高原陆泽健

（中国电子科技集团公司电子科学研究院北京市 100041）

1 引言

雷达、声呐、红外等异构多传感器组网协同探测广泛应用于空中目标探测跟踪、海上/水下目标检测定位、太空目标监视以及导弹预警等领域，探测场景往往具备实时性要求高、空间跨度大、对抗性强等特点，传统规划属于事前规划，在应对实际场景中会造成两方面的问题：

（1）目标场景具有较强的不确定性，筹划过程难以穷举所有场景，因此造成规划结果与场景适配性存在偏差，影响整体效能；

（2）对抗过程不可预知，以无人机群、导弹等目标为例，群体机动、密集攻击等突防形式复杂多变且发生时机不可预测，以人为经验难以保证全局最优。

随着对现代战争对抗性、不确定性、非线性认识的不断深化，有关部门在学习借鉴外军先进理论的基础上，开展了一些将智能技术应用于任务规划和辅助决策的基础性研究工作。

空军指挥学院基于Agent智能技术和行动方案生成专家系统开发了作战计划协同制定系统[1-2]；海军装备论证研究院基于模型库开发了作战方案辅助决策系统[3-4]；国防科学技术大学基于模型分析和仿真评估研制了联合作战方案生成与评估系统[5]和空军战役智能决策支持系统[6]。这些对提升我军作战指挥效能和作战筹划能力均起到了积极的推动作用，但总体而言，我军无论是系统规模还是自动化程度与外军相比还存在较大差距。

多目标决策（分配）属于组合优化问题，目前，多目标决策技术已经有很多研究成果，如穷举法、动态网络流方法[7]、蚁群算法(ACO)[8]、粒子群算法(PSO)[9]、遗传算法(GA)[10]等。但是，实战环境中存在各种不确定性，目前大部分多目标分配算法普遍存在效率低以及不能收敛等问题，且只适用于静态的目标分配，适应环境变化能力差。将人工智能技术应用于多目标分配任务，为解决此问题提供了机遇。

本文提出一种适用于强化学习算法和离线训练方式的异构传感器网络智能辅助决策系统的设计方法，该系统以异构传感器网络高保真仿真环境为基础平台，利用批量生成规划方案和方案效能评估产生离线训练数据。经过大量事前训练，得到性能稳定的策略网络。在执行阶段，策略网络可根据实时感知态势快速生成智能规划结果，为时敏目标复杂探测场景下多传感器任务规划提供辅助支撑。

2 系统总体框架

面向异构传感器网络的智能辅助决策系统硬件组成主要包括台式工作站和网络交换机，软件组成主要包括应用软件、仿真平台、基础资源三部分，其中应用软件包括场景分析软件、效能评估软件、智能规划模型、数据分析显示软件。仿真平台主要包含想定编辑工具、传感器模型、目标模拟软件等，基础资源主要包括操作系统、数据库、消息中间件和时统等。软件系统架构如图1所示。

图1：系统软件架构

2.1 系统组成与软件部署

系统硬件设备组成主要包含4台工作站和一台交换机，4台工作站性能参数为显示器大小：17英寸以上；显示器分辨率：不低于1680×1050；CPU：Inter E5-2640；2GHz 32核；内存：64GB DDR II；部署环境如图2所示。

图2：系统部署环境

想定编辑席主要用于制作训练阶段和执行阶段所用到的场景数据，包括传感器类型、参数、部设位置，目标类型、运动轨迹等。智能规划席部署场景分析软件、智能规划模型、数据分析显示软件，主要完成批量规划数据产生、在仿真模型席和效能评估席的配合下共同完成模型学习训练，此外包含对训练结果的能力分析显示。效能评估席主要在训练阶段对规划样本数据计算评估指标和方案的综合评价，在执行阶段对比多方案综合效能。仿真模型席部署目标模型和传感器模型，基于规划结果产生仿真数据，支持评估指标的计算。席位组成及软件部署见表1。

表1：席位组成与软件部署表

2.2 系统信息流程

2.2.1 训练阶段信息流程

训练阶段信息流程主要包括训练场景准备、场景分析计算、AI模型训练三个部分，如图3所示。

图3：训练阶段信息流程

2.2.1.1 训练场景准备

事先由想定编辑工具创建任务场景想定，包括探测场景和目标场景。探测场景包括传感器类型、部署位置、朝向、探测威力等，各训练场景中包含的探测场景保持一致；目标场景主要包括目标类型、典型参数、飞行轨迹、起止时间等。任务场景想定以XML文件格式存入数据库。

2.2.1.2 场景分析计算

由场景分析软件设置参与训练的想定场景，从数据库获取想定文件，解析想定中包含的传感器布设信息、目标航迹，并基于传感器能力进行可见性分析计算，为AI模型提供基础分析数据；

2.2.1.3 AI模型训练

智能规划模型基于策略网络产生规划动作，一路动作数据经过效能评估软件计算出动作对应的收益和代价，并和规划动作一起构成样本数据放入经验回放池。策略网络动作选择的依据。一路动作数据经过价值网络（Q-Net），对Q值进行更新，并反馈至策略网络。具体步骤包括：

（1）初始阶段样本池为空，用初始化模型（默认为随机策略）与环境交互填充样本池；

（2）每个step提取一个时间片的样本，包含该时间片的所有目标的数据编码；

（3）数据以单时间片-单目标为单位输入到策略网络中进行决策，以时间片为单位，将该时间片的所有状态数组依次输入到策略网络中，输出该时间片所有装备对每一个目标的动作；

（4）将动作和状态输入到Q网络中，得到该动作的好坏评估，使用Q值来更新策略网络的参数，然后结合评估系统提供的每个时间片每个目标的指标值，以及惩罚措施，得到一个真实奖励，更新价值网络，再用价值网络的输出更新策略网络参数；

（5）最后使用当前阶段最优的策略模型与仿真平台进行交互，更新样本池。

2.2.2 执行阶段信息流程

执行阶段信息流程主要包括测试场景设置、场景分析计算、智能规划计算、结果对比分析四个部分，如图4所示。

图4：执行阶段信息流程

2.2.2.1 测试场景设置利用想定编辑工具设置目标场景，探测场景保持与训练场景一致。

2.2.2.2 场景分析计算

由批量规划软件从数据库获取想定文件，完成想定解析和可见性分析。

2.2.2.3 智能规划计算

根据时间片依次将场景数据输入给模型，先经过数据处理处理为符合网络输入格式的状态数据，然后输入给策略网络模型；网络会经过几层神经网络输出各装备的编码动作，然后再经过数据处理模块整理为系统可用规划结果文件。

2.2.2.4 结果对比分析利用效能评估软件计算节点指标、全局指标和综合评分；通过数据分析软件实现智能规划方案和按照规则生成方案的综合评分对比以及规划数据的回放显示。

3 系统实现及关键技术

3.1 训练场景设计

训练场景主要包含目标场景和探测场景两部分。以导弹目标预警探测为背景，分析国内外典型型号与作战战法，设置了包含由简单场景、多方向场景、集火场景、多波次场景等场景要素构成的8类威胁场景，从适用性角度，基本能够覆盖所有潜在威胁。具体场景特征如表2所示。

表2：典型目标场景

探测场景包含三类具有不同能力的传感器，数量共记20个。如表3所示。

表3：探测场景

3.2 样本约束规则

批量规划生成软件在训练阶段主要用于产生离线训练数据，典型场景以想定的形式存储在数据库中，在训练过程中，批量规划生成软件会以轮询的方式逐个加载想定文件，批量生成JSON格式的规划方案，规划的内容包含每个时间片，每个传感器对每个目标的工作模式，时间片长度定义为10s。批量规划生成的过程考虑几类基本约束，包括规则合理性约束、资源约束等：

（1）每个目标保证至少一部传感器装备跟踪；

（2）目标跟踪之后才能进行识别；

（3）对目标跟踪指令的变化只发生在某些关键点而不是所有时间片。

其中，关键点选取规则为：

（1）当前规划目标所在方向上，有任一传感器新捕获任意目标；

（2）当前规划目标所在方向上，有任一传感器丢失任意目标（飞出探测范围）；

（3）特定对抗事件发生（可见的）；

（1）和（2）对应的关键点根据可见性关系得到，（3）对应的关键点从目标轨迹数据里获取。

3.3 评估指标设计

评估指标计算模块结合场景信息和规划结果，对批量生成的规划进行评估分析，生成对应的节点指标和全局指标，评价指标选取主要考虑及时发现能力、连续跟踪能力、跟踪精度、识别完成度、资源占用情况等方面。其中节点指标经过融合处理后作为即时收益用于指导模型学习训练，全局指标主要用于多方案对比。

3.3.1 局部指标

局部指标为单时间片指标，由指令评估系统直接输出，仅根据当前时间片决策动作计算，本方案中使用的局部指标共有5个，具体如表4所示。

表4：局部评价指标

将上述五个指标融合，得到一个reward值，融合方法：

Reward=（跟踪计数/当前总时间）+（跟踪精度/100）+（一类识别完成度/100）+（二类识别完成度/100）+（三类识别完成度/100）

3.3.2 全局指标

全局指标为整局评分，为一个分数值，主要根据局部指标的相关计算和积累得到首次点发现时间、跟踪覆盖率、识别完成度等，再通过加权求和计算得到整局评分。整局评分由指令评估系统直接输出。

3.4 状态和动作编码

策略网络训练模块基于强化学习方法模型，首先需要将描述环境状态和智能体动作的相关数据进行状态编码和动作编码。

3.4.1 状态编码

状态编码大小为向量形式，大小为（1,27），其中目标状态7维，传感器状态20维，编码结果如图5所示。

图5：状态编码

第1维表示目标的优先级（0为低威胁目标，1为高威胁目标）；第2-4维表示目标位置；第5-7维表示目标速度；第8-27维对应20个传感器各自状态。

传感器状态主要根据目标可见性和可用资源进行融合：对于每一个目标，不可见该目标的传感器可用资源置0，可见传感器可用资源计算方式为，A、B类传感器每跟踪一个目标，可用资源减少1/30，C类传感器每识别一个目标，可用资源减100%，最终，为0的纬度表示该传感器对目标不可见或无可用资源，不为零的传感器可进行跟踪识别分配，得出可见性和可用资源的融合特征。

3.4.2 动作编码

动作编码为（1、20）的向量，分别代表20个传感器的工作状态选择，每个传感器根据表3的工作特性设置其可选工作状态，取值范围为0-4（0表示搜索，1表示跟踪，2表示一类识别、3表示二类识别、4表示三类识别）。

3.5 网络模型设计

模型训练借鉴Off-Policy方法Soft Actor-Critic（SAC）[11]算法，使用Actor-Critic框架，结合policy network和Q Network和进行策略更新。相较于On-Policy，Off-Policy具有优化探索并行、样本利用充分等优点。考虑到仿真平台的设计，Off-Policy更为合理。但是大部分离线学习方法比如Q-Learning以及他的各种版本是valuebased，与在线学习的Policy-Gradient相比，对于动作的探索性并不好。两者结合起来的AC算法互补了他们的缺陷，既可以用Critic拟合动作Q值，也有Actor使用Policy-Gradient探索、更新策略。但是一般的AC算法是在线学习的。而SAC算法没有这一局限。SAC的另一大优点是使用了Maximum Entropy，使得其有了更强的探索能力，以及更好的鲁棒性。

4 系统运行测试

4.1 训练过程

训练过程共包含10个epoch，每个epoch包含150局场景，每20000个step更新一次网络参数，每个epoch测试一次，评估指标为评估系统的终局得分。

以对应表2中最复杂场景的930号场景（多波次多方向集火攻击）为例，图6表示该场景下的训练过程。由于模型训练过程存在最大熵探索，并且分数指标是整局得分，并不直接联系于模型训练所用的单时间片reward，所以分数曲线做了多项式拟合，弱化了探索过程中的波动。可以看出前半段以探索为主导，后半段模型从较低得分逐渐收敛到高得分。

图6：训练过程得分收敛过程

4.2 执行过程

（1）双击dos命令行程序，启动智能规划算法模型，提示模型加载完成，准备就绪…，软件执行结果如图7所示。

图7：启动智能规划算法模型

（2）启动智能预案生成总控软件，输入测试场景对应想定编号，以及生成批量规划方案数量，软件操作界面如图8所示。

图8：启动总控软件

（3）点击生成指令按钮，向智能预案生成子系统发送1各规划方案生成请求，同时向批量规划方案软件发送100个方案生成请求，后台开展方案的生成和评估；通过总控界面可以监视当前方案生成进度；

（4）方案生成结束后，由评估系统对1套智能规划方案和100套批量规划方案进行效能评估，给出综合评价得分；

（5）启动结果对比软件，分别设置1套智能规划方案和100套批量规划方案评估结果的存放目录，点击对比按钮，查看评分结果对比情况，验证智能生成方案综合评分是否优于100套批量规划方案；

（6）启动仿真推演软件，设置1套智能规划方案的存放目录，加载规划结果文件，动态展示各时间点各装备对所有目标的跟踪情况，内容展示形式如图9所示。

图9：规划方案内容展示

5 结论

针对复杂任务场景下，异构传感器协同探测任务规划问题，本文提出了一种基于高置信度仿真平台和机器学习模型的辅助决策系统设计方法。该系统通过事前大量人工标定的典型场景生成训练样本，通过离线训练对策略网络进行迭代强化。本文重点针对系统架构设计、训练场景设计、数据编码、训练模型选型等方面进行了介绍，最后通过系统运行测试对操作流程和功能界面进行了展示，通过与固定规则模型进行对比，对训练成果的有效性进行了验证。