基于深度学习的反无人机预警神经网络

2021-09-09 05:21孙颢洋曹昭睿郝永平王俊杰

科学技术与工程 2021年22期

孙颢洋，王欣，曹昭睿，白帆，王兴，郝永平，王俊杰

(1.沈阳理工大学装备工程学院，沈阳 110159； 2.沈阳理工大学机械工程学院，沈阳 110159； 3.沈阳理工大学理学院，沈阳 110159)

随着人工智能无人化技术的发展，飞行无人机设备在现代军事与民用背景中的使用频率不断增高。无人飞行设备的应用环境也从早期的低空拍摄、低载荷运输延伸到了高空侦察、信号链路干扰与精确打击等复杂任务中。由于无人机具备飞行轨迹低、体积小、运动速度慢等特点，其产生的信号回波数据量与时域信号分辨率极低，特征反馈信息难以被传统雷达探测设备所捕获[1]。即使无人机飞至雷达监控平台较近的距离时，凭借自身灵活的飞行控制能力，无人机也可以通过改变运动轨迹来轻易突破信号探测区域，实现隐蔽渗透与快速突防[2]。而这一问题伴随着无人机的大量投入与广泛应用不断凸显出来，导致使用常规雷达作为侦查探测手段的敏感单位面临着严重的风险。

与此同时，无人机的性能与构型也随着技术发展和承担任务不同出现了分化。例如，飞行稳定、体积小巧的四旋翼无人机负责环境侦查；翼展较大、飞行速度快的固定翼无人机负责目标毁伤。为了能够提高无人机的作战效能，甚至出现了由多个功能不同的无人机构成的协同作战群体，这种集群策略不但提升了无人机系统的执行效率，也使得无人机设备的生存能力和反侦察能力大大增强。常规雷达在面对这些“低小慢”无人机时不能有效地对不同功能类型进行区分，无法针对性地制定拦截与防御措施[3]。所以，设计一种能够识别多种类无人机，并且可提供实时跟踪与轨迹预测的探测策略，对关键区域的防御是十分重要的。

目前，国内外研究学者对反“低小慢”无人机的侦查技术已展开了诸多研究。在常规雷达探测领域，蒋平等[4]通过信号预处理、短时傅立叶变换法、飞控信号特征提取、飞控信号检测与识别等算法，在现场可编程门阵列(FPGA)核心上实现了无人机型号、参数与数量的识别；张梓鑫[5]利用短时傅里叶变换、魏格纳-威尔分布与短时分数阶傅立叶变换获取目标微动回波信号时频谱图，并利用卷积神经网络对谱图进行分类，以分辨双旋桨、三旋桨无人机和鸟类。但上述方法对于无人机所处环境要求较高，当目标的飞行震动雷达回波受到环境杂波影响时，上述两种方法的分类精度会受到较大影响。

为解决环境杂波与扰动杂波问题，研究人员将目标特征获取方式的重心由主动雷达回波信号向被动成像光电信号进行转移。由于无人机的可见光图像数据维度深、特征信息量丰富、空间映射程度高，在判断目标类别与运动状态上更具优势。薛珊等[6]提出了一种基于卷积神经网络的无人机目标识别方法，并针对小样本无人机数据集进行了训练；魏文怡[7]以Faster R-CNN为基本框架，将VGG16作为特征提取网络骨干，配合显著性算法(BMS)不理想目标拍摄图像，构建了一种针对小尺度固定翼飞机的目标识别神经网络；虞晓霞等[8]通过对Le Net-5模型进行结构改进，设计了一种面向无人机识别的轻量化卷积神经网络；程怀俊等[9]使用膨胀卷积替代了常规神经网络中的传统卷积，扩大了网络进行特征提取时的感受野，降低了冗余计算量。这些算法的设计与研究虽然具有较大的创新与突破，但分类器计算能力与网络特征提取能力较弱，深层语义信息挖掘效果不佳，在多种类无人机分类、多尺度无人机检测和轨迹预测上的精确度有待提升。

为赋予地面检测系统在反无人机预警方面的快速分类识别与持续跟踪能力，同时满足对无人机下一阶段飞行轨迹的预测需求，现提出了一种基于深度卷积神经网络与长短期记忆网络(LSTM)的反无人机预警算法。该算法以含有膨胀卷积的残差网络为特征提取网络构架，对空中多个无人机目标进行实时识别与跟踪，确定对应无人机的像空间位置与类别，并分别构建出无人机于像空间的运动轨迹。通过LSTM网络对连续时域内的无人机飞行轨迹进行实时分析，获得对应无人机下阶段的预测轨迹结果，实现对空中无人机飞行行为的全程监控与预测。该方法具有较高的计算实时性与精确度，能够在机器视觉领域赋予机场、军事单位、禁飞区等重要场地反无人机能力。

1 系统组成

所设计的反无人机识别与轨迹预测神经网络(anti-UAV recognition and trajectory prediction neural network,AUNN)由如图1所示的无人机特征提取、无人机类型识别、无人机像空间位置识别与无人机像空间轨迹预测4个环节构成。

图1 AUNN网络结构

首先，算法将成像系统捕捉的空中无人机图像通过特征提取网络，获取无人机的多尺度深层语义特征信息；随后分别将获得的多尺度高维特征图组传入无人机类型识别网络与无人机像空间位置识别网络，计算出目标无人机类别与像空间位置；根据对应无人机在一定时域内像空间位置中心的变化趋势，构建改时域下无人机的历史运动轨迹；最后利用LSTM网络结合历史运动轨迹，分析目标无人机在未来时域下的预测运动轨迹并输出，完成在当前时域下的无人机实时识别、跟踪以及未来时域下的轨迹预测。

2 算法实现

2.1 无人机目标识别

为了快速并直观地获得空中无人机的类别与位置信息，首先需要对相机捕捉到的图像或视频流数据中的无人机进行识别与定位。面向地基型计算平台，针对空中环境下的多尺度多目标无人机识别任务，设计了一种无人机特征提取网络(UFEN)，作为AUNN的网络底层(backbone)，用于提取空中无人机深层语义信息，并将YOLO V3(you only look once)目标识别网络作为 AUNN的网络中层(neck)与顶层(head)，完成目标的类别与像空间识别计算。

2.1.1 无人机特征提取网络

UFEN网络是一种深度残差网络，该网络由标准卷积层、膨胀卷积层、循环残差模块堆叠构成。UFEN的网络结构如图2所示。

由于地基平台对空中无人机进行拍摄时，无人机距离地基探测单位一般在45 m以外，此时图像中含有无人机的前景语义信息量远小于背景语义信息量，且背景中多为纯色的天空。当使用有效尺寸相同卷积核时，标准卷积的感受野与膨胀卷积的感受野如式(1)与式(2)所示：

(1)

(2)

式中：rn为第n个卷积层中每个单元的感受野；i为前n-1层卷积，每一层卷积的索引值；kn和si分别为第n个卷积层的卷积核尺寸和步长；d为膨胀卷积系数。

通过式(1)与式(2)对比可知，在卷积核移动步长和输入图像尺寸相同的前提下，同层网络中膨胀卷积的感受野大于标准卷积感受野[10]。对于空中无人机图像，膨胀卷积能更有效地获取图片深层语义特征，并减小了标准卷积迭代过程中背景环境的多次冗余计算。但由于膨胀卷积在计算过程中，卷积核下采样不连续，对于体积较小的空中无人机目标而言，容易出现如图3(a)所示的空间层级化信息丢失与小物体信息无法重建。为解决上述问题，采用锯齿状结构的膨胀卷积模块以替代标准卷积[11]，避免无空间结构联系的膨胀卷积核略过或淡化无人机的语义信息点。锯齿状结构的膨胀卷积模块计算方式如式(3)所示：

(3)

式(3)中：input为输入数据；Feature为计算后获得的特征图；convdil为膨胀卷积计算；1、2、5为膨胀系数。同时控制高维膨胀卷积的膨胀系数，膨胀卷积中最大膨胀系数Mi为

Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]

(4)

式(4)中：ri为第i个膨胀卷积的感受野。锯齿状结构的膨胀卷积模块结构如图4与表1所示。

表1 锯齿状结构膨胀卷积模块各层卷积核数量

图4 锯齿状结构的膨胀卷积模块结构图

经过上述混合搭配后，锯齿状结构融合卷积，实现了如图3(b)所示的特征图信息点的全覆盖计算，即可以利用较大的感受野提取全局语义信息，也防止了对目标特征信息的忽视。

图3 锯齿状结构的膨胀卷积模块特征提取示意

在对多尺度无人机目标进行深度语义特征提取时，由于网络的不断深化与循环迭代次数增多，每次卷积计算后特征图的尺寸都会缩减。语义信息量较少的小尺度无人机目标在每层所映射的特征图面积较小，当网络深度过大时，小目标的特征信息将难以被分辨，深层语义信息中内部细节纹理将被淡化。为提升小目标的识别效率，既需要凝练深层语义信息，也需要保留浅层特征信息[12]。UFEN利用残差模块(residual model)，每个残差模块由两个残差单元组成，每个残差单元如图5所示：包含卷积层、批归一化层和激活函数层，其中激活函数采用Leaky ReLU。每个残差模块能够将模块内部的浅层语义信息与深层语义信息进行融合，结合shortcut的方式连接每一个子段网络，融合大尺寸、低维度特征与小尺寸、高维度特征，提升识别多尺度目标识别精度，控制梯度传播并防止出现梯度弥散或者梯度爆炸现象。UFEN中残差模块结构如图6所示。UFEN共有5个残差模块，分别接在5个膨胀卷积模块之后，残差模块的第一个残差单元都会对图片进行一次降采样，并且会在最后的3次降采样对图片进行预测。UFEN5个残差模块循环次数分别为1、2、8、8、4次，卷积核具体数量如表2所示。

图5 卷积单元结构图

图6 残差卷积模块结构图

表2 残差卷积模块各层卷积核数量

2.1.2 无人机目标识别网络

UFEN完成无人机目标的特征提取，并生成了3种尺度分别为13×13、26×26、52×52的特征图后，AUNN将会利用YOLO V3目标识别网络对特征图组进行目标识别。

YOLO V3目标识别网络会在输入特征图上进行识别区域网格划分，网格划分数量与输入特征图尺寸大小对应[13]。特征图中的每个网格内的标定框(anchor box)负责标识与检测，其中每个网格包含的信息N表示为

N=[bx,by,bw,bh,p0,p1,p2,…,pc]×B

(5)

式(5)中：bx、by、bw、bh为当前预测框的中心点坐标与尺寸信息；p0为当前网格中是否包含目标物以及目标物位置的准确性；p1，p2，…，pc为框内目标为各待识别种类的概率，若目标的中心落在某个特征图的语义信息像素点中，则该网格就将对这个区域内的目标物进行检测，B为标定框的个数，置信值p0为检测目标物的概率与IOU(intersection over union)的乘积，如式(6)所示：

(6)

式(6)中：P(object)为该网格中是否存在目标物，若存在则值为1，不存在值为0；IOU为交并比，即目标所产生的真实框truth与目标识别产生的范围框pred的交并比例[14]，表达式如式(7)所示：

(7)

式(7)中：DR为检测目标框范围(detection result)；GT为真实目标覆盖范围(ground truth)，检测目标范围与真实目标覆盖范围交并结果IOU如图7所示。

图7 IOU示意图

通过计算检测目标范围框与真实目标覆盖范围的IOU，使得网络能够区分前景目标和背景目标。

对于不同尺度下的特征图，所划分的每个网格在对内部目标进行分类时，需要预测内部c个目标的类别概率，即第i类目标物中落在该网格内的概率P(Classi|object)：

(8)

YOLO V3网络中每个网格首先要对内部是否存在目标进行计算。当确定存在目标时，此目标物分类情况将根据其类别预测概率进行判断，当目标的某一类别预测概率超过阈值且大于其他分类预测值时，则认为该目标为当前类别。对于目标的位置信息判断，YOLO V3将通过训练迭代微调，不断学习与修正标定框的尺寸，使预测框结果逼近真实框，该调整过程如式(9)所示：

(9)

式(9)中：cx、cy为不同尺度特征图上对应网格的左上角坐标；tx、ty、tw、th为预测框与真实框间的偏差；pw、ph为标定框的长宽尺寸，最终得到预测框的左上角坐标bx、by以及预测框对应的长宽bw、bh。

NMS为非极大值抑制(non-maximum suppres-sion)对网络的所有预测结果进行筛选，只选择最优的预测结果，而去掉同一目标的多余的预测结果。大体思路为首先选取某一类中评分最高的预测框作为最优预测框，然后计算其余框与最优预测框的IOU，如果IOU大于某个设定的阈值，认为该框与最优预测框为同一目标的预测结果，则舍弃该框。从筛选后的预测框中再找出评分最高的预测框，重复上述步骤，最终完成对所有类别的非极大值抑制操作。

2.2 无人机轨迹预测

无人机轨迹预测网络将以无人机空间历史时域运动轨迹作为输入数据，利用长短期记忆网络LSTM网络学习无人机飞行行为特征，通过已有时域内的像空间位置来对未来时域内的像空间位置进行预测。

长短期记忆网络是一种克服了梯度爆炸与梯度消失问题的RNN优化型网络。LSTM相比传统循环神经网络(RNN)多出了一个“忘记门”(forget gate)机制[15]，该机制会通过某一时刻的输入输出与前段时刻的相关性决定是否忘记该时刻的内容，从而使得全部时段内只保留重要信息[16]。LSTM网络单元结构如图8所示。

xt为输入的当前时域内无人机像空间运动轨迹；ht为输出的下一时域内无人机像空间预测运动轨迹；A为LSTM网络中的计算单元，每个单元首尾相接，同一层的计算单元会把前一层的输出作为后一层的输入；σ(sigmoid)和tanh为激活函数

LSTM单元中会从左至右传入一个整形后的轨迹矩阵C，对于t时刻下的输入信息，LSTM单元内从左端传入的矩阵为Ct-1，从右端传出的矩阵为Ct。其中Ct-1矩阵被乘法器乘以一个系数，然后经过加法器做线性叠加，最终得出Ct。

左侧ht-1矩阵与输入的ht矩阵进行连接操作，通过一个线性单元后带入sigmoid函数计算出系数ft，该系数即为x矩阵传递过程中的乘法器系数，表达式如式(10)所示：

ft=σ(Wf[ht-1,xt]+bf)

(10)

式(10)中：Wf与bf为训练过程需学习的待定系数。LSTM的“忘记门”中，若sigmoid函数输出为1，则将输入完全记住；若输出为0，则将输入完全忘记；若为0～1的中间值，则按该值比例对输入进行记忆。

最后LSTM将输入信息再次经过一个“忘记门”，生成输出ht，生成的ht共有两部分，一部分传递给同层单元，一部分传递给下一层单元。则LSTM单元t时刻下最终输出的预测轨迹为

ht=σ(Wt[ht-1,xt]+bt)×tanhCt

(11)

通过上述计算，AUNN已能够获得目标无人机的类别信息与位置信息，将目标无人机的连续帧识别位置中心点投影到时域坐标下，获得的无人机像空间历史时域运动轨迹，并利用LSTM网络对未来时域内无人机的位置进行预测。该计算过程的反馈流程如图9所示。

图9 无人机像空间历史时域运动轨迹映射方式

3 实验结果与分析

3.1 网络的训练

训练阶段的初始学习率设置为0.001，并且在前两个世代逐渐增大学习率，当迭代次数为380次时，开始减小学习率，直到学习率达到0.000 001便不再减小，这样能够使得损失函数得到进一步的收敛，学习率曲线如图10所示。

图10 AUNN网络学习率曲线

3.2 模型的预测

为验证AUNN的计算能力，基于军、民用领域构建了面向空中无人机识别的图像数据集。数据集中共计760张图片，依照无人机结构、功能、可执行任务分为侦查型、载荷/控制型与进攻型目标。各类型无人机数据组分如表3所示。

表3 无人机数据集结构

验证平台为DELL Z840，中央处理器CPU配置为Intel Xeon E5-2643 V3，主频3.4 GHz，GPU为Quadro P5000，运行内存32 GB，计算环境为Ubuntu 18.04。测试时IVFNN编写语言为Python3.7，配合Tensorflow 2.0与Opencv 3.2作为辅助高级API。

AUNN完成训练后，网络的总损失曲线如图11所示大约在经过40 000次的迭代之后，最后的损失稳定在0左右，从损失曲线可以看出AUNN网络训练的结果比较理想。

图11 AUNN网络损失曲线

AUNN的网络训练曲线收敛状态良好，未出现梯度爆炸、弥散、消失等现象，证明本研究所设计的网络具有良好的特征学习能力。AUNN的平均目标识别率为82%，平均轨迹预测率为80%,计算速度为24帧/s。网络的无人机识别、轨迹预测效果如图12所示，图12(a)～图12(c)分别代表网络对于控制型无人机(command_UAV)、侦察型无人机(scout_UAV)以及进攻型无人机(attack_UAV)的识别效果；图12(d)～图12(f)分别对应为3种类型无人机的轨迹预测效果。

根据图12所示的结果可知，AUNN能够在地基平台下对空中多目标无人机进行精确的目标识别与定位，同时可以基于当前无人机像空间轨迹，对未来时域内无人机像空间运动位置进行预测，实现了针对“低小慢”无人机目标的快速精确预警，为反无人机系统提供了机器视觉支持。

图12 AUNN网络的无人机识别与轨迹预测效果

4 结语

设计了一种结合深度卷积神经网络与长短期记忆网络的反无人机目标识别与轨迹预测算法，赋予了机场、禁飞区、军事单位等敏感地点基于光电成像与机器视觉的无人机检测能力。AUNN具备计算精度高、预测灵活、冗余计算量小的特点，可嵌入地基计算平台，配合大视场成像系统实现多尺度无人机探测。