基于MobileNetv2神经网络的无人机信号调制识别方法

2023-04-03 08:48郭恩泽刘益岑魏国峰郭道省

兵器装备工程学报 2023年3期

杨雷，郭恩泽，刘益岑，魏国峰，杨宁，郭道省

(1.中国人民解放军陆军工程大学通信工程学院，南京 210007；2.中国人民解放军陆军工程大学通信士官学校，重庆 400035；3.信号盲处理国家级重点实验室, 成都 610041)

1 引言

近年来，无人机技术蓬勃发展，各类无人机在诸多领域里得到广泛的应用。由于相关部门的监管控制技术不够完善，无人机造成的“黑飞事件”也层出不穷，引发一系列国际社会安全问题。同时，针对应用于6G智能边缘设备等存储空间有限的小型嵌入式设备，对算法的模型存储开销提出更高的要求。因此，在存储资源空间有限的情况下，实现对无人机准确高效的识别，对有效进行空中管控、并采取相应反制措施以及维护无人机安全秩序具有重要的现实意义[1-2]。

无人机因其遂行工作任务的不同，其种类型号和图传方式也多种多样。通过识别无人机图传信号的调制方式，可以实现对无人机进行初步的筛选分类[3-4]。目前对无人机信号的调制识别技术，大多借助比较传统的电磁信号识别方法，通过专家挑选关键特征，如信号包络、瞬时相位差、循环谱和双谱等不同域的信号特征，最后由固定规则和学习算法进行分类[5]。但传统方法计算较为复杂，实际部署困难，并且缺乏普适性。近年来，机器学习在各项研究领域中都取得了突破性的进展，一些研究者利用机器学习算法可以避免基于经验的人工提取特征的不足，在调制信号识别领域已经有了较为丰硕的成果。文献[6-7]提取原始的时域I/Q特征，利用神经网络实现端对端的识别，但是这种时域非线性特征受噪声影响较大，识别率有一定局限性。文献[8-9]对CNN网络结构进行改进，并考虑了信号的时序特征，采用 CNN+LSTM(long short term memory)的网络结构进行调制方式识别。文献[10]通过将信号的时域变换到频域，以Welch功率谱信息作为神经网络的输入，在SNR=10 dB噪声环境下对20个zigbee设备识别率达到90%以上。然而，CNN更擅长处理二维图像特征，上述方法直接识别I/Q、功率谱等一维特征，会导致CNN识别效果产生折扣[11]。鉴于此，部分研究者考虑将信号识别问题转化为图像识别问题。Peng等将8种调制信号转换为星座图，并处理得到灰度图像，使用深度CNN方法可以有效地对 8 种调制信号进行分类[12]。周鑫对信号I/Q数据通过离散傅里叶变换转化为二维频谱瀑布图，输入到深度神经网络RadioYOLO 模型中，对12种信号的识别率为86.04%[5]。文献[13]通过借助AlexNet网络识别无人机目标图像特征，完成对不同无人机信号的分类。文献[14]通过GoogleNet神经网络识别雷达探测的多普勒图像特征，完成对3种型号无人机的分类。文献[15]利用深层CNN，提取无人机信号的能量光谱特征，从而实现对无人机的启动、悬停以及飞行状态的分类识别。文献[16]利用深层残差网络(residual network，ResNet)识别遥测信号的频谱图，实现对无人机的识别。

以上研究成果从不同的角度进行了探索，其主要研究不足在于：一方面，有些利用一维CNN识别一维特征的方法还很难应用于强噪声环境下，算法鲁棒性差，并且会导致神经网络识别性能发生折扣；另一方面，有些利用深度学习的方法，使用深度神经网络作为分类器，显著增加了神经网络的计算复杂度和内存消耗，存在着神经网络识别速度慢、模型存储开销大、并且方法难以部署于资源受限的设备等问题。

基于上述分析，提出了基于MobileNetv2轻量级神经网络的无人机信号调制识别方法。针对利用一维CNN识别一维特征在噪声环境下抗干扰性差并且导致CNN识别性能发生折扣等问题，由于STFT是时间与频率的二维函数，可以将信号经STFT得到时频图特征，有效克服一维时域信号特征在实际噪声环境下鲁棒性差的缺点，同时利用能量门限降噪的方法对时频图像进行降噪处理，提高CNN对STFT图像的识别效果；针对大多数方法使用深度神经网络作为分类器，存在着神经网络识别速度慢、模型存储开销大并且方法难以部署于资源受限的设备等问题，利用MobileNetv2轻量级神经网络在识别图像领域中的良好性能，通过MobileNetv2网络识别提取的STFT图像特征，从而实现对无人机信号调制方式的高效识别。实验结果证明，所提方法对7种信号在信噪比为-12～0 dB的噪声环境下获得93.33%综合识别率，并且完成一次识别所需的计算量约为313 M次，模型参数量约为3.5 M，网络模型大小约为13 M。相比于其他经典深度神经网络模型的识别性能，所提方法在识别率得到保证的情况下，模型参数量、模型规模以及算法计算量都具有明显优势，显著提升了识别效率，更适合在资源受限的设备中推广应用。

2 基于MobileNetv2神经网络的调制识别算法模型

2.1 算法模型总体框架描述

本文中所提出的算法模型流程如图1所示。首先，对4ASK、BFSK、BPSK、QPSK、8PSK、16QAM、OFDM等7种常用的数字调制方式的无人机图传信号进行仿真生成，作为样本数据集[3-4]；其次，对7种类型信号进行短时傅里叶变换，将信号由时域数据变换到特征更加丰富的时频域，得到时频矩阵；然后对获取的时频矩阵特征进行能量门限降噪、归一化处理，得到预处理后的图像样本训练集和测试集；最后，将得到的图像样本训练集作为信号特征送入神经网络进行训练和优化，当训练进度达到稳定或者损失函数值几乎不再下降时，则神经网络训练完成；再利用测试集数据来验证网络模型的分类效果，从而验证算法的识别性能。

图1 算法模型流程框图

2.2 基于短时傅里叶变换的信号特征提取

在电磁环境中，特别是低信噪比的环境下，仅分析时域或者频域内信号特征是单一的，但时频分析可以反映着信号时间与频率的分布关系，是信号处理领域中十分常用的方法。其中，短时傅里叶变换是将一个较长的时域信号分割成长度相等的较短的段，并在每个较短的段上分别计算其离散傅里叶变换。短时傅里叶变换在以损失一定频率分辨率为代价，能够恢复时间分辨率，具体操作就是利用窗函数将长的非平稳信号分割成一系列短视的随机平稳信号[17]。

短时傅里叶变换的公式为：

(1)

式中：z(t)是源信号；g(t)为窗函数。为方便处理，一般把信号进行离散化处理，具体表示为：

(2)

式中：STFTZ(m,n)为时频矩阵的每个离散时频点的数值；M为时间块的数量；N为频率分量的个数，且m∈[1,M],n∈[1,N]。

在短时傅里叶变换中，窗函数的长度直接影响着时频图的时间分辨率和频率分辨率。当窗函数的长度越长时，则截取信号越长，则时频变换得到的频率分辨率越高，时间分辨率就越差。因此，必须根据实际的实验需求来选择最佳的窗口长度。

2.3 图像预处理

2.3.1能量门限降噪

噪声对信号的时频特征产生严重的干扰，为了降低噪声对识别带来的不良影响，改善时频图质量，降噪是十分必要的。其中，能量门限降噪方法的核心在于通过利用时频矩阵来选取一个合适的阈值[18]。

其降噪的具体操作为：

1) 设定一组权值w，并按照式(3)，对每个权值计算一个门限，从而得到一组离散的门限。

(3)

式中：threhold(j)为门限值；w为权重值；STFT(m,n)为时频矩阵每个时频点的数值；M为时间块的数量；N为频率分量的个数，m∈[1,M],n∈[1,N]。

2) 再对每组门限依次进行计算，对其中低于门限的值视为噪声，进而统计高于门限的个数，式(4)为：

(4)

式中：c(j)为高于门限值threhold(j)的个数；STFT(m,n)为时频矩阵每个时频点的数值。

3) 再对c(j)的数组求二次差分，找到纵坐标首次接近零点的横坐标，将该数值设定为临界值，即权值w。

4) 利用最优的权值，计算去噪的最优门限，设该门限为threopt，将时频矩阵中低于threopt数值，全部置零，从而得到降噪后的时频矩阵。

2.3.2图像归一化处理

由于时频图中数值差异性较大，为使得到的时频分布中的所有数值在某个固定范围，故对时频分布图进行标准区间缩放处理[19]。首先，将时频图矩阵表示成向量b=(b1,b2,…,bi,…,bn)，对内部所有向量bi做区间缩放，具体操作可表示为：

(5)

式中：max(·)与min(·)分别为向量的最大值与最小值。用批量修改图像尺寸的函数，将时频图修改成和网络模型输入相匹配的尺寸。

2.4 轻量级MobileNetv2神经网络的模型描述

2.4.1轻量级神经网络的生成

对无人机识别的工作，往往是对无人机个体进行有效而精确的分类操作。近年来，一些研究者已经将深度学习应用到无人机的识别工作上来。常用的深度学习方式包括有监督、无监督以及增强式的学习，典型的分类器有卷积神经网络、聚类以及其他深度学习架构等。AlexNet、VGGNet、GoogleNet和ResNet也随之慢慢兴起。但传统的神经网络模型较大且参数量多，计算较为复杂，不易在工程上存储能力有限的移动设备和嵌入式设备上使用。但在2017年4月，一种轻量级神经网络MobileNet网络模型被谷歌公司提出，它为神经网络在小型移动式设备上应用做出了重要的贡献[20-21]。在轻量级神经网络中，以深度可分离卷积代替标准的卷积运算，深度可分离卷积包括深度卷积和逐点卷积。其中，设计深度卷积以减少特征通道数,设计逐点卷积以减少特征通道之间的冗余。

2.4.2MobileNetv2轻量级神经网络的细节分析

本文中采用MobileNetv2轻量级神经网络模型进行实验，其网络的模型结构如表1所示。

表1 MobileNetv2神经网络的模型结构Table 1 MobileNetv2 network structure model

在表1中，s代表第一层步长；n代表重复操作次数；c代表输出特征矩阵深度；t代表扩展因子。扩展因子的作用是提升通道数，有利于网络提取更多特征。MobileNetv2神经网络架构包括17个倒置残差结构(inverted residual structure)和3个卷积结构[22]，该结构是对传统残差结构的改进。其中，第一、三层中的逐点卷积主要是为了进行升维和降维的目的，第二层中的深度卷积是使用3×3大小卷积核来进行运算。它与正常残差结构做了如下创新：① 与之前的残差分支不同，该残差结构首先使用逐点卷积来对特征通道数进行改变，将特征的通道数进行先增加后减少的操作，从而使得深度卷积层可以在高维的特征中工作，并可以保证激活函数增加其非线性能力。② 激活函数会在第2个逐点卷积降维的低维空间中，影响特征的表达能力，所以去掉第2个逐点卷积之后的激活层[23]。③ 通常一个ReLU非线性激活函数会紧跟在一次卷积操作之后。但是如果对ReLU的激活范围不加限制，低精度的设备无法得到较好的数值分辨率。因此，该结构使用非线性激活函数ReLU6，将ReLU中最大输出值限制为6。

轻量级卷积神经网络设计了更加高效的计算方式，通过深度可分离卷积代替标准卷积计算。以特征图片作为神经网络的输入为例说明，假设D表示为输入特征图边长，C为卷积核边长，且特征图和卷积核均保持长宽大小一致，M、N分别为输入通道数和输出通道数，则标准卷积的计算量为：O(D*D*C*C*M*N)次；深度卷积的计算量为：O(D*D*C*C*M)次；逐点卷积的计算量为：O(D*D*M*N)次。则一次深度可分离卷积的计算量与一次标准卷积的计算量相比：

(6)

因此，轻量级神经网络显著地减少网络的参数和计算量，明显降低了计算复杂度和模型开销，极大推动了深度学习的发展。

3 仿真实验与分析

3.1 数据来源

本文中依托Matlab 2020b软件为仿真平台，对4ASK、BFSK、BPSK、QPSK、8PSK、16QAM、OFDM等7种数字调制方式的无人机图传信号进行仿真生成。这7种信号的相关仿真参数设置：载频为2 000 Hz，采样速率为20 000 Hz，本实验在高斯白噪声环境下进行。其中，用于深度神经网络模型训练的样本是：信噪比从-12 dB到0 dB，间隔为2 dB，每种信噪比下不同调制类型信号各生成200个样本，总共生成7*7*200个样本，其中70%为训练集，30%为验证集；用于测试的样本是：信噪比从-12 dB到0 dB，间隔为2 dB，每种信噪比下不同调制类型信号50个样本，总共生成7*7*50个样本。利用经过训练好的神经网络模型对测试集的样本进行分类识别。

3.2 实验设计

首先利用Matlab软件生成样本数据；其次对7种信号进行STFT进行时频分析，并对生成的二维时频图像进行能量门限降噪、归一化等处理，同时再调整图像大小，使得与相应的网络模型相匹配；再对生成的图像样本数据集分成训练集和测试集；其次，设计了2组实验，在第1组实验中，利用实验组的MobileNetv2网络模型，分别将未降噪的原始STFT时频图数据集和经降噪处理后的STFT时频图数据集对MobileNetv2网络模型进行训练学习，对降噪前后方法的识别准确率进行比较；在第2组实验中，分别利用实验组MobileNetv2[23]网络模型和对照组AlexNet[24]、GoogleNet[25]和ResNet50[26]3种神经网络模型进行测试和训练，对比测试集中各模型对无人机不同调制方式的图传信号的识别率，得出仿真结果，从而分析神经网络模型对信号的分类识别性能。

3.3 图像降噪操作模块

以16QAM信号在信噪比为0 dB环境下的STFT图为例，未降噪前的STFT时频图如图2所示。由图可见，16 QAM信号能量较大且分布相对集中，而噪声能量较小且分布在整个时频矩阵中，噪声对信号的特征产生不同程度的干扰。为了降低噪声对识别带来的不良影响，在不损坏时频矩阵特征结构的前提下，对时频矩阵进行适当的降噪是很有益处的。因此，运用能量门限降噪方法对STFT得到的时频图进行降噪处理。首先，设定权值取值范围为(1，10)；其次，通过计算，得到如图3所示的时频矩阵在不同权值下的分布，时频矩阵大小为128*646，假设当w=3时，去噪后的信号点数为4 000个。

图2 降噪前16QAM信号的STFT图

图3 权值w对应的信号点数图

然后，对上图求二次差分，如图4所示。当纵坐标取值为0时，w=2.3就是确定的最优权值。

图4 确定最优权重w图

最后,将低于去噪门限的矩阵值置零，得到如图5所示的16QAM降噪后的时频图。

图5 降噪后16QAM信号的STFT图

对比图2和图5降噪前后的的时频图，可以很明显的看出，利用能量门限降噪方法可以很好的滤掉部分噪声，有效降低噪声对时频特征的影响，改善了时频图的质量，极大的有利于神经网络模型对时频图特征的分类识别。

3.4 仿真实验

为了测试各神经网络模型对无人机信号的识别性能，设计仿真实验。仿真环境搭载Intel Core i7 2.8GHz处理器，操作系统为Windows10专业版64位，使用Matlab 2020b作为仿真平台，通过Matlab中的深度学习工具箱来构建用于信号识别的神经网络模型。训练参数均设置如下：初始学习率为0.000 5；学习率减少因子为0.5；减少学习率的周期间隔数2；小批量样本数为32；其他参数设置均为默认值。同时，为了避免偶然因素影响实验结果，每次实验重复进行20次，求20次的平均数作为最终的实验结果。

图6展示了4种网络模型训练集的准确率与损失值随迭代次数的变化情况。经实验发现，4种模型对目标的预测准确度随迭代次数增加而迅速上升，损失函数迅速下降，然后，随着迭代次数的继续增加，模型预测准确度不再明显上升，损失函数不再有明显下降，而是在很小范围内正常波动，说明网络此时已经趋于稳定。由4种网络模型的训练进度图对比来看，4种网络模型均适用于无人机图传信号的调制识别当中。在识别稳定性方面，MobileNetv2和ResNet50网络识别率和损失值总体较为稳定，只在少数位置小幅度波动，另外2个网络出现较大程度的波动，稳定性差。在总体识别准确率方面，MobileNetv2、AlexNet、GoogleNet和ResNet50四种网络模型对训练集的总体平均识别准确率分别为93.33%、90.16%，88.04%和95.32%。由此可知，基于MobileNetv2模型的识别准确率高于AlexNet约3%，高于GoogleNet约5%，比ResNet50模型识别率低2%左右。

图6 4种网络模型训练进度图

3.5 识别结果分析

3.5.1特征降噪前后的方法识别对比

为了验证利用能量门限降噪方法对算法识别性能的影响，以MobileNetv2轻量级神经网络模型为例，分别利用初始未降噪的STFT时频图数据集和经过能量门限降噪后的STFT时频图数据集对MobileNetv2神经网络进行训练，采用不同信噪比的信号测试集对模型进行测试，测试结果如图7所示。

图7给出了在不同信噪比条件下，未降噪STFT时频图数据集和经过能量门限降噪后的STFT时频图数据集在基于MobileNetv2神经网络模型下的识别率变化。从实验结果可以发现：在不同信噪比的噪声环境下，基于降噪后的STFT时频图的识别率明显高于未降噪的原始时频图数据，其中在SNR=-12 dB的条件下，降噪后的数据相较于未降噪的数据，识别准确率提升了约6%。由此可以说明，利用能量门限降噪方法可有效提高STFT时频图在噪声环境下的鲁棒性，从而提升网络模型对无人机图传信号的识别性能。

图7 基于MobileNetv2对降噪前后图像识别对比图

3.5.2不同网络模型的识别性能对比

为了验证经过训练集训练过的4种网络模型的泛化能力，采用3.1节中不同信噪比的降噪后信号测试集对模型进行测试。测试结果如图8所示。

图8 4种网络模型识别对比图

图8给出了4种模型在不同信噪比条件下的识别率变化，从图中可以发现：在信噪比SNR=-12～0 dB的高斯白噪声环境下，随着信噪比的提高，各模型的识别率在不断上升，当信噪比大于-2 dB时，各网络模型的识别率均大于99%。其中从不同信噪比条件来看，基于轻量级神经网络(MobileNetv2)的识别率几乎都高于经典卷积神经网络(AlexNet、GoogleNet)、略低于残差网络模型(ResNet50)，特别在低信噪比SNR=-12 dB的环境下，MobileNetv2网络对无人机图传信号的STFT图像特征识别能力仍较为理想，识别准确率达到80%以上。同时，图9给出了基于MobileNetv2轻量级神经网络对7种调制信号在不同信噪比下的验证结果。

图9 基于MobileNetv2模型的7种信号识别对比图

从图9可以看出，7种调制信号识别率随信噪比的增大而提高，当信噪比大于-2 dB时，7种调制信号的识别准确率都能达到95%以上。其中，OFDM信号的识别效果最为理想，在信噪比大于-6 dB条件下识别率达到100%，说明OFDM信号的抗干扰能力比较强；而QPSK与8PSK两种信号识别率相对较低，在信噪比低于-10 dB条件下，MobileNetv2网络对上述2种种信号的识别率均低于75%，特别在低信噪比下发生混淆程度更大，不容易区分开。

3.6 4种网络计算复杂度分析

以计算时间作为指标，衡量网络模型的复杂度是不够科学准确的，因为往往受到各种不良因素的干扰，比如硬件本身内部结构以及仿真设备的固有特性等等。但是网络模型的复杂度和网络的计算量成正相关关系。综上考虑，将计算量作为指标能较为科学准确的衡量网络模型复杂度。

传统的计算量统计方式往往是忽略规范化操作和激活层等等，只是单纯考虑卷积层和全连接层等参数层的“乘加”操作。同时，在卷积层和全连接层的计算量统计过程中，也会忽略如“偏置”等仅“纯加法”操作的计算量[22]。根据对MobileNetv2神经网络架构的分析，假设T表示第一层经逐点卷积之后升维的倍数，S表示卷积的步长，D、M、N分别表示输入图边长、输入通道数和输出通道数。则各层的计算量：第一层的计算量为：O(D*D*M*T*M)次；第二层的计算量为：O(D/S*D/S*3*3*T*M)次；第三层的计算量为：O(D/S*D/S*T*M*N)次。

通过计算可以发现，MobileNetv2模型完成一次识别需要进行大约313 M次的乘加计算。而其他3种网络模型完成一次识别需要的计算量分别是：AlexNet模型大约727 M次；GoogleNet模型大约1 550 M次；ResNet50模型大约2 080 M次。MobileNetV2模型的乘加计算量明显低于其他3种网络模型，约为AlexNet模型的41.2%、GoogleNet模型的19.3%、ResNet50模型的15.1%。

3.7 4种网络模型参数量与模型规模分析

首先，比较4种网络模型的参数量、规模大小，查看Matlab中各类模型参数量和模型规模，得到结果如下：MobileNetv2模型参数量大约为3.5 M，模型规模大约为13 M；AlexNet模型参数量大约为61 M，模型规模大约为227 M；GoogLeNet模型参数量大约为7 M，模型规模大约为27 M；ResNet50模型参数量大约为25.6 M，模型规模大约为96 M。为了使比较结果数据清晰可视化，网络模型参数对比结果如条形图10所示。

图10 4种网络模型参数量与模型规模对比图

综上分析，对比各网络模型对无人机图传信号的识别率及鲁棒性，相比于经典的卷积神经网络模型(AlexNet、GoogleNet)和残差网络模型(ResNet50)，基于MobileNetv2轻量级神经网络在保证稳定性和识别准确率前提下，大大减少了识别所需的计算量，提高了识别的时效性，并且模型参数量和网络模型规模均小于其他3种卷积神经网络，更适合在6G智能边缘设备等资源受限的便携设备中推广应用。

4 结论

针对目前无人机图传信号的调制方式识别方法，在低信噪比条件下识别率低以及传统的深度网络模型存储开销大和计算复杂度高，难以应用于存储空间受限的6G智能边缘设备等问题，本文中提出了基于STFT的MobileNetv2轻量级神经网络的无人机图传信号调制识别方法。

1) 该方法通过对仿真生成的多种调制方式的无人机图传信号进行STFT得到时频图，并对时频图进行能量门限降噪和标准化处理。以时频图特征作为样本对轻量级卷积神经网络MobileNetv2进行训练,从而实现对无人机图传信号的识别。

2) 研究表明，该方法充分发挥了STFT和能量阈值降噪方法在处理信号方面的优势和MobileNetv2网络强大的图像分类能力。首先，相比于未降噪的时频图数据，MobileNetv2网络对降噪后的时频图在SNR=-12 dB时，识别准确率提升了约6%，达到80%以上。其次，在信噪比为-12～0 dB的加性高斯白噪声环境下，对7种不同调制方式的无人机图传信号获得了93.33%的准确率。最后，所提方法完成一次识别需要进行大约313 M次的乘加计算量，模型参数量大约为3.5 M，模型规模大约为13 M。

3) 该方法相比于利用经典卷积神经网络(AlexNet、GoogleNet)和残差网络模型(ResNet50)，不仅识别准确率较高、稳定性较好，而且计算复杂度、网络空间复杂度以及模型规模大小更低，更适合在6G智能边缘设备等资源受限的小型嵌入式设备中推广应用。