多战场环境军事人员图像分割技术应用研究

2021-11-03 09:17陶志文周旗开
医疗卫生装备 2021年10期
关键词:空洞卷积神经网络

陶志文,张 伟,周旗开,牛 福

(军事科学院系统工程研究院,北京 100166)

0 引言

人工智能技术在军队的信息化建设中具有广阔的应用前景[1]。运用半自动化搜救装备(如机器人、无人机等)进行军事人员搜救是迈向信息化搜救过程中的重要任务之一,而地面军事人员图像的高精度和快速分割是进行地面军事人员搜救的重要先导任务之一。图像分割涉及到将图像分割为多个部分或者对象,它是由图像处理到图像分析的非常关键的步骤,实现军事人员的高精度图像分割对进一步进行具体军事人员目标识别和进行图像分析、图像内容理解等工作具有重要意义。

国内对多种战场环境下军事人员图像分割的研究很少,目前已知的相关公开研究只有陆军工程大学梁新宇等[2]构建的迷彩伪装目标图像语义分割数据集,但其并未针对战场环境的特点进行图像分割算法改进。在多战场环境(如丛林、山地或城市废墟等)中进行军事人员图像分割的难点主要在于:(1)战场中军事人员目标往往较小,图像中目标像素比例较小,小目标特征提取困难,神经网络训练较为困难;(2)在战场环境中身着迷彩服的军事人员与环境相似度非常高,军事人员与背景环境难以区分,难以提取到辨识性较强的特征。经典的图像分割神经网络对小目标的分割效果较差,且对身着迷彩服的军事人员与环境背景的区分不明显。因此,为了解决上述难点问题并改善相关研究的匮乏状态,有必要针对以上难点对算法进行改进。

本研究以U-Net 为主干神经网络,基于空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块和双特征交叉融合(dual feature cross fusion,DFCF)模块提出了编码-解码神经网络模型ASPP-DFCFU-Net(以下简称“AD-U-Net”)来进行军事人员图像分割。

1 基于ASPP 模块和DFCF 模块的AD-U-Net

1.1 神经网络模型

为了处理多战场环境中军事人员图像分割的难点,分别从2 个方面出发:一方面利用改进后的空洞卷积增强对较小目标特征的提取能力,扩大神经网络的感受野,融合不同空洞率提取的特征图,提升对较小目标的分割效果;另一方面利用通道注意力机制,交叉融合整体语义特征(global semantic feature,GSF)和局部语义特征(local semantic feature,LSF),整合不同级别的重要特征,增强神经网络对军事人员和环境背景的区分能力。提出的编码-解码神经网络模型AD-U-Net 结构如图1 所示。

图1 AD-U-Net 结构图

1.2 ASPP 模块

在U-Net 编码结构后加入了ASPP 模块,针对战场环境中小目标较多的特点对ASPP 模块做出了改进,增强了神经网络提取战场环境中小目标特征的能力,利用不同空洞率的空洞卷积融合多尺度信息,增强特征的表达能力。改进的ASPP 模块如图2 所示。ASPP 模块的结构思想是Chen 等[3]在DeepLab 系列网络中提出的,目前DeepLabv3+神经网络在很多数据集上是该系列神经网络中效果较为突出的。ASPP 模块在提取图像的多尺度特征上具有良好的效果。DeepLabv3+神经网络ASPP 模块中原先的卷积核空洞率分别为6、12、18。ASPP 模块卷积核的空洞率越小,越利于分割较小的目标;ASPP 卷积核的空洞率越大,越利于分割较大的目标。由于在丛林、城市废墟、山地等场景中军事人员目标往往较小,较大目标虽然存在但数量相比小目标较少,因此将AD-U-Net 中ASPP 模块的空洞率设计为2、4、6、8。改进的ASPP 模块由1 个1×1 卷积、1 个空洞率为2的3×3 卷积、1 个空洞率为4 的3×3 卷积、1 个空洞率为6 的3×3 卷积、1 个空洞率为8 的3×3 卷积和1个全局平均池化组成。采用空洞率为2、4、6、8 的卷积核,使神经网络增加了分割较小目标的能力,增强了产生的特征的表达能力,提高了对多环境迷彩分割数据集(Multi Environment Camouflage Dataset,MECD)中军事人员的分割效果。

图2 改进的ASPP 模块

1.3 DFCF 模块

由于在野外身着迷彩服的军事人员与背景环境非常相似,区分度非常低,模型难以提取到高辨识性的特征,对军事人员和环境背景的边界辨识不明显,对MECD 的图像中军事人员的分割效果较差。针对此问题,受Zhang 等[4]提出的重要性感知特征选择(importance-aware feature selection,IAFS)模块的思想启发,并结合通道注意机制——压缩-激励模块(squeeze-and-excitation block,SE Block)[5],提出了DFCF 模块。DFCF 模块利用了通道注意力机制,交叉融合了LSF 和GSF,通过对卷积特征通道之间的相互依赖性进行显式的建模来提高网络的表示能力,整合了不同层级的重要特征,使得有效的特征权重更大,无效或效果小的特征权重更小,提高了神经网络对军事人员和背景的区分能力,改善了军事人员与环境背景边界区域的分割效果。

DFCF 模块结构图如图3 所示。LSF 相比GSF 更加侧重于表达目标轮廓的细节等局部特征信息,GSF则更侧重于表达目标的整体特征信息。DFCF 模块通过交叉融合GSF 和LSF,将得到的2 个特征向量以矩阵逐元素相加的形式融合至对方的原始输出特征图,提高神经网络提取高辨识性特征的能力。

图3 DFCF 模块结构图

DFCF 模块的计算过程如下:以LSF 为例[假设输入为H×W×C(高×宽×通道数)],首先经过全局平均池化模块,输出变为1×1×C,再经过全连接模块、ReLU 激活函数和全连接模块,最后经过Sigmoid 函数处理后分别得到LSF 经过计算后的语义权重和GSF 经过计算后的语义权重,再经过通道乘法的方式与对方的特征图相乘,最后将得到的特征图以矩阵逐元素相加的方式处理,得到输出。

DFCF 模块的优势如下:如果GSF 和LSF 的某个通道的权重都较大,则认为GSF 和LSF 在该通道的语义匹配,该通道的语义特征信息就会被增强。如果GSF 和LSF 在某个通道的语义不匹配(即GSF 较大、LSF 较小或GSF 较小、LSF 较大),则该通道的语义特征信息就会被阻抑。

1.4 损失函数

选择合适的损失函数对提升模型的分割性能是非常重要的。在MECD 中样本并不均衡,图像中的军事人员像素所占比例较小、背景像素比例较大,即MECD 存在正样本占整个图像比例较低的样本不均衡问题。使用二分类交叉熵损失函数来优化模型时,在样本不均衡的情况下训练时损失函数会偏向样本多的一方,导致训练时损失函数很小,对样本较小的目标(图像中的军事人员)分割精度不高,训练出的模型鲁棒性不佳,算法容易趋向于更好地识别背景。二分类交叉熵损失函数公式如下:

式中,y 表示实际标签值;y^表示模型预测结果。

Dice 损失函数可衡量图像中不同类别样本的整体像素分类准确率,可以缓解数据集中样本不平衡的问题,但Dice 损失函数在训练过程中可能会产生梯度震荡,不如二分类交叉熵损失函数稳定。Dice 损失函数公式如下:

为提高模型对军事人员的分割效果、降低数据集样本不均衡的问题,同时使训练过程变得更加稳定,减少出现梯度震荡的可能性,考虑采用混合Dice损失函数与二分类交叉熵损失函数的损失函数L,其公式如下:

2 数据集及评价指标

2.1 数据集

使用已建立的MECD,该数据集含有多种角度、多种场景的身着迷彩服及枪支、背包等装备并化有迷彩妆的军事人员的图像,图像的背景丰富、人员姿态众多、迷彩类型多样(含有不同类型的迷彩服共14种)、环境种类丰富(包括雨林、丛林、山地、荒漠、城市废墟、雪地6 种环境)。该数据集中军事人员与环境背景相似度非常高。图4 展示了MECD 包含的部分场景示例图,从图中可看到,该数据集中军事人员和环境背景的区分度非常低,且军事人员像素占比较小。MECD 共包含高分辨力图像1 600 张。为了提高训练效果、防止模型过拟合,在训练中将数据集及其标注图像通过水平翻转、旋转、缩放等方式进行增强。按7∶1∶2 的比例将数据集随机分为训练集、验证集和测试集。

图4 MECD 包含的6 种战场环境示例图像

2.2 评价指标

为了对神经网络的分割性能进行准确、客观的评价,常使用多种评价指标来评估其性能,常用的评价指标有:交并比(intersection over union,IoU)、平均交并比(mean intersection over union,mIoU)、召回率(R)、精确度(P)和F1分数(F1),其计算公式分别如公式(4)~(8)。本研究使用mIoU、R、P 和F1来评估神经网络的性能。

3 实验分析

实验基于Ubuntu18.04 操作系统,使用Pytorch 1.7框架,通过1 台NVIDIA Tesla V100 显卡进行训练,显存为31 GiB。Python 版本为3.8,CUDA 版本为11.0。模型训练的迭代次数设置为100,可根据模型的训练情况随时手动调整。初始学习率为0.000 1,训练过程中动态调整学习率,采用Adam[6]优化器进行优化。每经过一轮训练,就在验证集上对各评价指标及训练损失进行计算,并保存截止到当前训练轮数的最优神经网络参数。在神经网络训练完成之后,再用测试集对神经网络进行测试。

为了验证AD-U-Net 的有效性,利用U-Net[7]、SegNet[8]、FCN-8s[9]这3 种语义分割神经网络在MECD上进行实验,并与AD-U-Net 的结果进行对比,详见表1。

表1 AD-U-Net 与U-Net、SegNet、FCN-8s 的实验结果对比

从表1 可以看出,AD-U-Net 在4 个评价指标上均高于U-Net、SegNet 及FCN-8s,证明了AD-U-Net的有效性和优越性。图5 展示了U-Net、SegNet、FCN-8s、AD-U-Net 分割同时具有2 种分割难点的图像的部分结果图,从图中可以看出,在图像中军事人员像素占比较小、军事人员与环境区分度很低的情况下,AD-U-Net 的分割效果均优于U-Net、SegNet 和FCN-8s。

图5 4 种神经网络针对具有2 种分割难点图像的部分分割结果图

4 结语

本研究中改进后的ASPP 模块能针对数据集中分割目标像素占比较小的情况增强对小目标特征的提取能力,提升了针对小目标的分割效果。提出的DFCF 模块能够利用不同类型特征的共同特点,交叉融合LSF 和GSF,改善了分割目标与背景的边界区域的分割效果。基于改进的ASPP 模块和DFCF模块提出的AD-U-Net 在MECD 数据集上具有优良的分割效果,分割多种战场环境中的军事人员图像比U-Net、SegNet、FCN-8s 3 种神经网络效果更好,明显改善了前文中提到的2 个图像分割的难点问题。机器学习算法在搜救、医疗等领域的应用越来越广泛[10],若将所提出的AD-U-Net 应用在多种战场环境下进行军事人员搜救,可大大提高军事人员的识别率、分割准确率,提高搜救效率。做好图像分割这一图像处理研究中的关键一步意义重大,可以为进一步的图像分析、图像内容理解等工作做好铺垫,为后续的研究和分析工作减少障碍、降低难度。

虽然AD-U-Net 的分割精度相比U-Net 等神经网络有所提升,但嵌入移动端进行快速实时分割仍有难度,在未来的工作中,研究更加轻量化、高效的实时分割神经网络以满足搜救装备进行快速实时军事人员分割将是一个重要的研究方向。

猜你喜欢
空洞卷积神经网络
基于全卷积神经网络的猪背膘厚快速准确测定
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
番茄出现空洞果的原因及防治措施
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
如何避免想象作文空洞无“精神”
基于神经网络的中小学生情感分析