基于改进SSD网络的着舰标志识别方法

2022-01-22 10:40吴鹏飞石章松
电光与控制 2022年1期
关键词:实时性网络结构标志

吴鹏飞, 石章松, 黄 隽, 傅 冰

(海军工程大学兵器工程学院,武汉 430000)

0 引言

自2012年以来,深度学习技术在图像识别领域取得了重大进展,无论是在识别精度还是速度上都远远超过了传统的基于视觉匹配的识别方法[1]。从目标识别的原理与目前的研究情况来看,基于深度学习的目标识别方法可以应用于无人直升机着舰标志识别,需要解决的是着舰环境的“全”动态性、识别准确率以及着舰过程中的实时性问题。

卷积神经网络(Convolutional Neural Network,CNN)是深度学习最重要的一个分支[2]。2013年,GIRSHICK等将卷积神经网络应用于目标识别领域,提出了RCNN(Region Proposal+CNN)网络,从此,基于候选区域(Region Proposal,RP)的目标检测方法便成为主流[3]。RCNN在公开的目标检测数据集PASCAL VOC上取得远高出视觉匹配算法准确率的成绩,为后续基于RCNN的目标识别算法打下了基础,但由于图像的RP过多,造成的特征提取时间过长是它的一个缺陷。微软亚洲研究院针对RCNN的不足,提出了空间金字塔池化方法(SPP-Net),通过SPP-Net将RP转化为一个固定长度的特征,从而优化识别网络的实时性,但此方法对存储空间的要求较大[4]。GIRSHICK[5]针对RCNN网络的池化层和Softmax分类层进行了改进,提出了Fast RCNN网络,虽然没有提升目标识别准确率,但提高了目标识别的速度;REN等[6]在Fast RCNN基础上提出了Faster RCNN网络,将RP提取过程放到GPU上实现,这样不仅提高了RP提取的准确性,还提高了实时性。

虽然目前流行的深度学习目标识别方法是基于RCNN的方法,但其实时性普遍较差;而基于回归的深度学习方法从输入图片中回归出目标的位置并进行分类,少了候选区域提取这一步骤,使得实时性大大提高[7],显现出了基于回归的深度学习方法的优势。REDMON等[8]提出YOLO网络,将目标识别问题转换成回归问题,使得识别速度大幅提升,但准确率不高;LIU等[9]在2016年结合回归理论和VGG-16网络提出了单级多区域检测(Single Shot MultiBox Detector,SSD)网络,SSD网络采用了单级检测网络端到端回归的思路,不同于基于候选区域提取的目标检测算法,SSD网络直接预测边界框的坐标和类别,省去了生成候选区域的步骤,因此使得算法实时性得到了保证,此外,SSD网络保留VGG-16的前5个卷积层,将最后的2个全连接层转化成卷积层,再额外增加4个卷积层,使得实时性有了较大提高,但存在的问题是对小目标的识别精度不高。

基于上述考虑,本文利用SSD网络对着舰标志进行识别,SSD网络采用前馈卷积网络将整个检测过程整合在一个网络中实现,使得实时性有了较大提高;然后,对SSD网络进行了改进,从而提高检测精度;最后通过仿真实验验证了本文算法的有效性。

1 SSD网络

SSD网络如图1所示。

图1 SSD网络结构图Fig.1 SSD network structure

采用单级结构卷积神经网络对图像进行识别时,需要对特征图内生成的候选框直接进行检测,候选框内一般包含4类样本,如图2所示。

图2 4类样本示意图Fig.2 Schematic diagram of four classes of samples

候选框中存在的大量负样本带来了类别不平衡问题,即在训练过程中,简单负样本有效信息少,使得卷积神经网络训练效率过低,同时简单负样本数量过大,使得卷积神经网络的检测效果降低[10]。SSD网络采用难例挖掘解决了类别不平衡问题,以正负样本3∶1的比例按对应分类置信度的排序结果对负样本进行筛选,从而优化训练过程。在训练阶段,SSD网络首先会对训练数据进行数据集增强,然后生成候选框,在正样本训练中会将候选框与真实边框进行匹配,由于一个真实边框可能会存在多个候选框与之对应,将在训练中实际选择的候选框称为预测边框,因此,基于损失函数将预测边框最大可能地回归到真实边框,损失函数是位置损失和置信度损失的加权和,即

(1)

置信度损失为

(2)

位置损失为

(3)

在预测阶段,SSD网络直接预测每个候选框的分类置信度和目标位置偏移,再通过非极大值抑制方法对候选框进行合并从而得到最终的结果。

相较以Faster-RCNN为代表的基于候选区域的深度学习网络而言,SSD检测网络检测速度快、实时性好;相较同样基于“端到端”的YOLO检测网络而言,SSD检测网络融合了单级检测网络和端到端网络的优点,能够充分利用具有不同尺度的特征图预测边界框的类别置信度和位置偏移,从而较好地改善了检测精度。但总体来看,SSD的基础网络VGG-16在进行特征提取的过程中,使得特征图的分辨率缩小了若干倍,从而使目标位置信息也产生了较大的损失,因此造成SSD检测网络对小目标检测效果较差。

2 SSD网络的改进

针对SSD网络对小目标识别准确率低的不足,采用准确率更高、速度更快的深度残差网络代替VGG-16网络,然后采用特征金字塔网络结构改进传统上采样结构,将检测网络的高层语义信息融入到低层特征信息中,从而能够丰富预测回归位置框和分类任务输入的多尺度特征图,进而提高检测精度。

2.1 基于深度残差网络的SSD网络结构

在SSD网络中,随着VGG网络层数的加深,网络会出现退化现象,即训练集的准确率出现饱和或者下降。为此, HE等[11]提出了一种深度残差网络(ResNet),通过拟合残差映射的方式在前向网络中增加一些跳跃连接,将初始数据直接传送到后面的网络层,新增的跳跃连接并没有增加模型的复杂度,从而能够提高检测网络的正确度和速度。根据连接结构的不同,ResNet发展了多个不同版本,采用ResNet101代替VGG-16网络,网络结构如图3所示。

图3 基于ResNet101的SSD网络Fig.3 SSD network based on ResNet101

前半部分的Conv3_x和Conv5_x层为ResNet101的卷积层,后5层是SSD的扩展卷积层,SSD检测网络直接将此7层的特征图输入预测模块中并进行回归和分类。

2.2 预测模块

图4所示为SSD网络和ResNet网络的预测模块。

图4 SSD网络和ResNet网络的预测模块Fig.4 Prediction modules of SSD and ResNet network

SSD网络预测模块如图4(a)所示,采用直接提取网络的多尺度特征图来做预测,而深度残差网络的预测模块采用图4(b)所示的方式对特征图进行处理,通过提升每个子任务的表现提高正确率。

2.3 FPN网络模块

在用于目标识别的各种卷积神经网络中,低层网络语义特征信息少,但目标位置准确,而高层网络正好相反,其语义特征信息较详细,但目标位置准确度较差。初期的目标检测算法大多只采用顶层特征做预测,2017年LIN等[12]提出特征金字塔(Feature Pyramid Network,FPN)网络结构,利用高层的特征补充低层的语义,从而得到髙分辨率、强语义的特征,进而提升小目标检测能力,如图5所示,其中,2×up表示2倍上采样。

图5 特征金字塔网络结构Fig.5 Structure of feature pyramid network

按照FPN的方式在ResNet上搭建网络模块,加入3个批标准化层、3个卷积层和1个反卷积层,卷积层用来保证网络的稳定性,反卷积层用来持续增加特征图的分辨率,如图6所示。

2.4 改进的SSD网络结构

在采用ResNet101代替VGG-16网络的基础上,将SSD的预测模块也相应改进为性能更优的ResNet网络预测模块,然后采用FPN网络结构对高层特征与低层特征进行融合,丰富了低层网络的特征和语义信息,从而提高了SSD网络对小目标的检测准确率,网络结构如图7所示。

图7 改进的SSD网络结构Fig.7 The improved SSD network structure

3 仿真实验

3.1 建立着舰标志图像数据集

基于深度学习的目标识别方法需要数量庞大的数据集对卷积神经网络进行训练,现有的成熟数据集均没有本实验需要的着舰标志图像,因此需要自建数据集以满足卷积神经网络的需要。建立数据集时需考虑以下两个方面:1) 目标所处场景,建立数据集应考虑无人直升机着舰实际面临的复杂场景,包括不同的光照、天气和遮挡等条件;2) 目标自身多样性,要充分考虑到着舰标志图像的不同角度、距离等因素。

通过机载相机对着舰标志进行拍摄采集数据,数据集包括训练集和测试集,训练集包含图片3652张样本,测试集包含图片320张。基于SSD网络的着舰标志识别在对网络进行训练时需要包含目标信息的图片,因此,需要对每一张样本图片中目标的区域、类别以及左上角和右下角坐标进行人工标注,并制作成PASCAL VOC数据集的标准格式,数据集部分样本如图8所示。

3.2 网络模型训练方法

本节采用谷歌开发的TensorFlow作为深度学习框架,在TensorFlow框架下,首先进行初始化,采用着舰标志数据集和测试集训练一个原始的SSD网络模型;然后将SSD的基础网络由VGG-16替换为ResNet101[13],利用数据集训练改进SSD网络模型的反卷积分支,不固定网络参数,只训练FPN网络模块,然后添加预测模块,取学习率分别为10-3,10-4和10-5时依次迭代4000次、2000次和1000次;最后对改进的SSD网络所有层级一起调优。

因此,对改进的SSD网络模型进行训练一共分为3个步骤:1) 训练SSD网络模型进行初始化;2) 训练反卷积分支;3) 模型总体调优。

3.3 着舰标志识别流程

改进的SSD网络模型在用着舰标志数据集训练完成后,着舰标志识别主要以机载相机拍摄的图片为输入对象,主要流程包括:首先对输入的图片采取规范化处理以适应SSD网络;而后SSD网络利用FPN逐级计算输入图片的候选区域置信度;然后对每级选择置信度前1000的特征图进行损失函数计算;之后再利用SSD网络进行分类;最后输出着舰标志的识别结果。整个流程如图9所示。

图9 着舰标志识别流程Fig.9 The process of the carrier-landing mark identification

3.4 实验结果分析

首先采用制作好的数据集对改进的SSD网络进行训练,然后在实验数据集上进行测试,结果见图10。

图10 SSD网络和改进后SSD网络识别效果图Fig.10 The effect of the traditional and the improved SSD network

图10中,图10(a)、图10(c)为SSD网络识别效果,图10(b)、图10(d)为改进的SSD网络识别效果,模型的预测框如绿色边框所示,框中数据表示预测的目标类别和对应的置信度,由于本文实验的目标只有着舰标志,所以目标类别只有一种。由测试结果可以看出,改进的SSD网络与原SSD网络对比有如下几个特点:1) 预测框与着舰标志更加匹配;2) 当着舰标志在图像中是小目标时能够较好地检测到着舰标志;3) 提高了着舰标志识别的置信度,降低了误判的概率。通过对比不同场景进行测试,结果表明,改进的SSD网络具有较强的鲁棒性,能在对实时性影响不大的前提下,有效提升对着舰标志的识别精度。

4 总结

在无人直升机自主着舰的应用背景下,鉴于深度学习在图像识别领域的优势性能,针对较为复杂的着舰环境和着舰标志设计,本文基于改进SSD网络模型对着舰标志进行了识别。针对SSD网络对小目标识别率低的缺点,基于深度残差网络和特征金字塔网络结构对SSD网络进行了改进,采用ResNet101代替VGG-16网络,并采用特征金字塔网络结构改进传统上采样结构,将检测网络的高层语义信息融入低层特征信息中,仿真实验说明,改进的SSD网络鲁棒性良好,能在对实时性影响不大的前提下有效提升对着舰标志的识别精度。

猜你喜欢
实时性网络结构标志
当代标志设计的创意构思和发展趋势
多功能标志杆的使用
快递网络结构研究进展
基于AutoML的保护区物种识别①
首都的标志是只熊
航空电子AFDX与AVB传输实时性抗干扰对比
计算机控制系统实时性的提高策略
可编程控制器的实时处理器的研究
基于时效网络的空间信息网络结构脆弱性分析方法研究
基于互信息的贝叶斯网络结构学习