基于改进DeepLab-v3+的火星地形分割算法

2023-04-27 02:12鹏,凯*,
空间控制技术与应用 2023年2期
关键词:空洞注意力语义

周 鹏, 熊 凯*, 邢 琰

1.北京控制工程研究所, 北京 100194 2.空间智能控制技术国防科技重点实验室, 北京 100094

0 引 言

随着深空探测任务的飞速发展,星球巡视器成为人类探索和了解地球之外天体的重要手段之一.在深空探测任务中,巡视器距离地球遥远,与地球通信时延大,地面遥控实时性差.目标天体表面环境复杂,巡视器对其缺乏先验知识,为了保证探测任务顺利执行,迫切需要提高巡视器的自主能力[1].地形自动分割任务指巡视器利用敏感器获取的信息自动将不同特征的地形(如沙地、土壤、基岩、大岩石等)区分开来.准确的地形分割是巡视器进行避障、地形可通过性判断,以及自主路径规划的先决条件[2].实现地形自主分割能够提高巡视器的自主生存能力,延长运行寿命.

传统地形分割方法主要依靠特征工程,为了获得较好的分割结果,往往需要人为进行特征构造和特征提取.特征构造需要构造者深入理解数据样本,并从中提取足够的信息,难度较大.传统地形分割还存在过分依赖人工提取图像特征导致泛化能力不强的问题[3].对于地外天体而言,获取图像信息的代价巨大,样本数有限.目前研究表明,卷积神经网络[4]可以从图像中获取更高级的语义信息.基于深度学习的场景语义分割通常采用编码器和解码器的方式,即通过卷积神经网络获取图像不同尺度的特征,再将获取的特征经过解码器解码获得分割结果,实现端到端的学习.

当前基于深度学习的语义分割方法主要应用于自动驾驶、室内目标分割以及地理遥感[5]等领域.在地外行星表面地形分割任务中,深度学习方法的研究相对较少,除了样本难以获得以外,需要具有特定知识的专家对地形类别进行标注也是重要原因之一.以美国“好奇号”获取的火星图像为例,由于拍摄时间、地点以及角度等不同,导致这些图像中存在着光照不一致、比例不一致的问题.即使专家对图像进行标注也存在分类不一致、分割细节不一致的问题.

在本研究中,采用基于编码器-解码器的网络结构对火星表面图像公开数据集进行地形语义分割实现.编码器-解码器的结构主要采用DeepLab-v3+网络,考虑到巡视器上计算资源有限,在编码过程中,利用轻量化网络MobileNet对图像特征进行提取.为了提高地形分割精度,本文提出在DeepLab-v3+网络的基础上融入坐标注意力机制(coordinate attention,CA)以及对网络中的空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块进行优化.

本文主要章节结构为:第2节中介绍语义分割相关研究现状,第3节主要阐述针对火星地形分割任务提出的网络结构,第4节重点分析实验结果,第5节对全文进行总结.

1 研究现状

1.1 图像语义分割

图像语义分割作为计算机视觉领域的基本任务之一,主要解决对输入图像进行像素级分类,使图像划分为一系列具有语义信息区域的问题.传统的图像分割方法主要有阈值分割[6]、k-means聚类、支持向量基[7](support vector machine,SVM)、马尔可夫随机场[8]和条件随机场[9]等方法.随着深度学习领域的发展,以深度神经网络为基础的语义分割方法往往能在图像分割任务中获得最高准确率,展现出其分割性能的优越性[10].卷积神经网络(convolutional neural network,CNN)作为深度学习中的经典网络架构之一已经在计算机视觉领域发挥出重要作用.目前图像语义分割领域中基于卷积神经网络的模型众多,但这些模型中的骨干网络基本一致.所谓的骨干网络指的是进行特征提取的网络,一般用于前端提取图片信息,生成特征图,供后面的网络使用.常用的骨干网络有AlexNet[11]、VGGNet[12]、ResNet[13]、GoogLeNet[14]、MobileNet[15]等.全卷积神经网络[16](fully convolutional network,FCN)的提出意味着卷积神经网络首次应用在图像语义分割任务上.FCN的核心思想是将图像分类网络中的全连接层替换为反卷积层用来恢复特征图的尺寸,以此实现图像中每个像素点的分类.针对医学细胞分割问题提出的U-Net[17]中采用特征图拼接方法,在小样本集上实现了有效分割.SegNet[18]采用编码器-解码器结构,并提出反池化上采样方法减少模型参数.PSPNet[19]的核心思想是提出金字塔池化(pyramid pooling)模块,用以结合图像中的多尺度信息.DeepLab系列[20-23]网络经过多代发展,最新版本为DeepLab-v3+[23],该网络保留了前几代网络结构中的优点:1)利用空洞卷积扩大感受野.2)使用ASPP模块进行特征提取.同时,与前几代相比,DeepLab-v3+融入了编码器-解码器结构,使得整个网络的分割性能更优.

1.2 地形分割

地形分割作为语义分割的子集,重点在于分割出输入图像中的不同地形.地形分割深刻地影响着星球巡视器自主避障、路径规划、地形可通过性判断以及地外样本采集等任务的执行.美国喷气推进实验室(jet propulsion laboratory,JPL)为“好奇号”开发的SPOC-G软件[24]中利用卷积神经网络对地形进行分类,并在此基础之上结合地形坡度,实现对“好奇号”的滑移预测.相较于传统的地形分割方法,深度卷积神经网络通过感受野的方式来观察一个像素点周围的特征,并且能够自主学习复杂而有效的特征表示方式,不再需要人为设计特征.IWASHITA等[25]在U-Net和DeepLab网络的基础上提出了TU-Net和TDeepLab网络,利用地形可见光图像和热图像训练出对光照条件鲁棒性更强的地形分割网络.改进网络中的参数量更大,同时依赖较高分辨率的热图像,并不利于在巡视器上部署.LI等[26]将研究对象缩小到从地形中分割出岩石,利用已有的火星图像训练改进U-Net网络,实现对岩石的语义分割.GOH等[27]提出了一种用于火星地形分割的半监督学习框架.该框架以无监督方式在未标注图像上训练深度分割网络,再使用少量标注好的样本对网络进行微调,从而实现高精度地形分割.半监督学习框架充分利用了未标注的样本,但是在无监督训练过程中对样本的批大小(batch size)敏感,要想得到好的分割效果往往需要一个批次(batch)样本中具有数千个样本,这显然不适合资源有限的情况.除此之外,整个框架的骨干网络为基于两倍宽度的ResNet-50,导致神经网络的参数量庞大,不利于在巡视器上部署.

2 网络结构

2.1 编码器-解码器结构

DeepLab-v3+网络在语义分割方面具有优秀的性能,并且整个网络架构简单高效,如图1所示.网络编码器部分通过骨干神经网络对图像进行有效的特征提取,再经过ASPP模块增强网络获得多尺度上下文的能力.解码器部分经过通道拼接的方式融合编码器提取的浅层特征和深层特征,并利用上采样将特征图像恢复到输入图像尺寸,实现像素点级语义分割.基于上述优点,本研究在DeepLab-v3+的框架之下提出适用于火星地形分割的网络.

图1 DeepLab-v3+网络结构图

2.2 骨干网络

考虑到巡视器上的计算资源有限,不适合过大的网络结构,本文采用轻量化网络模型MobileNetV2[28]作为骨干网络.MobileNetV1中大量采用深度可分离卷积(depthwise separable convolution).深度可分离卷积包含2个部分,首先对每个通道分别进行深度卷积(depthwise convolution,DW),不改变卷积前后的通道数,再利用1×1卷积核进行逐点卷积(pointwise convolution,PW)得到需要的特征图.相较于标准卷积,深度可分离卷积的参数量有明显下降,但是特征提取的效果并没有明显降低.MobileNetV2在深度可分离卷积的基础上提出倒残差(Inverted residual)模块.如图2所示,倒残差模块第一层采用逐点卷积(PW)对特征图通道进行升维操作,第二层采用深度卷积(DW)分别获取每个通道的特征图,第三层再次采用逐点卷积(PW)对特征图通道进行降维操作.当深度卷积(DW)的步长等于2时,输出特征图的分辨率是输入图像的1/4,取代了传统深度卷积网络中使用池化层进行下采样的方式.

图2 MobileNetV2中基本网络结构块

Google团队提出的MobileNetV2中对特征图像进行了5次下采样,本文结合DeepLab-v3+结构,对MobileNetV2网络结构进行改进,改进后的结构如表1所示.表中,操作中的conv2d表示标准卷积操作块,t表示基本网络块中通道升维的倍数,c表示模块输出图像通道数,n表示模块重复次数,s表示模块中卷积操作时的步长.表格中结构,当s=2,n>1时,表示n次重复的结构块中,第一个结构块的s=2,其余模块的s=1.

表1 骨干网络结构

2.3 空洞空间金字塔池化

DeepLab-v3+网络中的ASPP模块包括一个1×1卷积层、3个不同空洞率(分别为6,12,18)的卷积核为3的空洞卷积层以及一个全局平均池化层共5个并行分支,其中空洞卷积能够在不改变特征图像分辨率的前提下增大感受野.对于卷积核大小为k,空洞率为r的空洞卷积,其感受野的大小为

R=(r-1)×(k-1)+k

(1)

当卷积核移动步长为1时,2个感受野大小分别为R1和R2的空洞卷积层级联所提供的感受野大小为

R=R1+R2-1

(2)

虽然空洞卷积能够增大感受野,但是如图3所示,空洞卷积相较于标准卷积更加稀疏.同等大小感受野的标准卷积和空洞卷积相比,空洞卷积会损失大量特征图的空间信息.

图3 不同空洞率的空洞卷积核

基本ASPP模块中,空洞率为6、12、18的空洞卷积感受野大小分别为13、25、37.由于3个空洞卷积为并联模式,因此该模块提供的感受野大小为

(3)

基于上述分析,本文借鉴DenseASPP[29]的方式提高ASPP模块对特征图特征提取的能力,改进后的ASPP模块如图4所示.

图4 改进ASPP模块结构图

假设输入特征图像的大小为C×W×H,C表示特征图的通道数,W表示特征图的宽,H表示特征图的高,模块中的全局平均池化层首先对特征图进行如下操作:

(4)

其中,zi为特征图第i个通道的特征映射量,xi(m,n)表示特征图第i个通道中坐标为(m,n)位置的元素.经过该操作之后特征图大小被压缩为C×1×1,再利用1×1卷积调整通道数到C′,最后使用双线性插值法进行上采样恢复特征图的尺寸.模块中的1×1卷积将特征图的通道数从C调整到C′,不改变特征图的尺寸,保留了原特征图的信息.模块中的空洞卷积增加了级联模式,使得空洞率为6、12、18的空洞卷积提供的感受野大小为

(5)

改进的ASPP模块通过密集连接,在增大网络感受野的同时,提高了图像中信息的利用率.此外,为了降低改进ASPP模块的参数量,在每个空洞卷积之前使用1×1卷积将通道数减半.

2.4 坐标注意力机制

注意力机制已经在卷积神经网络中广泛应用,其主要作用是提升神经网络的特征提取能力.所谓注意力机制是将人的感知方式、注意力的行为应用在机器上.在面对视觉任务时,各种特征并非同等重要,例如进行猫狗图像分类时,图像中的背景信息并不重要.为了让卷积神经网络能够自主关注图像中的重要信息,并且考虑到移动网络计算能力有限,目前比较流行的轻量级注意力机制有SE[30](squeeze and excitation)、CBAM[31](convolutional block attention module)和ECA[32](efficient channel attention).SE网络通过对每个通道的特征图进行全局池化,获得通道的全局信息,再将得到的向量输入全连接层,自动学习每个通道的重要程度,最终利用所获取的通道重要程度抑制特征图中不重要的通道、提升对重要通道的关注度.CBAM不仅考虑了特征图中各个通道的重要程度,还在通道维度上进行池化,获取特征图空间维度信息,将所获取的空间维度信息输入卷积网络,自动学习特征图空间维度的重要程度.ECA网络仅在SE网络的基础上,采用一维卷积层替换全连接层,依旧只提供特征图通道注意力.

坐标注意力[33](CA)是一种更为高效的注意力机制,主要包括坐标信息嵌入和坐标注意力生成两个步骤.如图5所示,输入特征图为X=[x1x2…xc],X∈RC×H×W,首先使用尺寸为(1,W)和(H,1)的池化核在输入特征图的每个通道上沿着垂直方向和水平方向分别进行编码.假设xi(h,w)表示特征图第i个通道中坐标为(h,w)位置的元素,则在沿着垂直方向进行编码的过程中,每个通道特征图大小变为H×1,位于第i个通道高度为h的输出为

图5 坐标注意力模块结构图

(6)

在沿着水平方向进行编码的过程中,每个通道特征图大小变为1×W,位于第i个通道宽度为w的输出为

(7)

经过上述池化操作,图像特征在垂直和水平2个空间方向上聚合,产生一对特征图,每个特征图都包含沿着一个空间方向的远距离依赖关系,并保存沿着另一个空间方向的精确位置信息.坐标信息嵌入特征图中有利于网络更精确地定位感兴趣的目标.

坐标注意力生成过程则是将坐标信息嵌入后的特征图进行拼接,利用1×1卷积调整特征图的通道数,如式(8)所示

f=δ(F1([zh,zw]))

(8)

式中[,]表示张量拼接操作,F1表示1×1卷积操作,δ为非线性激活函数,zh,zw表示坐标信息嵌入后的特征张量,生成的特征张量为f∈RC/r×1×(W+H),其中r为通道下采样率.再沿着空间维度将f分成2个独立的张量fh∈RC/r×H×1和fw∈RC/r×1×W,分别利用2个独立的1×1卷积Fh和Fw将特征向量fh和fw的通道数还原为C,如式(9)和(10)所示

gh=σ(Fh(fh))

(9)

gw=σ(Fw(fw))

(10)

式中,σ是sigmoid激活函数,从而得到注意力权重gh∈RC×H×1,gw∈RC×1×W.利用所得到的注意力权重对输入特征图X进行更新得到输出特征图Y∈RC×H×W,如式(11)所示

(11)

坐标注意力不仅能关注特征图通道之间的关系,还能利用坐标信息定位感兴趣的区域,使得模型的识别能力得到提高.

2.5 CA-DeepLab-v3+网络结构

本文提出的网络如图6所示,以MobileNetV2为骨干网络,将骨干网络中经过两次下采样得到的特征图作为浅层特征图、经过4次下采样后的特征图输入改进ASPP模块中输出深层特征图.利用1×1卷积调整浅层特征图通道数,并在此过程中嵌入坐标注意力(CA).将沿水平和垂直方向的注意力应用在通道调整的卷积网络之前保证了浅层特征图中保留有感兴趣区域的位置信息,再得到中间特征图.利用另一个1×1卷积调整深层特征图通道数并进行上采样操作,得到与浅层特征图一样大小的中间特征图.将获取的两个中间特征图沿着通道方向进行拼接,再利用3×3卷积对拼接后的特征图进行卷积获得初步预测图,并在此过程中嵌入坐标注意力(CA).将沿水平和垂直方向的注意力应用在预测的卷积网络之前,保证了输出的初步预测图在感兴趣区域(各种地形)上分割更加精确.最后将初步预测图进行上采样操作恢复到输入图像大小,完成对输入图像每个像素点种类的预测.

图6 本文模型框架

3 实验结果与讨论

3.1 数据集描述

本文研究主要基于第一个对火星地形进行大规模标注的公开数据集AI4Mars[34],数据集中的火星图像来自于“好奇号”的避障相机(NAVCAM)和桅杆相机(Mastcam).目前,为火星图像标注的计划在JPL的推动下仍在进行,其主要的方式是通过互联网平台依靠公众对火星图像进行标注.这些经过公众标注的图像再经过算法和人工验收审查提高质量.此外,数据集中还包括一个像素点种类由3个专家共同决定的小型“黄金标准”标注集.当前AI4Mars数据集中,数据集由16 386幅标注图像组成,所标注的地形有4类——土壤、基岩、沙地和大岩石.此外,图像中还存在大量的未标注区域.AI4Mars数据集还包括图像中出现距离“好奇号”超过30 m区域的掩膜以及“好奇号”车身的掩膜.在本文研究中,将未标注区域、远距离区域和车身一起看作为“其他”类.因此,整个“好奇号”火星车图像标注包含5类标签.如图7所示,为数据集中的典型地形图像及标注示例,其中没有被颜色覆盖的区域为“其他”类.

图7 AI4Mars数据集中地形图像和标注示例[32]

3.2 实验配置和评价指标

本文的实验硬件环境为Windows11,64位操作系统,CPU为Intel i5-12500H,内存16 G,显卡为NVIDIA GeForce RTX3060,显存6 G.软件平台为CUDA11.0,Cudnn8.0.5,Pytorch1.7.1和Python3.6.5.数据集中标注完成的图片按照9∶1的比例分成训练集和测试集.原图分辨率为1 024×1 024,经过下采样处理,输入网络的图像分辨率为512×512.实验参数如表2所示.

表2 实验参数

本文采用平均交并比(mean intersection over union,mIoU),频权交并比(frequency weighted intersection over union,FWIoU),像素精度(pixel accuracy,PA)以及平均像素精度(mean pixel accuracy,mPA)评估模型分割精度;以模型参数量的大小评价工程实用性.假设图像一共有k+1类标签(包含背景),pij表示属于i类,但被预测为j类的像素数量.平均交并比(mIoU)为

(12)

考虑每个类别像素量占总类别像素量的比例而得到频权交并比(FWIoU)为

(13)

像素精度(PA)为预测正确的像素点占总像素点的比例

(14)

平均像素精度(mPA)先计算每个类中被正确预测的像素比例,再对所有类求平均

(15)

3.3 实验结果讨论

基于AI4Mars公开数据集,分别训练U-Net网络、PSPNet网络、DeepLab-v3+网络以及本文提出的轻量化分割网络.训练过程中采用了迁移学习方法,骨干网络MobileNetV2、ResNet-50以及VGG-16的预训练模型均基于ImageNet数据集得到.训练时首先采用冻结训练,不改变骨干网络的权值,只训练骨干网络以外网络的权值.经过冻结训练之后,对整个网络权值进行训练,得到最终训练结果.为了提高模型的泛化能力,在图像输入网络进行训练时采用0.25~2倍的随机缩放,并且以一定概率随机进行旋转、翻转和高斯模糊等方式的数据增强.表3为不同算法之间的性能对比,从表中可以看出本文提出的算法相较于未改进的DeepLab-v3+算法在像素精度(PA)上提升0.2%、平均像素精度(mPA)上提升0.34%、平均交并比(mIoU)上提升1.07%、频权交并比(FWIoU)上提升0.36%.

表3 不同算法性能对比

本文提出的算法虽然在整体精度性能上不如以ResNet-50、VGG-16为骨干网络的算法,但是在参数的数量上以及计算量上要远远小于这些大型网络结构.同时,CA-DeepLab-v3+网络的计算量和参数量略低于以MobileNetV2为骨干网络的DeepLab-v3+网络.虽然CA-DeepLab-v3+网络在DeepLab-v3+网络的基础上增加了注意力机制模块以及采用了密集连接的形式改进了ASPP模块,但是为了降低改进ASPP模块的参数量,在ASPP中每个空洞卷积之前使用1×1卷积将通道数减半,当通道数足够多时,使得整体参数量和计算量少于未改进的网络.此外,在平均像素精度(mPA)上本文算法甚至优于以ResNet-50、VGG-16为骨干网络的U-Net网络.目前地外探测巡视器上计算资源有限,以牺牲较小的精度换取更小的模型参数量十分可取.综合来看本文提出的算法在工程上具有竞争力.

为了进一步探究改进ASPP模块(即ASPP+)和CA模块对CA-DeepLab-v3+网络模块地形分割能力的提升效果,本文进行了如表4所示的消融实验.从表4中可以看出在没有CA模块仅有ASPP+模块时,相较于未改进的DeepLab-v3+网络,在分割精度指标mIoU上有0.74%的提升.在没有改进ASPP模块仅有CA模块时,相较于未改进的DeepLab-v3+网络,在分割精度指标mIoU上有0.95%的提升.当两种改进同时存在时候,相较于未改进的DeepLab-v3+网络,在分割精度指标mIoU上有1.07%的提升.显然CA模块和ASPP+模块对网络分割精度提升均有贡献,但是CA模块的贡献更大.此外,从计算量和参数量的角度来看,增加CA模块肯定会导致网络的参数量和计算量增多.至于ASPP+模块,由于其在每个空洞卷积之前使用1×1卷积将通道数减半使得其参数量和计算量相较于ASPP模块下降.最终,ASPP+模块下降的参数量和计算量大于CA模块增加的参数量和计算量,导致CA-DeepLab-v3+网络不仅参数量和计算量要小于DeepLab-v3+网络同时网络分割精度也优于DeepLab-v3+网络.

表4 消融实验

众所周知,对于图像上像素级的地形分类具有一定主观性,不同标注者对于地形的认知不完全一致.AI4Mars数据集中为了尽可能保证地形分割的准确性,采用了比较保守的办法:多人标注一张图,再对获得的标注图像进行一致性检查,对于一致性分数低的标注图像,采用人工审查剔除不合格标注图像.获取多张较高质量的标注图像之后,对于图像上的某个像素点只有超过50%的标注图像在这一像素点上均为某一标签,此标签才会被接受,否则对该像素标上“未标注”的标签.因此,可以认为标签是准确的,“未标注”区域内有可能包含其他4种地形,此时提出的算法应该保证对于4种地形的召回率高.本文提出的算法对于4种地形的召回率如图8所示.从图中可知,本文提出的算法实现了较高精度的地形分割,除了在大石块地形的召回率为75%左右,在其他3种地形的召回率均高于89%.

为了验证本文提出的改进算法在分割细节上优于DeepLab-v3+,部分可视化分割结果如图9所示.对于第1张图,真实标注图中红圈区域主要为基岩,但是DeepLab-v3+网络将此部分主要分割为“背景”区域,而改进后的网络对于此处的分割明显优于未改进的网络.对于第2张图,真实标注图中红圈区域主要为沙地,DeepLab-v3+网络分割结果在红圈区域内有明显的“背景”区域,改进网络分割结果则将这些“背景”区域明确分割为沙地.对于第3张图,真实标注图中红圈区域主要为基岩.改进后的网络比DeepLab-v3+网络分割结果更接近真实标注图.因此,本文提出的网络在参数量和分割性能上均优于DeepLab-v3+网络.

图9 不同模型分割结果对比

4 结 论

本文针对火星表面地形分割问题,基于DeepLab-v3+网络基本结构设计了一个轻量化的语义分割网络CA-DeepLab-v3+.利用火星表面地形图像公开数据集AI4Mars对CA-DeepLab-v3+网络进行测试,证明了该网络在火星地形分割任务上对土壤、基岩、沙地和大岩石的召回率分别达到91%、92%、89%和75%.在实现对地形的精确分类之后,巡视器的自主场景理解能力得到提高,有利于巡视器执行地形可通过判断、路径规划以及样本采集等任务.本文算法在进行地形分割时,对于大岩石的分割性能不如其他几类地形.从样本层面来说,大岩石的判断需要考虑图像的深度信息,例如相同尺寸的岩石在较远距离视觉上会显得更小;从图像标注上来说,公开数据集中对大岩石的标注量远远小于其他三类地形.在下一步研究工作中,将融合图像深度信息以及三维地形信息实现对大岩石的准确定位和高度测量,提高网络对大岩石的分割性能.

猜你喜欢
空洞注意力语义
让注意力“飞”回来
语言与语义
“扬眼”APP:让注意力“变现”
空洞的眼神
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
用事实说话胜过空洞的说教——以教育类报道为例
认知范畴模糊与语义模糊
臭氧层空洞也是帮凶
语义分析与汉俄副名组合