基于注意力感知的RGB-D显著性检测

2023-02-21 13:17刘云翔
计算机工程与设计 2023年2期
关键词:模态显著性特征

李 琦,戴 蒙,张 晴,刘云翔

(上海应用技术大学 计算机科学与信息工程学院,上海 201418)

0 引 言

当进行一个复杂场景(前景与背景极度相似、图像中有多个对象)的显著性检测时,仅仅靠基于红绿蓝三通道的彩色图(RGB)进行输入的模型并不能得到一个很好的效果,这时往往需要使用可以反映空间结构的深度图(Depth)对输入进行补充。为了有效地对RGB图和Depth图进行跨模态的融合,Chen等[1]提出了一种多尺度残差粗预测的RGB-D显著性检测算法。Feng等[2]在每个阶段提取RGB特征,然后将其与深度特征相结合。Ji等[3]提出一种协作学习框架用来计算显著性检测。

上述方法虽然在显著性检测中有了很好的效果,但仍然存在一些不足。首先,他们未考虑RGB图与Depth图模态之间的差异性,只是通过简单的相加或通道串联。虽然深度图可以对显著区域进行更好的定位,但质量较差的深度图反而会给检测的结果带来负面的影响。另一方面,即使有少数研究会考虑图像中这些干扰因子的存在并提出了抗干扰模块,但他们往往又会忽略经过抗干扰模块后的特征总会丢失一些原始信息。

针对上述问题,本文基于注意力机制设计了一个新的用于融合特征的跨模态融合模块。由于随着卷积神经网络深度的增加,高低层关注的信息侧重点会有不同,本文将跨模态融合模块嵌入进了整个编码-解码网络结构中,与其它8个最近发表的先进模型相比,在多个评价指标上,本文的模型在5个被广泛使用的公开数据集上取得了较好的检测效果。

1 相关工作

在过去的几十年时间里,研究人员针对显著性检测开创了很多方法。但在早期,研究人员的注意更多是放在利用传统方法来计算局部区域的显著性。比如,Zhu等[4]提出一种基于亲和图学习和加权流排序的自底向上的检测方法,通过图像数据自表示无监督学习来学习亲和图。Zhu等[5]则提出使用哈里斯角点来定位前景实体,通过先验图获得原始显著结果,再将其优化得到显著图。Niu等[6]提出了基于超像素连同先验的显著性目标分割法。但是,这些方法对于高级的语义信息总是无法精准捕获,而基于神经网络的显著性检测算法则很好弥补了这一点。Yi等[7]基于神经网络设计了自顶向下的网络结构用以捕捉多尺度的语义信息。Wu等[8]提出使用前景边界信息以及其轮廓信息来进行显著性检测。但这些方法都是单纯基于RGB图进行单一输入的检测方法,没有使用具有其它额外信息的深度图进行显著性检测。

深度特征包含了大量的上下文与语义信息,能反映出物体的空间布局,合理运用深度图进行显著性检测将会给检测效果带来极大的改善。因此,研究人员开始尝试将RGB与Depth一同输入进检测模型进行显著性检测。Han等[9]设计了一个端到端模型,使用完全连接层来得到最终结果。最近,Zhao等[10]设计了一个单流网络实现RGB图和Depth图的早中期融合,针对深度图设计了深度增强双注意力模块进行有效滤波。Zhao等[11]基于RGB与Depth串联进行侧输出获取显著性结果。

与上述方法不同,本文主要研究基于编码-解码的双流结构如何有效地进行跨模态的融合。本文通过分层网络来级联解码,自顶向下地对每个侧输出进行监督。同时通过不同模块间的整合来实现高效的跨模态融合操作。

2 本文方法

本文提出的模型结构是如图1所示的编码-解码结构双流结构。编码器部分由两个VGG-16特征提取网络组成,用于跨模态的特征提取。我们采用分层融合架构来融合多尺度特征并进行侧输出预估计。在这一部分,将给出本文所用融合方法的具体操作。

2.1 网络结构

如图1所示,RGB图和Depth图分别单独输入进两个一样的主干分支网络。为了提高模型的计算效率,本文使用层数较浅的VGG-16作为主干分支网络来提取相关特征。因为VGG-16主干分支网络是5个块,本文取每个块的最后一层卷积层所提取到的特征进行跨模态的特征融合操作。RGB流用来提取图片的主要特征信息,比如颜色、位置或其它低级特征和其它高级的语义信息以及上下文特征等。Depth流主要捕获空间信息以使得显著性的检测更加准确与完整。为了将二者更好地融合,本文在融合阶段设计了跨模态融合模块,其中包含的特征增强模块通过两个并行的注意力机制来增强特征。同时在跨模态融合过程通过特征融合模块来实现信息间的互补。主干分支的每个结果都会进行解码侧输出,同时,为了更好地联系多层次特征、捕捉全文信息,解码后的结果还会自顶向下式地传递进相邻块的解码器中。

2.2 特征增强模块

由于不同模态的属性差异以及深度图的质量总是参差不齐,单纯地对RGB与Depth进行等权值相加或串联不能够有效地挖掘出两者的互补信息并加以充分地运用。为了提高RGB与Depth的兼容合并性,以及实现对不必要信息的过滤,本文在跨模态融合模块里设计了一个特征增强模块。其主要通过两个并行的注意力机制即空间上的注意力以及通道上的注意力来增强特征并挖掘重要信息。

每个深度流的分层结果所出来的深度特征都首先会进入特征增强模块进行处理。其具体操作如图2所示,当深度特征输入该模块时,则对特征进行空间注意力和通道注意力操作,两个操作并行进行。

图2 特征增强模块的结构

(1)

(2)

考虑到两个注意力操作针对得侧重点各有不同,在空间上,一个侧重全局信息,一个侧重局部信息。所以,将并行得到的两个结果进行像素级相加操作来得到最终增强后的深度特征

(3)

(4)

2.3 特征融合模块

通过增强后的深度特征能更好地反映出空间布局等附加信息,为了更好地利用增强后的深度信息以及为了保证原始深度信息的不丢失和不同模态之间的调制。本文在跨模态融合模块里设计了一个特征融合模块,如图3所示。

图3 特征融合模块结构(FFM)

首先,使用增强后的深度特征去引导RGB信息,其计算如下

(5)

(6)

(7)

(8)

(9)

2.4 残差连接

为了保存原始的彩色信息,同时为了保证信息的完整与准确性,我们使用通过融合处理所获取到的特征作为残差信息来校正预测到的显著图

(10)

(11)

Pred5表示第五层的预测结果,De(*)表示解码操作,其主要是通过卷积与反卷积恢复图像的分辨率。为了更好联系上下文信息,本文将每层得解码信息进行级联操作

(12)

Contacat(*,*) 表示通道串联操作,其中i=1,2,3,4。

2.5 损失函数

在训练阶段,我们对每个侧输出都进行了监督,整个模型的损失函数也由每个侧输出的损失函数构成

(13)

Lt表示每个侧输出的损失函数,t表示层数。Lt由两个常用函数构成,一个是二值交叉熵损失函数(binary cross-entropy,BCE),另一个则是交并比损失函数(intersection-over-union,IOU)

(14)

Lbce=ylogx+(1-y)log(1-x)

(15)

(16)

A表预测区域,B表真实区域。

3 实验结果

3.1 数据集与评价指标

数据集:为了验证整个模型的可靠性,本文参考文献[12~15],使用的5个数据集分别是NLPR、SIP、DUT-RGBD、STERE、DES。NLPR由十一种室内外场景的图像组成,其总共包含950张图像。SIP是最近才公开发布的一款数据集,它的设计主要是为了对图像中的人物做显著性检测,并且生成它的设备是一款高性能智能手机,整个数据集包含929幅图片。DUT-RGBD的图像大多具有很复杂的背景,其总共包含1200张图像。STERE包含了1000个具有显著对象遮罩的图像,是一个立体显著性分析的基准数据集。DES则是由135幅室内图像组成。

评价指标:本文使用了5个评价指标来评估模型的整体性能。分别是,S-measure、F-measure、平均F-measure(avgF)、最大F-measure(mF)和绝对平均误差(MAE)。

S-measure主要评估显著图与二值真值图之间结构的相似性,其公式如下

S=αSo+(1-α)Sr

(17)

So表示对象感知,Sr表示区域感知,α是一个平衡参数,一般设为0.5。

F-measure主要计算二值化显著图的精度P和召回率R之间的加权平均值,其计算如下

(18)

β2是一个超参数,用来赋予准确率与召回率不同权重。使用文献[13,14]的设置,为了侧重精度的重要性,将β2设置为0.3。mF则是F-measure的最大值,avgF则是其均值。绝对平均误差评估在显著图与真值图之间所有像素的平均绝对误差,它的计算方法如下

(19)

T表示像素总数,si表示显著图像素,gi表示真值图像素。

3.2 实施细节

本文使用Pytorch实现所有的方法,并且使用NVIDIA 2080 Ti图像处理器进行处理。使用与文献[13]一样的数据进行训练。每个图像输入的大小是352*352,批量大小为4。

3.3 与先进模型比较

本文将模型与现阶段同样基于RGB-D进行显著性检测的先进模型进行了比较,包括UC-NET[14]、CPFP[15]、CMW[16]、DANET[11]、S2MA[17]、D3NET[12]、ICNET[18]、DCMF[19],本文使用可用的源代码或直接使用作者提供的显著结果图进行了以上模型的重新评估。其中,除CPFP是2019年所发表的模型,其它模型均是2020年公开发表的模型。

定量比较:基于上述5个指标的实验的详细比较结果列于表1中。可以看出,在SIP数据集上,本文使用的方法在5个指标上都明显优于其它方法,这说明对人物的检测上本文模型效果很优异。在mF指标上,本文方法在NLPR、DUT-RGBD与STERE上都取得了最好的效果。在NLPR数据集上,本文方法的5个指标效果都维持在前两名,其中F指标只比第一名低了0.0009。而在DUT-RGBD与STERE上,本文模型的5个指标都维持在前三名。在数据集DES上,指标F、avgF与MAE都处在了第三名,其中指标avgF比第二名低了0.0054,指标F比第二名低了0.0042,指标MAE比第二名高了0.041。本文还提供了所有比较方法在5个数据上的PR曲线,如图4所示。由PR曲线也可以看出本文方法的曲线几乎领先大多数方法或是与最佳方法持平,尤其是在包含大量人物图片的SIP和由立体图片组成的STERE和NLPR数据集上,这说明了更好利用深度信息的重要性。总的来说,通过表1和图4可以看出本文方法在精度方面具有显著优势。

图4 在5个数据集上的PR曲线比较

表1 在5种数据集上的性能比较

视觉比较:除了通过定量比较,本文还进行了更直观的视觉比较,在图5中展现了一些视觉比较结果。本文分别摘取了不同场景下的图像大物体、小物体、前背景相似等图像以验证方法的可靠性。如图5中第二行的椅子,其颜色与背景门非常相似。但本文模型依旧可以将椅子与背景门区分开,而其它模型则不能清晰地给出椅子的轮廓。如图5最后一行所示,较其它模型来说,本文模型对小物体的检测也很好,本文模型可以清晰地给出小物体的显著区域。总的来说,通过特征增强与特征融合,本文模型可以预测出“人”、“椅子”、“雕塑”等形状复杂的物体,同时能够比较准确且完整得对相似像素点进行分类。

图5 与经典模型的视觉对比效果

3.4 消融实验

为了验证本文中所设计的跨模态融合中注意力机制的有效性,本文进行了消融实验。因为在特征增强与特征融合的过程中都使用到了注意力机制,因此实验比较了在跨模态融合过程中不使用特征增强模块的模型和不使用特征融合模块的模型以及只使用残差连接(residual connection,RC)后的检测效果。遵循相同的实验设置,本文在部分数据集上进行了对比实验。实验结果见表2和图6。由表2可知,当在跨模态融合时同时使用特征增强与特征融合模块,其性能相较于只使用其中一部分的方法是最好的,这也验证了注意力机制的有效性。同时,通过视觉对比,可以验证3种方法的组合可以获得清晰准确的轮廓。

图6 消融实验视觉对比

表2 在两种数据集上的消融实验,√代表模型使用了该方法

4 结束语

本文研究了RGB-D显著性检测中的跨模态融合问题,设计了一个基于注意力机制的跨模态融合模块用以实现RGB信息与Depth信息的高效利用与互补。整个跨模态融合由3部分构成,分别是特征增强、特征融合与残差连接,它们的有效性通过消融实验得到了验证。本文将跨模态融合模块嵌入到以VGG-16为主干的编码-解码网络中,与现有的8个先进的模型相比,在5个公开的数据集下使用5种评价指标进行的实验结果表明,该模型的检测效果具有优越性。

猜你喜欢
模态显著性特征
根据方程特征选解法
如何表达“特征”
不忠诚的四个特征
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
抓住特征巧观察
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
车辆CAE分析中自由模态和约束模态的应用与对比
国内多模态教学研究回顾与展望