融合注意力机制的多尺度显著性目标检测网络

2022-08-09 06:59郭继昌汪昱东

西安电子科技大学学报 2022年4期

刘迪，郭继昌，汪昱东，张怡

(天津大学电气自动化与信息工程学院，天津 300072)

图像显著性目标检测通过机器视觉模拟人类的视觉特性来提取图片中最吸引人的区域或物体，忽略人们不感兴趣的区域。图像显著性目标检测在图像与视频压缩[1]、图像分割[2]、目标识别[3]等图像处理和计算机视觉领域具有广泛的应用。

近年来，卷积神经网络(Convolutional Neural Network，CNN)[4]在计算机视觉领域取得了突破性进展[5-6]。基于卷积神经网络的显著性检测方法有效提高了显著性目标检测的准确性，因此大量研究围绕基于卷积神经网络的显著性目标检测方法展开。ZHANG等[7]设计了一个特征融合网络Amulet，该网络可以产生较为精确的预测细节，但是这种粗糙的特征融合容易产生信息冗余和噪声干扰。CHEN等[8]在最深层的粗糙显著图后使用残差学习来细化显著性特征，该网络不仅可以减少参数量还可以保持预测精度。WANG等[9]使用金字塔注意力模块来对所有位置进行多次下采样和Softmax操作，以获得多尺度的注意力图来增强特征，该方法提高了显著图的质量，但是对噪声更敏感。张晴等[10]提出一种结合来自卷积神经网络不同卷积层多尺度特征信息的显著性目标检测网络，该网络的检测结果可以有效保留显著性物体边界。

尽管基于卷积神经网络的模型在显著性目标检测领域展现出了较大优势，但也仍然存在一些问题，主要表现在：(1)对于显著性目标检测任务来说，显著性目标在大小、形状和位置上存在很大的变化，然而卷积神经网络简单组合卷积层与池化层来提取特征的方法，可能难以有效地处理这些复杂的变化，如复杂的背景会对显著性检测结果造成干扰，从而无法进行有效的显著性检测；(2)在特征融合时，如果选取某些包含噪声的特征进行融合，那么集成的特征会使噪声传递到预测层，造成显著性目标检测不完整及边缘模糊，从而影响网络的检测结果。

注意力机制通过模拟人类视觉系统的方式可以从大量数据中快速且准确地捕捉最重要的信息。得益于其特征选择能力，注意力机制在计算机视觉领域中得到了广泛的应用。受注意力机制的启发，针对上述问题笔者提出一种融合注意力机制的多尺度显著性目标检测网络(multi-scale salient object detection Network combining Attention Mechanism，AMNet)。针对问题(1)，网络在编解码过程中连接相邻层的特征，将纹理、颜色、边缘等低级特征，物体形状等中级特征和表示语义信息的高级特征进行融合，以达到更好的多尺度特征融合的目的，并捕捉到图像中不同尺度的显著性目标，有效提高网络的显著性检测性能，并且网络使用了上下文特征提取模块提取不同感受野下的多尺度特征，以消除复杂背景的干扰，进一步提升显著性检测性能；针对问题(2)，在网络中融合注意力机制[11]，将低级特征输入空间注意力模块，高级特征输入通道注意力模块，用以增加重要信息的权重，有利于突出显示重要的边缘信息并使得显著性目标均匀显示，抑制噪声干扰。笔者基于成对的显著性数据集DUTS[12]对显著性检测网络进行训练，在ECSSD[13]数据集上进行测试。实验结果表明，所提网络能够获得高质量的显著性目标检测结果。

1 编码器-解码器网络结构

图像显著性目标检测旨在检测出图像中引人注目的物体，即对一幅图像中所有像素按照注意力进行分类，是一个逐像素预测的问题。编码器-解码器(Encoder-Decoder)网络结构能够接受任意尺寸的输入图像，并产生相同尺寸的输出图像，输入图像和输出图像的像素一一对应，并且支持端到端、像素到像素的训练。编码器-解码器的结构[14]如图1所示。

图1上半部分为编码器，下半部分为解码器，竖直箭头为拼接(Concat)操作，水平箭头为数据流方向。编码器部分通常由重复的卷积层级联构成；然而进行多次卷积和池化后会缩小图像的尺寸，最后输出的结果无法对应到原始图像中的每一个像素。为了从编码器的卷积特征图中得到与原始输入图像尺寸相等的输出图像，解码器采用了反卷积运算或上采样操作，恢复图像的细节和空间维度，即编码器部分以卷积神经网络为主体，降低特征的空间分辨率并增加特征维度，输出中包含丰富的语义信息；解码器部分以卷积层和反卷积层为主体结构，逐步恢复编码特征，并输出最终的结果。

基于编码器-解码器结构端到端训练、像素到像素训练的优势，在显著性目标检测工作中，很多显著性目标检测网络采用编码器-解码器结构为基准。例如，QIN等[15]提出了由一个编码器-解码器网络和残差优化模块组成的显著性目标检测与细化一体化架构，并使用了一种新的混合损失函数，所提网络能够有效分割显著目标区域，准确预测清晰的边界。PANG等[16]提出了以编码器-解码器为基础的聚合交互模块，在每个解码器单元中嵌入了自交互模块来消除尺度变化引起的类别不平衡问题。时斐斐等[17]提出了一种结合边缘特征，利用先验信息引导的编码器-解码器显著性检测方法，该方法可以产生更为可靠的显著性检测结果。

2 融合注意力机制的多尺度显著性目标检测网络

笔者提出一种融合注意力机制的多尺度显著性目标检测网络(AMNet)。AMNet网络结构如图2所示。

AMNet以U型编码器-解码器网络(U-Net[18])为基础，融合由通道注意力模块(Channel Attention Module，CAM)与空间注意力模块(Space Attention Module，SAM)组成的注意力机制和上下文特征提取模块(Context Feature Extraction Module，CFEM)，通过连接不同级别的特征，即利用相邻层的特征来提取多尺度信息，进行多尺度信息融合，以提高检测性能。对于给定的输入图像F∈RW×H×3，R为实数集，通过编码器-解码器显著性目标检测模型f可以映射为粗糙显著性图Mc=f(F)∈[0，1]W×H，在以上3个模块的共同作用下，得到最终的显著性映射图Mf。

2.1 网络结构

网络结构上，在编码与解码过程中连接相邻层的特征，以便于多尺度特征融合。为了进一步提取多尺度信息，在编码器和解码器中间加入上下文特征提取模块以便于捕捉到尺度不同的显著性物体并消除复杂背景的干扰。此外，由于低级特征会保留更多的空间及边缘信息，而高级特征包含更多的高级语义知识，能够更好地定位显著性目标。因此受注意力机制的启发，AMNet将浅层特征输入空间注意力模块，将高级特征输入通道注意力模块，目的是突出显著性目标的边缘与整体。通道注意力与空间注意力的连接方式可表示为

Mf=σ(Mc·C(fh)·S(fl)) ，

(1)

其中，σ为Sigmoid激励函数，Mc为网络初始特征预测结果，·为点积操作，C(fh)为高级特征经过CAM 后的结果，S(fl)为低级特征通过SAM后的权重结果，Mf表示预测结果。

使用批量归一化(Batch Normalization，BN)加速网络收敛，使用ReLU作为激励函数，并使用Sigmoid激励函数对输出结果进行处理，以保证输出图像的像素值保持在[0，1]之间。

2.1.1 通道注意力模块

通道注意力模块(CAM)利用特征的通道间关系生成通道注意图，该模块会为显著目标表现出高响应的信道分配更大的权重。通道注意力模块的结构如图3所示。

具体操作可表示为

Mc(F)=σ(MLP(PAvg(F))；MLP(PMax(F)))，

(2)

其中，F为输入特征，PAvg与PMax分别表示平均池化与最大值池化，与图3中的AvgPool和MaxPool相对应；MLP对应图3中的MLP模块；该模块为一个多层感知器(Multi-Layer Perceptron，MLP)，由卷积层和ReLU激活函数构成；另外，“；”为拼接操作，σ为Sigmoid函数，Mc(F)为该模块的输出。

首先对输入特征同时使用平均池化和最大池化，生成的两个压缩特征输入同一个MLP模块，该模块由两个卷积和一个ReLU激活函数组成；接下来分别对每个分支的输出权值进行线性变换，再将输出的特征拼接，经Sigmoid函数处理后得到的结果与输入特征相乘，得到通道注意力图。通道注意力模块让网络更加关注有效信息，如纹理复杂、颜色对比度低的显著性区域，这为处理场景复杂的图像提供了额外的灵活性。

2.1.2 空间注意力模块

空间注意力模块(SAM)是利用特征间的空间关系生成空间注意图。该模块可以指出在某一个通道里，哪一部分是更重要的信息。该模块以编码器提取到的低级特征为输入，目的是更加关注低级特征中的边缘信息。空间注意力模块的结构示意如图4所示。

具体操作可表示为

Ms(F)=σ(f7×7([PAvg(F)；PMax(F)])) ，

(3)

其中，F为输入特征，PAvg与PMax分别表示平均池化与最大值池化，f7×7表示卷积核为7×7的卷积操作，“；”为拼接操作，σ表示Sigmoid函数，Ms(F)为该模块的输出结果。

首先分别使用平均池化和最大值池化对输入特征图在通道层面进行压缩，得到两个一通道的特征，将其按通道维度拼接在一起，得到一个二通道数的特征图；再使用一个卷积核大小为7×7的卷积层对其进行卷积操作；最后进行Sigmoid操作，将得到的结果与输入特征相乘，得到空间注意力图。该模块使得AMNet检测到的显著性物体边缘更完整。

2.1.3 上下文特征提取模块

运用不同大小的卷积核进行特征提取来获取多尺度信息，该方法在计算机视觉任务中取得很好的效果。为进一步减少不同特征之间的上下文信息丢失，AMNet在编码器、解码器之间加入上下文感知特征提取模块(CFEM)，该模块可以进一步提取多尺度显著性信息。上下文特征提取模块的结构如图5所示。

CFEM融合4种不同尺度特征，分别是原尺度特征，经1×1卷积，3×3卷积以及3×3、间隔(dilation rate，r)为1的空洞卷积操作后的特征。与传统空间金字塔特征提取不同，CFEM加入了空洞卷积层，加入空洞卷积的优势是在不增加计算量的前提下增大感受野，让每个卷积输出都包含较大范围的上下文信息。将这4个尺度的特征拼接在一起，输出中会包含不同尺度特征图。在金字塔层级后使用 1×1 卷积核，目的是不仅能保持特征图中全局特征的权值，还可以将特征图降维到原来的大小，以便于作为解码过程的输入。

2.2 损失函数

损失函数由3部分组成，分别是二元交叉熵损失函数(Binary Cross Entropy Loss，LBCE)[19]、结构相似性损失函数(Structural Similarity Index Measurement Loss，LSSIM)[15]、一致性增强损失函数(Consistency-Enhanced Loss，LCE)[16]。

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，因此LBCE是二值分类和分割中最广泛使用的损失函数。其定义为

LBCE=-∑[GlogP+(1-G) log (1-P)] ，

(4)

其中，G∈{0，1}，为像素的真实标签(Ground truth)；P为该像素被预测成显著目标的概率。

结构相似性损失函数最初被用于图像质量评估，可以捕捉图像中的结构信息，是衡量两幅图像相似度的指标。边界感知显著性目标检测网络(Boundary-Aware Salient Object Detection，BASNet)[15]把其整合到显著性目标检测的损失函数中来学习显著性目标的结构信息。设x={xj∶j=1，…，N2}，y={yj∶j=1，…，N2}，分别是两个相对应且大小为N×N的图像块的像素值，并且这两个图像块分别来自于预测的显著图P与真实标签G。关于x和y的LSSIM定义如下：

(5)

其中，μx，μy分别表示x，y的均值；σx，σy分别表示x和y的方差，σxy是两者的协方差。C1、C2为常数，目的是为了避免分母为0，通常取C1=0.012和C2= 0.032。

为了均匀突出整个显著区域，并且更好地处理由于物体不同尺度造成的显著区域与非显著区域像素不平衡问题，使用了一致性增强损失(LCE)，定义如下：

(6)

其中，TP(True Positive)、FP(False Positive)、FN(False Negative)分别表示预测是正例且实际为正例、预测是正例但实际是负例、预测是负例但实际是正例；|·|为计算面积；FP+FN表示预测的显著性区域与标注区域的交集，而FP+2TP+FN表示显著性区域与标注区域的并集。当{P|P> 0 }∩{G|G=1 } =Ø时，即当预测结果与标签相差最大时，该损失达到最大值，此时LCE=1。该损失函数有助于解决预测的类内不一致和类间模糊问题，从而使得显著对象的预测边缘变得更清晰。

损失函数定义为这3类损失函数的总和：

L=λ1LBCE+λ2LSSIM+λ3LCE。

(7)

为了平衡3个损失的贡献，设定λ1=λ2=λ3=1。

3 实验结果与分析

为评估所提方法性能，基于DUTS数据集训练，在ECSSD数据集上测试并进行了一系列定性和定量实验。ECSSD数据集有像素级的标签，含有1 000张各种含丰富背景结构信息的图像，具有较高的参考性和测试价值。

实验框架基于UIE-Toolbox框架[20]搭建，使用Adam优化器来训练网络，选取学习率(learning rate，lr)为0.001，训练20个回合(epoch)后网络达到收敛。对网络进行微调，采用lr=0.000 1，epoch=10。

所有实验环境均采用Ubuntu16.04的设备环境，显卡为Nvidia GTX 1080Ti (11 GB)。

3.1 评价指标

采用F-measure值和平均绝对误差(Mean Absolute Error，MAE)两个指标评价检测效果。

F-measure值是准确率、召回率的加权调和平均值，计算公式如下：

(8)

其中，Pr为准确率，R为召回率，β为权重参数，取β=0.3。F-measure值越大，图像显著性目标检测效果越好。

平均绝对误差计算预测结果和真实标注之间逐像素的平均偏差，代表了检测结果的整体效果，计算方法为

(9)

其中，H和W分别为显著图的长和宽，G(x，y)为人工标注图(GT)在(x，y)处的真实像素值，S(x，y)为预测图在(x，y)点的像素值。计算所得平均绝对误差值越小，该方法所得预测图与真实标注图的差异越小，性能越好。

3.2 实验结果与分析

通过对比实验与消融实验来验证所提方法的有效性。为了进行公平的比较，实验通过相同的显著性检测数据集(DUTS)对5种显著性目标检测网络及AMNet进行训练，用ECSSD数据集进行测试，实验结果取平均值。

3.2.1 对比实验

将AMNet与其他5种具有代表性的网络进行比较，其中包括U-Net[18]、短连接深度监督显著性目标检测网络(Deeply Supervised Salient object detection with short connevtion，DSS)[21]、像素级上下文注意力显著性目标检测网络(Learning Pixel-wise Contextual Attention for Saliency Detection，PicaNet)[22]、基于池化设计的实时显著性目标检测网络(A Simple Pooling-based Design for Real-time Salient Object Detection，PoolNet)[23]、全局上下文感知的渐进聚合显著性目标检测网络(Glodal Context-aware Progressive Aggregation Network for salient object detection，GCPANet)[24]。指标结果定量比较如表1所示。

表1 不同显著性目标检测网络基于ECSSD数据集的指标对比

由表1可知，AMNet在数据集 ECSSD中针对MAE和F-measure值两个指标进行测试，并与其余5种网络对比，AMNet的显著性检测性能最好。其MAE和F-measure指标分别为0.044和0.908，与经典的编码器-解码器网络U-Net相比，指标性能分别提升了0.051与0.115；相比于图像显著性目标检测性能较好的网络(DSS、PicaNet、PoolNet、GCPANet)，MAE和F-measure指标分别有10%～54%和0.7%～1.19%的提高。

图6给出了ECSSD数据集上不同网络预测的显著图的视觉比较结果。对于第一行这类背景较为简单且前景和背景颜色对比明显的图像，6种方法均能较好地检测到图像的显著区域。但AMNet在各种复杂图像中表现更好：显著性目标和背景对比度低(第2行)的情况下，AMNet可以准确检测显著性区域；显著性物体边缘不规则(第3行)的情况下，AMNet的预测结果保留了很好的边缘特征；对于多个显著性目标(第4行)、具有复杂纹理的显著性对象(第5行)以及包含小尺寸显著性目标(第6行)的图像，AMNet均取得了较好的检测结果。

由对比可知，AMNet可以更好地处理各种背景复杂与不同目标尺度的图像，不仅可以均匀地显示出整个显著性对象，而且可以在各种场景下很好地保留显著性对象的边缘。综合分析对比实验结果，所提网络在处理复杂场景图像方面具有一定优势。

3.2.2 消融实验

采用改进的U-Net模型为基准(Baseline)，融合注意力机制(文中由CAM与SAM构成，记为CASA)与上下文特征提取模块(CFEM)。将AMNet与加入单个模块的网络预测的显著性检测结果进行比较，实验定量分析结果如表2所示。

表2 ECSSD数据集上不同模块组合消融研究

从表2可以看出，CASA与CFEM的联合应用与使用单个模块相比，不仅在F-measure指标上得到了极大的提高，分别提升了约0.06与0.059；同时MAE指标也有所改善，单独应用CASA和CFEM的MAE值分别约为0.082和0.075，而联合应用两个模块后MAE指标约为0.044，MAE值分别减小了约0.038和0.031，表明所得预测图与真实标注图的差异变小，融入CASA和CFEM后网络的性能变得更好。

对比不同模块对预测结果的影响，图7给出了消融实验视觉效果对比图。

从图7中可以看出，AMNet可以均匀地显示出整个显著性对象，而且可以在不同背景下获得较为精确的显著性检测边缘。

4 结束语

针对显著性目标检测模型的检测结果容易受复杂背景干扰、检测结果边缘模糊等问题，笔者提出一种融合注意力机制的多尺度显著性目标检测网络(AMNet)。实验结果表明，AMNet在ECSSD数据集上依据MAE与F-measure两种性能评价指标与5种具有代表性的网络相比，在两类指标上都得到了更好的结果。在主观视觉上，AMNet不仅能够在复杂背景下准确检测到显著性目标且使显著性目标均匀显示，并且能够解决显著性目标边缘模糊的问题，提高显著性检测网络的性能。接下来的研究将更加关注网络的鲁棒性与泛化性，设计适合低质场景(如水下、雾霾、低光照等)的显著性目标检测网络，做更深入的、适合实际应用的研究