引入反馈注意力的并行式多分辨率语义分割算法

2023-02-03 05:14孙红袁巫凯赵迎志

包装工程 2023年1期

孙红，袁巫凯，赵迎志

孙红，袁巫凯，赵迎志

（上海理工大学光电信息与计算机工程学院，上海 200093）

为了进一步提升语义分割精度，解决当前语义分割算法中特征图分辨率低下，低级信息特征随意丢弃，以及上下文重要信息不能顾及等问题，文中尝试提出一种融合反馈注意力模块的并行式多分辨率语义分割算法。该算法提出一种并行式网络结构，在其中融合了高低分辨率信息，尽可能多地保留高维信息，减少低级信息要素的丢失，提升分割图像的分辨率。同时还在主干网络中嵌入了带反馈机制的感知注意力模块，从通道、空间、全局3个角度获得每个样本的权重信息，着重加强样本之间的特征重要性。在训练过程中，还使用了改进的损失函数，降低训练和优化难度。经实验表明，文中的算法模型在PASCAL VOC2012、Camvid上的MIOU指标分别为77.78%、58.67%，在ADE20K上的也有42.52%，体现了出较好的分割性能。文中的算法模型效果相较于之前的分割网络有一定程度的提升，算法中的部分模块嵌入别的主干网络依旧表现出较好的性能，展现了文中算法模型具备一定的有效性和泛化能力。

图像语义分割；反馈式注意力；多分辨率

近年来，随着互联网人工智能的迅猛发展，计算机视觉不断地被应用于人们生活的方方面面，并持续地为人们带来各种便捷。图像语义分割则在计算机视觉的下游任务中占据十分重要的一环，可以说没有语义分割，计算机视觉的发展就不会有这么浩瀚宏大。图像语义分割简而言之，就是对图像中的像素点进行细致地分类处理，分成不同的区块代表着不同的语义[1]。

图像语义分割[2]也一路发展而来也并不是一帆风顺，以前传统的方法利用阈值法[3]和区域法等关注RGB、纹理这些低级特征[4]从而限制了分割精度的提升。自从全卷积神经网络[5]（Fully Convolutional Networks，FCN）被提出以后，语义分割至此进入了新阶段。VGG[6]由Simonyan等提出，通过不断堆叠3*3卷积核提升模型性能；2015年何凯明及其团队[7]提出的ResNet，借以在输入和输出之间增加残差连接，以提供恒等映射，这样改变信息传导的方式以至于后来的很多语义分割模型都以此为网络主干强化特征提取；同年Ronneberger等[8]提出了影响广泛的U–Net网络，它采用“U型”结构，在编码层上通过接连不断地下采样，压缩图像获取语义信息，在解码层恢复信息，取得了较好的效果，后来很多研究工作在编解码器上进行迭代和修改，目前被大范围地应用于各类医学图像分割。Chen等[9]创新性地提出了DeepLab，使用空洞卷积扩展感受野，搭配以完全连接的条件随机场（CRF），提高了模型捕获细节的能力；之后DeepLab相继推出V2、V3等，极大地提升了获得上下文关键信息的能力，分割性能节节攀升，但是这些方式也依旧带来了问题，即各种复杂的池化下采样操作不断降低特征图分辨率，过大的卷积核明显增加了网络复杂度，训练起来费时费力。

伴随着SENet[10]的兴起，越来越多的科研人员开始将注意力机制引入图像语义分割中企图可以生成密集的上下文信息。比如十字交叉注意力模块CCNet[11]，着重关注空间维度上的信息建模，同时考虑一个像素和全局像素之间的关系[12]，该算法也有效降低了时间和空间复杂度；之后各种注意力模块被相继提出，比如自注意力模块，叠加了通道和局部空间的双注意力，甚至多头注意力[13]等，对特征图的重要信息把握更加准确有效。

另外影响图像的语义分割的精度还在于对边缘信息的把控，也有诸多科研人员在这方面做了工作，即若存在某一个像素点与相邻像素点的灰度值产生较大的差异，那么该像素可能处于边缘地带。有人通过加强边缘轮廓部分的像素，来改善分割的效果。在常用的边缘检测中，借助微分算子进行卷积实现分割，简单且高效，并且不同的任务，可选择的边缘检测算子一般也是不同的，如Canny检测算子[14]等。还有很多诸如此类的将传统的分割手段和深度学习方式混合在一起的，这种定义方式有利于得到较好的分割效果，但是定义的过程也较为烦琐[15]。

尽管当前语义分割算法已经取得了一些较好的效果，但是由于算法设计过程中特征图分辨率低，信息特征丢失，上下文信息顾及不全的问题依然存在，导致最后的分割效果不太理想。文中提出一种新的并行式网络结构，并在其中融合了高低分辨率信息，尽可能多地保留高维信息，减少低级信息要素的丢失。同时还在主干网络中嵌入了带反馈机制的全维感知注意力模块，以此来获得每个样本的权重信息，着重加强样本之间的特征重要性。在训练过程中，还采用融合损失函数，降低训练和优化难度。经实验表明，文中的算法模型具有较好的分割性能。

1 文中方法

1.1 整体框架

文中提出的网络模型整体框架见图1，主要是由并行式结构、多分辨率融合模块、下采样模块和反馈注意力模块4个部分组成。分上下2部分来看，在上半部分，输入的特征图先经过并行式多分辨率融合的主干网络，输出得到O1；在下半部分，输入的特征图经过反馈注意力模块，输出得到O2，然后O1和O2在通道维度上进行concatenate拼接后经过线性分类器得到最终的输出Output。

图1 网络框架

并行式多分辨率的融合保证了高分辨率的图像信息完全保留，不像其他语义分割算法忽略低分辨率的图像信息特征，反馈注意力模块也保证了关注重要特征信息，这样的方式更加有利于图像分割的效果。

1.2 并行式多分辨率主干网络

在当下这个时间点，语义分割算法对输入图的分辨率要求越来越高。VGGNet的网络结构导致它最终得到的特征图（Feature Map）分辨率很低，空间的结构信息损失比较严重。此外，很多主干网络提升图像分辨率的方式都是先降低分辨率，再升分辨率，典型的有U–Net（见图2），或者通过引入编解码器（Encoder & Decoder）的结构，比如SegNet[16]（见图3）等。文中独特的并行式多分辨率网络摒弃了传统的串联卷积层的堆叠，以高低分辨率的并联辅以改进过的下采样模块和融合模块，很好地兼顾了高低维的特征信息。

图2 U–net网络

图3 SegNet网络

1.2.1 并行式网络结构

并行式网络结构（Parallel Network Structure，PNS）与传统串联式特征图堆叠不同但效果更好是因为在编码结构中，高分辨率转为低分辨率会造成像素信息的丢失和不完整。

在文中网络结构中，给出了3个stage，第个stage就包含行并列的分辨率不同的channel map。把每个stage的每行称为一个block。在2个stage之间，会产生一个分支的扩展，同分辨率的会直接进行平移复制到下一个stage，不同分辨率之间会进行融合模块的相互作用，并且任何一个较低分辨率图都来源于前一个高分辨率图的下采样（该模块后面会详述）和同分辨率图的平移复制。

第1个stage由高分辨率的特征图构成，里面拥有着丰富的语义信息，将保留的高维信息直接平移转到第2个stage，形成一个block分支，同时经过改进过的下采样模块，将高分辨率的channel map生成次分辨率的特征图和第2个block分支，而后在第2个stage中重复一样的操作，再生成更次分辨率，即更低分辨率的特征图。整个网络结构有3个stage，不仅能很好地保留高维信息，减少高分辨率图像像素的恢复过程，也不会随意丢弃低频像素的浅层特征（这恰恰是目前图像语义分割算法所忽略的），并且这样做减少了一定参数量的上升，由后续实验结果也可以看出，并行式网络结构相较于多层次编解码器式的串联结构运算量有一定的下降。

1.2.2 多分辨率融合模块

多分辨率融合模块（Multi Resolution Fusion Module，MRFM）特征结构见图4，它的作用就在于高分辨率图像[17]融合了更多的边界信息和空间位置信息，可以用于对低分辨率图像进行信息指导[18]和抽取，因此，不好好利用低分辨率信息甚至随意丢弃，对分割效果将会产生较大的影响。

与别的融合模块[19]不同的是，先对输入的高分辨率图和低分辨率图在通道维度上进行concatenate拼接，再进入Channel shuffle操作，为的是保证特征通信的作用，即不同组之间强化信息交流，提升特征提取能力，这里不采用密集逐点卷积（Dense Pointwise Convolution）的原因是模型计算较为复杂，带来了复杂度的上升，“交流能力”也并不突出。再采用全局平均池化（Global Average Pooling，GAP）取代全连接层实现降维，对其在通道维度上进行压缩，避免了全连接层出现过拟合，进一步提升网络的泛化能力，见式（1）。

(1)

式中：op为全局平均池化输出的函数；c为输入feature map的第个通道；和为输入的高和宽2个维度。

图4 多分辨率融合模块

接着左中右经过卷积层分别接续归一化（Batch Normalization）操作和激活函数。最后再经过1*1的卷积层和Swish激活函数生成分辨率较高的图像。这里选用Swish激活函数还是有一些好处的。它的表达式见式（2）。

1.2.3 下采样模块

下采样模块主要用于高分辨率向低分辨率转换的过程中，模块细化见图5。

一般在深层网络中，过多的下采样操作会不断压缩特征图，进而丢失重要的语义信息，这也是诸如编解码结构式网络普遍出现的问题。文中使用的下采样模块可以尽可能减少下采样带来的缺陷。首先，输入的高分辨率的图像经过平均池化（Average Pooling），卷积层，再进行归一化操作。另外，最右侧加了一层连接分支，添加了一个与卷积并行的单层SE（Squeeze and Excitation）模块，它包括2D均值池化和卷积层，以此来获取更大的感受野，压缩与激活操作对重要的信息赋予了更多的权重。最后，经过矩阵相乘，依旧通过Swish激活函数输出低分辨率图。这样的下采样模块在降低分辨率的同时，还能实现多尺度处理。

图5 下采样模块

1.3 反馈全局注意力模块

在进行一次的端到端的训练过程中，后面的信息无法对前面的信息采集过程进行干预和指导，当前面出现偏差时，后面也只能“将错就错”，难以修正，对输出结果造成一定的影响，此时反馈机制[17]应运而生。它最初的灵感来源于人脑会将眼前看到的信息回传到大脑，再通过大脑判断和预测后进行下一步动作。为了更好地留住空间与通道上的重要信息，文中创造性地提出了反馈注意力模块（Feedback attention module，FAM），见图6，意在将反馈机制引入空间注意力之中。

式中：O为经过归一化后的输出；为最终的输出特征；x为输入的样本特征图。

整个APM（见图7）中主要包含了3个种类的注意力分别是通道注意力机制（Channel Attention），带反馈的局部空间注意力（Local Spatial Attention with Feedback，LSAF）和全局空间注意力机制（Global Spatial Attention）。从通道到空间一体化的注意力机制对重要信息的把控更为专注，大幅提高网络特征信息提取的效率。以下详细叙述3种注意力机制的内部细节。

图6 反馈注意力模块

图7 注意力感知模块图

式中：BN（）为Batch Normalization；FC（）为全卷积层；GAP（）为全局池化操作。

2）带反馈的局部空间注意力（见图9）。这部分包含一个由密集连接（Dense connection）、上采样和下采样构成的反馈块。反馈机制中穿插了很多deconv层和conv层，以每个deconv层的输入是前面所有conv层的输出（红线），每个conv层的输入是前面所有deconv层的输出（紫线）来做concatenate拼接。其次，除了第1个group以外，在每个conv之前都加了1*1的卷积层，每个deconv之前也都增加了1*1卷积层，也即每次concatenate之后都要1*1的卷积来调整。最后，为了使输出更好一些，结合了所有conv层的输出（绿线）后，在2个1*1的卷积层之间串联一个3*3的卷积，以此来聚合局部的空间信息。另外在最前面的1*1卷积后引出一条跳跃连接（Skip Connection），使得未经过任何操作的图像的低级特征被引入其中，再叠加经过反馈机制后的高级特征，可以取得更好的效果。

式中：（）为Batch Normalization；为卷积操作，右上角的标代表卷积核的大小。反馈机制嵌入局部空间注意力之中，可以更加有效地增加信息的“重吸收”功能，更好地聚集空间的局部信息。

3）全局空间注意力（见图10）。空间注意力是对局部空间注意力的补充。运用的是1*1的卷积层和reshape函数的并行，用softmax调整输出大小尺度，重新reshape之后输出。

1.4 损失函数

1.4.1 关于交叉熵损失

交叉熵损失（Cross Entropy Loss）在计算机视觉中的应用是极其广泛的，尤其在下游的分类与分割任务中。交叉熵损失在单标签任务（二分类问题也包含在其中）中，即每个样本只能有1个标签，比如ImageNet（1个用于图像识别的数据集）图像分类任务，每张图片只能有1个固定的标签。

对于单个样本，假设真实分布为，网络输出分布为*，总的类别数为，则在这种情况下，交叉熵损失函数的计算方法见式（8）。在多分辨率融合模块中添加交叉熵损失函数可以较为准确地衡量Ⅰ区域和Ⅱ区域之间的相似性，从而抑制偏差，一定程度上减小了该模块训练的成本花销，有利于低分辨率的信息提取。

整个模型的损失函数由多分辨率融合模块和最终的输出组成，损失函数见式（9）。

其中(1)和(2)分别是多分辨率融合损失和最终的输出损失，和是权重系数，用于调节2种损失之间的权重比例，在后续实验过程中可以进行针对性的优化与调整使得分割效果更为精细，则交叉熵损失的公式为：

图10 空间注意力

式中：y为经过one–hot独热编码的向量表示；*为预测输出的概率分布。

本质上来说，交叉熵损失函数是一种类与类之间的竞争机制，善于关注并且学习类间信息，但是也存在问题，即它总是只关注正确标签预测正确的准确性，而对没有正确预测的就忽略了，这样学习的特征可能并不完善，后续也打算继续尝试修改交叉熵损失。

1.4.2 标签平滑

在分类与分割问题中（一般二分类问题中），把标签的one–hot编码（把对应类别的值编码为1，其他为0）和交叉熵损失结合起来调整参数时，过分信任标签会带来问题。对一个数据集来说，由于大家的目标任务和想法不同，标注的准则可能存在些许的偏差，一些对像素要求较高的如边缘信息的任务甚至会出现标注出错。模型对标签充分信任带来的后果就是有可能不同类别输出的分数差异很大，较容易造成过拟合。

将标签平滑机制引入交叉熵损失之中，即损失函数转化为：

式中：()为标准的交叉熵损失；为一个常数；为类的个数；为预测正确的类；为类的个数。

标签平滑这个手段本质上就是尝试在标签中加入适当的噪声，给模型“放松”，改善模型过度“自信”的表现进而尽力规避模型发生过拟合。经过实验，当将值调整到0.34左右，并且剔除部分标签指标，观察可以得到较好的分割效果。

2 实验及对比分析

2.1 实验设备及环境

该模型所需要的实验设备及环境参数见表1。

表1 设备环境及参数

2.2 数据集与评价指标

根据图像语义分割对分辨率的要求和场景，文中数据集选择的是Camvid、PASCAL VOC2012和ADE20K。

Camvid数据集是由剑桥大学发布的具有目标类别图片数据集合，他是从驾驶汽车的角度拍摄的，驾驶场景的复杂性显著增加了所需观察目标的多样性和差异性。PASCAL VOC2012也是语义分割常用公开数据集，包括人、动物、交通工具等，是由训练集、验证集和测试集3部分组成。ADE20K是MIT提出的，包括了室内室外、自然场景、单张场景等多种类别的场景数据集。

图像语义分割算法的评价指标，文中采用平均交并比（Mean Intersection over Union，MIoU）和参数量（Parameters）这2个指标。前者用于衡量算法模型的分割效果，后者则是用来计算该网络结构所需要的运算量，用于参考模型复杂度。

2.3 预训练与相关设置

文中的算法模型在用于分割网络之前，先用于分类网络进行预训练，即最后的输出仅包含高分辨率特征而不在通道维度上进行concatenate拼接的多分辨率融合操作。在训练过程中，把已经处理好的图片和标签送入到数据集（3种数据集）中进行训练，初始学习率（Learning Rate）为0.000 1，训练迭代次数设置为300。当损失函数的值越来越小，相应的学习率也逐渐变小。采用Poly学习率策略进行调整，当模型的损失函数波动越来越小，趋于稳定时结束训练，记录此刻模型的参数和结果。

2.4 实验结果与对比

2.4.1 模型中模块对比实验

文中实验模型主要是由并行式多分辨率融合与交互、反馈注意力机制等模块组成。为了验证上述2个主要模块对于图像分割效果的作用，利用Cityscapes数据集，在文中网络模型的基础上添加或者删除2个模块并对比分割效果。

表2中序号1代表仅采用并行式网络结构，并且head输出仅是高分辨率特征，与预训练的分类模型类似，序号2则是在采用并行式网络结构的基础上，高低分辨率融合，最后在通道维度上进行concatenate拼接，以高分辨率特征进行输出。序号3是在2的基础上加入文中的多分辨率融合模块（MRFM）；序号4则是在3上加入反馈注意力机制模块（FAM）。可以发现，在输出时叠加了各个通道维度的信息以后，对分割的效果是有提升的，同时，在引入了多分辨率融合模块后，分割效果的涨点也很明显，在参数量上有一定的增加，但是参数量的小幅增长是在可接受范围内的。另外发现反馈注意力机制能明显聚合通道信息和全局信息，在MIOU指标上有较大的提升，并且此时参数量增加也不多，是一个“性价比”很高的模块。

表2 模块数据对比

为了进一步验证反馈注意力模块（FAM）的泛化能力、可移植性和性能表现，抓住反馈注意力模块的“重点关注高级特征通道和空间信息”的特点，尝试将该模块引入主流的一些主干网络中。文中选取了2个主干网络分别是使用最广泛的ResNet（2015）和VGG式家族性能较好的RepVGG（2021）。将主干网络首先在ImageNet上进行预训练，利用动态学习率进行迭代后在Cityscapes上进行测试，表现效果见表3。

表3 反馈注意力模块实验

FAM在2个主干网络上都取得了较好的效果，具备较高的可移植性。在ResNet中，性能表现很好，即使面对轻量的CBAM模块，在参数量增加不多的情况下，却可以有效提升MIOU指标，原因是反馈模块的嵌入对被遗弃的低级信息进行“废料利用”很到位。再者，在面对RepVGG本身独特的卷积操作和训练技巧面前，反馈式注意力模块依旧可以有效涨点。

2.4.2 数据集下网络模型对比

为进一步验证文中提出的算法模型在图像语义分割算法上的有效性，分别在PASCAL VOC2012、Camvid和ADE20K数据集上与其他公开的算法模型进行了对比实验。将MIOU作为评价指标，观察统计效果，见表4。

表4 模型对比

从表4可以明显看出，在MIOU指标上文中模型相较于其他模型都有比较明显的涨点，在PASCAL、Camvid、ADE20K三大数据集上分别达到了77.78%、58.67%、42.52%。着重对比DeepLab V3和DMNet在VOC 2012和Camvid上的效果，文中模型相较于DeepLab V3有接近2%和3.2%的提升，对比DMNet也有3.32%和0.84%的涨幅。另外在面对ADE20K这个场景数据集下，文中模型、PASCAL和Camvid的指标成绩都不是特别好，但是文中模型依然有一定程度的提升，反映出文中模型具有很高的有效性和可行性。

为了更加清楚地说明文中模型在分割效果上的提升，将分割图、标注图、原图进行展示，并将文中模型分别与FCN、SegNet等网络模型的进行细节对比，对比效果见图11。图11中圈出来的即为效果显著的地方。

如图11所示，文中分别选取了FCN、SegNet、DeepLab V3、PSPNet这些网络与文中模型进行分割效果对比。在第1行中，文中模型左侧的垃圾桶、远处的蓝色自行车、右侧汽车轮胎部分以及边上的行人都分割得更加精细；在第3行中，汽车底部的轮胎和远处红色区域的黄色窗户也进行了有效的还原；第4行的模型胜在第2辆车的轮廓以及右上角树枝树干，展现出了部分细节的优势。

为了展现室内复杂场景下文中算法的优越性与可行性，在PASCAL VOC2012数据集上选取了人像和静物摆件2类图，见图12，分别与各大主流分割网络进行对比。第1张图中，FCN人像与桌子边缘破碎，右上角盆栽和电视边缘也出现分割还原不清楚，后面的几组网络均存在类似问题，而文中网络在桌子的边缘、绿黄2人的中间、盆栽底部以及电视正下方展现出较好的效果。对于第2行电脑桌面场景，SegNet甚至出现水杯没有分割出来的情况，其余网络模型也存在电脑周边分割不到位的地方，尤其是电脑底座难以分割还原完整，分辨率较低。这两者均被文中算法较为明显地分割出来（见图12中圆圈标注），边缘处已大幅度完整平滑，达到了原图90%的水准。由此可见，在文中算法中，维持高分辨率和反馈模块对分割效果起到了积极作用。

图11 部分分割效果对比图

图12 室内复杂场景分割效果对比

3 结语

文中对当下图像语义分割中存在的分辨率低导致的分割精度不够准确的问题，提出了并行式多分辨率融合的模型，专注以高分辨率信息指导低分辨率信息，减少像素信息的丢失，同时引入带反馈的注意力机制，注重通道和局部空间语义信息，保留更重要的特征信息。经过部分实验表明，文中模型在PASCAL VOC2012、Camvid等数据集上取得了较好的提升效果，实验效果优于DeepLab V3等常用分割网络，显著好于FCN、SegNet等网络，证明文中模型对语义分割存在一定的有效性和泛化能力。

尽管文中模型取得了较好的性能效果，但是依然存在一些问题，还有较大的提升空间。在一个好的图像语义分割算法中，分割精度高只是一方面，分割过程中的速度也尤为重要。关于分割速度，以后可以尝试使用轻量型网络，减少深层嵌套的卷积神经网络，尽可能在性能不衰减、效果不打折扣的同时减少参数量和网络深度。另外，在训练基础网络过程中容易忽略或者解决不好loss，因此在接下来的工作主要是尝试将轻量型网络应用到现有的模型中，减少参数量和模型复杂度，并且在模型的各个重要位置添加损失函数继续降低训练和优化难度。

[1] 张灿. 基于卷积神经网络的图像语义分割算法研究[D]. 武汉: 华中科技大学, 2017: 5-10.

ZHANG Can. Research on Image Semantic Segmentation Algorithm Based on Convolutional Neural Network[D]. Wuhan: Huazhong University of Science and Technology, 2017: 5-10.

[2] 曾孟兰, 杨芯萍, 董学莲, 等. 基于弱监督学习的图像语义分割方法综述[J]. 科技创新与应用, 2020(8): 7-10.

ZENG Meng-lan, YANG Xin-ping, DONG Xue-lian, et al. Review of Image Semantic Segmentation Methods Based on Weakly Supervised Learning[J]. Technology Innovation and Application, 2020(8): 7-10.

[3] 刘硕. 阈值分割技术发展现状综述[J]. 科技创新与应用, 2020(24): 129-130.

LIU Shuo. Overview of Threshold Segmentation Technology Development[J]. Technology Innovation and Application, 2020(24): 129-130.

[4] 吴世燃, 严国平, 杨小俊. 纸塑复合袋表面缺陷图像分割算法的设计与实现[J]. 包装工程, 2021, 42(1): 244-249.

WU Shi-ran, YAN Guo-ping, YANG Xiao-jun. Design and Implementation of Image Segmentation Algorithm for Surface Defects of Paper Plastic Composite Bag[J]. Packaging Engineering, 2021, 42(1): 244-249.

[5] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society, 2015: 3431-3440.

[6] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2021-05-15]. https://arxiv. org/pdf/1409. 1556.pdf.

[7] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.

[8] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// Lecture Notes in Computer Science, Cham: Springer International Publishing, 2015: 234-241.

[9] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFS[EB/OL]. (2014-12-22) [2021-05-15]. https://arxiv.org/abs/1412.7062

[10] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE : 7132-7141.

[11] HUANG Z L, WANG X G, HUANG L C, et al. CCNet: Criss-Cross Attention for Semantic segmentation[C]// Proceedings of the IEEE International Conference on Computer Vision, NJ, IEEE Press, 2019: 603-612

[12] ZHONG Z L, LIN Z Q, BIDART R, et al. Squeeze- and-Attention Network for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC, IEEE Computer Society, 2020: 13062-13071.

[13] LI X, ZHONG Z S, WU J L, et al. ExpectationMaximization Attention Networks for Semantic Segmentation[C]// Proceedings of the IEEE International Conference on Computer Vison, Piscataway, NJ, IEEE Press, 2019: 9166-9175.

[14] 田贝乐, 牛宏侠, 刘义健. 一种优化的Canny边缘检测算法[J]. 铁路计算机应用, 2021(10): 14-18.

TIAN Bei-le, NIU Hong-xia, LIU Yi-jian. Optimized Canny Edge Detection Algorithm[J]. Railway Computer Application, 2021, 30(10): 14-18.

[15] GAO You-wen, ZHOU Ben-jun, HU Xiao-fei. Research on Convolution Neural Network Image Recognition Based on Data Enhancement[J].Computer Technology and Development, 2018, 28(8): 62-65

[16] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[17] LI QILEI, LI ZHEN, LU LU, et al. Gated Multiple Feedback Network for Image Super-Resolution[EB/OL].[2021-0416]. http://arxiv.org/abs/1907.04253

[18] MA Ning-ning, ZHANG Xiang-yu, ZHENG Hai-tao, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[EB/OL]. 2018: arXiv: 1807.11164. https://arxiv.org/abs/1807.11164

[19] 卢印举, 郝志萍, 戴曙光. 融合双特征的玻璃缺陷图像分割算法[J]. 包装工程, 2021, 42(23): 162-169.

LU Yin-ju, HAO Zhi-ping, DAI Shu-guang. Glass Defect Image Segmentation Algorithm Fused with Dual Features[J]. Packaging Engineering, 2021, 42(23): 162-169.

[20] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Computer Vision - ECCV 2018, Cham, Springer International Publishing, 2018: 3-19.

Parallel Multi-resolution Semantic Segmentation Algorithm with Feedback Attention

SUN Hong,YUAN Wu-kai,ZHAO Ying-zhi

(School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

The work aims to propose a parallel multi-resolution semantic segmentation algorithm integrating feedback attention module, in order to further improve the accuracy of semantic segmentation and solve the problems of low resolution of feature map, random discarding of low-level information features and failure to take into account important contextual information in the current semantic segmentation algorithm. The algorithm exhibited a parallel network structure, which integrated high and low resolution information, retained high-dimensional information as much as possible, reduced the loss of low-level information elements, and improved the segmentation resolution. At the same time, a perceptual attention module with feedback mechanism was embedded in the backbone network to obtain the weight information of each sample from the perspectives of channel, space and global, focusing on strengthening the importance of characteristics among samples. In the training process, the improved loss function was also used to reduce the difficulty of training and optimization. Experiments showed that the proposed algorithm model achieved 77.78% and 58.67% MIOU indexes on Pascal voc2012 and Camvid respectively, and 42.52% on ADE20K, reflecting better segmentation performance. Compared with the previous segmentation network, the algorithm model has a certain degree of improvement. Some modules embedded in other backbone networks still show good performance, which shows that the algorithm model has certain effectiveness and generalization ability.

image semantic segmentation; feedback attention; multi-resolution

TP391

1001-3563(2023)01-0141-10

10.19554/j.cnki.1001-3563.2023.01.016

2021–12–29

国家自然科学基金（61472256，61170277，61703277)

孙红（1964—），女，博士，副教授，主要研究方向为大数据与云计算、控制科学与工程、模式识别与智能系统。

责任编辑：曾钰婵