实例分割和边缘优化算法的研究与实现

2021-01-11 13:44梁正兴王先兵吴中鼎

图学学报 2020年6期

梁正兴，王先兵，何涛，吴中鼎，张嘉

实例分割和边缘优化算法的研究与实现

梁正兴1，王先兵1，何涛2，吴中鼎3，张嘉3

(1. 武汉大学国家网络安全学院，湖北武汉 430000； 2. 中国科学院计算技术研究所，北京 100080； 3. 贵阳铝镁设计研究院有限公司，贵州贵阳 550000)

近年来，实例分割技术正受到越来越多的关注。Mask R-CNN实例分割方法是实例分割领域中的重要方法，但是用Mask R-CNN方法得到的结果中，每个分割出的实例的边缘往往不够理想，无法与真正的边缘完全吻合。针对此问题，提出了一种用显著性目标提取方法得到的结果与Mask R-CNN实例分割结果相结合的方法，从而得到更好的实例分割边缘。首先，利用Mask R-CNN对图片进行识别，得到实例分割的结果。然后用PoolNet对待检测图片进行处理，得到图片中的显著物体信息。最后用PoolNet的结果对实例分割的掩码图边缘进行优化，从而得到边缘更好的实例分割结果。经过测试，该方法可以对绝大多数待检测目标较为显著的图片在一些重要指标上得到比Mask R-CNN更好的分割结果。

实例分割；Mask R-CNN；显著性目标；边缘优化；掩码信息

图像分割是计算机视觉对一幅图像进行后续处理的基础，计算机视觉离不开图像分割技术。因此，其是计算机视觉中的经典问题，同时也是最难的问题之一。

早期的图像分割技术主要有基于阈值[1]的分割方法、基于边缘检测[2]的分割方法、基于小波分析和小波变换[3]的分割方法、基于遗传算法[4]的图像分割以及基于主动轮廓[5]模型的分割方法等。以上方法都有自己的优势，但缺点也很明显，往往缺失图像中的语义信息，因此大多只能用于特定场景下的图像分割，并不能够进行普遍的使用。因此，为了利用图像中的语义信息，出现了基于聚类[6]的图像分割方法。然而，该方法仅仅利用了像素点的亮度、颜色、纹理等低级语义信息，在实际场景中，一些物体的结构比较复杂，因此无法得到好的结果。近些年来随着深度学习技术的逐步深入，图像分割技术有了突飞猛进的发展，深度卷积神经网络可以提取图片中的高级语义信息，很好地解决了传统方法中语义信息缺失的问题。

然而，通过深度卷积神经网络得到的实例分割结果中，检测目标的边缘部分往往与实际边缘相差很大，在实际应用的场景中，比如在增强现实(augmented reality，AR)技术应用领域中，由于检测出的目标的边缘信息错误率很大，在跟目标物体进行互动的时候，往往会发现目标物体的边缘粗糙，有些部分缺少必要的像素，有些部分又带有实际边缘以外的像素，使得AR的真实感大打折扣，严重影响用户的实际体验效果。在其他场景中，边缘信息的错误也会对实例分割的效果带来或多或少的影响。因此，如何对像Mask R-CNN[7]深度卷积神经网络实例分割的边缘信息进行优化，成为了一个很重要的研究课题。本文提出了一种基于Mask R-CNN和PoolNet的实例分割边缘进行优化的算法，完成了对Mask R-CNN实例分割边缘的优化，并且实现了优化算法在移动端的实时应用，提高了在AR等实际应用场景下用户的使用感受。

1 相关工作

在实例分割领域，近些年来也出现了一系列模型。根据检测的阶段数量可以分为单阶段模型和双阶段模型。在单阶段模型中，代表作有YOLACT[18]，SOLO[19]以及PolarMask[20]。YOLACT模型将实例分割分成2个子任务，分别用一个Protonet网络对输入的每张图片生成个原型Mask，对每个实例生成个线性组合系数。然后线性组合出预测的实例Mask。SOLO模型提出了实例类别的概念，将输入的图片分割成×的网格，如果某个网格包含了图片上某个物体的质心，则该网格就要负责预测该物体的类别以及Mask，其精度超过了Mask R-CNN，但速度上存在不足。PolarMask模型基于极坐标系建模轮廓，把实例分割问题转化为实例中心点分类问题和密集距离回归问题，不需要生成检测框。尽管其速度和精度并不高，但对后续的研究提供了一种新的思路。在双阶段模型中，2017年，文献[7]基于Faster R-CNN[16]模型提出Mask R-CNN模型，同时实现了目标检测、预测、像素级分割，从而实现了实例分割。虽然Mask R-CNN的结果非常优秀，但对于目标物体分割的边缘往往不够准确，因此本文的主要工作就是对Mask R-CNN实例分割网络进行边缘优化。文献[21]提出的PANet算法在Mask R-CNN的基础上做出了一些改进，引入了由底向上的路径扩增结构，充分利用了网络低层的特征进行分割；引入了自适应功能池来提取感兴趣区域(region of interest, ROI)特征，把多层信息整合到一起，使提取到的特征更加丰富；在最终的Mask预测分支上融合了全连接层和卷积层，得到了更加精细的分割结果。然而在实际测试中，PANet同样存在边缘预测不精准的问题，本文应用于Mask R-CNN的方法同样适用于对PANet进行边缘优化。

视觉显著目标检测也是计算机视觉中的一个重要领域。过去的30年，基于传统方法，对显著性目标检测的方法也有很多。基于传统的方法大多使用大量的先验信息进行检测，导致其泛化能力比较差。随着深度学习的兴盛，出现了大量基于深度学习的显著性目标检测方法，性能和效果得到了很大的提升。PoolNet[22]网络就是一种基于深度学习的显著性目标检测模型，其以特征金字塔网络(feature pyramid networks，FPN)为基础，引入全局引导模块和特征整合模块，实现对图片中显著性目标的提取。经过测试，发现PoolNet网络对于目标边缘信息的提取比较准确，因此，本文通过PoolNet网络提取显著性目标的边缘信息对实例分割网络Mask R-CNN的结果进行边缘优化。

2 实例分割和显著性目标提取

2.1 Mask R-CNN神经网络

Mask R-CNN已经成为目标检测和实例分割领域最为重要的神经网络之一。图1是Mask R-CNN实例分割神经网络的总体框架图。

图1 Mask R-CNN实例分割框架

Mask R-CNN总体来说是从Faster R-CNN改进而来，但其替换了Faster R-CNN使用的VGG网络，改用了特征提取能力更强的ResNet残差神经网络为主干网络。其中，ResNet分为5个阶段，假如输入一张1024×1024的图像，在阶段1，图像变为256×256的特征图，阶段2变为128×128，阶段3变为64×64，阶段4变为32×32，阶段5变为16×16。另外，为了提取图像中的多尺度信息，Mask R-CNN还使用了FPN，其中由于阶段1的特征图过大，计算耗时，因此未采用。相反，采用了阶段5的下采样结果p6，最后利用了[P2 P3 P4 P5 P6] 5个不同尺度的特征图输入到RPN网络中，生成不同尺度的特征区域。

RPN[7]区域生成网络用于从特征图中提取感兴趣的区域。RPN对于5个不同尺度的特征图分别对其中的每个位置点进行预测。对于图像的每个位置，每个特征图都会生成3个相同面积，不同比例的锚框，分别为{1:1, 1:2, 2:1}。对于每个生成的锚框，RPN网络输出2个信息：框中是否有物体存在以及锚框与实际物体边界框的误差。在得到锚所属于的类别之后，若该锚属于前景，则对其进行边界框修正，由4个值控制，分别是，，和，其中和代表锚在水平和竖直方向上的偏移，和分别代表宽和高的修正比例。总的来说，通过RPN网络可以得到5个不同尺度的特征图的若干个anchor box (锚框)，然后通过非极大值抑制算法保留将近2 000个感兴趣区域。

Mask R-CNN对不同尺度的特征图经过ROI Align操作得到的感兴趣区域的固定大小的特征图进行Concat的操作，随即进入分类和预测的网络。网络分为预测类别的全连接网络、预测边界框的全连接网络、预测mask的全卷积神经网络，3个部分是平行结构。在得到Mask R-CNN的预测结果之后，可以根据预测结果和实际结果对神经网络进行训练。模型的损失函数同样由3个部分构成：分类误差、检测误差和分割误差，分别由cls，box和mask表示。cls，box的计算与Faster R-CNN相同，mask由每个感兴趣区域输出的掩膜图与实际mask之间的误差确定。

图2为使用Mask R-CNN用COCO数据集训练的模型对于2幅图中的瓶子预测的结果。可以明显的看到图2(b)中对于瓶子的边缘的预测不光滑，有些属于瓶子的像素没有预测，有些不属于瓶子的像素被预测为了瓶子。在图2(e)中，不但瓶子的边缘不光滑，甚至在左边瓶子的左上角有不属于瓶子的像素块被预测成了瓶子。这些都是Mask R-CNN神经网络模型在边缘预测中存在的问题。

我国的畜牧兽医行业已经发展到了一个至关重要的时期，上级部门、基层部门、一线从业人员，都应该强化自己的责任意识。只有把责任放在心里，才能在工作中注意细节，注意质量。加强行业的执法监测力度，把畜牧产品的卫生、产品质量放到第一位，让安全成为畜牧兽医这行业的代名词。责任贵在落实，只有心中有责任，手上有落实，才能真正的为行业的创新改革保驾护航。

图2 Mask R-CNN预测结果示例((a)、(d)原图片；(b)、(e) Mask R-CNN预测的掩膜图；(c)、(f)根据掩码图裁剪出的图片)

2.2 PoolNet显著性物体提取网络

在显著性目标提取卷积神经网络中，高级语义信息有助于显著性目标位置的提取，而低层次和中层次的特征有助于优化显著性目标的边缘信息。基于以上的知识，PoolNet神经网络在基础的特征提取U形网络上提出了2个互补的模块，使得其能够准确地捕捉物体的位置同时锐化细节。图3展示了PoolNet显著性物体提取网络的总体结构。

PoolNet神经网络以FPN的U形网络为主要基础架构，图3左上角为典型的FPN网络结构。然而，在FPN U形结构中存在着一定的问题。高层次语义信息传递到低层时，有关于目标位置等方面的高层信息被逐渐稀释，不能够把高层特征信息与低层特征信息很好地融合到一起。所以，PoolNet引入了2个模块来解决以上问题。

图3 PoolNet神经网络总体框架

其中一个是全局指导模块(global guidance module，GGM)。GGM包含改进的金字塔模块(pyramid pooling module, PPM)以及全局指导流(global guiding flow, GGF)，可以使每一层的特征图都明确地知道显著对象的位置这一高级语义信息。PPM由4个子分支构成，分别生成不同尺度的特征图。有了PPM提供的特征信息，GGF将该高级语义信息传递给U形网络中的特征图中。GGM模块可以显著地提高FPN U形网络对于显著性物体位置信息的定位的准确度。

另一个是特征聚合模块(feature aggregation module，FAM)。FAM模块具有4个子分支，输入的特征图在其中3个子分支中分别用2，4，8倍的平均池化进行下采样，然后再经过2，4，8倍的上采样分别得到特征图，另一个子分支保留原来的特征图。最后将4个分支的特征图结合起来，用3×3的卷积层进行处理。FAM模块具有2个优势，①当上采样速率很大时，可以很大程度上减少上采样的混叠效应；②帮助每个金字塔层次都能够获得全局的信息，进一步扩大了整个网络模型的感受野。

为了提升对于目标边缘的预测准确度，PoolNet网络模型在训练的过程中，使用了用于边缘检测任务的数据集，而不仅仅是使用用于显著性目标提取任务的数据集。经过与边缘检测的联合训练，大大提升了PoolNet模型对于显著性物体边缘预测的准确度。这也是本文采用PoolNet模型的结果优化Mask R-CNN模型结果的关键。如图4所示，PoolNet对于物体边缘的预测远远优于Mask R-CNN。图4(c)对于2个瓶子的边缘预测结果比图4(b)更为平滑且符合实际，但图4(a)中的桌垫同样作为显著性物体被预测了出来，这也是本文所要解决的问题之一。图4(f)对于2个瓶子边缘的预测结果也优于图4(e)Mask R-CNN的结果。在经过大量的实验之后，实验结果表明，PoolNet神经网络模型可以对图片中的显著性物体做出很好的预测，且对于显著物体的实例边缘预测的准确率远高于Mask R-CNN模型。但由于PoolNet不是实例分割网络，无法将图片中的实例分割开来且无法判断实例的类别，因此需要提出一种算法将PoolNet的结果应用起来。

图4 PoolNet预测结果与Mask R-CNN结果对比((a)、(d)输入的原图片；(b)、(e) Mask R-CNN的掩膜图；(c)、(f) PoolNet的结果)

3 实例分割边缘优化算法

对于输入的图片集，输出其目标物体之外背景的图片。首先用PoolNet卷积神经网络对输入的图片集进行处理，得到显著性物体识别效果的灰度图，图中属于显著性物体的像素为白色，属于背景的像素为黑色，将此效果图保存。然后对输入的图片集中的每一幅图片分别用Mask R-CNN进行处理，得到检测的结果，如果检测结果中没有目标物体，则直接对下一幅图片进行检测，如果有目标物体，则对检测到的目标物体的边界框、掩码图进行下一步处理。对于图片中每一个表示目标物体的位置的边界框，计算其与其他边界框的交并比(intersection over union, IOU)，IOU值表示2个矩形框交集的面积与并集的面积的比例。对于与其他任意一个边界框有IOU值高于0.1的边界框，本文认为这样的边界框中的目标物体与图片中的其他目标物体重叠的部分太多。由于PoolNet只能识别图片中的显著性物体，因此如果图片中显著性物体的重叠面积过大，PoolNet将无法将其边缘有效区分开来，因此无法使用PoolNet的结果进行优化。所以，本文直接采用Mask R-CNN的结果对原图片中该区域的目标物体进行抠图。如果该边界框与其他任意一个边界框的IOU值都没有超过0.1，那么可以认为该边界框中的目标物体与其他目标物体没有太多重叠的部分，可以采用PoolNet对边缘进行优化。

对于符合IOU条件的边界框，先对其进行适当的扩大，以保证目标物体全部包含在边界框之内。然后对于边界框内的掩码图分别进行适当地扩大和缩小。其中，扩大的目的是为了保证掩码图可以将目标物体全部覆盖，不至于漏掉属于目标物体的像素点；而缩小的目的有2点：①为了确保当该目标物体不属于显著性物体时，即PoolNet无法对对其进行识别时，还能够保留Mask R-CNN的结果；②因为有时候PoolNet对于目标物体中间部分的识别不够好，会把目标物体中间的部分错误地当成图片的背景，对Mask R-CNN掩码图缩小以确保中间部分的像素不会丢失。

图5为PoolNet与本文算法结果对比。可以看出，通过对Mask R-CNN掩码图进行放大和缩小的操作，避免了由于PoolNet预测不准确导致的中间部分像素缺失的问题。经过大量的实际测试，对于每个边界框中的目标物体掩码，掩码在上、下2个方向上扩大和缩小的像素个数的计算式为

在左、右2个方向上扩大和缩小的像素个数的计算式为

上述方法可以保证缩小的掩码图覆盖目标物体绝大多数的部分，绝大多数情况下扩大的掩码图能包括目标物体的全部区域但是又不至于多出太多的背景区域的像素，如果扩大的掩码图比实际目标物体大太多，则可能会包含图片内其他显著性物体，导致无法用PoolNet进行边缘优化。

在得到放大和缩小的Mask R-CNN掩码图之后，本文调用原图片对应的PoolNet处理过的显著性物体识别图片，然后Mask R-CNN扩大过的边界框中的像素逐像素进行处理。对于属于缩小的掩码图的像素，直接将其定义为属于该目标物体的像素；对于属于扩大的掩码图且不属于缩小过的掩码图的像素，查看该像素点在PoolNet效果图上对应的像素值，若该点像素值大于200，则认为该像素属于目标物体，若不大于200，则认为该像素属于背景；对于不属于扩大的掩码图的像素，直接认为该像素点属于背景，而不必调用PoolNet显著性物体识别效果图。经过如上步骤的处理，本文得到用PoolNet优化过的Mask R-CNN掩码图。

图5 PoolNet结果与本文算法结果对比((a)、(d)原图像；(b)、(e)原图像经过PoolNet网络得到的预测结果；(c)、(f)本论文算法得到的最终掩码图)

本文使用得到优化过的掩码图对原图片进行处理。对于属于掩码图的像素直接保留，对于不属于掩码图的像素，将其像素值置零。如图6所示，利用得到的优化过的掩码图可以将目标物体较为完美地从图片中抠出。使用PoolNet修正了Mask R-CNN中绝大多数不合理的地方，目标物体的边缘变得光滑且精确。本文算法不仅可以适用于对于瓶子的提取，而且对任何可以用Mask R-CNN模型识别的显著性物体的提取都有效。

4 实验结果

图7为部分测试图片采用本文算法与Mask R-CNN运行结果的对比。其中，图7(a)和(b)是本文在瓶子数据集上的测试结果的部分展示，图7(c)是对每张图片分别更换检测的目标物体后用本文算法的测试结果。在目标物体与目标物体或目标物体与显著性物体之间没有明显相互遮挡情况下，本文算法能够很大程度上优化Mask R-CNN对于特定物体的实例分割边缘。如果对Mask R-CNN模型采用特殊的的训练集训练其对于特定物体的识别能力，则能够尽可能提高识别特定物体的准确率。并且，本文算法不止对于某种特定物体有效，对于所有可以采用Mask R-CNN检测的显著性物体都有明显的优化效果。本文算法分别在PC端和服务器实现了2个实例分割边缘优化的系统。

图6 使用本论文算法得到的效果((a)、(d)原图片；(b)、(e)优化过的掩码图；(c)、(f)实验结果其中；(e)、(f)为改变待识别目标物体为小狗之后从图片中提取小狗的效果)

图7 实验结果((a)、(b)在瓶子数据集上测试的结果；(c) 检测目标物体为其他对象的测试结果)

本文在包含有二十多个种类，几百张分辨率为1024×1024的图片的瓶子数据集上fdsf使用GTX1080Ti型号的GPU按照一批一张的方式进行了测试，速度可以达到0.366 fps，其中绝大多数时间用于Mask R-CNN模型的预测，用于PoolNet模型预测的速度达到了4.89 fps。

另外，为了定量测试本文算法对于边缘优化的效果，使用了本文标注的瓶子数据集作为GT(ground truth)图像来进行测试。由于瓶子数据集的标注较为准确，因此可以作为对预测结果的参照来定量分析预测结果的准确性，采用以下2个算式来定量分析算法的优化效果：

(1) 精准率(precision)，即分割正确的面积占预测面积的百分比，也是预测正确的像素点的个数占预测总像素点个数的比例

其中，为预测正确的像素点的个数；为预测错误的像素点的个数。

(2) 召回率(recall)，即预测正确的像素点个数占GroundTuth像素点个数的比例

其中，为预测正确的像素点的个数；为GT中没有被预测的像素点个数。

经过实际测试，Mask R-CNN的分割精准率为91.9%，本文精准率为96.4%；Mask R-CNN的召回率为96.8%，本文的召回率为95.6%。从测试结果可以看出，本文算法在精准率上相比于Mask R-CNN有着较大的提升，说明本文算法所预测的实例分割的边缘往往不会超过实际边缘，而Mask R-CNN常常超出实际的边缘。本文算法的召回率相比于Mask R-CNN有些许的不足，主要是因为本文算法要求输入的图片上待识别的物体必须显著且不与其他显著物体重叠，而用于测试的数据集并不能完全满足此条件。因此本文算法在不符合条件的图片上所预测的结果会漏掉不显著的区域，而在符合条件的图片上的优化效果非常显著。

5 结束语

本文主要在优化实例分割算法的研究方面，实现了用PoolNet深度神经网络来优化Mask R-CNN实例分割边缘的算法。很多研究者都希望通过调整网络结构或者改变训练过程来优化实例分割的边缘，本文则是通过添加一个显著性物体识别网络，来对实例分割神经网络预测的边缘进行优化。实验结果显示，本文算法能够对Mask R-CNN实例分割边缘有着明显的优化效果。

[1] 张建光, 李永霞. 基于阈值的图像分割方法[J]. 福建电脑, 2011, 27(8): 86-86, 89. ZHANG J G, LI Y X. Image segmentation method based on threshold[J]. Fujian Computer, 2011, 27(8): 86-86, 89 (in Chinese).

[2] 沈志忠, 王硕, 曹志强, 等. 基于边缘检测的图像分割方法及其在机器鱼中的应用[J]. 机器人, 2006, 28(4): 361-366. SHEN Z Z, WANG S, CAO Z Q, et al. An image segmentation algorithm based on edge detection and its application in robotic fish[J]. Robot, 2006, 28(4): 361-366 (in Chinese).

[3] 刘洲峰, 徐庆伟, 李春雷. 基于小波变换的图像分割研究[J]. 计算机应用与软件, 2009, 26(4): 62-64. LIU Z F, XU Q W, LI C L. Image segmentation based on wavelet transform[J]. Computer Applications and Software, 2009, (4): 62-64 (in Chinese).

[4] 李银松. 基于遗传算法的图像分割方法[D]. 北京: 北京交通大学, 2014.LI Y S. Image segmentation method based on genetic algorithm[D]. Beijing: Beijing Jiaotong University, 2014 (in Chinese).

[5] 高梅, 余轮. 基于主动轮廓模型的图像分割算法[J]. 漳州师范学院学报: 自然科学版, 2007, 20(4): 41-46. GAO M, YU L. Review on active contour model based image segmentation[J]. Journal of Zhangzhou Normal University: Natural Science, 2007, 20(4): 41-46 (in Chinese).

[6] SELVER M A, KOCAOĞLU A, DEMIR G K, et al. Patient oriented and robust automatic liver segmentation for pre-evaluation of liver transplantation[J]. Computers in Biology and Medicine, 2008, 38(7): 765-784.

[7] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42: 386-397.

[8] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 1-10.

[9] BADRINARAYANAN V, KENDALL, A, CIPOLLA, R. SegNet: a deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2020-02-11]. https://arxiv.org/abs/1409.1556.

[11] CHEN LC, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[EB/OL].[2020-03-16]. https://arxiv. org/abs/1606.00915v1.

[12] XIE S N, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5987-5995.

[13] CHEN L C, ZHU G, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//2018 European Conference on Computer Vision (ECCV). New York: IEEE Press, 2018: 833-851.

[14] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6230-6239.

[15] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.

[16] GIRSHICK R. Fast r-cnn[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.

[17] REN S Q, HE, K M, GIRSHICK, R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[18] BOLYA D, ZHOU C, XIAO F Y, et al. Yolact: real-time instance segmentation[C]//2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 9156-9165.

[19] WANG X L, KONG T, SHEN C H, et al. SOLO: segmenting objects by locations[EB/OL].[2020-04-08]. https://arxiv.org/abs/1912.04488.

[20] XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 12193-12202.

[21] LIU S, Li L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.

[22] LIU J J, HOU Q B, CHENG M M, et al. A simple pooling-based design for real-time salient object detection[EB/OL]. [2020-01-19]. https://arxiv.org/abs/ 1904.09569?context=cs.

Research and implementation of instance segmentation and edge optimization algorithm

LIANG Zheng-xing1, WANG Xian-bing1, HE Tao2, WU Zhong-ding3, ZHANG Jia3

(1. Hongyi Honor College, Wuhan University, Wuhan Hubei 430000, China; 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China; 3. Guiyang Aluminum Magnesium Design and Research Institute Co., Ltd, Guiyang Guizhou 550000, China)

In recent years, the instance segmentation technology has received more attention. Although the Mask R-CNN instance segmentation method is important in the field of instance segmentation, the resultant edge of each instance cannot entirely match the real edge. In order to solve this problem, a method was proposed that combined the result of the salient object extraction with that of the mask R-CNN instance segmentation, so as to produce a better edge of instance segmentation. First, the image was recognized by Mask R-CNN, with the segmentation result obtained. Then PoolNet was utilized to process the detected image, resulting in the salient object information in the image. At last, the edge of the mask image was optimized by the result of PoolNet, attaining a better result of the edge segmentation. After testing, this method can yield better segmentation results than Mask R-CNN for most of images with salient targets in some important indexes.

instance segmentation; Mask R-CNN; salient object; edge optimization; mask information

TP 391

10.11996/JG.j.2095-302X.2020060939

2095-302X(2020)06-0939-08

2020-05-09；

2020-07-24

9 May，2020；

24 July，2020

黔科合重大专项字([2016]3012)

Major Special Characters of Qiankehe ([2016]3012)

梁正兴(1998-)，男，河南驻马店人，硕士研究生。主要研究方向为图形图像处理、计算机视觉等。E-mail：870948473@qq.com

LIANG Zheng-xing (1998-), male, master student. His main research interests cover graphics and image processing, computer vision. E-mail：870948473@qq.com

王先兵(1972-)，男，湖北江陵人，副教授，博士，硕士生导师。主要研究方向为图形图像处理、计算机视觉等。 E-mail：xbwang@whu.edu.cn

WANG Xian-bing (1972-), male, associate professor, Ph.D. His main research interests cover graphics and image processing, computer vision. E-mail：xbwang@whu.edu.cn