基于深度学习的图像语义分割方法综述

2020-12-23 02:00谷浩荣
科学与信息化 2020年32期
关键词:深度学习

摘 要 近年来,随着越来越多的应用场景需要高效而且精确的分割技术,例如移动机器人、智能驾驶、室内导航、虚拟现实与增强现实等。图像语义分割问题吸引了越来越多的计算机视觉与机器学习研究者。首先介绍了图像语义分割技术相关的背景知识,然后介绍了几种图像语义分割问题的深度学习算法及其特点,最后针对当前该领域存在的一些问题进行总结和展望。

关键词 图像语义分割;深度学习;智能驾驶

引言

我们都知道,图像是由许多像素组成,而语义分割顾名思义就是将像素按照图像中表达语义含义的不同进行分组。然而,语义分割任务是一个非常具有挑战性的难题,其难点主要包括在物体层次上,对于同一物体,由于光照、视角等的不同,拍摄出的图像会有很大的不同,另外,由于物体运动,物体之间的相互交叉等所带来的形变与遮挡问题,也给图像语义分割带来了很大的挑战。在类别层次上,类内物体之间的差异性和类间物体之间的相似性。在背景层次上,干净的背景有助于实现图像的语义分割,但实际场景中错综复杂的背景会大大提升了分割的难度。

在深度学习应用到计算机视觉领域之前,研究人员一般使用纹理基元森林或是随机森林方法来构建用于语义分割的分类器。传统语义分割是在一副图像中,把目标从背景中分离出来,由于计算机计算能力有限,只能处理一些灰度图,后来才能处理RGB图,这时的分割主要是通过提取图片的低级特征,然后进行分割,出现了一些方法:Ostu、FCM、分水岭等。之后,随着计算能力的提高,人们开始考虑获得图像的语义分割,这里的语义是低级语义,主要指分割出来的物体的类别,这个阶段人们考虑使用机器学习的方法进行分割。随着Jonathan Long 等人在2015年提出的全卷积神经网络的出现,深度学习才正式进入图像语义分割领域,这里的语义主要指分割出来的物体的类别,从分割结果可以清楚地知道分割出来的是什么物体,比如猫、狗等。至此图像语义分割技术进入到了全卷积神经网络时期。全卷积神经网络在深度学习中表现出了强大的潜力,计算机在图片通过深度学习网络进行深度学习后能够清楚地归纳出输入图片中的具有相同语义含义的像素点。深度学习方法成为现今解决语义分割问题的主流。

1基于深度学习的语义分割方法

深度学习技术引入至计算机视觉领域之后获得了巨大成功。其中FCN作为基于深度学习的图像语义分割的开山之作,对之后的语义分割网络起到了很好的引领作用。本文将介绍FCN以及由其改进而来的其他几种深度学习网络结构[1]。

(1)FCN。这篇论文是第一篇成功使用深度学习做图像语义分割的论文。FCN首先提出了全卷积网络。将全连接网络替换成了卷积网络,使得网络可以接受任意大小的图片,并输出和原图一样大小的分割图。只有这样,才能为每个像素做分类。 然后FCN使用了反卷积层。分类神经网络的特征图一般只有原图的几分之一大小。想要映射回原图大小必须对特征图进行上采样,这就是反卷积层的作用。虽然名字叫反卷积层,但其实它并不是卷积的逆操作,更合适的名字叫作转置卷积,通过上采样将小的特征图卷回大的特征图。同样的虽然FCN有许多优点,但缺点也很明显,分割结果与人工标注的图相比还是较为模糊,具体细节方面还不够好。其次,对图片像素进行分类时并没有充分考虑图片的上下文关系,缺乏空间上的一致性。

(2)SegNet。SegNet的新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。具体地说,解码器使用了在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这种方法消除了学习上采样的需要。经上采样后的特征图是稀疏的,因此隨后使用可训练的卷积核进行卷积操作,生成密集的特征图。并且其编码器和 FCN 一样进行卷积而不使用全连接层,因此是拥有较少参数的轻量级网络。

(3)DeepLab。DeepLab是Google团队提出的一种用于图像语义分割的深度学习模型。Deeplab仍然采用了与FCN相同的全卷积化结构。并在其基础之上提出了空洞卷积。具体来说就是在卷积的最后两个最大池化操作中不降低特征图的分辨率,并在倒数第二个最大池化之后的卷积中使用空洞卷积。并使用 CRF作为后处理,恢复边界细节,达到准确定位的效果。

DeeplabV2则提出了空洞空间金字塔池化,在不同的分支采用不同的空洞率以获得多尺度图像表征。

而Deeplab V3中又再次讨论了空洞卷积,一个显式调整过滤器视野,同时控制特征相应分辨率的强大工具。为了解决多尺度目标的分割问题,使用串行/并行设计了能够捕捉多尺度上下文的模块,模块中采用不同的空洞率。此外,通过增强先前提出的空洞空间金字塔池化模块,增加了图像级特征来编码全局上下文,使得模块可以在多尺度下探测卷积特征[2]。

2结束语

本文综述了图像语义分割技术相关的背景知识以及几种该问题的深度学习算法及其特点,并通过不同模型结构的对比将各个模型的优缺点进行了综合性评估。虽然现有的语义分割模型已经能到达较好的分割结果,但仍有很多具有挑战性的难题,例如,语义分割的样本标注要求 极高,想要获得足够多的数据样本需要高昂的成本费,另外,模型的解释性差,创新难度高等问题也给图像语义分割带来了很大的挑战。这些问题大大提升了图像语义分割的难度。尽管如此,相信我们仍然可以通过对问题的研究与发现,提出更加优秀的深度学习算法来解决图像语义分割问题。

参考文献

[1] Garcia-Garcia A,Orts-Escolano S,Oprea S,et al. A Review on Deep Learning Techniques Applied to Semantic Segmentation[J].Computer Vision and Pattern Recognition,2017(4):17.

[2] 田萱,王亮,丁琪. 基于深度学习的图像语义分割方法综述[J].软件学报,2019,30(2):440-468.

作者简介

谷浩荣(1996-),男,辽宁省营口市人;毕业院校:沈阳理工大学,专业:软件工程,学历:硕士,现就职单位:沈阳理工大学,研究方向:计算机视觉。

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究