针对高分影像的RDU-Net乡村路网提取方法

2021-03-30 08:10吴仁哲蔡嘉伦刘国祥李勇张瑞

遥感信息 2021年1期

吴仁哲，蔡嘉伦，刘国祥，2，李勇，张瑞，2

(1.西南交通大学地球科学与环境工程，成都 611756；2.西南交通大学国家铁路高速铁路安全空间信息技术联合工程实验室，成都 611756)

0 引言

道路是极为重要的地理要素，对于经济建设、城市规划有着决策性作用。随着我国大力发展城乡建设，道路的矢量生产工作日益增多。人工矢量化更新效率低下，且随着道路的新增和扩建通常无法获得最新道路矢量数据，因此道路数字信息的自动提取和快速更新一直是相关领域的研究热点[1]。通过遥感影像获取道路网络信息，具有客观高效的优势，也能够为导航、规划等相关领域提供基础数据[2]。近年来随着高分辨率传感器的发展和广泛应用，一方面能够更详细地反映地物的特征信息[3-4]，另一方面因地物细节化、差异性的增大导致影像分类离散化和不规则化，且较中低分辨遥感数据更为显著。如何在更为复杂的数据场景中实现稳定、可靠的图像分割，是限制其应用拓展的主要瓶颈。近年来，深度学习作为一种有效的遥感图像语义分割方法，被看作是突破瓶颈的可行思路，受到国内外学者的广泛关注[5-6]。

高效的图像表示是遥感图像分割任务的核心[7]。因高分卫星图像的道路周边存在大量的自然和人造地物，对于道路信息的提取干扰非常明显[8-9]。基于无监督特征学习的特征编码方法采用小波变换增强道路信息，实现多分辨率显示[10]，基于具有少量人工标注特征的特征编码方法采用SVM提取道路信息，较好提取出道路主干信息[11]，但是这些传统求解方法生成的图像特征都极少，从本质上阻碍了遥感影像特征的提取。目前，深度学习已逐渐成为机器学习领域中的热点，尤其是全卷积神经网络(full convolutional neural network，FCN)利用编码与解码卷积实现影像特征的提取[12]，具有较好的性能。Zhong等[13]使用FCN方法，针对马萨诸塞州道路和建筑数据集，成功实现了语义分割。然而，FCN分类方法难以回避定位和识别精度权衡的问题，路网识别精度将随着定位精度的提升而发生损失。经算法改进后，Ronneberger等[14]提出了U-Net (U型网络) 网络模型，能够较好地平衡定位和识别精度权衡问题，仅通过30张图片并辅以数据扩充就达到了非常低的错误率。Sun等[15]通过堆叠U-Net模型大幅度提升了网络的深度，应用于城市道路提取取得较好的结果。但是，U-Net卷积运算时没有进行填充，而是采用镜像操作处理边界像素，后续卷积运算仍然存在尺度单一、层与层之间常发生信息丢失的问题，导致识别和定位精度大幅度下降。

本文采用长短连接、Tversky系数、空洞卷积相结合的策略，在增大模型感受野的同时减少下采样引起的信息损失，将恒等映射转换为更适合机器学习的差值计算防止模型退化，并通过批标准化强制神经元输入输出符合正态分布，避免梯度消失，从而基于少量的训练样本结合数据扩充方法，获得一个性能较好的RDU-Net(残差空洞卷积U型网络)道路提取模型。为了论证模型与算法的可行性及精度、回调率，选取内江市罗泉镇乡村道路典型研究对象开展实验，提取公路以及机耕道信息，并通过形态学闭运算、种子填充法、节点替换的方法连接道路，消除独立图斑。最后，针对RDU-Net与U-Net模型获得的路网提取结果，开展了比较验证与精度差异分析。

1 道路提取方法与流程

1.1 U-Net网络模型

U-Net在FCN的模型架构之上进行了修改和扩展，旨在以较少的训练图像产生更精确的图像分割模型，其网络结构如图1所示。在上采样部分，该模型拥有大量功能通道，这些功能通道允许网络将上下文信息传播到更高分辨率的层。上采样路径与下采样路径形成对称，产生了U形结构。U-Net在靠近输入的较浅层提取的是相对小尺度上的简单特征，而在靠近输出的较深层提取的则是相对大尺度上的复杂特征。它同时具备了捕捉上下文信息的收缩路径和允许精确定位的对称扩展路径，这使得网络将上下文信息向更高层分辨率传播，融合多尺度信息进行判断。本文将U-Net镜像裁边方法更改为在卷积运算时进行填充，因此无需对输入图像进行边缘扩充。

图1 本文使用的U-Net模型

1.2 改进的RDU-Net模型

在复杂场景的遥感图像中，道路信息的占比通常极小(<3%)。由于使用数量不平衡的数据进行训练将导致预测结果相对准确但是灵敏度很低，另外如果没有平衡这些标签，学习过程可能会收敛到局部损失函数的最小值，预测值与标签值之间会存在偏差，因此，常规的损失函数(如交叉熵误差、均方误差等)难以适用于此类正负样本不平衡的训练数据。最终的图像分割模型若仅能保证结果准确而在灵敏度方面不能达标，是无法满足图像分割要求的。

为解决上述问题，本文引入Tversky系数以平衡模型精度和灵敏度之间的矛盾。Tversky系数在设计之初主要应用于医学病灶区检测，通过平衡假阴性与假阳性，提高函数的回调率从而在精度和灵敏度之间获得更好的平衡。应用于道路提取，可有效降低图像分割时前景和背景像素数量差异造成的影响[16]。Tversky系数的计算方法如式(1)所示。

(1)

式中:A为预测集，B为真实标签集；|A∩B|为成功预测，|A-B|为假阳性(背景识别为道路)，|B-A|为假阴性(道路识别为背景)；α和β分别控制假阳性和假阴性，根据文献[16]结果，通常采用α=3和β=0.7定义损失函数。

本文使用的RDU-Net模型的Tversky系数由式(2)计算得出。

(2)

通常情况下，增加卷积神经网络的网络深度可以提升网络的准确率，但是很深的网络层，由于参数初始化一般更靠近0，这样在训练的过程中更新浅层网络的参数时，很容易随着网络的深入而导致梯度消失，使得浅层的参数无法更新。同时，随着网络深度的增加，求解器难以利用多层网络拟合同等函数，最终使得准确度变得饱和、网络退化。残差网络(residual network,ResNet)利用残差结构通过直接将输入信息绕道传到输出，保护信息的完整性，将拟合同等函数转化为使F(xi，ωi)趋于0的优化函数，简化学习目标和难度，解决了深层神经网络出现的网络退化以及梯度爆炸的问题[17-18]。残差结构原理如式(3)所示。

(3)

式中:y为非线性层需要拟合的复杂函数;x为上一层输入;ω为权重参数;W为线性投影函数。

为了更好地应对下采样时参数量大幅度增加的问题，同时增大RDU-Net的感受野，采用空洞卷积，以较少的运算量获得更细致的纹理信息[19-20]。空洞卷积的定义如式(4)所示。

(4)

式中:d为空洞率；x、y分别为输入、输出；h为波器；K为波器大小。通过空洞卷积将下采样过程中信息损失降低到最小。空洞卷积时感受野的计算如式(5)所示。

(5)

式中:r为感受野大小；K为波器大小；S为卷积运算时的步长。由图2可以看出，RDU-Net通过在最底层采用2个空洞分别为3和5的卷积，感受野随之大幅增加，从而有效提升了输出特征图对原始图像的映射范围。

图2 感受野变化

为弥补传统分割算法层与层之间信息丢失、梯度消失、错分漏分现象频繁的问题，本文采用批标准化、空洞卷积、Tversky损失函数、残差结构与长短连接相结合，在正负样本极度不均衡的情况下，依然能够保证训练正常进行，防止随着网络深度增加出现的退化问题，保护信息的完整性从而使用较少的训练数据获得一个鲁棒性更好的模型RDU-Net(图3)。根据输入影像和道路标签特征图，使用步长为2的3×3卷积代替U-Net中的2×2最大池化进行下采样。每一次下采样和上采样之间都加入了残差结构，通过残差结构将上下采样层进行连接、转换拟合函数，使用更容易计算的优化函数取代同等函数。在下采样最底层采用空洞卷积，大幅度增加感受野，以提升RDU-Net网络模型对影像全局信息的把握。

图3 RDU-Net网络模型

1.3 道路提取流程

整体实验流程如图4所示。实验数据采用高分二号卫星覆盖内江市罗泉镇的遥感影像，通过目视解译进行道路矢量化建立道路标签图层。由于训练样本有限，故通过影像与道路标签进行匹配、分割、旋转、变换亮度等操作扩充训练数据。考虑到纯背景的标签缺乏意义并且会削弱网络的训练速度、灵敏度，实验舍弃了完全背景的数据，最终打包成二进制文件的训练数据集。将数据集分为2个部分，第一部分为训练数据共60 000幅图像，第二部分为验证数据共16 400幅图像，道路标签图像共3 185幅。预测数据选择影像另一区域仅进行图像的分块处理，共150幅图像。本文模型训练的硬件采用实验室提供的Nvidia Quadro P2000 6 GB显卡。RDU-Net中卷积核参数使用高斯初始化，每一次卷积运算都进行批标准化。使用Tversky指导梯度下降方向，通过训练数据对RDU-Net进行迭代训练，调整卷积核参数，进而使用调整参数后的RDU-Net对预测数据进行预测，并计算各种指标分数。由于图像分割属于像素级别的预测分类，在利用卷积神经网络对目标区域进行检测时，提取结果易受到与目标对象特征相似的其他地物的影响，会使得预测结果中存在大量的独立小斑块[21-22]。此外，实验选择的地区为乡村，有较多树木、灌木遮挡道路，易出现断点。如何将道路连通以及删减错误图斑非常重要，故在道路信息提取后，进行图像合并、膨胀—滤波—腐蚀、节点替换进行道路全局连接，以及种子填充进行滤波。

图4 实验流程

2 实验与结果分析

2.1 实验区域及数据介绍

为验证RDU-Net在高分辨率遥感影像中提取复杂路网的能力，本文选择高分二号遥感图像作为实验数据。高分二号卫星拥有0.8 m的全色分辨率，以及3.2 m的多光谱分辨率，成像幅宽45 km，为道路的识别和提取提供了良好的图像信息。实验采用的影像条带号为25，行编号166，影像日期为2017年9月12日，覆盖内江市罗泉镇研究区。该区域属于典型乡村地区，道路受房屋、草木、田埂等多种信息干扰，且有田埂信息作为线状目标严重干扰机耕道提取，需要结合周边环境进行判断，完整提取道路信息更加困难。

2.2 实验结果与分析

实验结果图5表明：RDU-Net相较于U-Net拥有更好的道路提取能力且错分现象明显减少；同时，RDU-Net拥有更好的泛化能力，训练样本中机耕道的训练数据较少，但RDU-Net仍然能够完整地提取机耕道信息。图5中第一行为道路标签与影像叠加，第二行为RDU-Net道路提取结果，第三行为U-Net提取结果。在使用交叉熵误差作为损失函数时，由于前景(道路)与背景像素个数极度不平衡，导致损失函数值非常小，模型收敛于局部最优解，无法进行模型训练，因此对比实验使用的U-Net网络模型(图1)也采用批标准化、Tversky函数。根据A1、A2所示，对于道路与背景有明显差异的遥感影像，2种模型均能够很好地提取道路信息，但是A1相较于A2信息保留更完整，在道路拐点处连接更为平滑。B1、B2显示，在道路情况较为复杂有少量树木遮挡的情况下，道路的主干信息也能够被很好地提取，且都能在受到较小的干扰时保证道路的连通，但B2包含有更多的噪声并有错分现象。C1、C2图像上方道路由于阴影遮盖导致提取差异较大，C1对于阴影遮盖的道路也能较为完整地提取。D1、E1、D2、E2为机耕道信息的提取，显然D1、E1道路信息提取效果优于D2、E2，D1、E1中机耕道主干信息已被提取，只有少量的错分漏分现象。

注：红框内为差异部分。图5 RDU-Net与U-Net预测结果对比

由图6(a)可知，RDU-Net能够较完整地提取道路主干信息，但是由于遥感影像中道路受树木、房屋等遮挡，存在有较多的断点，所得道路信息难以用于生产。因此采用形态学闭运算结合方框滤波将道路进行闭合处理，所得结果如图6(b)所示，断点信息大多数已经连接，但是道路交叉口由于图像闭运算出现了大量节点且有许多噪声点也被放大化，不仅影响道路信息的准确度而且影响美观。为了消除噪声点以及道路间节点，通过种子填充法监测连通区域结果如图6(c)所示，每一个连通区被填充为一种颜色，当连通区像素数小于100时，该连通区被标记为噪声进行去除。利用腐蚀算法对图6(c)处理，获得缩小后节点信息，得到最终道路提取结果如图6(d)所示，其中绿色线条代表通过限定连通区像素阈值最终得到的道路信息，红色为标签数据，小路仍有遗漏但道路主干信息提取较为完整且连贯性较好。

图6 道路连通处理

为定量评估道路分割的精度，本实验引入IoU分数与F1分数作为评价指标，分析结果如表1所示。IoU分数是对象类别分割问题的标准性能度量。给定一组图像，IoU测量给出了在该组图像中存在的对象的预测区域和地面实况区域之间的相似性。F1分数是统计学中用来衡量二分类模型精确度的一种指标，它同时兼顾了分类模型的精确率和召回率。

根据表1对比分析可知，RDU-Net的精度和回调率都优于U-Net模型，RDU-Net相比于U-Net在复杂道路网络提取具有更好的性能，尤其是感受野一项，优势尤为突出。相比常见的面状要素提取，IoU得分较低，主要是由于IoU分数对线性要素的位移有较高敏感度，当提取结果与道路标签存在位移时，IoU分数亦会随之发生降低。另外，在建立标签时树木与房屋遮盖处并未断开，这样虽然能够更好地训练模型的抗干扰能力，但是也会使得预测值与标签值不对应(预测值在有遮挡地方断开，而标签值连续)，从而导致IoU分数大幅下降。

表1 RDU-Net与U-Net性能参数对比

根据植被覆盖的复杂场景重点开展比较分析可知，RDU-Net与U-Net都有假阳性提取，错误地将背景识别为道路，但对比这些错误识别的道路信息发现，大多数即使人工也难以分辨(如图5(b)中所对应的池塘上方，难以确定是道路或堤坝)。U-Net使用的是卷积与最大池化进行下采样，在此过程中影像信息丢失较多，且感受野较小网络难以对全局信息进行分析，这导致U-Net在复杂场景下提取机耕道的正确率偏低，往往受到背景的干扰或在草木较茂盛的区域出现道路断开的问题，难以完整提取。而在此类复杂场景下，RDU-Net拥有更好的鲁棒性，在稀疏草木遮挡区域道路断开情况较少出现，而草木茂盛的区段存在有少量断点，可以结合道路连通方法加以消除，故所得道路信息较为准确、完整。总地来看，本文所使用的RDU-Net在乡村道路提取效果优于传统的U-Net网络，道路提取较为完整且错分现象较少。

3 结束语

道路作为重要的地理要素之一，对于经济建设、地貌研究、城乡规划等都有着至关重要的作用。而深度学习作为当前人工智能领域的前沿方向，尽管在道路提取方面已有很多研究，但在高分辨率影像复杂场景下的路网提取方面尚有不足。为此，本文提出了RDU-Net模型，选取内江市罗泉镇为研究对象，采用高分二号卫星影像数据进行乡村复杂场景下的路网提取，并与U-Net模型进行对比实验。

本文选取内江市罗泉镇的乡村道路典型研究对象，充分考虑到乡村道路与背景更容易混淆，存在有树木、房屋、田埂等多种干扰源，且高分辨率遥感影像中地物细节化差异性增大、影像离散化和不规则化、提取时容易得到大面积假阴性等问题，借助批标准化、长短连接、空洞卷积、Tversky损失函数构建了感受野和回调率更高的RDU-Net道路分割模型。通过与现有的U-Net模型进行横向对比，RDU-Net的错分率和漏分率大幅降低，道路信息更加连贯完整，模型的泛化能力显著增强，且模型的IoU、F1分数提升均超过10%，在不同的区域均能够准确提取道路信息。另外，少量的遮挡不会导致道路断裂，模型抗干扰能力亦有较大提升，保障了基于深度学习实现乡村路网提取的可靠性。

本文提出的RDU-Net模型仅通过少量的训练样本辅以数据扩充，便能够满足基于高分辨率遥感影像提取乡村路网信息的要求，较现有模型与算法具有更好性能。相关算法流程及实验结果可为相关领域研究和应用拓展提供参考。