基于改进LinkNet的寒旱区遥感图像河流识别方法

2022-08-08 08:30王海龙苑玉彬张泓国
农业机械学报 2022年7期
关键词:编码器准确率卷积

沈 瑜 王海龙 苑玉彬 梁 丽 张泓国 王 霖

(1.兰州交通大学电子与信息工程学院, 兰州 730070; 2.南京航空航天大学电子与信息工程学院, 南京 211106)

0 引言

遥感图像精准识别河流对于水资源的合理利用具有重要意义[1]。高分卫星技术的快速发展为高分辨率遥感图像的获取提供了新的途径,对于河流图像的精准识别具有支撑作用[2-4]。

利用传统方法对河流进行识别精度较差、效率低[5-6]。近些年,利用深度学习方法研究遥感图像取得了重大突破,尤其是基于深度卷积神经网络的遥感图像语义分割取得了比较大的进展[7-11]。WANG等[12]利用迁移学习方法将UNet和CAM (Class activation maps)算法结合,形成U-CAM网络,使用弱监督方法在只有100幅图像的情况下进行训练,在农田影像数据集上实现了较高的像素级预测精度。ResUNet[13]网络结合了深度残差网络和UNet网络各自的优势,使得网络参数仅为UNet的1/4,并使用预训练好的网络进行了微调,在Massachusetts roads dataset的测试集上取得了优于其他网络的分割性能。LinkNet[14]网络借鉴了UNet的思想,并引入了residual blocks,然后将每个编码器的输入连接到对应解码器的输出上,在保证分割精度的同时提升网络推断速度,以满足实时性的任务需求,在Cityscapes测试集上实现了快速分割。D-LinkNet[15]使用预训练编码器的LinkNet作为骨干,通过引入残差单元和串并联空洞卷积结构,在DeepGlobe道路数据集的验证集和测试集上,IoU(交并比)分别为64.6%和63.4%。MANet[16]中提出了一种新的具有线性复杂度的注意力机制,以减轻注意力中的大量计算需求,通过多个高效的注意力模块提取上下文依赖关系,在ISPRS Potsdam等多个数据集上验证了其准确度均超过了其他8种对比网络。MUNet[17]是一种多尺度自适应分割网络,将多个尺度的UNet进行融合,所有分支共用一个下采样编码过程,然后进行上采样,并将预测结果连接后进行卷积融合,在ISPRS Vaihingen等数据集上与UNet++模型进行对比实验,MUNet模型的预测精度更高,容错能力更强。GLCNet[18]中提出了一种全局风格和局部匹配对比学习网络,在ISPRS Potsdam数据集上将Kappa系数提高了6%,效果明显优于有监督学习。R-LinkNet网络通过迁移ResNet50到LinkNet网络中,同时结合Dense ASPP[19]对河流图像进行语义分割,在分割细节上得到了较大提升,在河流数据集上像素准确率为89.1%。WEI等[20]提出一种编码器-解码器架构模型,利用编码器网络提取超高分辨率图像的高层语义特征,利用解码器网络将低分辨率编码器特征图映射到全输入分辨率特征图,并结合了条件随机场,实现像素级标记,在Vaihingen数据集上平均像素准确率为76.32%。

虽然在遥感图像领域有很多语义分割算法都取得了较好的效果,但是针对寒旱地区遥感图像河流的提取算法较少。我国寒旱地区河流分布较为分散,水量较小,因此河流呈现出细小的特点,且存在高山阴影和云雾遮挡的问题。目前的算法对河流边缘细节以及阴影遮挡处很难识别,容易出现不连续和锯齿状,基于以上问题,本文提出一种改进LinkNet模型的分割网络(AFR-LinkNet),用于对我国寒旱地区遥感图像河流的识别。

1 实验数据集

1.1 实验区域

本文遥感图像数据采集区域位于30°~50°N,80°~100°E,如图1所示。该地区每年最冷月平均气温小于-4.0℃、月平均气温大于10℃时间不超过5个月,连年平均降雨量小于500 mm,属于典型的寒旱地区。该地区生态脆弱、水资源分布不均匀、缺乏水资源统一管理和调度,使得寒旱地区的生态环境日益恶化。因此,寒旱地区河流精准识别显得尤为重要。

图1 实验区域示意图Fig.1 Schematic of experimental area

1.2 数据集

数据集选自我国寒旱地区具有不同尺度和代表性的遥感河流图像,从图1所示实验区域的Google Earth中共采集200幅遥感河流图像,图像尺寸为1 024像素×1 024像素,覆盖面积为1 m2。利用标注工具Labelme进行二分类人工语义标注,河流标注为1,背景标注为0。数据集中包含山体阴影、冰雪、道路、云雾、干涸河床等具有代表性的干扰因素,图2为数据集部分示例。

图2 河流数据集示例图Fig.2 Example diagram of a river dataset

为了使数据集足够大,对采集到的训练数据集进行数据增强[21],包括图像旋转、缩小填充、放大、镜像、色度变换等操作,使原有数据集扩大5倍达到1 000幅图像。图像增强操作示意图如图3所示。

图3 数据扩增效果Fig.3 Data amplification effect

2 网络模型

为了实现对寒旱区遥感河流图像精细化的分割,本文对LinkNet结构进行了改进,提出一种基于编码-解码的AFR-LinkNet网络,其结构如图4所示。

图4 AFR-LinkNet网络结构Fig.4 AFR-LinkNet network structure

LinkNet采用ResNet18作为编码器,其表征能力和精度有限。本文提出的AFR-LinkNet网络属于编码-解码结构,包括2个卷积层、1个反卷积层、4个编码层、4个解码层、3个非对称卷积块、1个残差通道注意力模块和密集跳跃连接结构。编码器部分采用预训练好的残差网络ResNet50,以增强网络的表征能力,并缩小收敛时间,同时使用最新针对计算机图像的非线性视觉激活函数FReLU[22],可以使网络获得更多的图像空间关联性的细节信息。将编码器阶段的每个输出都经过一个不对称的卷积块提供给解码器,压缩网络大小,速度得到提升,将不同级别的图像信息进一步细化,为解码器提供更多的图像空间信息。残差通道注意力结构位于网络的编码器和解码器之间,该结构中使用了空洞卷积,可以增大网络感受野,保留更多的有用信息,该结构可以对提取的特征进一步重新标定,重点关注对语义分割任务有效的图像特征,有利于实现精细化分割。在解码器阶段,使用密集跳跃连接,以将不同级别和尺度的特征进行融合加以利用,减少特征信息的损失,使网络分割能力得到提升。

2.1 残差通道注意力结构

在遥感河流图像语义分割任务中,由于受阳光、山体阴影、云雾、干涩河床以及冰雪等的影响,网络模型经常会出现分割的语义图中细小河流不连续或者在边缘产生锯齿状的现象,如果能使网络关注重点目标区域,便可提升分割精度,因此需要强化对遥感河流图像语义分割任务有效的高级语义特征信息。不同高级特征通道之间具有一定的关联性,而且各个高级通道都包含大量丰富的图像语义信息,只要将这些通道进行建模形成一定的信息依赖,就能实现对有效的高级语义信息的强化作用,因此本文采用具有残差结构的通道注意力模块(Residual channel attention block,RCAB),如图5所示。

图5 残差通道注意力模块结构图Fig.5 Residual channel attention block structure diagram

在残差通道注意力结构中,一方面将编码器得到的具有高级语义信息的特征图经过全局平均池化操作进行压缩,得到每个通道的全局特征信息。然后经过两个卷积层和一个非线性激活函数FReLU构成的bottleneck结构进行通道之间的信息依赖建模,最后通过Sigmoid函数获取通道权重。另一方面将编码器得到的特征图经过两层膨胀卷积进行处理,然后与得到的权重进行Scale运算,最后得到具备通道注意力的遥感河流图像的特征图。残差通道注意力结构对目标分割任务的特征图进行了重新标定,强化了有效特征,有助于提高网络的语义分割精度。

2.2 非对称卷积块

在网络模型中使用大小为d×d的标准卷积核能够对图像特征进行提取,但是普通卷积核的感受野和网络深度较为有限。文献[23]提出了使用非对称卷积(Asymmetric convolutional network,ACNet)代替原有普通卷积,并证明了可以将标准的d×d卷积分解为d×1和1×d,以减少参数和计算量,并增加了网络深度,使得网络的非线性表达能力更强。非对称卷积主要通过逼近方核卷积的方式进行压缩和加速,但是在逼近过程中会导致部分信息丢失。文献[24]针对该问题提出了使用两个一维非对称卷积分别从水平和垂直方向对方核卷积进行特征增强,以提升局部显著特征的影响因子。最后将3个并行卷积核获取的信息集中到方核卷积,用以丰富特征空间信息,使得网络对图像具有良好的辨别性能。非对称卷积块如图6所示。

图6 非对称卷积块结构图Fig.6 Structure diagram of asymmetric convolution block

非对称卷积块由3个并行的3×3、1×3、3×1卷积层构成,3个通道具有相同的特征输入。特征图分别经过方核、水平核以及垂直核的卷积操作,并将输出进行求和操作得到融合结果。水平和垂直方向的卷积操作捕获了更多的空间细节信息,增强了卷积核的表达能力,避免了大量参数计算的引入。最后将融合后的特征图经过批量归一化(Batch normalization,BN)操作,减少过拟合,提升训练速度,并经非线性ReLU激活后输出。

2.3 视觉激活函数FReLU

现实中数据分布大多数都是非线性的,因此引入非线性激活函数可以强化网络的学习能力,提供更好的建模能力,使卷积神经网络更接近真实情况。卷积神经网络图像语义分割中经常使用的激活函数为ReLU(Rectified linear unit)和PReLU(Parametric ReLU)[25],表达式为

(1)

(2)

式中a——随机参数x——特征输入

在ReLU激活函数中,有效导数是常数1,解决了深层网络中出现的梯度消失问题,也就使得深层网络可训练。但是ReLU强制将x≤0部分的输出置为0可能会导致模型无法学习到有效特征,所以如果学习率设置的太大,就可能导致网络的大部分神经元处于失效状态,所以使用ReLU网络,学习率不能设置太大。PReLU在x≤0部分的线性激活单元引入了一个随机参数a,该参数可通过学习进行更新。

ReLU和PReLU在卷积神经网络中应用较为广泛,但是在图像处理上对空间特征信息不敏感。针对该问题,文献[22]提出一种新的非线性计算机视觉任务激活函数FReLU(Funnel ReLU)解决对空间信息不敏感的问题。FReLU的计算式为

FReLU(x)=max(x,T(x))

(3)

式中T(x)——二维空间条件

FReLU激活函数中使用一个依赖于空间上下文的二维漏斗状条件T(x),该视觉条件有助于提取物体的精细空间布局。FReLU原理图如图7所示。二维空间条件创建了像素级别的空间依赖,实现了网络的像素化建模能力,它能增强网络对不规则和详细物体布局的解析,极大地提升了图像语义分割精度。

图7 FReLU原理图Fig.7 Schematic of FReLU

3 实验结果与分析

3.1 实验设置

实验硬件平台为i9-11980HK CPU、NVIDIA GeForce RTX3080 GPU16GB,内存32GB,Windows 10操作系统。网络模型使用Python语言和PyTorch框架进行搭建,实验中优化器为Adam,学习策略为Poly,批量大小为2,迭代次数为100,初始学习率为2×10-4,权重衰减为1×10-4,动量为0.99,损失函数采用二分类交叉熵损失函数,为防止网络陷入局部最优解,并按多项式衰减,衰减率设置为0.9。在数据集中将训练集与验证集比例设置为9∶1,测试数据集从寒旱区单独采集了100幅尺寸为1 024像素×1 024像素,且含有高山阴影、道路、冰雪等干扰因素的河流图像作为测试集。

3.2 评价指标

采用召回率(Recall)、交并比(IoU)、F1值、准确率(Accuracy)作为评价指标。

3.3 实验结果

通过对比实验和消融实验,验证AFR-LinkNet网络模型对遥感图像河流精准分割的有效性,实验参数初始化全部使用HE等[26]初始化方法,权值初始化服从正态分布,超参数设置服从3.1节中各项设置。实验结果表明,AFR-LinkNet网络的交并比、召回率、F1值和准确率分别为70.9%、88.2%、89.9%和91.8%,均高于FCN、UNet、ResNet50、LinkNet和DeepLabv3+网络;河流图像识别结果在细节和精度上均优于其他网络,对各种干扰因素具有较强的区分能力。

3.3.1对比实验结果分析

实验选取5个经典网络模型FCN、UNet、ResNet50、LinkNet、DeepLabv3+ 作为对比,图8为不同网络的准确率变化曲线,表1为相应网络的评价指标结果。

图8 不同网络的准确率对比曲线Fig.8 Accuracy comparison curves of different networks

表1 不同网络评价指标结果Tab.1 Results of different network evaluation indicators %

由表1可知,AFR-LinkNet网络相较于FCN、UNet、ResNet50、LinkNet、DeepLabv3+ 网络,交并比分别提高了26.4、22.7、17.6、12.0、9.7个百分点,像素准确率分别提高了25.9、22.5、13.2、10.5、7.3个百分点。从图8中看出, AFR-LinkNet网络在20个迭代周期时像素准确率基本趋于稳定,可达91.8%,其准确率高于其他网络,具有更好的收敛性与准确性。

图9为含有冰雪、干涩河床、道路、高山阴影等情形下网络的4幅遥感河流图像的语义分割效果图。图中红色矩形为主要的分割差异,可以看出FCN、UNet以及ResNet50网络在河流较细处出现了中断,边缘识别效果较差,并且将一些冰雪、高山阴影、小道等误识别为河流,抗干扰性以及细节识别效果不理想。LinkNet和DeepLabv3+ 网络识别效果有一定提升,细小河流处出现中断的较少,但仍然有许多误识别且识别精度比较差。AFR-LinkNet网络受残差通道注意力结构(RCAB)影响,重点关注了目标分割任务区域(河流),在河流连贯性和边缘识别精细度上有了较大提高,并且因为非对称卷积结构(ACNet)丰富了特征空间信息,使得网络对图像具有较强的辨析能力,因此受冰雪和干涩河床等的影响较小,对高山阴影遮挡以及道路等干扰因素有较强的区分性,结合视觉激活函数FReLU对河流图像的像素级空间解析能力,使得网络分割精度整体提升,分割效果较其他网络有明显的区别。但是在特别细小和离目标区域较远的河流(图中绿色矩形区)仍有部分识别不了,主要原因可能是网络重点关注了目标区域且卫星图像分辨率有限。

图9 4幅图像不同网络识别结果对比Fig.9 Comparison of identification results of different networks

3.3.2消融实验结果分析

为了验证ACNet和RCAB对提高遥感河流图像识别效果的有效性,实验中将未引入ACNet和RCAB的AFR-LinkNet网络与AFR-LinkNet + ACNet、AFR-LinkNet + RCAB、AFR-LinkNet+ACNet+RCAB网络进行对比,其像素准确率变化曲线以及网络相应的评价指标结果如图10和表2所示。

图10 网络测试准确率变化曲线Fig.10 Accuracy change curves of network test

表2 网络测试评价指标结果Tab.2 Network test evaluation index results %

根据表2可知,在AFR-LinkNet网络上分别只引入ACNet和RCAB后网络收敛速度和像素准确率均有提高,单独引入RCAB时的各项评价指标优于单独引入ACNet结构,当同时引入ACNet和RCAB时各项评价指标均达到最优。只引入ACNet模块后,交并比提高了5.1个百分点,像素准确率提高了2.9个百分点;单独引入RCAB模块后,交并比提高了5.5个百分点,像素准确率提高了3.8个百分点;同时引入ACNet和RCAB,交并比提高了7.7个百分点,像素准确率提高了6.1个百分点。

图11为网络河流识别效果,红色方框标注的为主要差异部分,可以看出, AFR-LinkNet网络识别效果最差,错误地将冰雪、道路以及一些山体和阴影遮挡识别为河流,一部分细小河流识别不到,一部分识别出现断流,河流边缘识别精度较差;只引入ACNet结构后的网络从不同方向上对特征信息进行了增强,能够提取到丰富的特征空间信息,使得网络对图像具有良好的辨别性能,因此识别到了细小的河流,没有将山体阴影和道路错误识别为河流,识别到的河流较为完整和连贯,但在边缘细节上仍有部分误识别;只添加RCAB结构后的网络能够对河流目标分割任务的特征图进行重新标定,强化有效特征,重点关注河流分割目标,从相应的识别效果图中可以看出对河流的边缘细节识别精度较高,对冰雪和遮挡有较强的抗干扰性,细小河流得到了精确识别,但仍有部分断流;可以看到同时结合ACNet和RCAB的AFR-LinkNet网络识别效果最佳,识别到的河流最完整,细小河流得到了完整的提取,且边缘部分的细节精度也较高,没有将各种干扰因素错误地识别为河流,达到了精细化、精准化识别遥感河流图像的目的,证明了本文网络的有效性。但是对特别细小的河流和其边缘(语义标签图中的绿色方框部分)的分割精度还有一定的提升空间。

图11 不同网络的河流识别效果对比Fig.11 Comparison of identification effects of different networks

4 结束语

根据寒旱区地理特点,制作了相应的高分辨率遥感河流图像数据集。为了解决寒旱区遥感河流图像精细化识别精度低的问题,提出了一种基于改进LinkNet网络的遥感河流图像识别算法(AFR-LinkNet),网络的分割结果与原始图像的分辨率能够保持一致。首先将ResNet50迁移到LinkNet中,并使用FReLU替换ReLU激活函数,增加密集跳跃连接结构,在增加网络深度的同时保留更多的空间信息,保证了河流图像识别的连贯性;其次,引入ACNet和RCAB模块,使得网络专注于分割目标,进一步加强了低级图像空间语义信息与高级图像语义信息的结合,提升了网络收敛速度和河流边缘识别的准确度,增加了抗干扰性。实验结果表明,AFR-LinkNet网络的交并比、召回率、F1值和像素准确率分别为70.9%、88.2%、89.9%和91.8%,优于FCN、UNet、ResNet50、LinkNet和DeepLabv3+网络,证明了其有效性。

猜你喜欢
编码器准确率卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于ResNet18特征编码器的水稻病虫害图像描述生成
WV3650M/WH3650M 绝对值旋转编码器
WDGP36J / WDGA36J编码器Wachendorff自动化有限公司
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨