基于改进DeepLab v3+模型和迁移学习的高分遥感耕地提取方法

2023-12-13 15:22毛星金晶张欣戴佩玉任妮
江苏农业学报 2023年7期
关键词:迁移学习

毛星 金晶 张欣 戴佩玉 任妮

摘要: 針对实际遥感耕地信息提取工作中,多源数据特征复杂、样本标注工作繁重等导致高空间分辨率影像解译精度不高、自动化程度不够的问题,本研究基于DeepLab v3+模型,提出一种融合邻域边缘加权模块(NEWM)和轴向注意力机制模块(CBAM-s)的卷积网络模型DEA-Net,结合迁移学习方法进行高分辨率遥感影像耕地信息提取。首先,在浅层网络结构中加入邻域边缘加权模块,提升高分辨率下地物的连续性,细化边缘分割粒度;其次,在深层网络结构中添加轴向注意力机制模块,增加细小地物的关注权重,减少深度卷积导致地物丢失的情况;最后,采用迁移学习的思想,降低样本标注工作量,提高模型学习能力。利用高分卫星土地覆盖数据集(GID)数据构建源域数据集进行模型预训练,将获取的模型参数及权重信息迁移至大数据与计算智能大赛(BDCI)遥感影像地块分割竞赛数据集和全国人工智能大赛(NAIC)遥感影像数据集制作的2种不同目标域数据集中,微调训练后应用于耕地信息提取研究。结果表明,本研究构建方法能够增强模型的空间细节学习能力,提高耕地语义分割精度的同时,降低2/3以上的训练样本数量,为遥感耕地信息提取及农业数据智能化利用提供新的思路和方法。

关键词: 耕地信息提取;迁移学习;DEA-Net;高分遥感

中图分类号: S126   文献标识码: A   文章编号: 1000-4440(2023)07-1519-11

High-resolution remote sensing arable land information extraction method based on improved DeepLab v3+ model and transfer learning

MAO Xing1,2, JIN Jing1,2, ZHANG Xin1,2, DAI Pei-yu1,2, REN Ni1,2

(1.Institute of Agricultural Information, Jiangsu Academy of Agricultural Sciences, Nanjing 210014, China;2.Key Laboratory of Intelligent Agricultural Technology (Changjiang Delta), Ministry of Agriculture and Rural Affairs, Nanjing 210014, China)

Abstract:  The complex multi-source data features and heavy sample annotation work in the practical remote sensing arable land information extraction work will lead to low accuracy and insufficient automation of high spatial resolution image interpretation. In view of the above problems, based on DeepLab v3+, we proposed a convolutional network model DEA-Net that incorporated the neighborhood edge weighting module (NEWM) and the axial attention mechanism (CBAM-s), and combined the transfer learning method to extract arable land information of high-resolution remote sensing images. First, the NEWM was added to the shallow network structure to improve the continuity of features under high resolution and refine the granularity of edge segmentation. Then, the CBAM-s was added to the deep network structure to increase the attention weight of fine features and reduce the loss of features due to deep convolution. Finally, the idea of transfer learning was adopted to reduce the sample annotation workload and improve the learning ability of the model. The source domain dataset was constructed using the Gaofen image dataset (GID) for model pre-training, and the acquired model parameters and weight information were migrated to two different target domain datasets produced by big data & computing intelligence contest (BDCI) and national artificial intelligence challenge (NAIC), and fine-tuned and trained for arable land information extraction. The results showed that the method constructed in this study could enhance the spatial detail learning ability of the model, improve the semantic segmentation accuracy of arable land, and reduce the number of training samples by more than 2/3. It can provide new ideas and methods for remote sensing arable land information extraction and intelligent utilization of agricultural data.

Key words: arable land information extraction;transfer learning;DEA-Net;high resolution remote sensing

及时、准确获取耕地信息对于国家粮食安全、农业生产管理、农业资源保护等具有重要意义[1]。随着农业现代化的不断发展,中低分辨率耕地影像已无法满足精准农业对数据质量的要求。虽然遥感影像的分辨率越来越高,但随之而来的复杂空间特征信息对遥感影像的解译技术提出了更高要求。

卷积神经网络出现之前,遥感地物分类提取方法多依赖于分类特征设计和机器学习模型[2]。光谱信息和植被指数是耕地识别中最常见的特征参数[3],但不同波段组合、不同植被指数组成的分类特征使耕地识别结果具有很大随机性。基于支持向量机(SVM)[4]、决策树[5]、随机森林[6]等分类器构建的机器学习模型虽然降低了分类特征设计过程中人为因素的影响,但模型的鲁棒性和灵活性存在一定限制,改选数据源或者切换应用区域,均需对模型的参数及输入特征做出调整。

近年来,深度学习技术的快速发展推动了遥感语义分割的广泛应用。Long等[7]提出了FCN网络,用卷积层替换最后一层全连接层,实现了像素级的图像分类,但FCN在上采样过程中忽略了像素之间的关系。UNet模型采用编码器—解码器结构,并在上采样过程中充分利用下采样提取的特征信息,提高了语义分割精度[8],但没有考虑图像的上下文信息。Chen等[9]引入了空洞金字塔池化模块来增加网络的上下文信息感受野,但空洞卷积会丢失部分空间信息,导致影像分割不够精细。Yao等[10]在DeepLab v3+的基础上引入了注意力机制,增强了特征提取能力,降低了环境信息的影响。Wang等[11]基于DeepLab v3+提出了一种名为CFAMNet的网络模型,使用类特征注意模块增强了类与类之间的相关性,采用多并行空洞金字塔池化结构增强了空间相关性。刘文祥等[12]采用双注意力机制,从位置和通道2个角度增强特征信息的关注度,提升了模型的训练速度。叶沅鑫等[13]采用R-MCN网络结构,增大训练的感受野,增加了浅层网络特征权重,进一步细化了地物边界。虽然,基于DeepLab v3+的遥感影像语义分割技术已经有了一定提高,但大多数研究针对的目标数据都是具有相同参数的少量遥感影像,模型泛化能力有限。多源遥感数据不同的成像方式、成像时间、空间分辨率、光谱波段范围等对模型的鲁棒性提出了较高要求,作物类型、灌溉方式、地形地貌、休耕轮作等也是遥感耕地自动化提取中不可避免的难点问题。

基于此,本研究拟提出一种融合邻域边缘加权模块(NEWM)和轴向注意力机制模块(CBAM-s)的高分辨率遥感耕地信息提取方法,利用邻域边缘加权模块改善浅层网络中地物的连续性,用轴向注意力机制模块提高深层网络中细小地物的关注度,基于迁移学习的方法优化模型参数,以期在增强语义分割效果的同时,能够进一步提高模型的泛化能力。

1 材料与方法

1.1 数据集制作

本研究试验数据包括两部分,第一部分为源域数据集,用于模型的预训练,该数据集来自于武汉大学公布的高分卫星土地覆盖数据集(GID),包含了150张像素为7 200×6 800的高分2号卫星影像,涵盖了5种地物类别:水域、农田、建筑、草地和林地,具体见图1。因为研究对象是耕地,所以选择与之相似的农田地块作为模型预训练对象。为方便模型的训练,使用像素为256×256的随机窗口从原始影像中裁剪出30 000张包含农田地块的样本图像,将分类标注数据二值化为农田和其他类别,作为源域数据集,并按照8∶1∶1的比例随机划分为训练数据、验证数据和测试数据。第二部分为目标域数据集,数据来源于大数据与计算智能大赛(BDCI)遥感影像地块分割竞赛数据集(后文统称为BDCI数据集)和全国人工智能大赛(NAIC)遥感影像数据集(后文统称为NAIC数据集),这2个数据集的图像大小均为256×256(图2)。BDCI数据集是分辨率为2.0 m的遥感图像,包含7类地物:建筑、耕地、林地、水体、道路、草地和其他地物。NAIC数据集由分辨率0.1 m至4.0 m的多种卫星及航空数据组成,包含8类地物:水体、道路、建筑、耕地、草地、林地、裸土和其他地物。分别从2个数据集中随机选取8 000张包含耕地的图像,将分类标注数据二值化为耕地和其他类别,作为目标域数据集,并按照2∶1∶1的比例随机划分为训练数据、验证数据和测试数据。

1.2 DeepLab v3+模型改进

本研究提出了一种改进的DeepLab v3+模型,名为DEA-Net模型,整体采用编码器—解码器结构。图3显示,编码器部分主要包含Xception特征提取网络和空洞金字塔池化(ASPP)模块,解码器通过2次4倍上采样得到地物的分割形状。ASPP模块包含1个1×1卷积和3个扩张率分别为6、12、18的3×3卷积以及1个全局平均池化层。不同扩张率的空洞卷积可以有效捕获影像上下文特征信息,提高地物不同尺度的识别效果[14]。不同尺度影像特征包含不同的空间信息,高分辨率对应的浅层特征具有丰富的空间细节信息,有利于耕地边界细化,但是面对遥感影像同物异谱的情况,容易出现噪声点[15]。低分辨率对应的深层特征包含丰富的全局语义信息[16],能够有效識别耕地的大致范围,但下采样过程中容易导致沟壑、田埂等信息的丢失。因此,本研究设计了邻域边缘加权模块和轴向注意力机制模块,对模型的ASPP模块进行改进,增强模型特征提取能力,提高遥感影像的耕地信息提取精度。NEWM位于ASPP模块前两层卷积之后,主要用于改善高分辨率情况下地物的连续性,CBAM-s则嵌入ASPP中扩张率为12、18的3×3卷积之后,以增加深层特征对周边要素的考虑。

1.2.1 邻域边缘加权模块 卷积神经网络中的低级特征容易忽略空间细节[17],导致语义分割的边缘模糊不清。为此,本研究设计了邻域边缘加权模块,增强耕地边缘权重,提高空间特征关注度,改善耕地边缘识别效果。图4显示,首先按照栅格图像8邻域规则,创建8个不同方向的卷积核,卷积核当前方向值为1,其余位置为0,然后对输入特征进行8邻域二维卷积,卷积结果与输入特征相减后叠加,最后经过非线性激活生成邻域边缘权重特征。NEWM的计算公式可表示为:

Ne(M)=σ∑7i=0[Ei(M)-M]M(1)

其中,M表示输入特征;Ne(M)表示邻域边缘加权后的输出特征;Ei表示8邻域二维卷积;σ表示Sigmoid函数;表示矩阵的元素乘法运算。

1.3 迁移学习

针对样本数量有限的条件下,高分辨率遥感耕地信息提取模型存在收敛缓慢、极易过拟合等问题,迁移学习可以使用少量训练样本创建特征学习能力更强的深度学习模型,最大限度减少目标领域学习成本[20]。对于给定源域(DS)和学习任务(TS)以及目标域(DT)和学习任务(TT),迁移学习能够利用在DS和TS中学习的知识帮助改进目标预测函数(FT)在DT中的使用。图8显示,本研究将源域数据集上预训练获得的特征权重和参数信息迁移至新的网络模型,新模型最大程度复用预训练模型的网络结构和权重参数,通过目标域数据集微调训练模型参数学习隐含特征,进而提高模型性能。

1.4 精度评价方法

采用像素准确率(PA)、类别平均像素准确率(MPA)、平均交并比(MIoU)和Kappa系数作为精度评价标准。PA、MPA和MIoU是图像分割评价的重要指标,计算公式如下:

PA=∑ki=1pii∑ki=1∑kj=1pij(6)

MPA=1k∑ki=1pii∑kj=1pij(7)

MIoU=1k∑ki=1pii∑kj=1pij+∑kj=1(pji-pii)(8)

其中,PA表示像素准确率;MPA表示类别平均像素准确率;MIoU表示平均交并比;k表示类别数量;pii表示预测正确的像素数量;pij表示将i类预测为j类的像素数量;pji表示将j类预测为i类的像素数量。

Kappa系数是遥感分类中最常用的评价指标,计算公式如下:

Kappa=N∑ki=1Nii-∑ki=1Ni+N+iN2-∑ki=1Ni+N+i(9)

其中,Kappa表示Kappa系数;N表示样本像素总数;k为类别数量;Ni+表示第i类的真实样本像素数量;N+i表示预测为第i类的样本像素数量;Nii表示第i类真实值和预测值一致的样本像素数量。

1.5 试验配置

本研究的试验在Linux操作系统中运行,深度学习框架采用Pytorch 1.11,处理器为Intel(R) Xeon(R) Gold 5218R CPU @ 2.10 GHz,显卡为NVIDIA A100-PCIE-40 GB。Python版本为3.8,CUDA版本为11.0。使用Adam函数作为网络优化器,初始学习率为0.001,单次训练的样本个数为64。

2 结果与分析

2.1 不同网络在源域数据集上的对比

为了对比模型的特征学习能力,本研究选择SegNet、UNet、DeepLab v3+网络模型进行对比试验。每种模型均利用源域数据集的训练数据和验证数据进行特征学习,并在测试数据上对其进行语义分割试验以及精度评价。结果(表1)表明,DEA-Net模型相比其他网络模型的PA、MPA、MIoU和Kappa系数均有所提高,PA、MPA、MIoU分别为88.49%、86.44%、80.11%,Kappa系数为0.833 7。与DeepLab v3+模型相比,DEA-Net模型的PA提高了1.59个百分点,MPA提高了0.87个百分点,MIoU提高了1.61个百分点,Kappa系数提高了0.013 8,说明本研究提出的DEA-Net模型在农田遥感影像语义分割中具有一定优势。

图9展示了不同模型的语义分割情况,SegNet模型在上采样和下采样过程中未曾关联上下文信息,容易丢失空间特征,造成大片农田无法识别。UNet模型融合了编码、解码过程的特征,其精度有所提高,但对相似区域仍存在大量错分、漏分情况。DeepLab v3+模型中ASPP模块的不同空洞卷积增加了多尺度特征关联,其结果与本研究提出的DEA-Net模型最接近。DEA-Net模型提取的农田边界信息比其他网络模型更加清晰,结果更接近真实标注。

2.2 模型在源域数据集上的消融分析

为了研究NEWM和CMAM-s对DEA-Net模型的影响,本研究在源域数据集上进行了消融试验。采用DeepLab v3+模型为基准模型,逐步添加NEWM和CMAM-s,验证各模块的效果。从表2可以看出各模块对模型精度的贡献程度,CMAM-s对模型学习能力的提升效果优于NEWM。从提取结果中选取了3张代表性影像说明各模块发挥的作用,图10显示,第一张影像引入NEWM后,细条状农田被清晰识别出,且农田的边界轮廓鲜明;第二张影像提取结果显示,CMAM-s能够精准确定农田的大致分布范围;第三张影像的提取结果可以看出NEWM提高了田埂、道路的识别精度,但有部分非农田被误认为是农田。CMAM-s可以提高连片农田分割效果,但无法区分农田中细长的其他地物,融合NEWM和CMAM-s 2个模块的DEA-Net模型提取的农田信息基本接近实际标注范围。消融试验结果表明NEWM和CMAM-s均能有效提高模型的农田识别精度,但部分场景下2个独立模块的提取结果并不理想,而DEA-Net模型能够融合2个模块的优势,提高模型精度。

2.3 目标域数据集中的耕地信息提取结果

本研究利用2种目标域数据集分别进行耕地信息提取试验,将源域数据集上训练得到的模型迁移到目標域数据集上,通过20次迭代训练并在目标域数据集的测试数据中进行模型效果验证。本研究对比了DEA-Net模型和DeepLab v3+模型在目标域数据集上的精度,结果(表3)表明,BDCI数据集中DEA-Net模型迁移学习效果优于DeepLab v3+模型,经过迁移学习DEA-Net模型的PA、MPA、MIoU、Kappa系数分别提高了1.55个百分点、1.18个百分点、2.15个百分点和0.031 2。NAIC数据集中2种模型经过迁移学习后的精度提升效果更加明显,DeepLab v3+模型的PA、MPA、MIoU、Kappa系数分别提高了2.02个百分点、2.43个百分点、2.12个百分点和0.043 5,DEA-Net模型的PA、MPA、MIoU、Kappa系数分别提高了2.26个百分点、1.36个百分点、4.47个百分点和0.039 5,DEA-Net模型的PA和MIoU提升效果更明显,说明DEA-Net模型对于目标耕地信息的提取效果更好。

为了更直观地展示不同方法的耕地信息提取效果,从目标域数据集中选取4个代表性场景,场景一、场景二来自NAIC数据集,场景三、场景四来自BDCI数据集。图11显示,场景一的耕地中间分布了一片规则房区,场景二中耕地被不规则地物隔开,场景三由耕地和林地环绕分布,场景四拥有2块不同形态的耕地。DEA-Net模型的邻域边缘加权模块能够有效提高边缘精度,不论是针对规则边缘还是不规则边缘都能较好地展示细节信息。注意力机制可以加速不同特征信息学习,提高“异物同谱、同物异谱”地物的分类准确性。此外,经过迁移学习的DEA-Net模型和DeepLab v3+模型的识别效果均明显提高,但DEA-Net模型的耕地分割结果与实际情况更为接近。

2.4 训练样本数量分析

为了进一步验证DEA-Net模型在目标域数据集中的适用性,将目标域训练数据从100张逐步增加至3 000张,验证数据和测试数据不变,训练迭代次数设为20次。图12展示了BDCI数据集和NAIC数据集中DEA-Net模型的MIoU随训练样本数量的变化。随着样本数量的增加,模型的精度整体呈增加趋势。在BDCI数据集中,经过迁移学习后模型的MIoU达到80%时,样本为400张影像,而未经过迁移学习的模型在1 500张样本以后MIoU才超过79%。在NAIC数据集中,经过迁移学习的模型在样本超过500张后MIoU达70%以上,未经过迁移学习的模型则需要2 000张样本。因此,本研究提出的方法可以有效减少高分辨率遥感耕地分割的样本数量。

此外,在BDCI数据集中,样本数量超过400张以后,模型精度的提升幅度总体呈减小趋势。在NAIC数据集中,模型精度随训练样本数量的增加总体呈增加趋势。主要原因是BDCI数据集都是分辨率相同的遥感图像,只需少量训练样本就能覆盖大部分样本类型。NAIC数据集包含了高分一号、高分二号、高分六号、高景二号、北京二号以及航空遥感等多源影像,其空间分辨率、光谱载荷、成像方式等差异性较大,样本类型更加丰富,少量的样本难以覆盖全部样本类型。因此,迁移学习虽然能够降低训练样本数量,但面对复杂多样的实际应用仍然需要一定规模的样本数据以扩大模型的适用范围。

3 结论

本研究以DeepLab v3+模型为基础,引入邻域边缘加权模块和轴向注意力机制模块,提出了一种DEA-Net网络结构,有效提高了多尺度影像特征信息提取能力,并借助迁移学习的思想,在提高模型精度的同时,降低样本标注成本。研究结果表明,本研究提出的DEA-Net模型在源域数据集的语义分割中相比其他几种主流网络模型表现更好,PA、MPA、MIoU分别为88.49%、86.44%、80.11%,Kappa系数为0.833 7。NEWM可以提高边缘细节关注度,CBAM-s可以为深层网络提供更加丰富的空间特征,能够为耕地信息提取提供更多的语义信息。本研究提出的方法能够有效解决遥感耕地信息提取中样本数量不足的问题,减少2/3以上的样本标注工作。

虽然本研究提出的方法可以有效应用于遥感影像耕地信息提取工作,但仍有改進的空间。首先,本研究仅利用红、绿、蓝3个波段数据,并未完全发挥遥感影像的多光谱、高光谱优势,未来可从光谱维度方面考虑如何进一步提高模型精度。其次,本研究并未对耕地种植类型开展细化分类,未来可围绕作物种植类型识别进行相关研究。

参考文献:

[1] 唐华俊. 农业遥感研究进展与展望[J]. 农学学报, 2018, 8(1): 167-171.

[2] 冯权泷,牛博文,朱德海,等. 土地利用/覆被深度学习遥感分类研究综述[J]. 农业机械学报, 2022, 53(3): 1-17.

[3] ARANGO R B, DAZ I, CAMPOS A, et al. Automatic arable land detection with supervised machine learning[J]. Earth Science Informatics, 2016, 9: 535-545.

[4] 陈 杰,陈铁桥,刘慧敏,等. 高分辨率遥感影像耕地分层提取方法[J]. 农业工程学报, 2015, 31(3): 190-198.

[5] 朱江洪,李江风,叶 菁. 利用决策树工具的土地利用类型遥感识别方法研究[J]. 武汉大学学报(信息科学版), 2011, 36(3): 301-305.

[6] NITZE I, BARRETT B, CAWKWELL F. Temporal optimisation of image acquisition for land cover classification with random forest and MODIS time-series[J]. International Journal of Applied Earth Observation and Geoinformation, 2015, 34: 136-146.

[7] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. New York: IEEE Press, 2015.

[8] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]. Munich: Springer International Publishing, 2015.

[9] CHEN L, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[10]YAO X, GUO Q, LI A. Light-weight cloud detection network for optical remote sensing images with attention-based DeepLab v3+ architecture[J]. Remote Sensing, 2021, 13. DOI:org/10.3390/rs13183617.

[11]WANG Z, WANG J, YANG K, et al. Semantic segmentation of high-resolution remote sensing images based on a class feature attention mechanism fused with DeepLab v3+[J]. Computers & Geosciences, 2022, 158. DOI:org/10.1016/j.cageo.2021.104969.

[12]刘文祥,舒远仲,唐小敏,等. 采用双注意力机制 DeepLab v3+算法的遥感影像语义分割[J]. 热带地理, 2020, 40(2): 303-313.

[13]叶沅鑫,谭 鑫,孙苗苗,等. 基于增强 DeepLab v3网络的高分辨率遥感影像分类[J]. 测绘通报,2021(4): 40-44.

[14]WANG Y, GAO L, HONG D, et al. Mask DeepLab: end-to-end image segmentation for change detection in high-resolution remote sensing images[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 104. DOI:org/10.1016/j.jag.2021.102582.

[15]GUO H, DU B, ZHANG L, et al. A coarse-to-fine boundary refinement network for building footprint extraction from remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 183: 240-252.

[16]HUANG J, ZHANG X, SUN Y, et al. Attention-guided label refinement network for semantic segmentation of very high resolution aerial orthoimages[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 4490-4503.

[17]ZHU Q, LIAO C, HU H, et al. MAP-Net: multiple attending path neural network for building footprint extraction from remote sensed imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(7): 6169-6181.

[18]WOO S, PARK J, LEE J Y, et al. CBAM : convolutional block attention module[C]. Munich: Springer International Publishing, 2018.

[19]WANG D, CHEN X, JIANG M, et al. ADS-Net: an attention-based deeply supervised network for remote sensing image change detection[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 101. DOI:org/10.1016/j.jag.2021.102348.

[20]RIBANI R, MARENGONI M. A survey of transfer learning for convolutional neural networks[C]. Rio de Janeiro: IEEE, 2019.

(責任编辑:王 妮)

猜你喜欢
迁移学习
迁移学习研究综述
从认知角度探讨大学英语网络教学模式
奇异值分解与移移学习在电机故障诊断中的应用
一种基于迁移极速学习机的人体行为识别模型
大数据环境下基于迁移学习的人体检测性能提升方法