顾及时空感知的轻量级遥感影像变化检测方法

2024-03-18 05:12孙雨生邢华桥项俊武王海航
科技创新与应用 2024年7期
关键词:变化检测十字交叉

孙雨生,邢华桥,项俊武,王海航

(山东建筑大学测绘地理信息学院,济南 250101)

变化检测是遥感领域的一个重要研究方向,其利用影像和图像处理方法及数学模型,结合地物特征和相应的遥感成像机制,在多期遥感影像和同一地表区域的相关地理空间数据中过滤出不相干变化信息,找出感兴趣的变化信息[1]。变化检测通过识别地面物体在不同时期的影像变化,为城市规划与重建、环境监测、灾害评估等诸多领域提供研究依据,具有广泛的应用场景[2]。

在实际大多数变化检测中,常用方法仍然是目视解译及人工手动勾画,这种方法依赖于解译人员的主观判断,解译效果差、自动化程度低、局限性大。近年来,深度学习在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展,引起了遥感领域的广泛关注。早期研究者通过早期融合,一种将不同时相影像融合后输入网络的方法,处理多时相影像变化检测问题,但这种方式导致不同影像特征相互影响,破坏了影像的高维特征,导致精度不高。Daudt 等[3]提出一种孪生的端到端的网络模型FC-Siam-conc 和FCSiam-diff,通过通道拼接和计算绝对值的方式融合双时相影像数据,基于跳跃连接实现孪生体系融合,从而实现比早期融合更高的精度,但模型表达泛化能力较低。

因此,上述模型不足以完成高分辨率变化检测任务挑战,本文提出一种顾及时空感知的轻量级遥感影像变化检测方法,在双时相的遥感影像检测过程中,引入一种十字交叉时空注意力机制,并对模型的结构进行优化。本文设计的时空注意力模块可以将此种时空注意力方便高效地应用于各级多尺度特征,而不必下采样到固定的尺度,具有良好的多尺度特性。本文模型在大规模建筑变化检测数据集上取得了较好的结果。

1 顾及时空感知的轻量级遥感影像变化检测方法

1.1 总体思路

本研究模型的总体结构如图1 所示,包括3 部分:编码器、十字交叉时空注意力模块、解码器。编码器用于提取双时相遥感图像的深层次特征,十字交叉时空注意力模块用于细化提取变化特征和相应的语义特征,最后的解码器用于得到该模型的变化检测结果。

图1 模型总体网络结构

1.2 十字交叉时间注意力模块结构

本文提出的十字交叉时空注意力模块基于十字交叉注意力模块(criss-cross attention,CCA)[4]构建,可分为十字交叉空间注意力模块部分和十字交叉时间注意力模块部分。十字交叉注意力模块使得各时相图像每个像素可以捕获所有像素对它的长依赖。

其中,时间注意力模块部分专注于建模双时相影像变化信息,通过相似性函数自适应提取变化部分注意力,强化两时期影像之间差异特征,模块结构如图2所示。

图2 CCTA 模块结构

为更有效地提取多时态像素间的关系,将十字交叉注意力模块扩展成十字交叉时间注意力模块(CCTA)可以有效地聚合横纵方向上的、时空方向上的像素,与Non-local 网络相比大大减少模型占用的内存和复杂度,增强了像素的表征能力。步骤是将多尺度地物特征图输入到CCTA 模块,以获取更具信息表达能力的特征。具体是对第一时相特征M和第二特征时相N输入一个CCTA 模块得到聚合多时相像素长依赖的特征M′、N′,之后循环经过CCTA 模块,最终得到聚合信息更强具备更全面的特征空间表达能力的特征M″、N″。

十字交叉时间注意力模块(CCTA)是通过2 个不同卷积层对地物特征图M得到空间维度张量Q、V1,另外2 个不同卷积层对地物特征图N得到空间维度张量K、V2,其中

式中:C′是特征的通道数小于C,获得Q、K、V1、V2 后计算Q和K的亲和度得到时间注意力权重矩阵

具体是Q在每个位置u上时得到向量QU∈RC′,同时,在K对应于该位置u的横纵方向上可以得到向量KU∈RW+H-1,Ki,U是第i∈RW+H-1位置的KU。相似度计算公式因此可以定义为

式中:di,u所属的D∈R(W+H-1)×(W×H)就是QU和Ki,U的相似度。将softmax 函数应用于D得到时间注意力权重矩阵

式中:softmax函数指归一化指数函数将数字映射为0到1的数字。V1在每个位置u上可以得到向量V1U∈RC′,在V1对应于该位置u的横纵方向上可以得到向量Φ1U∈RW+H-1。V在每个位置u上可以得到向量V2U∈RC′,在V2对应于该位置u的横纵方向上可以得到向量Φ2U∈RW+H-1。因此,最终的聚合操作被定义为

式中:MU′是u位置上的M′∈RC×W×H,Ai,U是u位置第i个标量值的A,Φ1i,U是u位置第i个标量值的Φ1,Φ2i,U是u位置第i个标量值的Φ2。

1.3 十字交叉空间注意力模块结构

与时间注意力模块部分注重部分不同,空间注意力模块部分专注于建模单时相影像内部空间信息,通过相似性函数自适应提取注意力,强化感兴趣种类语义特征。

该模块结构如图3 所示,采用十字交叉注意力原理,图像先通过编码器获得特征H,之后送入十字交叉空间注意力模块(CCSA)获得一个聚合了长依赖上下文信息的特征H′,由于H′只聚合了横纵方向上的信息,特征不够充分。所以,将H′再送入一个CCSA 模块,获得有更强表征能力的特征H″。因此,H″的每个像实际上都集合了所有像素的贡献。前后2 个CCSA 模块共享权重,避免过多参数。CCSA 模块具有占用更少的内存,具备更高的计算效率,模型更高的精度等优点。

图3 CCSA 模块结构

1.4 编解码器结构

本文权衡准确性与模型大小采用ESNet 模型[5]作为骨干编码网络。ESNet 基于ResNet,由4 个基本组件组成,包括下采样单元、上采样单元,分解转换单元(FCU)及其并行版本。

本文使用了与PSPNet 类似的经典逐级上采样解码器。为了减少不同子区域间上下文信息的丢失,PSPNet[6]提出了一个有层次的全局先验结构(金字塔池化模块),包含不同尺度、不同子区域间信息,拥有在深层神经网络的最终层特征图上构造全局场景先验信息的能力。

2 实验与分析

2.1 实验数据

使用公开的LEVIR-CD 数据集验证实验。LEVIR-CD 是一个大规模遥感建筑变化检测数据集。LEVIR-CD 由637 个超高分辨率图像块对组成,大小为1 024×1 024 像素。LEVIR-CD 的作者提供了一个标准的训练/验证/测试拆分方式,分配70%的样本进行训练,10%用于验证,20%用于测试。遵循作者提供的标准拆分方式,采用带有128 像素重叠的裁剪方式,将一对1 024×1 024 像素影像裁剪为9 对512×512像素影像。

2.2 实施细节

在PaddlePaddle 框架上实现模型,并通过NVIDIA Tesla V100 32 GB 显卡训练模型。在训练期间,通过随机翻转、随机重新缩放、随机旋转、高斯模糊、随机颜色抖动和随机交换影像应用数据增强。使用交叉熵(CE)、AdamW 优化器训练模型,使用的批次大小设置为16。使用余弦退火算法动态调节学习率,每20 轮循环一次。模型总共训练100 轮。其中,选择验证数据集精度最高的保存模型,作为训练结果。

2.3 对比实验

本小节介绍本方法与其他几种变化检测方法在LEVIR-CD 数据集上的结果比较,包括FC-EF、STANet、BIT、ChangeFormer。本文应用了这些方法,并在相同的数据集上进行了实验,前5 种评价指标取自对应论文实验结果,最后一列为本文重现结果。

图4 为各模型在LEVIR-CD 数据集上直观的实验结果,从图中可以看出5 种方法可以很好地检测出基本的变化目标。从整体上看本文提出的方法提取效果最好,定量比较结果见表1,准确率(Precision)、召回率(Recall)、F1 分数(F1-Score)、OA 的单位为%。总参数量、总计算量单位为MB。总计算量为模型通过形状为(1,3,512,512)的特征的计算量。在这些指标上获得更好的表现。

表1 在LEVIR-CD test 数据集上对比实验定量总参数量结果

图4 LEVIR-CD 数据集对比实验结果

此外,本文网络的参数量3.24 MB,总计算数据大小1 737.23 MB,显著低于除了BIT 外其他方法,这表明本文在参数量较少的情况下,检测精度更高,证明了本文方法较好地平衡了分割精度与计算效率。

3 结束语

近年来,变化检测在土地资源管理、农林监测、自然灾害监测与评估等相关领域有重要应用。本文通过引进十字交叉注意力,在参数量较少的情况下,实现了更高效的时空注意力机制,达到更高的检测精度,在公开数据集上检测精度F1 分数达到91.18,而模型参数量仅为3.24 MB。本文改进的时空注意力孪生网络模型还存在一些不足,单独应用时间与空间注意力均有较好的精确率表现,组合网络检测结果的精确率较低。下一步,一方面将对网络结构进行修改、探索时空注意力的不同组合方式,一方面尝试引入全局特征提取模块,探索在Transformer 结构下,建模更高效的多尺度时空关系。

猜你喜欢
变化检测十字交叉
用于遥感图像变化检测的全尺度特征聚合网络
张竹君与中国赤十字会
基于多尺度纹理特征的SAR影像变化检测
十字棋
“六法”巧解分式方程
基于稀疏表示的视网膜图像对变化检测
2018车企进阶十字诀
巧用十字相乘法解题
基于Landsat影像的黄丰桥林场森林变化检测研究
连一连