基于Segnet网络和迁移学习的全景街区影像变化检测

2022-12-13 00:33余晓娜陈朋弟

重庆大学学报 2022年11期

余晓娜，黄亮, ，陈朋弟

(1.昆明理工大学国土资源工程学院，昆明 650093；2.云南省高校高原山区空间信息测绘技术应用工程研究中心，昆明 650093)

街区作为城市建筑物的主要组成部分，精确、实时地对道路街区进行变化提取，对于城市规划和土地利用调查具有十分重要的作用。例如，在城市发展中所出现的居民区改造、工业区向郊区迁移、商业区整改等。全景街区影像研究通过不同时期影像的获取，可以对城市街道的违建、违停进行排查，保证一个规整有序的城市环境。对全景街区影像进行变化检测，不仅能辅助城市的违章排查、灾后评估，还能检测出城市土地利用的变化情况，为政府在城市建设方面提供科学合理的理论参考。全景街区影像是指通过车载相机所采集到的360°街区全视场影像[1]。但是由于全景影像所包含的地物复杂，不仅包括建筑物上的玻璃幕墙，还包括一些废墟、电线杆、交通灯等，所以传统的方法不适用于全景街区影像的变化检测。

目前，有很少一部分学者对全景街区影像的变化检测邻域进行研究。主要原因是对全景街区的变化检测存在“语义鸿沟”问题[2-3]。轩永仓等基于FCN网络模型实现图像像素级的预测，为复杂场景图像的语义分割做了良好铺垫[4]。Wu C等运用贝叶斯理论和基于规则的方法，提高了场景变化检测准确率[5]。Arabi Mohammed El Amin等提出了一种基于CNN特征的卫星图像变化检测方法，并得到较高精度[6]。刘文涛等通过级联式FCN和空洞卷积的方法，实现建筑物屋顶的精确分割和提取[7]。魏杨等基于深度学习识别出初步候选区，其次通过Fast R-CNN网络框架，实现农作物虫害的精准识别[8]。邓国徽提出的基于改进的FCN网络模型算法准确地识别出施工场地[9]。Nicolas等通过引入多核卷积，并基于SegNet框架执行准确的语义分割，最终实现全景影像的准确标记[10]。虽然深度学习在遥感领域的应用比较广泛，也得到了比较理想的效果，但目前国内外对于全景街区影像的变化检测研究则相对较少。

笔者采用全景街区影像作为实验数据，并结合深度学习和迁移学习的思想，提出了基于Segnet网络的全景街区影像变化检测。相比传统方法，采用SegNet进行语义分割，可以更好地区分出不同地物目标，更加准确地进行地物提取。采用迁移学习的思想，可以大大缩短训练时间，提高实验精度，还为全景街区影像的变化检测研究提供理论参考。该方法在语义层次上检测到区域的变化情况，对现实中的街道违建排查、土地利用情况以及城市规划方面有重要意义。

1 全景街区影像变化检测

笔者研究了基于Segnet网络和迁移学习的全景街区影像变化检测。首先，对数据集“TSUNAMI”做预训练；其次，对训练集进行分类归并，分类归并的主要依据是地物的光谱、纹理等特征；然后，通过Segnet网络对实验数据进行语义分割，得到语义分割结果图；最后，对2幅语义分割结果图进行差值运算，得到最终的变化结果图，并对实验结果进行精度评价。与传统的方法相比，先对数据做训练，对训练模型做信息的分类归并，再进行语义分割，较传统方法得到较高精度。采用Segnet网络做语义分割使变化信息提取更加准确，并对类和类之间的区分也更加明显。另一方面，Segnet网络和迁移学习相结合，大大减少了实验的工作量，缩短实验时间，提高实验结果的精度。该方法不仅适用于全景街区影像的变化检测，也适用于道路、建筑物、交通标志等信息的提取，有较大发展潜力，其技术路线图如图1所示。

图1 技术路线图Fig. 1 Technical roadmap

1.1 Segnet神经网络

Hinton G.E.在2006年第一次提出了深度学习的概念[11]。深度学习中常见的网络结构有CNN、FCN、PSPNet、U-Net、Segnet等，研究选取了目前应用比较成熟且广泛的Segnet网络模型作为实验模型。Segnet网络的核心主要包括一个编码网络和一个与之对应的解码网络。Segnet网络沿用了FCN图像语义分割的思想，并且该网络是基于像素级别的端到端网络架构。Segnet沿用了FCN网络模型的思想，将VGG16中的全连接层去掉，将编码(encoder)信息和解码(decoder)信息直接连接，编码网络和解码网络作为整个网络结构的核心部分，其优点是保留了影像中大量有用的特征信息，使实验过程中需要训练的参数大大减少，缩减了实验数据的训练时间，最重要的是得到了相对较高精度的语义分割图像。

Segnet神经网络结构如图2所示：Segnet的网络结构主要包括卷积层(convolution)、归一化层(batch normalisation)、激活函数(ReLU)以及池化层(pooling)。

图2 Segnet神经网络结构图Fig 2 Segnet neural network structure

从图2可以看出，Segnet网络结构是一个对称的网络模型，网络的左边表示编码网络，右边表示解码网络。Segnet网络的基本工作原理：在网络结构中，pooling层与upsampling层主要进行影像分割，在整个网络结构中，特征地物的提取主要依靠位于左边的卷积层来完成，然而在提取的过程中，pooling层的主要作用是使图片逐渐变小，这个过程被称为编码；右边的网络架构主要进行反卷积和upsampling操作，反卷积主要是使得图像的分类特征得以体现，而upsampling层主要是将分割后的影像恢复和原始输入图像一样的大小，这个过程称为解码过程。通过编码网络不断提取特征，随之传输到相应的解码网络，对分割图像进行解码，最后再通过softmax分类器输出最终的语义分割结果图。

通过卷积运算，使影像中有用的特征信息更加突出，而忽略及削减影像中次要的信息，达到抑制噪声的目的。连接在卷积层之后的称为池化层，一般来说，池化层中特征图的个数和卷积层的特征图个数是保持一致的，两者之间是一一对应的关系。其中Maximum pooling、Mean pooling、Random pooling以及Pyramid pooling等是目前常用的池化方法[12-14]。

在Segnet的训练过程中，由于线性表达无法满足样本的多样性，以及实验过程中的复杂分类识别任务和训练数据集过大等原因，通常采用ReLU函数进行拟合。ReLU激活函数是目前大多数卷积神经网络所采用的激活函数，ReLU函数具有计算灵活、收敛快等特点，主要解决梯度下降的问题。其数学表达式为

(1)

当输出信号大于0时，输出等于输入；当输出信号小于等于0时，输出等于0。归一化层一般用于激活函数之前，最主要的作用是使学习的速度加快。

2010年，Zeiler等提出了反卷积的概念[15]。从网络结构上来说，反卷积层相当于一个上采样的过程，在训练过程中，通常由于全连接层的维度太大，训练的时候会出现参数增加而增大计算量的情况，为了解决这个问题，通常引入反卷积层。这样做的主要原因是因为反卷积层能把图像丢失的信息找回来，这样能最大限度的保留上下文信息，使得训练结果更加准确。

由于测试数据集较少，于是通过对图像的拉伸、旋转、平移等操作，增大数据集，把需要测试的数据集放进已经训练好的网络模型中，这样不仅缩短了训练时间，而且得到了较高的精度。

1.2 迁移学习

迁移学习于1990年出现在机器学习领域[16-17]。迁移学习的实质就是运用已有的知识解决相关领域问题的一种方法，最终实现知识在相关领域之间的迁移。在深度学习的过程中，为了克服实验数据样本过少，导致模型泛化能力不足，网络出现过拟合的现象，需引入迁移学习。采用迁移学习需要注意2个问题：一是新的学习中需要识别的类别在预训练模型中训练过；二是预训练模型应该具有足够的泛化能力。在计算机视觉和遥感影像处理领域，迁移学习的应用是很常见的，迁移学习能够优化网络训练模型，减少数据集训练的时间，解决卷积神经网络在训练时样本较少的问题，迁移学习的广泛应用在一定程度上也能扩大卷积神经网络的应用领域。一般来说，按照迁移学习研究的内容不同，将迁移学习分为4种[18]：以实例为研究对象、以特征为研究对象、以参数为研究对象以及基于关联规则的迁移学习。迁移学习示意图如图3所示。

图3 迁移学习示意图Fig 3 Schematic diagram of migration learning

2 实验结果及分析

2.1 数据来源

数据来源于日本东北大学情报科学研究所，是日本某一地区海啸前后的全景街区影像。该数据获取使用与GPS数据匹配的车辆，其具体做法是在一辆车上安装全方位摄像头，通过车顶上的GPS传感器，在一个城市的街道上相隔一段时间，采集2次数据，得到2组全方位街区影像。分别在海啸前和海啸后进行数据采集，得到如图4所示的全景街区影像。选取2组原始影像作为实验数据，其中图4表示的是典型的全景街区影像，而图5表示的是空旷郊区的影像，选取这2组影像，目的是验证方法对不同类型的全景街区影像都适用。图4、图5中2组影像的大小都为1 024像素×224像素，通过目视判读，可以看出图4中包括了建筑物、天空、电线杆、道路、车辆等地物。图5中包括了建筑物、天空、车辆、空地等基本地物，从影像中可以看出，不同的拍摄环境及拍摄条件，得到的同一地区影像的光谱特征、纹理特征存在较大差异，这一现象给实验带来巨大挑战。实验选择最大似然法、SVM作为Segnet的对比实验。

图4 第一组实验数据Fig. 4 Data of the first experiment

图5 第二组实验数据Fig 5 Data of the second experiment

2.2 实验结果分析

研究首先采用机器学习的方法对原始图像进行变化检测：基于ENVI对2组影像进行处理，分别采用了最大似然法和支持向量机的方法对原始数据进行分类，将得到的分类数据相减，得到的结果如图6(b)、6(c)和图7(b)、7(c)所示；采用提出方法得到的变化检测结果如图6(d)和图7(d)所示。其中图6为原始数据一的变化检测结果图，图7为原始数据二的变化检测结果图。然后将相减结果与参考图6(a)、图7(a)分别进行精度评价。

图6 第一组实验结果图Fig 6 The first set of experimental results

对于第一组实验结果，最大似然和SVM方法的精度分别为65.1%和72.1%，提出方法的精度为81.4%。从变化的结果图中可以看出：与参考图对比，最大似然法和SVM的方法对建筑物墙体和道路的分类比较差，尤其是影像最左边的墙体及墙体上的窗户，都出现了错分现象，道路的分类主要存在的问题是边界线没有提取出来，仍然有错分的情况。对比图4，可以看出造成这种现象最主要的原因是光谱差异，图4中变化前和变化后的影像光谱差异明显，并且主要体现在建筑物和道路上。造成这种现象的原因可能是数据获取时天气、光照等条件存在差异。而提出的方法对于建筑物和天空的分类结果比较好，一个比较大的问题是在变化后的影像中，对于车辆的提取结果较差，但是总体精度有所提高。

图7 第二组实验结果图Fig 7 The second set of experimental results

对于第二组实验结果，最大似然和SVM 2种方法的精度分别为66.5%和70.6%，提出的方法精度为82.2%。从变化的结果图中看出：与参考图对比，最大似然法存在的问题是对建筑物的分类结果较差，基本整个建筑物都被错分为其他地物，主要原因是纹理信息比较相像。SVM方法的优势在于对道路的提取有很好的效果，整个道路都被提取出来，且没有出现噪声和碎小的图斑，但是整个天空出现了较大部分错分的情况。参照图5，可以初步推断造成这种现象的原因是变化前后的影像中，天空的光谱差异较明显。对于提出的方法，分类结果明显改善，但是也存在对地物边界识别不明显的问题，尽管如此，提出方法较最大似然法和SVM的变化检测精度有较大提高。根据以上变化检测结果，可以得出结论：虽然机器学习方法在遥感影像变化检测中应用也较广泛，但是仍然不适用于全景街区影像的变化检测。

研究采用漏检率、错检率以及总体精度作为精度评价的指标。其中漏检率指实际变化了，但是被检测为未变化的像元数占总像元的比例；错检率是指实际未变化，但被检测为变化的像元数站总像元数的比例；总体精度指正确变化的像元数占总像元数的比例[19]。研究方法与机器学习的方法相比，其分类的精度和变化检测的精度都得到了明显提高。在第一组实验数据中，基于Segnet网络的变化检测方法较其他2种方法，精度分别提高了16.3%和9.3%；在第二组实验数据中，基于Segnet网络的变化检测方法较其他2种方法，精度分别提高了15.7%和11.6%。说明Segnet网络适用于全景街区影像的变化检测，Segnet网络在全景街区影像变化检测中的应用，为街道违建、违章、违停排查，灾后评估提供了有力的理论支撑，对于城市的科学规划和辅助政府决策作出了重大贡献，其对比结果如表1和表2所示。

表1 第一组实验结果精度对比Table 1 Comparison of the accuracy of the first set of experimental results %

表2 第二组实验结果精度对比Table 2 Comparison of the accuracy of the second set of experimental results %

第一组实验结果中最大似然法、支持向量机、基于Segnet网络的漏检率分别为4.9%、5.7%、10.6%，错检率分别为30.0%、22.2%、8.0%；第二组实验结果中最大似然法、支持向量机、基于Segnet网络的漏检率分别为1.5%、2.6%、2.5%，错检率分别为32.0%、26.7%、15.3%。

3 结论

针对采用传统方法难以得到高精度的全景街区变化信息的问题，提出了一种基于Segnet和迁移学习的全景街区影像变化检测方法。在实验过程中，实验数据主要是2组变化前后的全景街区影像，并采用了最大似然法以及SVM作为对比实验，得出以下结论：

1)从实验结果图中可以看出，道路和天空的变化信息的提取精度相对较高，而建筑物由于受纹理信息复杂性和相邻地物的干扰，其检测的精度相对较低。

2)2组实验中最大似然法、SVM、Segnet的总体精度分别为65.1%、72.1%、81.4%和66.5%、70.6%、82.2%，提出方法较最大似然法和支持向量机的方法精度明显提高。在灾后评估、街区违建违停排查、城市道路合理规划、土地利用变化等领域有着重要的作用。

3)基于Segnet神经网络和迁移学习的思想，通过对已有训练集的改进，使最终精度较机器学习的方法有了很大提高，但是并没有达到最佳效果。针对数据集重新制定训练集，并对数据重新进行实验，以得到更高精度是下一步将开展的工作。