基于DeepLabv3+与GF-2 高分辨率影像的露天煤矿区土地利用分类

2022-07-01 14:19张成业李飞跃邢江河杨金中郭俊廷杜守航

煤田地质与勘探 2022年6期

张成业，李飞跃，李军，邢江河，杨金中，郭俊廷，杜守航

(1.中国矿业大学(北京) 地球科学与测绘工程学院，北京 100083；2.中国矿业大学(北京) 煤炭资源与安全开采国家重点实验室，北京 100083；3.中国自然资源航空物探遥感中心，北京 100083；4.煤炭开采水资源保护与利用国家重点实验室，北京 102209)

煤炭是我国的主体能源，而煤炭露天开采具有安全生产条件好、开采效率高、采出率高的优势，在我国煤炭生产总量中的占比呈现稳步上升趋势[1]。但我国露天煤矿产能有90%以上来自内蒙古、新疆、山西等生态脆弱地区[1]，煤炭露天开采与脆弱生态保护之间的矛盾突出[2-3]。煤炭露天开采对生态环境最直接的影响就是土地挖损与压占，及时掌握露天煤矿土地利用情况对于分析露天开采的生态损伤过程、科学制定生态修复规划具有重要意义。

自2013 年高分辨率对地观测系统首颗卫星GF-1发射以来，随着国家“高分辨率对地观测系统”科技重大专项的推进实施，国产高分辨率遥感卫星逐渐完成组网运行，遥感智能解译算法也不断推陈出新，为地表土地利用识别提供了高效率的工具和手段，在农业、林业等多个行业场景中取得了成功应用[4-6]。然而，露天煤矿区土地利用类型不同于其他行业场景，除了普通土地利用类型(如植被、水体、建筑等)，还有具有矿区鲜明特色的其他土地利用类型(如露天采场、中转场地、排土场等)[7]。当前，矿区地表土地利用遥感识别方法主要可以分为2 类[8]：(1) 目视解译方法:目视解译是在野外考察和专业判断的基础上，通过矿区土地利用类型在遥感影像上的形状、纹理、色调等特点获取地物特征的过程[9]。目视解译方法虽应用范围广、能获得较高的精度，但该方法耗费大量时间、人力和物力，不适合大规模应用[10-12]。(2) 监督分类方法：常用的监督分类方法有随机森林[13](Random Forests，RF)、支持向量机[14](Support Vector Machine,SVM)、最大似然法[15](Maximum Likelihood Method,MLM)等。长时间以来，学者们对随机森林、支持向量机、最大似然法3 种分类方法进行比较的研究较多，随机森林方法凭借分类性好、通用性强、计算简单等特点达到了较高的精度[16]，但容易受到椒盐噪声的影响，尤其在矿区中地物异质性强的情况下准确分类困难。支持向量机和最大似然法虽能实现分类，但二者对大规模的训练样本难以达到较好的分类效果[17]。

近年来，深度学习成为机器学习领域中一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次来识别文字、图像、声音等[18]。深度学习在图像识别方面应用逐渐成熟，并且已经成功应用于众多行业场景的土地利用识别中[19-22]。但利用深度学习对露天煤矿区典型土地利用进行识别的研究相对较少，现有研究主要是利用高分辨率影像和深度学习卷积神经网络来识别矿区的露天采场和尾矿库[23-25]。由于影像分辨率高和方法实用性高等优势，其识别精度较传统方法有了一定的提升，这些研究也为露天煤矿区典型土地利用识别奠定了基础，但是利用深度学习进行露天煤矿区典型土地利用识别的类型并不全面，亟需扩展土地利用识别类型，因此，利用深度学习对矿区地表土地利用识别仍然有较大的提升空间。

笔者基于国产高分二号(GF-2)卫星高分辨率遥感影像数据，分别制作子影像数据和标签数据，构建露天煤矿区地表土地利用识别样本库，建立DeepLabv3+网络模型架构，利用样本数据进行训练，并对模型识别结果进行精度对比验证，以期为露天矿区土地利用识别和生态修复规划提供参考。

1 研究区环境概况与数据源

1.1 研究区环境概况

神东矿区位于晋陕蒙3 省接壤地带[26]，以神府、东胜2 大矿区为主，总面积约3.12 万km2，现为我国著名的煤矿开采基地。研究区位于神东矿区内，属于典型的温带干旱、半干旱大陆性季风气候，干旱多雨，植被覆盖度较低，土壤沙化严重，生态环境脆弱[27]。近30 年来，研究区煤炭经济飞速发展，矿区土地利用类型不断变化，煤炭开采活动与生态修复活动并存。研究区地理位置如图1 所示。

图1 神东露天矿区地理位置Fig.1 Geographical location of the open-pit coal mine in Shendong coalfield

1.2 数据源

GF-2 卫星于2014 年8 月19 日发射成功，搭载了高分辨率1 m 全色和4 m 多光谱相机，是我国目前分辨率最高的民用陆地观测卫星[28]。该影像在使用前进行辐射定标、大气校正、几何校正等预处理。选用的影像成像时间为2019 年11 月19 日，为获得更高空间分辨率的影像，本文采用Pansharp 数据融合算法[29]和PIE-Basic 遥感软件，将4 m 多光谱影像与1 m 全色波段影像进行波段融合，得到1 m 空间分辨率的高分辨率多光谱影像。

2 方法与实验

2.1 建立露天矿区土地利用样本库

以预处理完成之后的GF-2 卫星高分辨率遥感影像为基础数据，根据实地调查信息对露天煤矿区典型土地利用类型进行目视解译，形成露天煤矿区土地利用高分辨率影像样本库，主要土地利用类型包括：露天采场、中转场地、修复治理区(已完成修复的排土场)、排土场(未修复或未完成修复的排土场)、建筑物、水体、植被、道路。

本文所用到的样本数据包括影像数据和标签数据。由于深度学习程序计算复杂，且遥感影像数据量较大，需将影像裁剪成较小的子影像来适配模型训练。标签数据的制作使用ArcGIS 软件完成，需先目视解译整幅影像，勾画出露天煤矿区典型土地利用类型的矢量范围，再将勾画好的矢量文件转成栅格，然后将栅格文件裁剪成与子影像相同尺寸的标签数据。最后，得到多组一一对应的影像数据和标签数据，形成露天煤矿区土地利用样本库。本文使用的样本数据为1 002 张尺寸为512 像素×512 像素的影像。将得到的样本数据集按照7∶3 的比例随机划分为训练集和验证集，作为深度神经网络模型构建的输入数据。其中训练集702 张，验证集300 张。测试集为训练集和验证集之外的另一个露天矿数据。

2.2 深度神经网络模型构建

本研究选用语义分割中常用的DeepLabv3+[30]模型，该模型主要用于逐像素分类[31]。DeepLab 系列是在全卷积神经网络(FCN)理念的基础上发展而来，其版本由v1，v2，v3 发展到v3+，是目前应用最为广泛的语义分割网络之一，在许多经典的深度学习数据集中都取得了较好的图像分类效果。DeepLabv3+模型具体结构如图2 所示。DeepLabv3+模型采用了编码-解码结构进行特征提取与恢复，在编码阶段，DeepLabv3+模型使用Xception 作为特征提取网络，并且加入了空洞空间金字塔池化(ASPP)模块提取多尺度特征；解码阶段进行上采样恢复图像的细节分类信息。高分辨率遥感影像输入到DeepLabv3+模型中经过深度卷积网络进行特征提取生成高层特征图和低层特征图。高层特征图经过ASPP 模块形成多尺度融合之后的特征图，这一模块使用不同尺度的空洞卷积进行并行计算并将各个支路的特征图进行拼接，不同尺度的空洞卷积计算有助于获得多尺度的上下文信息。低层特征图经过卷积操作并与经过处理的高层特征图进行拼接，经过上采样操作生成与输入图像有相同高度与宽度的单波段影像。

图2 DeepLabv3+模型架构[30]Fig.2 Architecture diagram of DeepLabv3+model[30]

2.3 参数敏感性测试与优选

遥感影像样本的尺寸大小和裁剪方式会对深度学习模型的精度和运行效率产生重要影响[32]。因此，本文分别探索了几种常用的深度学习遥感影像语义分割样本尺寸(256 像素×256 像素、384 像素×384 像素、512 像素×512 像素、640 像素×640 像素和768 像素×768 像素)和样本裁剪方式(随机裁剪、规则格网裁剪、滑动窗口裁剪)对DeepLabv3+模型训练精度和效率的影响，进而优选出针对露天煤矿区土地利用斑块尺度的最佳适配方案。

以研究区高分辨率影像为基础数据，从影像的左上角开始，依次创建尺寸为256 像素×256 像素的矢量文件，利用矢量文件对原始影像以随机裁剪的方式进行裁剪，得到256 像素×256 像素的子影像和相应标签数据；然后按照相同的方式创建不同尺寸的矢量文件，多次裁剪同一区域影像，分别得到尺寸为384 像素×384 像素、512 像素×512 像素、640 像素×640 像素和768 像素×768 像素的子影像和相应标签数据。尽管裁剪后各尺寸的样本量不同，但却包含了相同的研究区范围，因而可以进行控制变量的对比实验。按照上述过程分别制作各种地物类型(露天采场、中转场地、修复治理区、排土场、建筑物、水体、植被、道路)的样本数据，所有样本均为目视解译实际勾画。

将上述样本尺寸的数据分别输入到DeepLabv3+模型中进行训练，得到适用于DeepLabv3+模型效果最优的样本尺寸大小。在此基础上，再进行样本裁剪方式的优选实验，分别利用规则格网和滑动窗口2 种裁剪方式进行样本数据的制作，将做好的样本数据作为模型的输入数据进行训练。

2.4 实验对比方案

将本文的分类方法与目前常见的分类方法进行对比，验证本文分类方法的优势。对比方法有U-Net、FCN、随机森林、支持向量机、最大似然法。

U-Net[33]主要采用完全对称的编码-解码结构，在编码器和解码器的每一层之间都采用一次跳跃连接来组合浅层特征和深层特征。FCN[34]全卷积神经网络可以适应任何尺寸的输入，也可以对影像进行逐像元的分类。随机森林[35-36]的基本原理是通过Bootstrap 重采样技术生成样本集，构造决策树，再组成随机森林，对新数据的分类结果进行投票以达到分类的目的。支持向量机[37-38]的主要思想是在高维或无限维数据中找出一个能把2 个类分开的最佳超平面，这个最佳超平面能准确地把数据进行预测分类。最大似然法[39-40]的原理主要是利用数据数学参数(均值和方差等)计算出的分类函数得到目标影像的分类结果。表1 展示了6 种方法达到最优识别效果的重要参数设置。其中，由于常见服务器配置和性能的限制，本实验中的“batch_size=4”已是较理想的参数设置，后续研究中应继续对参数优化，以降低模型训练陷入局部最优的风险。

表1 6 种识别算法的参数设置Table 1 Parameter setting of six recognition algorithms

3 结果与分析

3.1 样本参数测试

露天煤矿区土地利用场景不同于其他行业场景，露天采场、排土场等特色土地利用类型具有自身常见的尺度特征。通过样本尺寸和裁剪方式的优选，可以找到适合露天煤矿区的样本尺寸大小和裁剪方式。分别对5 个常用样本尺寸(256 像素×256 像素、384 像素×384 像素、512 像素×512 像素、640 像素×640 像素和768 像素×768 像素)开展DeepLabv3+模型训练，得出5 种不同的分类结果，如图3 所示。图3 表明，不同样本尺寸对高分辨率遥感影像分类的结果影响较大。256 像素×256 像素样本尺寸的结果中，各类地物的斑块比较琐碎杂乱，比如修复治理区和水体中均混杂着许多露天采场和排土场；排土场中伴随着少部分的露天采场(图3a)。384 像素×384 像素样本尺寸的结果中，识别出来的水体和修复治理区的面积较小，排土场东北方向有部分误识别为露天采场的斑块(图3b)。512像素×512 像素样本尺寸的结果中，除道路之外的各种地物类型较好地被识别，且斑块完整程度高(图3c)。640 像素×640 像素样本尺寸的结果中，各类型的面积与真实标签相差较少，但是修复治理区、露天采场、排土场和水体中的琐碎斑块较多，尤其是露天采场西南方向的建筑中错误识别出了部分水体(图3d)。768 像素×768 像素样本尺寸的结果中，水体、道路和中转场地均未被识别，且修复治理区识别不完全，效果较差(图3e)。综上，从目视效果上来看，综合考虑各地物类型的面积和完整程度、琐碎斑块的面积等，可以得出512 像素×512 像素样本尺寸的分类结果更接近于真实结果。

图3 不同样本尺寸分类结果Fig.3 Classification results of different sample sizes

为了进一步对比各种样本尺寸的分类效果，本文选取混淆矩阵[41]进行精度评价。并根据混淆矩阵计算得到制图精度(Producer Accuracy，PA)、用户精度(User Accuracy，UA)、总体精度(Overall Accuracy，OA)、Kappa 系数等指标。表2 为不同样本尺寸的分类精度比较。从精度上来看，512 像素×512 像素样本尺寸的分类精度最高，总体精度达80.10%，Kappa 系数达0.73，说明该尺寸更适合露天煤矿区场景。因此，本文裁剪方式的优选实验和数据制作的样本尺寸均选择512 像素×512 像素，最后得到一一对应的512 像素×512 像素大小的子影像数据和标签数据。

表2 不同样本尺寸分类精度比较Table 2 Comparison of classification accuracy of different sample sizes

在确定了最优样本尺寸的基础上，进行样本裁剪方式的优选实验，分别得到规则裁剪和滑动窗口裁剪的识别结果如图4 所示，精度检验结果见表3。图4表明，随机裁剪的露天采场、排土场和修复治理区中的其他类型碎块均比规则裁剪和滑动窗口裁剪的少，规则裁剪和滑动窗口裁剪中未识别出水体、中转场地，随机裁剪方式有效地识别出二者。从精度评价上来看，随机裁剪的总体精度达到了80%以上，而规则裁剪和滑动窗口裁剪的总体精度均在80%以下；3 者相比较来看，随机裁剪的Kappa 系数也是最高的。因此，本文认为适用于此矿区的最佳裁剪方式为随机裁剪。

表3 不同样本裁剪方式分类精度比较Table 3 Comparison of classification accuracy for different cropping modes of sample

图4 不同样本裁剪方式分类结果Fig.4 Classification results of different cropping modes of sample

3.2 精度对比

分别利用DeepLabv3+模型、U-Net、FCN、随机森林、支持向量机、最大似然法对露天煤矿区地表土地利用类型进行识别，并将分类结果与目视解译勾画的标签数据进行对比(图5)。从结果可以看出，随机森林(图5a)、支持向量机(图5b)、最大似然法(图5c)的识别结果中碎片较多，地物类型完整性较差。露天采场中错误识别出修复治理区、中转场地、建筑物、道路等地物类型，准确性较差；排土场和修复治理区的边缘掺杂中转场地、采场等地物类型碎片；随机森林和支持向量机方法识别出的道路较少且不连续；最大似然法结果中道路大多识别在了露天采场的位置，识别效果较差。另外，最大似然法中的水体识别结果比真实范围明显小很多。U-Net 方法识别结果中，水体的识别结果较好，但是水体周围掺杂少量排土场碎块；修复治理区、排土场和露天采场识别的完整程度较低，主要表现为面积较低，道路和中转场地几乎没有识别出来，整个区域西南角的建筑物大部分被错误识别为露天采场。FCN 方法的识别结果中，修复治理区的西北角被错误识别为中转场地，且修复治理区中掺杂着露天采场、水体、植被和排土场等地物类型，完整性最差，整个区域不均匀地分布着排土场碎块，排土场和露天采场的识别结果完整性较差，水体、建筑物和西部的中转场地比其他上述方法效果稍好。本文深度学习DeepLabv3+模型识别结果中，每种地物类型的识别范围与真实范围相差较小，形状基本吻合，完整度较高，并且识别出除道路之外的所有目标类型，道路由于细窄的特征，其识别效果不理想。综合比较可知，利用本文深度学习DeepLabv3+模型提取露天矿区地表土地利用类型范围的效果最好。

图5 不同方法土地利用类型提取结果Fig.5 Extraction results of land use types by different methods

为了更深入地验证DeepLabv3+模型的优势，本文分别计算了6 种方法的混淆矩阵，不同方法各类型的精度见表4。通过对比，不同方法的总体精度指标由大到小为DeepLabv3+(80.10%)、U-Net(78.10%)、FCN(77.10%)、RF(72.90%)、SVM(72.20%)、MLM(67.70%)，Kappa 系数由大到小为DeepLabv3+(0.73)、U-Net(0.70)、FCN(0.69)、RF(0.63)、SVM(0.62)、MLM(0.56)，可知DeepLabv3+模型的总体精度和Kappa 系数均高于U-Net、FCN、随机森林、支持向量机、最大似然法。为比较各个类别的识别精度，选择常用的单个类别分类精度的指标-F1 分数(F1-score)，F1 值为制图精度和用户精度的调和平均数，其计算方法如下：

表4 不同方法各类别分类精度Table 4 Classification accuracy of different types of different methods

式中：F1-score为F1 分数值，其范围为0 到1；Au为用户精度；Ap为制图精度。

F1 分数结果见表5。从结果可以看出，DeepLabv3+模型识别出的露天采场、中转场地、建筑物、修复治理区、排土场、水体、植被的F1 分数均较高，其中，露天采场、中转场地、建筑物和排土场的F1 分数表现出最高值；仅道路类型的F1 分数最低；6 种方法对道路的识别均未达到理想状态，其F1 分数均在0.13 以下，未得到较高的分类精度。综合上述情况，DeepLabv3+模型在识别露天煤矿土地利用类型中达到了较高的精度。

表5 各方法各类别的F1 分数Table 5 F1-score by different methods and classifications

3.3 速度对比

为比较不同方法的运行速度，所有方法均采用python 语言编程实验，其方法都是先训练得到模型，然后再利用得到的模型进行测试集的预测，最终得到预测结果，并进行精度评价；且采用同一台服务器进行测试。服务器操作系统为Windows10，使用的编程语言为Python 3.6，编程环境为PyCharm Community；在硬件方面，计算机的处理器为Intel(R) Xeon(R) Gold5118 CPU@2.30GHz，运行内存为32 GB，显卡型号为NVIDIA GeForce RTX 2080 Ti。运行时间统计见表6，文中以及表6 内所提到的运行时间都是指生成模型之后对测试集进行预测的时间，不包含模型训练的时间。

表6 不同方法运行时间对比Table 6 Comparison of running time of different methods

对比结果显示，6 种方法的运行时间均处在几十秒，属于相同的数量级水平。其中，DeepLabv3+模型运行时间比随机森林、支持向量机、最大似然法短，比U-Net、FCN 方法的运行时间稍长，支持向量机方法运行时间最长。综上，6 种方法中，DeepLabv3+模型在精度最优的同时，也达到了运行时间与常规方法在同一数量级水平。

4 结论

a.参数敏感性测试结果分析显示，512 像素×512 像素的样本裁剪尺寸和随机裁剪方式更适合DeepLabv3+模型对露天煤矿土地利用进行分类。

b.分类结果对比和精度结果对比显示，深度学习DeepLabv3+模型相较于传统的识别方法显著提升了露天煤矿区典型地物识别的精度。在提升精度的同时，本文方法的运行速度与传统方法保持在同一个数量级水平。

c.验证了深度学习DeepLabv3+模型和国产GF-2 卫星高分辨率遥感影像在露天煤矿区土地利用识别中的可行性。未来将继续改进深度神经网络结构，扩大露天矿区典型地物样本数量，提升露天煤矿区典型地物识别精度，并应用于更多露天煤矿。