一种基于超像素的农作物影像分类方法构建及应用效果

2021-10-26 00:26黄宇杰
农技服务 2021年8期
关键词:分类器光谱准确率

黄宇杰

(贵州省农业区域经济发展中心, 贵州 贵阳 550001)

农业资源是农业自然资源和农业经济资源的总称。长期以来,我国农业资源存在数据分散、“家底”不清、变化不察、质量不明等问题,严重影响其科学管理和有效利用。推进重要农业资源台账制度建设,是摸清现代农业发展资源底数、夯实农业资源管理基础的重要抓手,是服务乡村振兴战略、科学指导农业农村发展的重要依据。为加快推进贵州重要农业资源台账制度建设,贵州省农业农村厅于2017年开始重要农业资源台账制度的试点工作。针对农作物种植情况,组织地面调查可以获得准确的结果,但是地面调查所需的时间长、成本高,区域覆盖难以根据季节和农作物的生产周期进行动态安排。近年来,高空间、时间和光谱分辨率遥感技术的发展,为监测农业资源提供了技术支撑。遥感手段中,多光谱卫星覆盖面积大,重返周期短,数据获取成本低。但作为一种通用目的的遥感手段,使用多光谱影像对农作物进行识别富有挑战性。通常而言,多光谱卫星只记录一个近红外波段的信息,难以反映农作物之间,甚至农作物同其他植被之间光谱特征的差异。就空间分辨率来说,即使是亚米级0.5 m的水平,也很难有效记录农作物本身的外形特征,获得的信息主要还是记录农作物的种植方式或农田的纹理,由于这些特征多不具备特异性,需要综合利用。为构建农业资源监测体系,实现农业资源的大范围动态监测,以多光谱光学卫星遥感和地面调查相结合的方式对贵州省部分重要农作物的种植情况进行评估,在综合多光谱光学遥感影像和地面调查矢量数据的基础上,创建一套适合贵州特定区域主要农作物(油菜、玉米、水稻、茶叶、烤烟)信息提取的影像解译方案,并在特定解译方案下对各类主要农作物的影像特征统计量化,最终形成特定区域内主要农作物的影像特征样本库,进而达到直接利用多光谱遥感影像提取主要农作物种植情况信息的目的。为多光谱光学遥感影像在农业资源监测上的应用提供参考,现将其在贵州农业资源监测上的应用效果报道如下。

1 材料与方法

1.1 数据

油菜、玉米、水稻、烤烟、茶叶目标农作物生产的地理分布,选择凤冈县、湄潭县、安龙县、平塘县和松桃县的部分镇作为试点区域,多光谱遥感影像见表1,农田矢量数据见表2。

表1 多光谱遥感影像概述

表2 农田矢量数据概述

1.2 方法

在已知农业生产用地分布及特定时间农作物种植情况的基础上,利用多光谱遥感影像提取影像特征,通过机器学习,寻找同目标农作物拟合最佳的模型及参数。通过对更大范围的影像进行解译工作,验证各类农作物影像特征的准确率。由于受到光谱分辨率、空间分辨率和异源数据兼容性方面因素的影响,选择使用人工判读同自动解译相结合的方式,在一定程度上实现对目标农作物的自动解译。

1.2.1 遥感影像预处理 为使用反射率值以突出地表对象的反射光谱特性,修正大气和太阳因素对不同区域反射率值的影响,修正相对高程差异带来的几何畸变,匹配地面调查矢量数据,使用L1A级遥感影像产品进行辐射定标、大气校正、正射校正、图像融合、几何校正等预处理。

1.2.2 人工判读 由于地面调查组织和卫星有效覆盖之间的差异,使用的矢量数据同遥感影像并不完全兼容,需要人工判读修正。由于农作物在多光谱影像上的视觉差异不明显,人工判读要根据主观确定性,从高到低依次对各目标对象进行标注。如水田和玉米的特征比较明显,首先,对对象进行标注,排除这些对象后,其他对象会变得明显;其次,对于图像特征较难区分的对象,优先选择其特征清楚的部分进行标注,对于余下仍然难以区分的部分将其归入一个特定的组别,或直接略过不进行处理。人工判断时安排尽可能平均的概率,从各目标农作物及其对照组中随机抽取一定数量的矢量图框并结合遥感影像进行分类和标注。

1.2.3 基于超像素对象的遥感影像描述 不同于中低分辨率卫星影像一个像素即覆盖较大区域或覆盖一个或多个对象的情况,米级/亚米级卫星影像的一个像素往往只是记录一个对象的结构或纹理等细节的一部分。如在0.5 m的空间分辨率下,单个像素覆盖的面积(0.25 m2)远小于农田的面积,只能反映农田局部的信息,这个尺度略大于单棵植株覆盖的面积,不能反映农作物的细节。

不同农作物的局部信息不一定具有特异性。像素级的信息可能在不同农作物之间有较高的混淆程度,某些特征可能在信号中占有不小的比例,但可能是不同农作物的共同特征。因此,单纯依靠像素级信号进行分类可能无法有效地对目标农作物进行区分,综合考察一个对象的全部像素才有实际意义[1-7]。由于影像分辨率以及标记数据数量等因素的制约,尚无法有效地使用深度学习以实现自动化的抽象和要素提取。因此,使用简单线性迭代式聚类(SLIC)[8]对遥感影像进行超像素级对象划分。图像分割之后,一个对象由一个或多个分割的部分组成。分割的部分再使用计算机视觉方法提取图像特征,并使用统计学方法进行概括。用以上原则调较超像素分割器,即在保证边界清晰的前提下以更少的区块实现对目标对象覆盖区域的描述。使用少量参数组合进行试错,并使用可以接受的结果中最优的一个作为执行参数。经过试验,使用四波段融合RGB作为SLIC的输入影像。

波段融合RGB是一个基于遥感影像制作的要素图层。要素图层是针对油菜、玉米、水稻、烤烟、茶叶5种目标农作物建立分类器的先决条件。为建立有效的分类器,要素图层制作如下:

1) 四波段融合RGB。在HSV空间使用432假彩色的亮度值替换321真彩色的亮度值,之后再将合成结果转换到RGB空间,以强化植被之间以及植被同其他地表覆盖之间的差异。

2) H和S。色调和饱和度。

3) A和B。分别将真彩色在CIELAB空间A(绿色到红色的程度)和B(蓝色到黄色的程度)2个维度上的投影作为单独的要素图层,以更好地捕捉图像色彩之间的差异。

4) L。使用四波段融合RGB在CIELAB空间L维度上的投影作为单独的要素图层,以更好地捕捉图像亮度之间的差异。

5) NDVI。归一化植物指数。

6) ASM。同时使用4个波段计算8方向角二阶矩[9],将其作为描述局部纹理均匀程度的要素图层。

7) SLIC超像素。使用四波段融合RGB进行SLIC图像分割。

上述要素图层中,四波段融合RGB和SLIC超像素为关键中间件,其余7个图层,包括H、S、A、B、L、NDVI、ASM为后续分类器的输入要素图层。

1.2.4 建立分类器 建立基于监督式机器学习的分类器是实现目标对象自动识别的一个基石。建立分类器的方法:

1) 针对目标农作物选择一定数量的典型例子使用多边形进行描绘。

2) 像素水平上的分析。基于步骤1)描绘的区域,计算目标对象在各要素上的描述统计值并绘制直方图,获得大致的分布情况。搜索潜在的特异性信号,并据此形成各目标对象在各个要素上的阈值。

3) 根据阈值过滤生成像素级分类信号,并使用地块矢量图对信号分布图进行裁切。根据信号的地理分布对阈值进行调整,在保证信号特异度的基础上降低信号混淆度,阈值调校完成后过滤掉面积不大且不连片的信号区域。

4) 根据信号在地块内的面积占比,进一步对信号进行过滤。过滤掉信号面积/地块面积小于0.1的地块,保留剩下地块为进一步的分类工作使用。

5) 像素级信号处理完成后,综合各目标农作物的信号区域,并对其检查。对信号区域中不同于目标农作物的部分使用多边形进行描绘,并将其归入对照组。

6) 超像素水平上的分析。在矢量描绘的区域,包括目标农作物和对照组,获取对应的超像素对象,计算各要素在各超像素对象上的均值。之后,计算目标农作物在超像素水平上各要素的描述统计值并绘制直方图。尝试设定在超像素水平上各目标对象在各个要素图层上的阈值。

7) 基于超像素对象,利用随机森林[10]建立机器学习分类器。

8) 在试点区域上,获取步骤5)输出的地块对应的超像素对象,首先利用步骤6)获得的阈值进行过滤,之后再使用步骤7)的分类器对余下的超像素对象进行分类。

9) 基于步骤8)生成的超像素级信号对地块的种类进行判定。过滤掉超像素信号面积/地块面积小于0.3的地块,余下地块中,将覆盖面积最大的超像素对象的种类作为该地块的种类,最后将所有过滤掉的地块标记为其他已完成地块的标记。

10) 随机选取一定数量的地块,将其地面调查的标记同步骤9)生成的标记进行比较,并计算混淆矩阵和准确率。

2 结果与分析

2.1 超像素对象的分类准确率

从表3可知,在超像素对象上,分类器在大多数情况下有0.85以上的准确率。在单张影像中,需要区分的对象越多,分类器的表现越差。在春季油菜为主要的目标农作物时,分类器的准确率都在0.9以上,但在夏季,除目标对象的特征明显且样本数量充足外,分类器的准确率难以达到0.9。样本的数量对分类器的表现有显著影响,如水稻的特征比较明显,但在高景1A的覆盖区域中,由于样本数量少,分类器的表现也不佳。农作物的生长阶段也有显著影响,如7月的玉米容易同烤烟混淆,但到8月中下旬混淆程度会下降。对照组对象种类多、数量大,图像特征上容易同目标对象产生混淆,会带来相对主观的对照组选取,从而给准确率的估计造成不确定性。

表3 针对超像素对象的分类器在测试集上的准确率

2.2 农田地块的分类准确率

从表4可知,在农田地块对象上,分类规则在大多数情况下有0.8以上的准确率。分类规则基本上延续了分类器在超像素对象上的表现模式,即需要区分的目标对象越多表现越差,样本数量、生长阶段均有显著影响。分类规则在长宽比趋于1的地块上表现较好,但在细长形地块上的表现较差。由于图像分割尺度的缘故,细长形地块可能获得的超像素单元数量较少,从而在整体判断时可能有较大的偏差。

表4 在测试集上农业生产地块分类的准确率

准确率衡量特定对象被正确判定的概率,即P(正确种类判定|特定对象)。实际工作更多涉及的是回溯率,即被识别的对象确实为该种类的概率,即P(特定对象|种类判定)。根据贝叶斯公式,回溯率取决于分类器的准确率和涉及对象的基础比例,基础比例可以通过地面调查进行估计。从表5可知,基础比例对回溯率有决定性影响,对于占主导地位的对象,大致准确的分类可以获得合意的回溯率;但对于占次要地位的对象,需要非常准确的分类才能达到相似的回溯率水平。如夏季的烤烟田(分别为高景1A和高分2号拍摄),烤烟的基础比例非常小(分别为0.019和0.016),分类规则的准确率大致可以接受(分别为0.729和0.904),但回溯率处于非常低的水平(分别为0.270和0.177)。总体看,需要区分的目标对象越少,回溯率水平越高;目标对象的基础比例越高,回溯率水平越高;目标对象之间混淆程度越低,回溯率水平越高;反之亦然。

表5 在测试集上农业生产地块分类的回溯率

3 小结

结合地面调查数据,使用拍摄自不同卫星的多张遥感影像对贵州省凤冈县、湄潭县等5个县8个镇的水稻、油菜、玉米、茶叶、烤烟5种目标农作物进行自动识别,结果如下:1)基于SLIC超像素对象建立的分类器可以较好对水稻、油菜、玉米、茶叶、烤烟5种农作物分类,在大多数任务上可以达到0.8以上的准确率。在明确分类对象是目标农作物之一的前提下,分类的效果会更好。2)相较于分辨率和成像质量,结合目标农作物的生长周期选择适当拍摄日期更为重要。即使分辨率是0.5 m,农作物植株的特征也不能被充分捕捉。因此,如果多种农作物处于相似的生长阶段,仅凭借多光谱遥感影像很难做到高效分离,能在农作物处于不同的生长阶段获取遥感影像,识别的准确率将显著提高。3)分辨率会显著影响农作物的解译。农田的纹理信息在0.5 m的分辨率下还可以被记录,但到2 m时同样的信息很难获取。如果需要人工判读和标注,分辨率也会对工作的效率和质量产生实质性影响。4)就卫星在目标农作物的成像质量上看,从优到差依次是Pleiades-1A、Pleiades-1B、高景1号、北京2号、高分2号、资源3号、高分1号。

由于卫星的重返周期和有效拍摄窗口期不完全可控,应逐渐增加无人机航拍影像的积累,并在人工标注数据趋于充分的情况下,利用深度学习技术开展相关工作。

猜你喜欢
分类器光谱准确率
基于三维Saab变换的高光谱图像压缩方法
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于3D-CNN的高光谱遥感图像分类算法
金卤灯太阳模拟设备中滤光片的设计
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于朴素Bayes组合的简易集成分类器①
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察