基于特征优选的GF-6 WFV影像主要粮食作物提取

2024-04-26 14:00许康黄冰鑫王鹏飞
湖北农业科学 2024年2期
关键词:特征选择

许康 黄冰鑫 王鹏飞

許 康,黄冰鑫,王鹏飞. 基于特征优选的GF-6 WFV影像主要粮食作物提取[J]. 湖北农业科学,2024,63(2):59-66.

摘要:针对高分六号(GF-6)宽幅多光谱影像具有红边波段的特点,构建一种基于特征优选的GF-6 WFV影像主要粮食作物提取方法。首先从预处理后的GF-6影像中提取光谱特征、植被指数、水体指数和红边指数特征,然后利用递归特征消除算法进行特征优选来构建最优特征集,最后基于最优特征集和机器学习算法对影像进行分类从而提取主要粮食作物。以江苏省南通市如东县为研究区,采用6种方案进行粮食作物提取试验,并探讨不同特征、不同分类模型对小麦、水稻和玉米3种粮食作物提取精度的影响,结果表明,利用GF-6 WFV影像可以准确提取主要粮食作物,尤其在红边波段和红边指数上主要粮食作物与其他地物间具有较高的可分性;利用最优特征集和XGBoost算法对影像进行分类的精度最高,在小麦和水稻、玉米提取试验中比未采用红边特征时的分类精度分别提高了3.08、5.58个百分点。

关键词:高分六号;粮食作物;红边波段;特征选择;XGBoost

中图分类号:S127; S511;S512.1;513         文献标识码:A

文章编号:0439-8114(2024)02-0059-08

DOI:10.14088/j.cnki.issn0439-8114.2024.02.011 开放科学(资源服务)标识码(OSID):

Major food crops extraction from GF-6 WFV multispectral imagery based on feature optimization

XU Kang1, HUANG Bing-xin2, WANG Peng-fei2

(1.Jiangsu Province Surveying & Mapping Engineering Institute, Nanjing  210013, China;

2.School of Earth Science and Engineering, Hohai University, Nanjing  211100, China)

Abstract: In view of the characteristics of multiple red edge bands of GF-6 wide field view (WFV) multispectral imagery, a method for extracting major food crops from GF-6 WFV image based on feature optimization was proposed. Firstly, characteristic variables, including spectral feature, vegetation index, water index and red edge index, were extracted from preprocessed GF-6 WFV image. Then, the optimal feature set was generated by using a recursive feature elimination algorithm with permutation importance. Finally, machine learning methods and the optimal feature combination were utilized to extract major food crops. Taking Rudong County, Jiangsu Province as the study area, six experiments were used to extract grain crops, and the effects of different characteristics and different classification models on the extraction accuracy of wheat, rice and corn were discussed. The results indicated that the GF-6 WFV image was suitable for extracting major food crops, and the two red-edge bands and red edge indexes of GF-6 WFV data played an important role in distinguishing three main food crops and other objects. Among the six experiments, the overall accuracy of the classification result based on the optimal feature combination and XGBoost algorithm was the highest, improving 3.08 and 5.58 percentage point respectively compared with the classification result without using red edge bands and indexes.

Key words: GF-6; food crop; red-edge band; feature selection; XGBoost

粮食安全是国家安全、社会稳定和经济发展的重要保障,及时准确获取主要粮食作物的种植面积和空间分布对粮食区域平衡研究、耕地保护与动态监测等具有重要意义[1]。卫星遥感技术具有覆盖范围广、观测成本低等优势,已成为农作物信息提取的主要技术手段。如余超等[2]利用Landsat卫星数据和决策树方法获得了南京市江宁区水稻面积动态变化,Huang等[3]采用时间序列Sentinel-2A卫星数据提取作物分类信息,王东[4]利用Sentintl-2、Landsat-7/8、HJ-1等卫星影像协同提取湖北省荆州市农作物种植结构。随着ZY-3、GF-1、GF-2等国产卫星的成功发射,越来越多的国产卫星影像陆续被应用于小麦、玉米、水稻、大豆等粮食作物的监测中[4,5]

2018年6月2日,中国成功发射第一颗具有红边波段的宽视场中高分辨率卫星——高分六号(GF-6),这是中国首颗用于精准农业观测的高分卫星,该卫星携带的宽幅相机(Wide field view,WFV)相比GF-1 WFV影像新增了红边、黄光和紫光波段。目前已有不少学者利用GF-6影像开展了农作物提取研究,如Xia等[6]探讨了GF-6 WFV影像应用于复杂种植结构地区农作物分类的潜力,梁继等[7]研究了GF-6 WFV 影像红边特征在农作物识别中的作用。目前关于GF-6 WFV影像在小麦、水稻和玉米等主要粮食作物提取方面的研究较有效,而红边波段及红边指数在主要粮食作物提取中的作用还有待深入探讨。

针对上述问题,本研究以江苏省南通市如东县为研究区,构建一种基于特征优选的GF-6 WFV影像主要粮食作物提取方法,并通过对比试验探讨不同特征、不同分类模型对小麦、水稻和玉米3种粮食作物提取精度的影响,旨在分析红边波段和红边指数在主要粮食作物提取中的作用,挖掘GF-6 WFV影像在主要粮食作物提取方面的应用潜力。

1 研究区概况与数据源

1.1 研究区概况

以江苏省南通市如东县为研究区,如图1所示。该县位于南通市北部,陆域面积约2 122 km2,由于在该县行政区内东北方向的小岛上没有农作物种植,因此不将其纳入研究范围。该区域属北亚热带海洋性季风气候,年平均气温15.8 ℃,年均降水量  1 074 mm。研究区内耕地面积10.85万hm2,种植的主要粮食作物包括小麦、水稻和玉米。小麦为春季作物,种植时间为10月至次年5月;水稻和玉米均为夏季作物,水稻种植时间为5—10月,玉米种植时间为7—10月;其他还有油菜、蔬菜、果树和大棚种植等。

1.2 数据获取及预处理

1.2.1 遥感影像预处理 根据如东县主要作物种植特点,选取2020年4月26日和2020年9月3日覆盖研究区的GF-6 WFV影像分别进行小麦、水稻和玉米的提取试验,影像波段信息见表1。影像获取时期研究区内粮食作物正处于生长旺盛季,适合进行作物的遥感识别和分类研究。影像预处理主要包括辐射定标、大气校正、正射校正等。

1.2.2 样本与验证数据 根据实地踏勘和同时相GF-2影像目视解译,针对小麦提取试验与水稻、玉米提取试验,分别在研究区内随机选择训练样本及测试样本,各地类样本情况如表2所示。

2 研究方法

针对GF-6 WFV影像构建基于特征优选的主要粮食作物提取方法。该方法的技术路线如图2所示,包括:①GF-6 WFV影像预处理;②根据野外调研数据和GF-2影像目视解译绘制训练样本和测试样本;③特征提取,主要提取影像光谱特征、植被指数、水体指数和红边指数;④作物分类,主要构建不同分类方案,选择较优的分类模型并进行特征选择,基于最优特征集利用最优分类模型进行作物分类,获取最终分类结果并进行精度评价。

2.1 特征集构建

提取光谱特征、植被指数、水体指数和红边指数构建特征集。其中,植被指数包括归一化植被指数(NDVI)[8]、差值植被指数(DVI)[9]、比值植被指数(RVI)[9];水体指数为NDWI[10]指数;由于红边波段是植被的敏感特征光谱波段,红边指数对农作物和其他植被的分类具有重要影响,根据GF-6 WFV影像具有2个红边波段的特点,本研究提取了4个红边指数,分别为NDVIre1[11]、NDVIre2[11]、NDre1[12]和CIre[13],并将红边指数单独作为一类特征进行分析。各种特征的详细描述及其表达方式如表3所示。

2.2 分类模型

2.2.1 随机森林分类算法 随机森林(Random forest,RF)算法最早由Breiman[14]于2001年提出,该方法将多棵独立的决策树进行排列,每棵决策树依赖独立抽取的样本进行训练,并对决策树节点进行随机分裂。随机森林算法参数少、训练时间短的优点使得其在遥感影像分类领域得到了广泛应用。

2.2.2 XGBoost分类算法 XGBoost(eXtreme gradient boosting)算法由CHEN等[15]提出,是在梯度提升算法(Gradient boosting decision tree, GBDT)基礎上优化而来。Boosting算法是将基分类器组合提升为强分类器的算法,首先利用初始训练集训练一个基分类器,根据表现调整下一个基分类器中训练样本的权重,分类错误的样本得到更多的关注,多次重复达到满足条件为止,最后将训练后的多个分类器加权组合。与GBDT相比,XGBoost具有准确度高、不易过拟合、可扩展性强等特点。

2.3 基于置换重要性的递归特征消除算法

置换重要性(Permutation importance)[16]是一种常用的计算特征重要性算法,其核心思想在于,如果用随机排列的值替换特征,会导致模型分数的下降。置换重要性的计算步骤如下:首先在由原始特征组成的数据集上评估初始得分,然后通过随机破坏特征值并置换测试集上的相应特征列,保持目标变量和其他特征不变,再次评估分数,初始得分和置换特征列中的得分之間的差异被定义为置换重要性。

递归特征消除(Recursive feature elimination, RFE)[17]是通过特征重要性与递归过程得到最佳特征集的特征选择方法。由于在逐步消除的过程中,特征间的相对重要性会发生变化,迭代的过程是必须的,因此本研究采用基于置换重要性的递归特征排除算法选择特征。首先,以初始特征集训练模型并计算每个特征的重要性。然后,从当前特征集中删除重要性得分最低的特征并记录当前特征集的分类精度。不断重复此过程直至特征集中特征数目为0,根据特征集分类精度选取最佳特征集。基于置换重要性的递归特征消除算法如图3所示。为了避免随机置换的不确定性影响,将特征优选算法重复100次并取均值。

2.4 类别可分性分析

采用J-M距离(Jeffreys-Matusita distance)[18]方法分析主要粮食作物与其他地物在红边波段和红边指数特征上的可分性,计算式如下。

J=2(1-e-B)                 (1)

式中,J为J-M距离,J的取值范围为0~2.0,J的数值越大,表明在特征空间中样本的可分性越好。当0

式中,m为某类特征的均值;δ为某类特征的标准差。

2.5 分类精度评价

基于混淆矩阵,采用总体精度(Overall accuracy,OA)和Kappa系数评价分类精度。总体精度等于正确分类的像元总和与总像元数的比值,其值越大表示精度越高;Kappa系数是一个可以衡量分类一致的指标,其取值越大表示分类准确度越高。

3 结果与分析

3.1 试验简介

为了验证GF-6 WFV影像在复杂环境下对主要粮食作物提取的有效性,并分析该影像光谱特征及各类指数特征在农作物分类中的作用,共设计了6种试验方案进行对比研究,各方案采用的特征组合如表4所示。其中,前5个方案采用RF算法进行试验,该算法参数少、建模快的优势有利于探讨不同特征对分类结果的影响;为了进一步探讨分类模型对结果的影响,在方案六中采用XGBoost算法,在基于递归特征消除算法获得的最优特征集上对比研究了RF和XGBoost模型的分类性能。

3.2 分类模型训练

利用研究区GF-6 WFV影像,使用训练样本对XGBoost和RF模型进行训练。通过网格搜索法使用Python优化2个模型参数,如表5所示,其余参数皆为默认值。

3.3 特征分析

3.3.1 特征的重要性排序及分析 基于递归特征消除算法计算出的特征消除顺序可以反映出特征间的相对重要性,在小麦提取试验和水稻、玉米提取试验中的特征消除顺序分别如图4a和图4b所示,综合2个特征消除顺序可以发现,植被指数DVI、RVI和红边指数CIre、NDre1在特征消除顺序中相对靠前,说明这些特征在分类过程中的重要性较低或对整个特征集产生冗余。而红边指数NDVIre1、NDVIre2和NDVI、NDWI、B2、B3、B7等特征在消除过程中相对靠后,说明这些特征在分类中重要性较高。

3.3.2 红边特征分析 为了进一步讨论红边波段和红边指数对主要粮食作物提取的影响,计算了主要粮食作物样本与其他地物样本在红边波段(B5、B6)和红边指数特征(NDVIre1、NDVIre2、NDre1、CIre)上的J-M距离,计算结果如图5所示。从图5可以发现,在主要粮食作物与非植被类地物的可分性方面,除了小麦与大棚在红边波段和红边指数特征上的J-M距离较低以外,其余J-M距离普遍较高,说明红边波段和红边指数有利于区分主要粮食作物与大部分非植被类地物。在主要粮食作物与植被类地物的可分性方面,玉米与其他植被在红边波段和红边指数特征上的J-M距离最低,即可分性较差;水稻与其他植被以及水稻与玉米除了在B6波段上J-M距离较低以外,在其余红边特征上的J-M距离均较高,说明水稻在这些红边特征上与植被类地物的可分性较好;小麦与其他植被在红边指数特征NDVIre2上的J-M距离最高。

3.4 分类结果及评价

采用6种方案中不同的特征分别对两期GF-6 WFV影像进行分类,并对总体精度和Kappa系数进行统计,如表6所示。从表6可以看出,相较于其他5个方案,方案六在小麦提取试验和水稻、玉米提取试验中的总体精度和Kappa系数均更高,表明经过特征优化后能提高分类精度,有利于主要粮食作物的提取;在方案六中相同的特征下进行的2个分类试验结果中,采用XGBoost模型进行分类的精度(方案六-2)略高于RF模型(方案六-1);对比前5个方案可以发现,方案三、方案四、方案五的分类精度总体高于方案一、方案二,表明红边特征的加入可以提高主要粮食作物的提取精度;对比方案三和方案四可以发现,无论是小麦提取试验还是水稻、玉米提取试验,方案三的精度都高于方案四,表明红边1波段比红边2波段更有利于主要粮食作物提取。

由于方案六中在最优特征下基于XGBoost算法的分类精度最高,因此将此结果作为方案六的最终结果,并绘制如东县主要粮食作物分类结果如图6和图7所示。从图6a、图7a可以看出,小麦和水稻主要种植区分别分布在研究区的中部和西部地区,而玉米种植主要分布在研究区的东南部。进一步选取局部典型区域绘制不同方案的3种主要粮食作物提取结果,小麦提取结果如图6b至图6g所示,水稻提取结果如图7b至图7g所示,玉米提取结果如圖8h至图8m所示。从图6、图7可以看出,方案六对主要粮食作物提取效果最好,其图斑更完整,分类结果中的“椒盐现象”影响最小,表明进行优选后的特征集能对主要粮食作物提取产生较好的效果;对比方案一和方案二可以发现,方案二对主要粮食作物提取结果整体视觉效果与方案一差异不大;对比方案三、方案四、方案五和方案一可以发现,这3个方案的提取效果与方案一相比均有不同程度的改善,特别是方案五的提取效果最好;对比3种主要粮食作物的提取结果可以发现,玉米在不同方案下的提取效果差别不明显,说明红边特征和特征优化对小麦和水稻的提取产生的积极影响较大,而对玉米提取的影响相对较小。

4 小结

红边波段是GF-6卫星作为农业遥感卫星设置的特色波段,本研究以江苏省南通市如东县为研究区,利用小麦、水稻和玉米各自生长期内的两期GF-6 WFV影像开展主要粮食作物提取研究,探讨该影像在农业遥感领域的应用潜力以及GF-6 WFV影像的红边波段和红边指数在主要粮食作物提取中的优势。通过研究得出如下结论。

1)利用GF-6 WFV影像能够有效提取主要粮食作物,尤其是其新增的2个红边波段和其红边指数能够提高主要粮食作物的分类精度。通过计算J-M距离进行类别可分性分析,可以发现在红边波段和红边指数上主要粮食作物与其他地物间具有较高的可分性;在特征优选过程中可以发现红边指数NDVIre1、NDVIre2等特征排除顺序相对靠后。

2)在所有的方案中,利用最优特征集和XGBoost算法对影像进行分类的精度最高,在小麦和水稻、玉米提取试验中的总体分类精度分别达85.11%和90.54%,比未采用红边波段仅采用光谱、植被指数和水体指数(方案二)时分别提高了3.08、5.58个百分点,比仅采用光谱和红边指数特征未进行特征优选(方案五)时分别提高了1.83、1.43个百分点,说明红边特征的引入以及特征优选有利于提高主要粮食作物的提取精度。

本研究分析了GF-6 WFV数据的红边特征,探讨了不同红边特征在主要粮食作物提取中的应用潜力,促进了GF-6 WFV影像在农业遥感领域的推广应用。但是试验中发现GF-6 WFV影像的红边特征对玉米提取的作用并不明显,后续将进一步分析更多与红边波段相关的指数特征以及紫外波段、黄波段在主要粮食作物提取中的作用。

参考文献:

[1] ZHAO C J. Advances of research and application in remote sensing for agriculture[J]. Transactions of the Chinese society for agricultural machinery, 2014, 45(12): 277-293.

[2] 余 超,李明阳,何隆华.利用决策树分类方法的南京江宁水稻面积变化研究[J].遥感信息,2015,30(2):80-84.

[3] HUANG S Y, YANG L, CHEN X, et al. Study of typical arid crops classification based on machine learning[J]. Spectroscopy and spectral analysis, 2018, 38(10): 3169-3176.

[4] 王 东. 基于多源遥感影像协同的农作物种植结构提取研究[D]. 武汉: 武汉大学, 2018.

[5] 李国庭, 王德强, 赵德良, 等. 基于多源异构数据的粮食作物种植面积提取[J]. 山东国土资源, 2022(8): 51-55.

[6] XIA T, HE Z, CAI Z, et al. Exploring the potential of Chinese GF-6 images for crop mapping in regions with complex agricultural landscapes[J]. International journal of applied earth observation and geoinformation, 2022, 107: 102702.

[7] 梁 继, 郑镇炜, 夏诗婷, 等. 高分六号红边特征的农作物识别与评估[J]. 遥感学报, 2020, 24(10): 1168-1179.

[8] BECKER F, CHOUDHURY B J. Relative sensitivity of normalized difference vegetation index (NDVI) and microwave polarization difference index (MPDI) for vegetation and desertification monitoring[J]. Remote sensing of environment, 1988, 24(2): 297-311.

[9] KAUFMAN Y J , TANRE D . Atmospherically resistant vegetation index (ARVI) for EOS-MODIS[J]. IEEE transactions on geoscience and remote sensing, 1992, 30(2):261-270.

[10] MCFEETERS S K. The use of the normalized difference water index (NDWI) in the delineation of open water features[J]. International journal of remote sensing, 1996, 17(7): 1425-1432.

[11] BARNES E M, CLARKE T R, RICHARDS S E, et al. Coincident detection of crop water stress, nitrogen status and canopy density using ground based multispectral data[A].Proceedings of the fifth international conference on precision agriculture[C].Bloomington, MN, USA:American society of agronomy, 2000.1-15.

[12] GITELSON A, MERZLYAK M N. Spectral reflectance changes associated with autumn senescence of Aesculus hippocastanum L. and Acer platanoides L. leaves. Spectral features and relation to chlorophyll estimation[J]. Journal of plant physiology, 1994, 143(3): 286-292.

[13] GITELSON A A, GRITZ Y, MERZLYAK M N. Relationships between leaf chlorophyll content and spectral reflectance and algorithms for non-destructive chlorophyll assessment in higher plant leaves[J]. Journal of plant physiology, 2003, 160(3): 271-282.

[14] BREIMAN L. Random forests[J]. Machine learning,2001,45(1):5-32.

[15] CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system[A]. Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining[C]. New York, United States: Association for computeing machinery, 2016.785-794.

[16] ALTMANN A, TOLO?I L, SANDER O, et al. Permutation importance: A corrected feature importance measure[J]. Bioinformatics, 2010, 26(10): 1340-1347.

[17] GRANITTO P M, FURLANELLO C, BIASIOLI F, et al. Recursive feature elimination with random forest for PTR-MS analysis of agroindustrial products[J]. Chemometrics and intelligent laboratory systems, 2006, 83(2): 83-90.

[18] 馬 娜, 胡云锋, 庄大方, 等. 基于最佳波段指数和J-M距离可分性的高光谱数据最佳波段组合选取研究——以环境小卫星高光谱数据在东莞市的应用为例[J]. 遥感技术与应用, 2010, 25(3): 358-365.

收稿日期:2023-11-03

基金项目:自然资源部国土卫星遥感应用重点实验室经费资助项目(KLSMNR-K202209);江苏省农业科技自主创新资金项目[CX(22)2001]

作者简介:许 康(1980-),男,江苏扬州人,高级工程师,硕士,主要从事测绘工程研究,(电话)13584005583(电子信箱)99958463@qq.com。

猜你喜欢
特征选择
正交基低冗余无监督特征选择法
网络入侵检测场景下的特征选择方法对比研究
基于实例学习和协同子集搜索的特征选择方法
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
基于GA和ELM的电能质量扰动识别特征选择方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
非线性电路多软故障的智能优化递阶特征选择诊断方法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法