基于多种植被指数时间序列与机器学习的作物遥感分类研究

2017-10-27 14:11苏腾飞刘全明苏秀川
江苏农业科学 2017年16期
关键词:时间序列遥感机器学习

苏腾飞 刘全明 苏秀川

摘要:开展了基于多种植被指数(vegetation index,VI)时间序列和机器学习(machine learning,ML)算法的作物遥感分类研究。从Landsat-8 OLI与EO-1 ALI影像中提取了内蒙古五原县的时间序列数据。2颗卫星的参数类似,且它们联合提供了更多无云覆盖的数据。7种常用的VI从时间序列遥感数据中提取出来,以用作ML算法的输入。对比分析了SVM、RF、DT 3种ML算法对玉米、向日葵和小麦的区分效果。共选取了2 584个样本,其中1 556个样本用于算法训练。得到了127种VI组合作为输入时3种算法的分类精度。结果表明,SVM的分类效果优于另外2种算法;VI数目并非越多越好,综合考虑算法的精度和稳定性,3种VI可以取得最佳的效果;SVM+NDI5+NDVI+TVI是平均分类精度最高的组合,平均精度为9197%。

关键词:时间序列;植被指数(VI);机器学习(ML);作物分类;遥感

中图分类号: S127文献标志码:

文章编号:1002-1302(2017)16-0219-06

[HJ14mm]

收稿日期:2016-04-03

基金项目:国家自然科学基金(编号:51569018)。

作者简介:苏腾飞(1987—),男,内蒙古呼和浩特人,硕士,实验师,主要从事遥感影像分析算法的研究。E-mail:stf1987@126com。

通信作者:刘全明,博士,副教授,主要从事遥感测绘方法与应用的研究。E-mail:nndlqm@sinacom。

利用遥感影像开展农作物的识别具有重要意义[1-3]。随着科学技术的发展,越来越多的遥感卫星可以实时提供大范围的对地观测影像,从而极大地减少了大面积农田监测的成本。从遥感影像中可以获取农作物长势信息,并用来估算粮食产量,这些信息都可以有效指导农业生产活动。农作物的识别是农业遥感的基础研究内容。只有在准确获取农作物种类的前提下,作物长势、面积估计和产量预测才可以得到更准确的结果。另外,作物识别算法的研究还可以提高农业遥感监测的自动化程度,从而进一步减少农情监测的成本。

目前,世界上大多数发达国家都已经开展了基于遥感的作物识别研究。美国农业部早在20世纪70年代就利用Landsat卫星获取的时间序列植被指数(vegetation index,VI)开展了全世界范围的作物种类识别研究[4]。法国、加拿大等国家也都开展了类似的研究[5-6]。利用遙感影像识别作物种类,正向着业务化、智能化和自动化发展,其中包含了2个方面的重要内容:时间序列VI对于提高作物识别精度是非常必要的;采用合适的ML算法及其最优参数的选取是农作物成功识别的关键。

VI反映了植被对不同光谱波段的响应特征。对于不同种类的作物,由于其物候特征的差异,其VI时间序列会表现出不一样的特点。因此,在农业遥感监测中,VI是重要的研究对象。Pea-Barragán等从ASTER时间序列数据中提取了12种VI,并结合纹理特征来构建作物分类算法。Zhong等利用3种VI的时间序列对美国Kansas州农田的玉米和大豆进行了识别[8]。Brown等利用从MODIS时间序列提取的2种VI数据,对巴西地区的棉花、大豆和玉米进行了识别[9]。Ozdogan也利用了2种VI,验证了非监督分类算法在作物识别中的应用[10]。Sakamoto等开展了玉米和大豆的遥感分类研究,但他们仅利用了1种VI[11]。Yin等对比了AVHRR和SPOT提取的NDVI的差异,研究区域是内蒙古的农田[12]。Conrad等利用SPOT和ASTER提取的NDVI来识别乌兹别克斯坦农业灌区的作物种类。Duro等均采用了NDVI来进行作物识别研究[6,14-18]。在以上研究中,大多算法仅采用1种VI,采用多种VI的研究也很少评价不同VI对作物分类的效果。实际上,选取多种VI,考察不同VI对各类作物的识别效果,对于提高作物分类精度具有重要意义。

ML是业务化农业遥感监测的重要组成部分。近年来,多种ML监督算法被应用到作物分类中,例如最大似然[19]、神经网络[20]、决策树(DT)[3,6-7,9,14-15]、随机森林(RF)[8]、支持向量机(SVM)等。尽管ML算法种类繁多,但其作物识别的一般步骤为:(1)样本选择,利用实测数据或其他数据源,与遥感影像进行匹配,得到样本数据;(2)算法训练,利用训练样本选择最优参数;(3)算法验证,利用更多的样本数据验证算法的性能。DT是应用较多的算法,Brown等利用DT对巴西地区的多种作物进行了区分[9]。Edlinger等也利用DT较好地识别了冬小麦[15]。Vieira等将DT和图像分割技术相结合,利用Landsat影像对甘蔗进行了识别和提取[14]。Pea-Barragán等利用DT区分美国加利福尼亚州农田的13种作物。苗翠翠等利用DT开展了江苏省水稻识别研究[21]。马丽等开展了DT区分黑龙江地区水稻、大豆和玉米的研究[18]。其他算法在农田遥感分类中也具有较好的效果。Conrad等提出了一种类似DT的基于规则的农田分类算法。Zhong等利用RF和作物的物候特征,得到了较高的分类精度[8]。为了对比基于像素和基于对象图像分类方法的优劣,Duro等采用了DT、RF、SVM 3种算法对加拿大地区的农田进行了分类。综上所述,ML算法的输入选择是作物遥感分类的关键。本研究将不同VI组合作为输入,对DT、RF、SVM 3种算法进行了作物分类精度评价,以分析不同VI、ML算法对作物识别精度的影响。

本研究利用Landsat-8和EO-1(Earth Observation-1)2种中高分辨率遥感卫星的时间序列数据,开展了内蒙古五原县河套灌区的作物分类研究。五原县是中国重要的向日葵产区,该县向日葵产量占全国向日葵产量的十分之一。另外,五原县还盛产小麦、玉米等粮食作物,是内蒙古重要的农业基地之一。因此,对该地区进行作物遥感分类研究是十分必要的。

1研究区域与数据

11研究区域

五原县位于内蒙古河套平原腹地,属中温带大陆性气候。虽然当地的年均降水量仅有170 mm,但凭借黄河灌溉、日照条件和土壤肥沃的优势,五原县已成为内蒙古重要的商品粮基地。玉米、向日葵和小麦是五原县3种主要的作物。五原县有“葵花之乡”的美誉,其向日葵年产量占全国的十分之一。近年来,随着人们对经济作物需求的提升,五原县的向日葵种植面积逐年增大。五原县的行政区划如图1所示,其中,灰色方框是本研究的研究区域,右侧的卫星图像是EO-1于2013年8月26日获取。

12数据及其预处理

本研究采用的卫星数据由Landsat-8业务化陆地成像仪(operational land imager,OLI)和EO-1改进型陆地成像仪(advanced land imager,ALI)2种中高分辨率的遥感器提供。前者于2013年发射升空,继续了Landsat系列卫星的对地观测任务。后者于2000年投入使用,其参数与Landsat系列卫星相似。本研究所采用的所有卫星影像数据(包括2013年4—10月共计11景影像)均在美国地质调查局(USGS)官网免费下载(表1)。OLI和ALI的参数相似,并且具有类似的波段设置(表2)。另外,2种传感器可以获取更多无云覆盖的数据,从而丰富VI时间序列,以提高作物识别的精度。

本研究的数据预处理主要包含3个步骤:辐射校正、全色锐[CM(25]化和地理配准。辐射校正由业务化的遥感数据处理软件[CM)]

[FK(W13][HT6H][STHZ][WTHZ][JZ]表2ALI与OLI波段对应信息[WTBZ][HTSS][STBZ]

[BG(!][BHDFG3,WK52,WK23W]波段[ZB(][BHDWG12,WK92,WK14W]EO-1 ALILandsat8 OLI

[BHDWG12,WK4,WK52,WK10,WK4W][XXZS-ZSX9]波段名称波长(nm)[XXZSX2-ZSX132]波段名称波长(nm)[ZB)W]

[BHDG12,WK52ZQ0,WK4,WK52DW,WK10ZQ0,WK4DWW]可见光14416海岸带气溶胶(CA)4430

[BHDW]14848蓝色(B)4826

25672绿色(G)5613

36600红色(R)6546

近红外(NIR)47900——

48656近紅外(NIR)8646

短波红外512444——

(SWIR)51 6401短波红外1(SWIR 1)1 6090

72 2257短波红外2(SWIR 2)2 2010[HJ][BG)F]

注:“—”表示不存在该波段的数据。

ENV I 50完成,以得到反射率数据。由于OLI和ALI的全色数据分辨率不同(前者为15 m,后者为10 m),OLI数据在全色锐化后,将其重采样为10 m分辨率,以保持2种数据空间分辨率的一致性。2种传感器在不同的时间获取数据时,其轨道信息略有差异,这使得时间序列影像中各个影像的地理位置略有偏差。为了纠正这些偏差,采用人工手动配准的方法选取影像中容易辨识的地物作为控制点,从源数据中截取研究区域的影像。经过目视解译,所有数据在空间上的差异不超过1个像素。

2研究方法

21选用的VI

本研究共采用了7种常用的VI,其名称和计算公式如表3所示,公式里R表示反射率,脚标代表波段。本研究共采用

的波段包括:红外波段(NIR)、红色波段(R)、绿色波段(G)、短波红外1波段(SWIR1)。根据各个VI计算所用的波段,本研究将其大致分为3类:可见光-红外、近红外-短波红外、可见光-短波红外。NDI5与NDSVI都与植被含水量有关。McNairn等利用NDI5来观测美国玉米田地收获后植被残留情况[23]。Qi等利用NDSVI从Landsat影像中提取植被枯萎的信息[24]。

注:RNIR、RR、RG、RSWIR1分别表示近红外波段、红色波段、绿色波段、短波红外1波段的反射率。

NDVI是最常用的一种VI,EVI、GNDVI、RDVI均是在NDVI的基础上发展的。其中EVI是一种优化的VI,它将更多的植被信号从背景信号中分离出来,并且进一步减少了大气对反射率的影响[8]。其公式为

[JZ(]EVI=G×[SX(]RNIR-RRRNIR+C1RR-C2RB+L[SX)]。[JZ)][JY](1)

其中,RNIR、RR、RB分别表示近红外、红色、蓝色波段的反射率;L是植被顶端覆盖与背景的调节系数;C1和C2是气溶胶系数;G为增益系数。根据文献[8],本研究将L、C1、C2、G的值分别设置为1、6、75、25。

TVI可以表示植被吸收的辐射能量与红色、绿色和近红外波段反射率的关系[22]。其计算公式如下:

[JZ(]TVI=05[120(RNIR-RG)-200(RR-RG)]。[JZ)][JY](2)

其中,TVI表示三角植被指数;RNIR、RR、RG分别表示近红外、红色、绿色波段的反射率。

22样本选取

在研究区域共选取了2 584个样本点。用于训练的样本共计1 556个,其中玉米、向日葵和小麦各为575、491、490个。用于验证的样本为1 028个,玉米、向日葵、小麦分别是380、350、298个。在农田均一致的区域选择样本,以减少田间不同植被对分类的不良影响。在选择样本时主要参照了Google Earth高分辨率遥感影像的数据,并分析了样本的NDVI时间序列变化趋势以进一步提高样本选择的准确性。

23ML算法的训练

本研究所采用的3种ML算法均是结合开源编程软件OpenCV实现的。OpenCV封装了丰富的ML算法,并可以与C++编程语言无缝连接,因此,用户可以灵活地利用OpenCV来完成图像分析、数据挖掘等工作。下面分别介绍3种算法的参数选取情况。

231SVM参数设置

OpenCV中集成的SVM算法源代码是由国立台湾大学的Hsu等编写的,该模块既可以用于数据的多类预测,也可以用于回归和聚类分析[25]。SVM是一种基于核函数的方法,因此,需要首先确定所使用的核函数。文献[25]指出,径向基函数(radial base function,RBF)适用于大多数情况。经过本研究多次试验,RBF的效果最佳。

基于RBF的SVM需要调节2个重要的参数:C和σ。本研究采用了k重交叉验证的方法来确定不同VI组合作为输入时的最佳参数设置,k重交叉验证可以有效避免过拟合。文献[26]指出k为10对于ML算法的对比研究是足够的,因此,本研究的k值为10。经过交叉验证后得到的参数是最优化的。

232RF参数设置

RF分类器是由若干DT组成的,它可以高效地进行高维数据分类。近年来的一些研究表明,RF算法在某些应用中的性能优于DT、神经网络和最大似然等方法[8]。值得一提的是,该算法不需要交叉验证的方法来训练参数,它本身提供了一种out-of-bag(OOB)的参数确定方法,它可以无偏估计出最优参数。

除了OOB确定的参数外,RF需要2个人为调试的参数:DT的数目NDT和预测变量数目mtry。经过多次试验,本研究将NDT设置为500,更大的数值不仅不会显著提升算法精度,还会极大地增加算法的计算量。mtry一般设置为[KF(]p[,其中p是输入向量的维度。

233DT参数设置

DT算法应用广泛,其优势是可以得到一个分类器的树形表现,从而帮助用户直观地理解分类器的工作过程。本研究DT分类器的构建采用了10重交叉验证的训练方法。DT最重要的参数是树的最大深度Dmax。其值越大,经过训练所得的DT越复杂,并且精度也越高,但分类计算所需时间更长。相反,较小的Dmax可以得到更简单的DT,其精度较低。经过多次试验,本研究将其设置为25时,效果最佳。

3结果与分析

本节分析了不同VI组合作为输入时的分类结果。在进行精度评价时,计算了不同情况分类结果的混淆矩阵和总精度。本研究共采用了7种VI,所以采用1种VI时有C71=7种情况,依次类推,本研究共考察了C71+C72+C73+C74+C75+C76+C77=127种VI组合的情况。对于每一种情况,试验流程都是先利用训练样本对ML算法进行训练,然后再利用验证样本得到分类精度。

31单一VI的分类结果

首先考察了7种VI各自作为输入时的分类精度,以确定作物分类中最佳和最差的VI。由图2可知,除NDSVI外的其他6种VI,SVM都好于另外2种算法。DT的精度都高于RF。NDSVI的分类精度最低,3种ML算法的精度均低于81%,并且所有结果中RF+NDSVI的精度是最低的(7374%)。SVM+EVI的精度最高(9543%),SVM+NDVI次之(9494%)。EVI、GNDVI、NDVI、RDVI、TVI的精度均较高,且对于不同的算法,其精度存在差异;对于TVI,3种算法的差异最小,且精度都在91%以上,是平均精度最高的VI。

由图2可知,NDSVI的分类效果最差,尽管最高精度是SVM+EVI获得的,但TVI的分类效果最佳;对于单一VI输入的情况,RF的效果最差,SVM的效果最好。

32VI组合的分类结果

本节分析了不同VI组合时的分类效果。按照输入VI的数目,共分7种情况。图3至图5分别展示了SVM、RF、DT在不同VI输入数目时的分类精度。有趣的是,3种算法的分类结果表现出的规律不一致。

由图3可知,对于SVM,其最高精度随着输入VI数目的增加而下降;平均精度则先略微上升后下降,在VI数目为3时达到最大值;最低精度在VI数目为1时最低,在3时最高。由图4可知,RF的最高精度在VI数目为4时最高,在7时最低;其平均精度在4时最高;RF的最低精度在VI数目为3时最低,随后随著VI数目的增大而升高。由图5可知,DT的最高精度在VI数目小于7时均高于90%,而在VI数目为7时低于80%;其平均精度随着VI数目的增大而降低;其最低精度先降低随后上升,当VI数目为3时最低。3种算法中的最高精度是RF在VI数目为4时得到的(9630%),对应的VI组合是NDI5+NDVI+RDVI+TVI;最低精度也是RF产生的,在VI数目为3时得到(7053%),其VI组合是EVI+NDI5+TVI。

由于VI数目为7的组合只有1种,因此未计算其分类精度标准差。分类精度标准差表示了不同算法在不同VI数目时的稳定性,其值越小,说明算法的稳定性越好。由图6可知,3种算法在VI数为1时的标准差均大于5%;随着VI数目的增加,SVM的标准差逐渐减小,DT则先增大后减小,而RF无明显规律。因此,SVM的稳定性最佳;RF在VI数目大于2时的稳定性优于DT。

由表4至表6可知,除了VI数目为1时,3种算法的最差VI组合均为NDSVI外,其他情况下3种算法各自的最佳和最差VI组合都不一样。这说明在分类过程中,不同VI组合在3种分类器中的贡献是存在较大差异的。

综上所述,VI数目并非越大越好,3种分类器对不同VI组合的分类效果具有较大的差异;综合考虑分类精度和稳定性,SVM在选用3种VI时的性能相对最佳,其平均分类精度最高(9197%),且标准差小于2%。

33生产者精度与用户精度

生产者精度(producers accuracy,PA)和用户精度(users accuracy,UA)都是针对某一类别来计算的。PA可以衡量把某一类别分为其他类别的出错率,而UA能够描述把其他类分为某一类的错误。PA和UA可以用于分析分类结果中各个类别的分类效果。

由圖7可知,玉米的PA、向日葵的UA均比小麦的低。这说明3种算法均在玉米和向日葵的分类上效果较差,且3种算法都易将玉米错分为向日葵。对于SVM和DT,玉米的PA和向日葵的UA都随着VI数目的增加而降低,DT的这个

规律更为明显,这表明DT更易混淆这2种类别,且随着VI数目的增加,这种混淆更严重。RF也明显存在着将玉米分为向日葵的错误,但它与VI数目关系不大。

玉米和向日葵容易被混淆,与其生长规律有关。在五原县,小麦的收获季节一般在夏季7月中下旬,而玉米和向日葵的收获期都在9月底至10月初。作物的物候特征差异越明显,基于VI时间序列的分类效果就越好。

综上所述,SVM对玉米和向日葵的区分效果最好,且VI数目在低于4时,算法的精度最好,玉米的PA和向日葵的UA均高于80%。

4结论

本研究开展了基于VI时间序列和ML算法的作物遥感分类研究。从2013年的Landsat-8 OLI与EO-1 ALI影像中提取了内蒙古五原县的时间序列数据,2颗卫星保证了更多无云覆盖的数据可以被用于本研究。7种常用的VI从时间序列遥感数据中提取出来。3种广泛应用的ML算法:SVM、RF、DT被用于区分玉米、向日葵和小麦。

本研究共考察了127种VI组合作为输入时3种算法的分类精度。试验结果表明,SVM的精度要优于另外2种算法;输入算法的VI数目并非越大越好,综合考虑算法的精度和稳定性,选用3种VI可以取得最佳的效果;SVM+NDI5+NDVI+TVI是平均分类精度最高的组合。

参考文献:

田振坤,傅莺莺,刘素红,等 基于无人机低空遥感的农作物快速分类方法[J] 农业工程学报,2013,29(7):109-116

游炯,裴志远,徐振宇,等 水稻遥感识别偏差修正的地统计学方法[J] 农业工程学报,2013,29(21):126-136

[3]刘晓娜,封志明,姜鲁光 基于决策树分类的橡胶林地遥感识别[J] 农业工程学报,2013,29(24):163-172

[4]Roy D P,Wulder M A,Loveland T R,et al Landsat-8:science and product vision for terrestrial global change research[J] Remote Sensing of Environment,2014,145(4):154-172

[5]Claverie M,Demarez V,Duchemin B,et al Maize and sunflower biomass estimation in southwest France using high spatial and temporal resolution remote sensing data[J] Remote Sensing of Environment,2012,124(9):844-857

[6]Duro D C,Franklin S E,Dubé M G A comparison of pixel-based and object-based image analysis with selected machine learning algorithms for the classification of agricultural landscapes using SPOT-5 HRG imagery[J] Remote Sensing of Environment,2012,118(6):259-272

[7]Pea-Barragán J M,Ngugi M K,Plant R E,et al Object-based crop identification using multiple vegetation indices,textural features and crop phenology[J] Remote Sensing of Environment,2011,115(6):1301-1316

[8]Zhong L H,Gong P,Biging G S Efficient corn and soybean mapping with temporal extendability:a multi-year experiment using Landsat imagery[J] Remote Sensing of Environment,2014,140(1):1-13

[9]Brown J C,Kastens J H,Coutinho A C,et al Classifying multiyear agricultural land use data from Mato Grosso using time-series MODIS vegetation index data[J] Remote Sensing of Environment,2013,130(3):39-50

[10]Ozdogan M The spatial distribution of crop types from MODIS data:temporal unmixing using independent component analysis[J] Remote Sensing of Environment,2010,114(6):1190-1204

[11]Sakamoto T,Wardlow B D,Gitelson A A,et al A Two-step filtering approach for detecting maize and soybean phenology with time-series MODIS data[J] Remote Sensing of Environment,2010,114(10):2146-2159

[12]Yin H,Udelhoven T,Fensholt R,et al How normalized difference vegetation index (NDVI) trends from advanced very high resolution radiometer (AVHRR) and systeme probatoire dobservation de la terre VEGETATION (SPOT VGT) time series differ in agricultural areas:an inner mongolian case study[J] Remote Sensing,2012,4(11):3364-3389

[13]Conrad C,Fritsch S,Zeidler J A,et al Per-Field irrigated crop classification in arid central Asia using SPOT and ASTER data[J] Remote Sensing,2010,2(4):1035-1056

[14]Vieira M A,Formaggio A R,Rennó C D,et al Object based image analysis and data mining applied to a remotely sensed Landsat time-series to map sugarcane over large areas[J] Remote Sensing of Environment,2012,123(8):553-562

[15]Edlinger J,Conrad C,Lamers J P A,et al Reconstructing the spatio-temporal development of irrigation systems in Uzbekistan using Landsat time series[J] Remote Sensing,2012,4(12):3972-3994

[16]姜曉剑,刘小军,田永超,等 基于遥感影像的作物生长监测系统的设计与实现[J] 农业工程学报,2010,26(3):156-162

[17]范磊,程永政,王来刚,等 基于多尺度分割的面向对象分类方法提取冬小麦种植面积[J] 中国农业资源与区划,2010,31(6):44-51

[18]马丽,徐新刚,贾建华,等 利用多时相 TM 影像进行作物分类方法[J] 农业工程学报,2008,24(增刊2):191-195

[19]Gao Y,Masa J F,Maathuis B H P,et al Comparison of pixel-based and object-oriented image classification approaches—a case study in a coal fire area,Wuda,Inner Mongolia,China[J] International Journal of Remote Sensing,2006,27(18):4039-4055

[20]骆成凤,刘正军,王长耀,等 基于遗传算法优化的BP神经网络遥感数据土地覆盖分类[J] 农业工程学报,2006,22(12):133-137,后插1

[21]苗翠翠,江南,彭世揆,等 基于NDVI时序数据的水稻种植面积遥感监测分析——以江苏省为例[J] 地球信息科学学报,2011,13(2):273-280

[22]Broge N H,Leblanc E Comparing prediction power and stability of broadband and hyperspectral vegetation indices for estimation of green leaf area index and canopy chlorophyll density[J] Remote Sensing of Environment,2001,76(2):156-172

[23]Mcnairn H,Protz R Mapping corn residues cover on agricultural fields in Oxford County,Ontario,using thematic mapper[J] Canadian Journal of Remote Sensing,1993,19(2):152-159

[24]Qi J,Marsett R,Heilman P,et al RANGES improves satellite-based information and land cover assessments in southwest United States[J] Eos Transactions of the American Geophysical Union,2002,83(51):601-606

[25]Hsu C,Chang C,Lin C A practical guide to support vector classification[EB/OL] (2010-04-15)[2016-04-02] http://wwwcsientuedutw/-cjlin

[26]Kohavi R A study of cross-validation and bootstrap for accuracy estimation and model selection[EB/OL] (1995-06-15)

猜你喜欢
时间序列遥感机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
中国“遥感”卫星今年首秀引关注