基于遥感的西南地区水稻种植信息提取

2019-12-16 01:42王克晓周蕊虞豹黄祥王茜
江苏农业科学 2019年19期
关键词:随机森林遥感西南地区

王克晓 周蕊 虞豹 黄祥 王茜

摘要:为探索西南地区水稻种植信息的有效提取方法,以重庆市永川区朱沱镇为例,根据Sentinel-2多光谱影像,结合高分一号(GF-1)影像数据选取样本分布点,构建水稻作物信息随机森林提取模型,同时分析样本地类像元光谱曲线,构建不同地类样本影像像元光谱库,并将随机森林分类结果与传统最大似然法、光谱角及基于时差的光谱角水稻空间种植信息分类结果进行对比及精度分析。结果显示,通过光谱角分类器提取地物精度有限,结合时差特征能够明显提高目标提取精度,而基于水稻样本信息训练构建的光谱角模型提取方法获取水稻种植面积准确率高达90.62%,分类结果总体精度达91.50%,Kappa系数达到0.83,实现了对西南地块破碎地区分散作物种植信息的有效提取,可为西南地形复杂、地块破碎地区农作物信息提取提供一定参考。

关键词:水稻信息提取;西南地区;遥感;随机森林

中图分类号: P237文献标志码: A

文章编号:1002-1302(2019)19-0231-05

收稿日期:2018-07-09

基金项目:重庆市科技服务平台专项(编号:cstc2015ptfw-ggfw80001)。

作者简介:王克晓(1986—),男,河南平顶山人,硕士,工程师,主要从事农业遥感方面相关研究。E-mail:447215670@qq.com。

通信作者:周蕊,硕士,副研究员,主要从事农业遥感方面相关研究。E-mail:12087836@qq.com。

及时准确掌握水稻种植信息对于农业和经济发展具有重大的意义[1],同时也是农业遥感研究的重要内容[2]。如何获取高精度水稻空间种植专题信息依然是农业遥感工作者所面临的挑战[3]。作物地类遥感制图精度受影像底图及分类提取方法的双重影响[4-5],多时相及多源遥感数据能够进一步提升提取精度[5]。环境复杂地区主要依赖影像光谱信息的农作物常规提取分类方法精度有限,而源于机器学习领域的分析方法对精度提取却更加有效[6]。刘绍贵等基于高分一号(GF-1)影像宽幅(WFV)数据,采用面向对象的分类方法对江苏省扬州市水稻种植信息进行了提取,并结合实地调查验证,探讨了GF-1数据面向对象分类方法在水稻种植信息提取中的可行性与影响提取精度的因素[7]。王娟等通过对四川省德阳市旌阳区的SPOT-5卫星影像进行监督、面向对象以及决策树等多种方法分类结果对比,研究最适合提取水稻信息的方法[8]。雷小雨等提出利用2个时相的数据,通过构建差值特征突出水稻物候变化的特点,并与随机森林算法结合,较高精度地提取了水稻种植面积,与单时相提取结果相比,总体精度有较大提高[9]。在诸多涉及水稻信息提取的研究中,研究焦点基本都停留在平原地区,较少学者将其研究焦点放在地块破碎、土地利用类型复杂的我国西南地区。我国西南地区水稻种植具有分散、地块小、形状多样等特点,利用中低分辨率遥感数据提取水稻种植面积,难以满足精度要求[10]。李爱农等以云南大理地区30 m×30 m的Landsat TM影像土地利用分类实践为例,证明了将计算机监督分类与非监督分类进行有机结合, 在西南地块破碎地区利用多光谱图像分类具有可行性[11],尽管整体上获得了令人满意的分类结果,但其精度仅通过斑块对比和各地类总面积统计判对率进行评价,出现较多大图斑判对率高、小图斑判对率低、土地利用类型复杂地段错判的可能性较大的现象。

本研究以重庆市永川区朱沱镇Sentinel-2多光谱影像为例,结合GF-1全色融合多光谱正射影像,充分利用Sentinel-2系列影像多波段特征影像数据集,构建基于Sentinel-2影像的随机森林(RF)分类模型,同时分析样本地类像元光谱曲线,构建影像像元光谱库,并将RF分类结果与传统最大似然法(MLC)、光谱角(SAM)及基于时差的光谱角水稻空间种植信息分类结果进行对比及精度分析,探讨西南地区水稻种植面积的遥感监测方法。

1 研究区概况

重庆市永川区位于长江上游北岸,重庆市西部,地处 105°38′~106°05′E、28°56′~29°34′N,地貌分为低山、丘陵、缓丘平坝三大类。属于亚热带季风性湿润气候,全年平均气温17.7 ℃,年均降水量1 015.0 mm。朱沱镇位于重庆市永川区南部长江之滨,是永川区第一大镇,农业以晚熟龙眼、优质水稻为主导产业,配套发展柚子、荔枝、枇杷、葡萄以及蔬菜等特色农产品,地块破碎,农作物种植结构复杂多样。研究区水稻以中稻为主,生长期一般为4月初至8月末。

2 数据与方法

2.1 遙感源数据获取及处理

本研究使用的遥感数据主要为高分一号(GF-1)数据和Sentinel-2A/2B遥感卫星数据,参考系为统一的WGS-84坐标系,经过几何精淮校正,将误差控制在0.5个像元以内。其中,GF-1数据获取时间为2017年4月23日,是分辨率为2 m的全色融合四波段正射影像;Sentinel-2A/2B遥感卫星数据下载于欧空局Sentinel科学数据中心。研究区影像成像时间分别为2017年5月17日(时相1)和7月11日(时相2),产品等级为L1C。经几何校正和辐射校正过的L1C级数据通过辐射校正转换至L2A级,得到地表反射率产品,然后借助欧空局Sentinel影像数据专业处理平台SNAP的插件工具SEN2RES将Sentinel-2A/2B数据红边、短波红外等6个空间分辨率为 20 m 的多光谱波段统一超分辨率重采样为 10 m,与L2A产品的可见光、近红外4个波段组成10波段数据集,并按照原影像波段次序重新编号供后续分析。

2.2 样本选取与光谱库构建

样本选取主要通过GF-1影像数据,该数据获取时期重庆市渝西地区小麦、油菜处于成熟收获期,水稻处于移栽期,玉米处于七叶期。研究区的丘陵地形及水体泡田特征可为水稻样本点选取提供较大辅助。

研究区内植被与人工地物在时相2影像上均呈现出2种不同色调,结合提取目标,将研究区地物类型划分为水稻、植被1、植被2、水域、公路、裸地、人工地物1及人工地物2共8个类型,结合GF-1影像选取8组样本点,然后通过Jeffries-Matusita距离对样本进行可分离性检验,结果显示,Jeffries-Matusita值均在1.9以上,说明样本可分离性较好。将通过检验的样本点组加载到不同时相多光谱影像中,获取对应分组样本反射率均值,构建各地物类型光谱库(图1)和2时相目标组光谱对比曲线(图2)。

2.3 分类原理与方法

2.3.1 随机森林分类

随机森林分类是由加利福尼亚大学Breiman开发完成的一种基于分类与回归(CART)决策树的有效的组合式自学习集成机器学习方法[12]。利用bootsrap重抽样方法从原样本中随机抽取若干样本,分别为各样本构建独立决策树并综合多棵决策树的预测投票得出最终预测结果[13]。

建立在CART决策树基础上的随机森林,有更强的数据挖掘、泛化能力和更理想的分类效果,已逐步发展成分析复杂地区遥感数据的有效集成分类器之一[14]。RF能在不作特征选择、数据整理的条件下处理上千维的海量特征数据,在各类别样本容量分布不平衡的情况下保持分类误差平衡,并且能抵制并检测出训练样本集异常值,无需预处理。随机森林的树是由随机方式独立生成的,能抑制过拟合现象[15]。图3为其分类结构图。

RF分类法用于遥感地物识别主要基于大量随机生长决策树,其模型建立主要涉及2个参数,即决策树个数(ntree)和决策树内部节点随机选择特征个数(mtry)[17]。本研究以获取的样本点对应各个波段光谱信息值作为样本特征集,按照 70 ∶15 ∶15 的百分比例构建训练集、验证集及测试集,基于R语言构建随机森林模型并进行模型参数优化。通过参数优化确定决策树个数(ntree)为450个,决策树内部节点随机选择特征个数(mtry)为3个。袋外错误率(OOB)为6.86%,接收者操作特征(ROC)曲线下面积(AUC)为0.877。利用优化参数对多波段影像数据集进行分类,获取RF模型研究区水稻空间分布信息。

2.3.2 其他分类方法

光谱角分类(SAM)直接将影像像元的光谱与地类样本光谱进行匹配,通过测试像元光谱与参考光谱之间的矢量夹角来判断其差异性以及相似性[18]。夹角越小,表示目标像元与样本代表地类光谱相似度越大,如果小于某个設定的阈值,将把目标像元归类到样本代表的相应地物类型中。

归一化植被指数(NDVI)能够反映植被季相变化规律[19-20]。由于研究区常绿植被分布较广,其对应NDVI随季节变化较小,而水稻在2个时相明显表现出不同的生理特征,其植被指数差异较大。因此,利用不同时相下NDVI差值特征进行水稻信息提取,能够达到区分单一时相下无法区分常绿植被与水稻的目的。

3 结果与分析

通过研究区样本训练影像数据集构建RF模型并进行水稻信息提取,同时将其分类结果分别与最大似然分类法(MLC)、光谱角分类(SAM)、基于时差的光谱角(SAM-NDVI)等分类结果进行对比分析。从结果(图4、表1)可以看出,研究区水稻分布相对较为分散,地块特征较为复杂,且与渝西地区的典型丘陵地貌基本相适应。通过研究区分辨率为30 m的数字高程模型(DEM)进行坡度分析,并与提取的水稻分布叠加坡度分级分析。研究区水稻主要分布在坡度较小的台地地块,其中78.25%分布在坡度<5°的区域,坡度<10°的地块水稻分布率达 98.26%。据悉研究区可用耕地面积约36.67 km2,其中水稻种植面积约31.33 km2。MLC识别的水稻面积为 3.13 km2,面积准确率精度仅为9.99%;基于水稻光谱曲线的SAM方法提取精度有很大提高,面积准确率达到56.59%;基于水稻光谱曲线构建的MLC和目标时相特征的SAM-NDVI指数组合提取方法获取目标的面积准确率有所提升,为87.46%;而RF模型的水稻提取面积总体准确率最高,为90.62%。

本研究验证集选取主要通过研究区时相2影像,同时结合分辨率为2 m的GF-1正射影像,共选取200个检验点(图 4-e),它们基本均匀分布于研究区内。基于所选取的验证样本点, 采用混淆矩阵进行分类精度评价。从表2可以看出,在总体精度和生产者精度方面,RF模型较MLC、SAM等精度都有较大提高,SAM-NDVI模型的水稻分类结果精度为63.09%,Kappa系数为0.447,而RF模型的分类总体精度达91.50%,Kappa系数也有了很大的提升,达0.830。

4 结论

本研究以重庆市永川区朱沱镇Sentinel-2多光谱影像为例,结合GF-1全色融合多光谱正射影像,通过样本训练Sentinel-2系列影像多光谱波段数据集,构建随机森林(RF)分类模型,同时分析样本地类像元光谱曲线,构建影像像元光谱库,并将RF分类结果与传统最大似然法(MLC)、光谱角(SAM)及基于时差的光谱角水稻空间种植信息分类结果进行对比及精度分析。分类结果显示,研究区水稻分布相对较为分散,且地块特征较为复杂,与区域典型地貌基本相适应。从目标面积及混淆矩阵2方面对提取结果进行分析。结果显示,通过SAM分类器提取地物精度有限,结合地物时差特征能够明显提高目标提取精度。基于水稻样本构建的RF模型提取方法获取目标的面积准确率最高,为90.62%,分类结果总体精度为91.50%,Kappa系数达到0.83。

随机森林(RF)分类模型通过构建多个决策树,按照一定原则选定分类过程中特征属性个数。利用优化参数对多波段影像数据集建立模型,并对研究区影像进行分类提取。在建立模型过程中,能够充分利用样本数据,对测试集合错误作出无偏估计,并对模型未来性能进行合理估计。相对于单一分类方法,其具有较高的精度,显示出RF组合式自学习集成机器学习分类法在高分辨率遥感影像作物精细识别应用的潜力。

基于Sentinel-2系列卫星影像构建RF模型用于西南地区地块破碎地区农作物信息提取是可行的。西南地区地块破碎,农作物结构复杂,然而不同农作物对不同波段响应程度不同,Sentinel-2系列卫星影像同时拥有可见光、近红外及红边波段等多个波段数据。因此,多波段的Sentinel-2系列影像对于研究农作物分布信息更有价值。尽管本研究使用了多达10个Sentinel-2多光谱波段数据进行样本像元特征集构建,但并未对绿色植被较为敏感的红边波段进行专题研究,基于目标作物在不同时相对红边波段的响应分析也有待进一步深入研究。

参考文献:

[1]张有智. 水稻种植面积提取遥感方法研究——以黑龙江省绥滨县为例[J]. 中国农业信息,2016(15):72-74.

[2]单 捷,孙 玲,于 堃,等. 基于不同时相高分一号卫星影像的水稻种植面积监测研究[J]. 江蘇农业科学,2017,45(22):229-232.

[3]刘 璞,张 远,周 斌,等. 基于SAM和多源信息的土地利用/覆盖自动分类[J]. 浙江大学学报(工学版),2009,43(9):1574-1579.

[4]Chan J C,Paelinckx D. Evaluation of Random Forest and Adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J]. Remote Sensing of Environment,2008,112(6):2999-3011.

[5]Waske B,van der Linden S. Classifying multilevel imagery from SAR and optical sensors by decision fusion[J]. IEEE Transactions on Geoscience and Remote Sensing,2008,46(5):1457-1466.

[6]Gislason P O,Benediktsson J A,Sveinsson J R. Random forests for land cover classication[J]. Pattern Recognition Letters,2006,27(4):294-300.

[7]刘绍贵,姬忠林,张月平,等. 基于GF-1影像面向对象分类方法的水稻种植信息提取研究[J]. 中国稻米,2017,23(6):43-46.

[8]王 娟,张 杰,张 优,等. 基于SPOT-5卫星影像的水稻信息提取方法研究——以德阳市旌阳区为例[J]. 西南农业学报,2017,30(4):861-868.

[9]雷小雨,卓 莉,叶 涛,等. 基于时差特征与随机森林的水稻种植面积提取[J]. 遥感技术与应用,2016,31(6):1140-1149,1157.

[10]陈燕丽,莫伟华,莫建飞,等. 基于面向对象分类的南方水稻种植面积提取方法[J]. 遥感技术与应用,2011,26(2):163-168.

[11]李爱农,江小波,马泽忠,等. 遥感自动分类在西南地区土地利用调查中的应用研究[J]. 遥感技术与应用,2003,18(5):282-285,353.

[12]王书玉,张羽威,于振华. 基于随机森林的洪河湿地遥感影像分类研究[J]. 测绘与空间地理信息,2014,37(4):83-85,93.

[13]刘 毅,杜培军,郑 辉,等. 基于随机森林的国产小卫星遥感影像分类研究[J]. 测绘科学,2012,37(4):194-196.

[14]Waske B,van der Linden S,Oldenburg C A,et al. imageRF-a user-oriented implementation for remote sensing image analysis with Random Forests[J]. Environmental Modelling & Software,2012,35:192-193.[HJ1.7mm]

[15]Breiman L. Random forests[J]. Machine Learning,2001,45(1):5-32.

[16]宋 茜. 基于GF-1/WFV和面向对象的农作物种植结构提取方法研究[D]. 北京:中国农业科学院,2016.

[17]Li X J,Chen G,Liu J Y,et al. Effects of RapidEye Imagerys red-edge band and vegetation indices on land cover classification in an arid region[J]. Chinese Geographical Science,2017,27(5):827-835.

[18]王旭红,贾百俊,郭建明,等. 基于SAM遥感影像的分类技术研究[J]. 西北大学学报(自然科学版),2008,38(4):668-672.

[19]刘元亮,李 艳,吴剑亮. 基于LSWI和NDVI时间序列的水田信息提取研究[J]. 地理与地理信息科学,2015,31(3):32-37,2.

[20]张 猛,曾永年. 基于多时相Landsat数据融合的洞庭湖区水稻面积提取[J]. 农业工程学报,2015,31(13):178-185.

猜你喜欢
随机森林遥感西南地区
基于MCI指数的西南地区近60年夏季干旱特征
西南地区干湿演变特征及其对ENSO事件的响应
山西队戏向西南地区的传播
拱坝变形监测预报的随机森林模型及应用
Завершено строительство крупнейшего комплексного транспортного узла на юго
--западе Китая
中国“遥感”卫星今年首秀引关注