基于特征优选随机森林算法的农耕区土地利用分类

2020-04-10 07:31王李娟孔钰如杨小冬王树果
农业工程学报 2020年4期
关键词:植被指数波段纹理

王李娟,孔钰如,杨小冬,徐 艺,梁 亮,王树果

基于特征优选随机森林算法的农耕区土地利用分类

王李娟1,孔钰如1,杨小冬2,徐艺1,梁亮1,王树果1

(1. 江苏师范大学地理测绘与城乡规划学院,徐州 221116;2. 国家农业信息化工程技术研究中心,北京 100097)

为了提高农耕区土地利用分类精度,该文采用较高空间分辨率和丰富光谱信息的Sentinel-2数据生成光谱特征、无红边波段的植被指数、红边指数和纹理特征4种基本特征变量,并对以上特征变量优选后进行特征重要性排序,进而构建7种特征组合方案,基于随机森林算法和支持向量机对农耕区土地利用信息进行提取并对比验证分类精度。研究结果表明:通过特征优选的随机森林算法进行土地利用信息提取效果最佳,总体精度达到88.24%,Kappa系数为0.84,精度优于相同特征变量下的支持向量机分类方法。该方法能够有效提高农耕区土地利用分类精度,可为土地资源监测、管理提供技术支持和理论参考。

随机森林算法;土地利用分类;农耕区;特征优选;Sentinel-2;红边指数

0 引 言

土地利用分类在土地动态监测、规划与管理、合理开发与保护等方面具有重要作用,是当前全球环境变化研究领域的重要内容之一[1]。目前,随着中国城市化进程逐渐加快,建设用地面积不断增加,耕地面积不断减少,及时精准获取农耕区土地利用分类信息对合理规划农业土地资源具有重要意义。遥感技术具有快速、同步监测、观测范围广等优点,已然成为土地利用分类信息提取的重要手段之一[2-3]。近年来,在土地利用分类研究中,机器学习算法得到广泛的应用,如最大似然法、支持向量机、随机森林等。其中随机森林算法具有分类精度高,处理多维数据变量能力强,训练和预测速度快的特点,被广泛应用于土地利用分类的研究[2]。

Saini等[4]基于Sentinel-2的光谱特征,采用随机森林算法对印度农耕区进行土地分类信息提取,但是由于采用特征变量单一,对休耕地、甘蔗等类型分类精度较低。同时,有研究表明引入植被指数和纹理特征可以有效提高土地利用分类精度。张磊等[5]采用随机森林算法提取黄河三角洲湿地信息,在Sentinel-2影像的光谱特征基础上分别加入植被指数和纹理特征,可以显著提高每个湿地类别的分类精度。此外,一些研究也证实红边指数在提高农耕区作物分类精度方面优势明显。刘佳等[6]利用RapidEye影像的红边波段,使用最大似然分类法对作物进行精细识别,总体分类精度提高6.7%,且对玉米和大豆的识别能力显著提高;Yeom[7]利用RapidEye影像,对韩国水稻种植区域进行分类提取,红边波段的加入可以略微提高分类精度,尤其在单一时相的情况下。然而,由于多数包含红边波段的遥感卫星如RapidEye多为收费数据,因此使用红边指数提高农耕区土地利用分类精度的研究较少。2015年6月欧空局成功发射Sentinel-2遥感卫星,该卫星具有13个光谱波段,其中包含3个红边波段,空间分辨率达到10 m,双星运行重访周期仅为5 d,有效增强了对地观测能力[8-9],而且向用户免费提供数据。多光谱高分辨率Sentinel-2卫星对充分利用红边信息开展农耕区土地利用分类研究提供了新的数据源。

目前众多的机器学习算法中,随机森林算法尽管具有高效、简单、抗拟合能力强、可以处理高维度数据等特点,但信息冗余造成随机森林过于拟合,从而导致分类精度降低。众所周知,所有特征参与分类必然导致信息冗余,影响分类精度。因此在使用随机森林算法进行土地利用分类时,非常有必要对特征变量进行降维处理[10-11]。

为此,本研究拟采用Sentinel-2卫星数据构建光谱特征、无红边信息的植被指数、红边指数和纹理特征4种基本特征变量,对以上变量进行优化选择和特征重要性评价,并采用随机森林算法对比分析不同变量组合对农耕区土地利用分类结果的影响,筛选出最佳的组合方案,最后通过与支持向量机(support vector machine,SVM)分类结果进行对比验证,评价随机森林算法在农耕区土地利用分类的适用性。

1 研究区概况

研究区位于江苏省徐州市铜山区和安徽省宿州市埇桥区交界处(34°05′23"N~34°07′36"N,117°07′16"E~117°09′37"E)(图1)。该研究区地势平坦开阔,四季分明,雨水充足,一年两熟,以发展种植业为主,且区域内的土地利用类型丰富,包含苏北地区典型农耕区全部主要土地利用类型。参照《土地利用现状分类标准(GB/T21010—2007)》,研究区土地利用类型大体划分为:有作物耕地、大棚、林地、水体、建设用地、未利用地。

图1 研究区范围

2 数据及预处理

2.1 遥感数据

Sentinel-2卫星搭载的多光谱传感器具有13个波段,包含10、20和60 m三种空间分辨率,其中10 m分辨率的波段为红波段(Red)、绿波段(Green)、蓝波段(Blue)、近红外波段(NIR);20 m分辨率的波段为3个红边波段(RE1、RE2、RE3)、近红外波段(Narrow NIR)、短波红外(SWIR1、SWIR2);60 m分辨率的波段为海岸波段(coastal aersol)、水汽波段(water vapour)、卷云波段(SWIR cirrus)[12]。

本研究中采用的Sentinel-2数据来源于欧洲航天局的数据共享网站(https://scihub.copernicus.eu/),选取研究区无云且质量良好(2019年5月2日)的数据,产品等级为L1C级。Sentinel-2发布的L1C级数据已进行几何校正和辐射校正,故采用ESA官方提供的SNAP软件仅对数据进行大气校正。大气校正后输出的波段分别为:红波段(Red)、绿波段(Green)、蓝波段(Blue)、红边波段(RE1、RE2、RE3)和近红外(Narrow NIR),其中空间分辨率为20 m的波段被重采样成10 m。

2.2 野外试验数据

本研究基于现场实地踏勘并结合同期的Google Earth高分辨率影像采用目视解译方式进行样本点的采样。2019年5月16日对研究区进行了实地调研,利用手持GPS对不同土地利用类型的样本点进行定位,并通过Google Earth软件目视解译增加部分样本类型。样本点的选取情况为:有作物耕地70个、大棚20个、林地20个、水体20个、建筑用地50个以及未利用地20个。

3 研究方法

3.1 特征变量

本研究选取研究区4种特征变量:光谱特征、无红边植被指数和红边指数[13-22]、纹理特征,如表1所示。基于遥感影像进行土地利用分类时,Shoko和Mutanga[21]研究发现红边波段信息加入能够有效提高土地利用分类的精度。为此,选取遥感影像的7个波段的反射率作为光谱特征,构建4种常用无红边植被指数以及7种红边指数;除上述3种特征变量之外,郑淑丹等[22]认为纹理信息也可以提高分类精度,故采用灰度共生矩阵方法提取影像的纹理特征。为较好地反映影像的纹理特征,通过多次试验对比分析,设置滑动窗口大小为3,步长为1,利用灰度共生矩阵提取了基于红边波段的均值(mean)、方差(variance)、同质性(homogeneity)、对比度(contrast)、差异性(dissimilarity)、熵(entropy)、二阶矩(second moment)、相关性(correlation)共 8个纹理特征。

将上述特征变量构建7种不同组合试验方案,如表2所示,采用随机森林算法和SVM算法对比筛选出适合农耕区土地利用分类的最佳组合信息。

3.2 随机森林分类算法

随机森林(random forest,RF)算法由Breiman等[23-24]人于2001年提出,以决策树为基本单元,通过集成学习的思想将多棵决策树集成在一起,本质上是基于机器学习的一种集成学习算法。由于每个决策树都是一个分类器,当我们输入训练样本后,每棵决策树都会产生对应的分类结果,随后随机森林算法收集每棵树的分类结果,采用投票方式决定样本的分类结果。在抽取训练样本的过程中,约1/3的数据没有被抽中,这部分数据成为袋外数据,通常用于评估类别错分误差和特征重要性。其中特征重要性采用平均精度减少(mean decrease in accuracy,MDA)进行评估,本研究采用python编程实现MDA得分。

随机森林算法的分类器需要定义2个参数生成预测模型:期望分类树的数量(ntree)和节点用来分裂时抽取的特征个数(mtry)。根据本研究试验方案,通过En MAP-BOX工具进行大量试验发现,ntree设置为300误差逐渐收敛并趋于稳定;mtry则设置为总特征的的平方根。

3.3 特征变量优选方法

所有特征参与分类必然导致信息冗余,可能会造成“维数灾难”,从而导致分类性能下降,因此非常有必要对不同特征变量进行特征选择。对于光谱特征而言,遥感影像的光谱数量越多会造成数据的冗余性增大,从而影响土地利用分类信息获取的精度。本研究采用最佳指数因子法(optimum index factor,OIF)[25]选出适合农耕区土地利用分类的波段,其中OIF值越大,表明波段组合而成的图像信息量越大,其数学表达式如下所示

表1 特征说明

表2 试验方案信息

对于植被指数和纹理特征,则采用主成分分析进行筛选。主成分分析[26]是将特征变量重新组合成一个新的空间,使数据变得更加独立。因此,通过主成分分析分别筛选出相关性较弱的植被指数和纹理特征,从而降低特征变量之间的冗余性。

4 结果与分析

4.1 特征变量优选结果

1)光谱特征的确定

根据式(1)计算红边信息和近红外信息波段组合的最佳指数因子,并对其进行排序,如表3所示,其中RE1和Narrow NIR组合的OIF 数值最大,RE1波段更有利于信息提取,因此本研究最终选择的光谱特征变量为Red、Green、Blue、RE1、Narrow NIR。

表3 波段组合的最佳指数值

2)植被指数的确定

对构建的11种植被指数进行主成分分析,相关系数矩阵如表4所示。无红边波段的植被指数,从表中可以看出NDVI与SAVI的相关系数为1,二者相关性较强,考虑到NDVI指数是研究植被类型采用最广泛的指数之一,因此无红边指数最终筛选出RVI、NDVI、MSAVI;而对于红边指数而言,则统计每个指数变量之间的相关系数大于0.9的个数,从统计结果来看,CIre与RRI1相关性最强,而RRI1作为区分植被和非植被的重要植被指数之一,所以保留RRI1。而REDNDVI、MSRre与其他红边特征相关性都特别强,因此红边指数最终筛选出TVI、RNDVI、RRI1、RRI2。

表4 植被指数的相关系数矩阵

3)纹理特征的确定

纹理特征也采用主成分分析进行特征变量优选,相关系数矩阵如表5所示,纹理特征之间的相关系数都普遍较小,仅Dis与Con的相关性最大,相关系数为0.933,然而Con与其他纹理特征相关性则较弱,最终筛选出最优纹理特征为Mean、Var、H、Con、Ent、SM、Cor。

表5 纹理特征的相关系数矩阵

4.2 特征变量重要性排序

采用MDA对确定的所有特征变量进行重要性评估并排序,结果如图2所示:红边指数RRI1的MDA得分最高,达到0.141 9,且远远高于其他特征变量;无红边波段的植被指数RVI的MDA次之,值为0.079 5;纹理特征Mean位居第三,其他6个纹理特征的MDA得分最低;光谱特征RE1、Blue、Red等稍微弱于纹理特征Mean;综合考虑,特征变量的重要性排序如下:红边指数>无红边波段的植被指数>光谱特征>纹理特征。

在所选5个光谱特征变量中,红边波段重要性排序靠前,正是由于健康植被的反射光谱曲线在红边波段存在陡峭的“反射肩”这一显著特点,使得红边波段更有利于植被与其它地物类型的区分[27]。由于影像的选择时间为2019年5月2日,在此时间段内,研究区内有作物耕地覆盖面积大,作物生长茂盛,因此RE1波段的MDA重要性得分在所有光谱特征变量中最高,相关研究也证实RRI1对植被的健康状况较其它红边指数更敏感[28];而在无红边波段的植被指数中,RVI的重要性得分较高,NDVI、MSAVI的重要性相对较低,考虑到该研究区土地利用类型复杂、植被覆盖不均匀,而RVI对植被覆盖度不敏感,更适用于高低不同的植被覆盖情况[29]。

图2 所有特征重要性

4.3 农耕区土地利用分类结果比较

本研究采用总体精度、Kappa系数、生产者精度和用户精度作为农耕区土地利用类型分类结果评价指标,对7种试验方案的分类结果进行对比,分类精度如表6所示。从结果可以看出:方案1的总体精度最低,为83.30%;方案2、方案3和方案4的总体精度有所改善,分别提高1.59%、2.09%和1.32%,Kappa系数则分别提高0.02、0.03和0.02,表明加入植被指数、纹理特征等信息可以有效提升分类精度;方案5将所有特征进行整合进行分类,其总体精度和Kappa系数进一步提高,而采用特征优选的分类方案6精度达到最高,总体精度为88.24%,Kappa系数为0.84,在相同的变量条件下采用SVM方法的总体精度和Kappa系数均低于RF算法。对于单个类别的用户精度和生产者精度而言,再次证明植被指数和纹理特征信息有利于提高分类精度,其中纹理特征对建筑用地精度影响显著,纹理特征信息更适用于纹理信息比较明显的类型。通过对比方案6和方案7可知,基于RF算法的大棚、林地的生产者精度分别提高16.74%和18.5%,而有作物耕地、大棚、林地、水体和未利用地的用户精度分别提高5.32%、11.57%、6.58%、0.54%和9.03%。尽管不同方法在单个土地利用类型分类精度存在差异,总体来说,本研究提出的特征优选方法可以有效改善农耕区土地利用分类的精度,采用方案6最优分类结果如图3所示。

表6 分类结果精度统计

注:PA,生产者精度;UA,用户精度。

Note: PA, producer’s accuracy; UA, user’s accuracy.

图3 A+B+C+D(RF)分类结果图

5 结 论

本研究基于Sentinel-2遥感数据构建光谱特征、无红边波段的植被指数、红边指数以及纹理特征4种基本特征变量并优化选择,进而对变量组合构建7种试验方案,并用RF算法对不同方案的土地利用类型分类精度进行分析,最后选出最佳分类方案并采用SVM进行对比验证分析。研究结果表明:

1)为避免“维数灾难”而导致分类性能下降的问题,本研究采用OIF指数和主成分分析进行特征优选的方法是切实有效的,能够明显有效改善农耕区土地利用类型分类精度;

2)对生成的4种基本特征变量进行特征重要性排序,表明不同特征的重要性程度如下:红边指数>无红边波段的植被指数>光谱特征>纹理特征;

3)通过对比7种试验方案分类结果得出,加入植被指数、纹理特征等信息可以有效提升土地利用类型分类精度,在特征优选的基础上,开展RF算法分类精度最高,总体精度达到88.24%,Kappa系数为0.84,优于相同特征变量条件下的SVM分类结果。

最后,本研究基于特征优选的随机森林算法为农耕区土地利用分类精度提高提供了一个新思路。该方法仅在所选研究区开展研究,尽管取得了较好的结果,但由于受到研究区范围、地面采样数据、时相、土地利用类型、遥感数据源等的局限,会对分类结果造成一定的影响。未来计划布设更多研究区域,对方法的普适性开展更深入的分析和探讨。

[1]马玥,姜琦刚,孟治国,等. 基于随机森林算法的农耕区土地利用分类研究[J]. 农业机械学报,2016,47(1):297-303. Ma Yue, Jiang Qigang, Meng Zhiguo, et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 297-303. (in Chinese with English abstract)

[2]Wang L J, Zhang G M, Wang Z Y, et al. Bibliometric analysis of remote sensing research trend in crop growth monitoring: A case study in China[J]. Remote Sensing, 2019, 11(7): 809-820.

[3]杨贵军,李长春,于海洋,等. 农用无人机多传感器遥感辅助小麦育种信息获取[J]. 农业工程学报,2015,31(21):184-190. Yang Guijun, Li Changchun, Yu Haiyang, et al. UAV based multi-load remote sensing technologies for wheat breeding information acquirement[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(21): 184-190. (in Chinese with English abstract)

[4]Saini R, Ghosh S K. Exploring capabilities of Sentinel-2 for vegetation mapping using random forest[C]//ISPRS TC III Mid-term Symposium: Developments, Technologies and Applications in Remote Sensing, 2018, 1499-1502.

[5]张磊,宫兆宁,王启为,等. Sentinel-2影像多特征优选的黄河三角洲湿地信息提取[J]. 遥感学报,2019,23(2):313-326. Zhang Lei, Gong Zhaoning, Wang Qiwei, et al. Wetland mapping of Yellow River Delta wetlands based on multi-feature optimization of Sentinel-2 images[J]. Journal of Remote Sensing, 2019, 23(2): 313-326. (in Chinese with English abstract)

[6]刘佳,王利民,滕飞,等. RapidEye卫星红边波段对农作物面积提取精度的影响[J]. 农业工程学报,2016,32(13):140-148. Liu Jia, Wang Limin, Teng Fei, et al. Impact of red-edge waveband of RapidEye satellite on estimation accuracy of crop planting area[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(13): 140-148. (in Chinese with English abstract)

[7]Yeom J M. Effect of red-edge and texture features for object-based paddy rice crop classification using RapidEye multi-spectral satellite image data[J]. International Journal of Remote Sensing, 2014, 35(19): 7046-7068.

[8]Tigges J, Lakes T, Hostert P. Urban vegetation classification: Benefits of multitemporal RapidEye satellite data[J]. Remote Sensing of Environment, 2013, 136(5): 66-75.

[9]Antoine L, Christophe S, Thomas C. Monitoring urban areas with Sentinel-2A data: Application to the update of the copernicus high resolution layer imperviousness degree[J]. Remote Sensing, 2016, 8(7), 606-627.

[10]何云,黄翀,李贺,等. 基于Sentinel-2A影像特征优选的随机森林土地覆盖分类[J]. 资源科学,2019,41(5):992-1001. He Yun, Huang Chong, Li He, et al. Land-cover classification of random forest based on Sentinel-2A image feature optimization[J]. Resources Science, 2019, 41(5): 992-1001. (in Chinese with English abstract)

[11]Wang Lijuan, Dong Taifeng, Zhang Guimin, et al. LAI retrieval using PROSAIL model and optimal angle combination of multi-angular data in wheat[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2013, 6(3): 1730-1736.

[12]龚燃. 哨兵-2A光学成像卫星发射升空[J]. 国际太空,2015(8):36-40. Gong Ran. Sentinel-2A satellite launches[J]. Space International, 2015(8): 36-40. (in Chinese with English abstract)

[13]Zarco-Tejada P J, González-Dugo V, Williams L E, et al. A PRI-based water stress index combining structural and chlorophyll effects: Assessment using diurnal narrow-band airborne imagery and the CWSI thermal index[J]. Remote Sensing of Environment, 2013, 138: 38-50.

[14]Shi T Z, Liu H Z, Chen Y Y, et al. Estimation of arsenic in agricultural soils using hyperspectral vegetation indices of rice[J]. Journal of Hazardous Materials, 2016, 308: 243-252.

[15]López-Granados F, Torres-Sánchez J, De Castro A, et al. Object-based early monitoring of a grass weed in a grass crop using high resolution UAV imagery[J]. Agronomy for Sustainable Development, 2016, 36(4): 67-79.

[16]Gitelson A A, Kaufman Y J, Merzlyak M N, et al. Use of a green channel in remote sensing of global vegetation from EOS-MODIS[J]. Remote Sensing of Environment, 1996, 58(3): 289-298

[17]Gilabert M A, González-Piqueras J, Garcı́a-Haro F J, et al. A generalized soil-adjusted vegetation index[J]. Remote Sensing of Environment, 2002, 82(2): 303-310.

[18]Haboudane D, Miller J R, Pattey E, et al. Hyperspectral vegetation indices and novel algorithms for predicting green LAI of crop canopies: Modeling and validation in the context of precision agriculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2004, 90(3): 337-352.

[19]Sims D A, Gamon J A. Relationships between leaf pigment content and spectral reflectance across a wide range of species, leaf structures and developmental stages[J]. Remote Sensing of Environment, 2002, 81(2): 337-354.

[20]Zhang Huanxue, Li Qiangzi, Liu Jiangui, et al. Image classification using RapidEye data: Integration of spectral and textual features in a random forest classifier[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5334-5349.

[21]Shoko C, Mutanga O. Examining the strength of the newly-launched Sentinel 2 MSI sensor in detecting and discriminating subtle differences between C3 and C4 grass species[J]. Isprs Journal of Photogrammetry & Remote Sensing, 2017, 129(7): 32-40.

[22]郑淑丹,郑江华,石明辉,等. 基于分形和灰度共生矩阵纹理特征的种植型药用植物遥感分类[J]. 遥感学报,2014,18(4):868-886. Zheng Shudan, Zheng Jianghua, Shi Minghui, et al. Classification of cultivated Chinese medicinal plants based on fractal theory and gray level co-occurrence matrix textures[J]. Journal of Remote Sensing, 2014, 18(4): 868-886. (in Chinese with English abstract)

[23]Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[24]Genuer R. VSURF: Variable selection using random forests[J]. Pattern Recognition Letters, 2016, 31(14): 2225-2236.

[25]Chavez P S, Berlin G L, Sowers L B. Statistical method for selecting Landsat MSS ratios[J]. Journal of Applied Photographic Engineering, 1982, 8(1): 22-30.

[26]陈会广,夏红,肖毅,等. 基于灰色关联和主成分分析的农村建设用地集约利用评价-以江苏省为例[J]. 长江流域资源与环境,2015,24(8):1331-1336. Cheng Huiguang, Xia Hong, Xiao Yi, et al. Evaluation on the intensive use of rural construction based on cray relative analysis method and principal component analysis[J]. Resources and Environment in the Yangtze Basin, 2015, 24(8): 1331-1336. (in Chinese with English abstract)

[27]张卫春,刘洪斌,武伟. 基于随机森林和Sentinel-2影像数据的低山丘陵区土地利用分类-以重庆市江津区李市镇为例[J]. 长江流域资源与环境,2019,28(6):1334-1343. Zhang Weichun, Liu Hongbin, Wu Wei. Classification of land use in low mountain and hilly area based on random forest and Sentinel-2 satellite data: A case study of Lishi town, Jiangjin, Chongqing[J]. Resources and Environment in the Yangtze Basin, 2019, 28(6): 1334-1343. (in Chinese with English abstract)

[28]郑阳,吴炳方,张淼. Sentinel-2数据的冬小麦地上干生物量估算及评价[J]. 遥感学报,2017,21(2):318-328. Zheng Yang, Wu Bingfang, Zhang Miao. Estimating the above ground biomass of winter wheat using the Sentinel-2 data[J]. Journal of Remote Sensing, 2017, 21(2): 318-328. (in Chinese with English abstract)

[29]弋良朋,尹林克,王雷涛. 基于RDVI的尉犁绿洲植被覆盖动态变化研究[J]. 干旱区资源与环境,2004,18(6):66-71. Ge Liangpeng, Yin Linke, Wang Leitao. Study on dynamic change of Yuli oasis plant cover based on RDVI[J]. Journal of Arid Land Resources and Environment, 2004, 18(6): 66-71. (in Chinese with English abstract)

Classification of land use in farming areas based on feature optimization random forest algorithm

Wang Lijuan1, Kong Yuru1, Yang Xiaodong2, Xu Yi1, Liang Liang1, Wang Shuguo1

(1.,,,221116,; 2.,100097,)

Classification of land use plays an important role in many aspects such as dynamic monitoring, planning, and management, rational land development and protection. At present, with the gradual acceleration of urbanization in China, the area of construction land is increasing and that of cultivated land is decreasing instead. As a result, it is of great significance to obtain the land use classification information of farming areas accurately and timely for the rational planning of agricultural land resources. In recent years, machine learning algorithms have been widely used in the research of land use classification. Among them, the random forest algorithm (RF) has the characteristics of high classification accuracy, strong ability to deal with multi-dimensional data variables, fast training, and prediction speed. And it is widely used in the research of land use classification. However, the participation of multiple feature variables in the classification will lead to information redundancy, over-fitting of the RF and classification accuracy reduction. Therefore, this study used Sentinel-2 data with high spatial resolution and abundant spectral information and used the RF based on feature optimization to carry out land use classification research in agricultural areas. First, Sentinel-2 data was used to generate four basic feature variables, which were spectral features, vegetation indices without the red-edge band, red-edge indices and texture features. Then, the spectral features were screened by the optimum index factor (OIF), vegetation indices and texture features were both selected by the method of the principal component analysis. After that, the method of mean decrease in accuracy (MDA) was applied to evaluate the importance of the above feature variables, and six feature combination schemes were constructed, which were combined with field survey data for RF classification. Finally, by comparing the accuracy of six different combination schemes, the best combination of feature variables was selected. And the classification results of the RF and support vector machine (SVM) of the best combination were compared to verify the practicability of RF in agricultural land use classification. The results were as follows: (1) To avoid the degradation of classification performance caused by “curse of dimensionality”, this study used OIF and principal component analysis to optimize the features. The results showed that this method was effective and significantly improved the classification accuracy of land use types in agricultural areas; (2) The four basic feature variables were sorted by feature importance, indicating that the importance of different features was as follows: red-edge indices > vegetation indices without red-edge band > spectral features > texture features; (3) The comparison of the classification results of 7 experimental schemes revealed that by adding vegetation indices, texture features, and other information, the classification accuracy of land use could be effectively improved. Besides, based on feature optimization, the RF algorithm had the highest classification accuracy, and the overall accuracy was 88.24%, Kappa coefficient was 0.84, which was better than SVM classification results under the same feature variables. In a word, the RF based on feature optimization which was proposed in this study provided a new method to effectively improve the accuracy of land use classification in farming areas, and technical support and theoretical reference for land resource monitoring and management.

random forest algorithm; land use classification; farming area; feature optimization; Sentinel-2; red-edge index

王李娟,孔钰如,杨小冬,徐艺,梁亮,王树果. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报,2020,36(4):244-250. doi:10.11975/j.issn.1002-6819.2020.04.029 http://www.tcsae.org

Wang Lijuan, Kong Yuru, Yang Xiaodong, Xu Yi, Liang Liang, Wang Shuguo. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 244-250. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.04.029 http://www.tcsae.org

2019-12-06

2020-02-05

国家自然科学基金项目(41971305,41701380,41401397);江苏省自然科学基金项目(BK20140237);江苏高校优势学科建设工程资助项目联合资助

王李娟,讲师,博士,主要从事农业遥感应用研究。Email:wanglj2013@jsnu.edu.cn

10.11975/j.issn.1002-6819.2020.04.029

S25

A

1002-6819(2020)-04-0244-07

猜你喜欢
植被指数波段纹理
最佳波段组合的典型地物信息提取
基于无人机图像的草地植被盖度估算方法比较
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
最佳波段选择的迁西县土地利用信息提取研究
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!