基于TM影像的土地覆盖分类比较研究

2014-07-11 19:52马明等
绿色科技 2014年3期
关键词:随机森林支持向量机

马明等

摘要:以云南省文山壮族苗族自治州麻栗坡县2005年TM影像为试验数据,利用最大似然分类(MLC)、支持向量机(SVM)以及随机森林(RF)3种分类方法进行了土地覆盖遥感分类研究。从分类精度、样本数量对分类器的影响、模型复杂度、分类速度等几个方面进行了比较分析。结果表明:随机森林分类法最优,而经典方法之一的最大似然分类法最稳定。所得出的结论对在类似的应用中如何选择合适的分类方法具有一定的参考价值。

关键词:TM影像;土地覆盖;最大似然;支持向量机;随机森林

1引言

全球变化研究的深入开展引发了区域土地利用变化这一热点问题[1,2],人类活动对环境的影响也受到各国科学家的广泛关注,尤其是人类为了生存和发展进行的土地开发利用以及由此引起的土地覆盖变化[3,4]。遥感技术是获取土地覆盖及其变化的最重要途径,利用影像图进行调查研究由来已久。美国NASA的陆地卫星 (Landsat) 计划[5] (1975年前称为地球资源技术卫星~ERTS),所获取的多波段扫描影像具较高空间分辨率、波谱分辨率、极为丰富的信息量和较高定位精度,已经成为世界各国广泛应用的重要的地球资源与环境遥感数据源。

本文研究内容来源于亚太森林网络(APFNET)资助的国际合作项目“大湄公河次区域森林覆盖与碳储量遥感制图”的部分研究内容。大湄公河次区域是指湄公河流域的6个国家共7个地区,包括柬埔寨、越南、老挝、缅甸、泰国和我国的云南省及广西壮族自治区。本文的研究内容源于该项目中我国云南省森林覆盖遥感制图的重要研究内容,其中麻栗坡县是云南项目区中一个试验区。

云南省文山壮族苗族自治州麻栗坡县,地理坐标为东经104°33′~105°18′,北纬22°48′~23°33′,总面积为2395hm2,境内属亚热带季风气候,地表因受盘龙河、畴阳河、八布河的强烈切割,形成了西北~东南向的山地与峡谷相间的地形,且土地覆盖变化差异明显[6],使得该地适合用作实验区域。

传统的数据分类方法是根据数据的统计特征与训练样本数据之间的关系来进行分类的,其分类精度往往很不理想。近年来在采用支持向量机(Support Vector Machine,SVM)和随机森林 (Random Forests,RF) 等新方法进行研究的过程中,取得了很大的进展[7]。最大似然分类 (Maximum Likelihood Classification,MLC) 是基于统计模型分类的最常用且精度较高的监督分类法,但感数据的统计分布具有高度的复杂性和随机性,分类结果不可避免地存在误分、漏分的情况[8],且分类精度很大程度上依赖于分割尺度的大小[9]。支持向量机分类(SVM)是近年来在统计学理论基础上发展起来的一种新型算法。实验表明SVM不但能获得比较高的分类精度,而且在学习速度、自适应能力、特征空间维数不限制、可表达性等方面具有优势,更适合于复杂、高维的数据分析处理[10],但是SVM用于解优化问题的逼近算法会影响泛化能力。随机森林分类 (RF) 是由Breiman[11]提出的基于决策树分类器的融合算法,其优点在于对于很多种资料,它可以产生高准确度的分类器,应用处理大量的输入变量时能够保证其高效性。但对于有不同级别的属性数据,级别划分较多会对随机森林产生更大的影响。

本文以TM影像为试验数据,应用以上3种图像分类方法进行土地覆盖分类试验,从分类精度、样本数量对分类器的影响、模型复杂度、分类速度等几个方面进行了比较分析,以寻求整个湄公河区域土地覆盖遥感分类的最优技术方案。

2数据源及预处理

21数据源及预处理

遥感数据采用美国 Landsat卫星所获取的多波段扫描影像产品。成像时间为2005年5月25日,图像轨道号:p128r43、p127r43、p128r44和p127r44。图1为4景影像数据经过裁剪拼接后按5(R),4(G),3(B)合成得到的研究区遥感影像图。

22土地覆盖分类系统和训练样本数据

分类系统建立主要基于国土资源部《土地利用现状分类》一级分类系统,并考虑到整个大湄公河次区域地区土地覆盖/土地利用分类系统的一致性、遥感数据的可分性等因素后最终确定将研究区的土地覆盖/土地利用划分建筑用地、农地、水域、针叶林地、阔叶林地、灌木林地和裸地7种地类。

23分类数据特征选取

多光谱遥感数据的最佳波段选取是遥感图像增强处理的关键部分,直接影响到目视解译[13]和研究对象的信息提取。TM的7个波段中TM1~TM5、TM7这6个波段波长范围为045~235μm,空间分辨率为30m,时间分辨率为16d,而TM6为远红外波段,波长为104~125μm,空间分辨率为120m,数据量最小,一般不用于波段组合。3不同分类方法试验

31最大似然分类法 (MLC)

最大似然方法 (MLC) 是又叫贝叶斯 (Bayes) 判别分类,根据贝叶斯理论在使错误分类概率最小的约束条件下进行,是遥感影像监督分类最常用的统计方法之一[14,15]。

32支持向量机分类 (SVM)

SVM分类器使用高维特征空间,在高维特征空间中构造的线性决策边界可对应于输入空间的非线性决策边界,通过使用具有很多个基函数的线性估计量,使在高维空间控制逼近函数的复杂性提供很好的推广能力,利用线性函数的对偶核,解决数值优化的二次规划求解问题[16,17]。

SVM 分类器在参数选择上,将实际问题转换到高维空间,采用一种基于交叉验证的网格搜寻[18]的方法来寻找最优分类面,用参数选择模型Gridpy来搜索C和 γ 的取值[19]。33随机森林分类(RF)

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林中的任意两棵决策树是相对独立的。对于新来的测试样本,通过每棵决策树都对它进行分类决策,最后的分类结果由投票法得出。虽然决策树不是很强的分类器,但是通过组合起来的随机森林,却是一种强分类器。

4分类方法比较

41分类精度评价

根据二类调查小班数据选取测试样本点,像元个数分别为:水体338、建筑530、裸地670、农地663、灌木林地589、针叶林地739、阔叶林地721,总的测试样本数为4250像元,利用混淆矩阵对分类结果进行客观评价,对本次精度进行评价。参照二类调查小班数据及中国森林资源图集等评定出随机点的实际类别,得到误差矩阵。

为了对比训练样本数量对不同分类器的影响,减少部分样本的数量进行试验

样本3减少了所有地类数量,分类结果三种分类器均有影响,但MLC和SVM影响较小,RF影响较大。不同训练样本数的分类对比表明:MLC处理的样本量需满足最大似然法近似高斯分布,样本量的增加对MLC分类精度提高不显著。MLC是此3种分类法中最稳定的方法;SVM在处理少量训练样本数量时,分类精度优于较高,但速度较慢;RF在有大量样本的情况下不管是在速度还是精度都能达到令人满意的结果,但对样本的依赖性较强(表4)。

表4各种分类方法综合对比

分类法精度样本量影响模型复杂度速度推广MLC一般小较高很快一般SVM较高中高慢较高RF较高大高较快高

43分类结果

选取最优分类器RF完成麻栗坡县土地覆盖类型遥感分类,表5为分类结果的面积统计,将此统计结果与二类调查小班统计数据对比,每种土地覆盖类型误差都在±5%之内 。表明基于随机森林的分类方法取得了较好的效果。

5结语

先后运用3种典型分类方法对TM影像的土地覆盖分类进行试验,经过比较与分析,总体得出以下结论。

(1)土地利用类型反射率差异大,易受扰动,SVM最优指数的选择,是改善其土地利用分类的精度的重要因素。

(2)综合比较各分类器的性能,最大似然分类法 (MC) 最为简便,且最稳定,但精度低;支持向量机 (SVM)在少量的样本条件下分类精度也能达到令人满意的结果;随即森林 (RF) 在速度和精度上都具有优势,但对样本的依赖较高。

(3) 从研究区数据来看,随机森林 (RF) 分类方法可信度较高。其分类结果对比二类调查数据较为理想。

研究结果可为亚太森林网络(APFNET)资助的国际合作项目“大湄公河次区域森林覆盖与碳储量遥感制图”的研究,探索大尺度的森林分类和遥感制图方法,为大尺度的森林制图和变化监测提供有效的技术手段,对于探索森林覆盖与碳储量增长及衰退的情况,林业技术、项目、贸易间的合作与交流等提供技术支持。

参考文献:

[1] 陈志,胡勇,刘成武咸宁市土地利用结构时空演变及其驱动力分析[J]安徽农业科学,2007,35(26):8299~8301

[2] 祁元,王一谋,王建华,等宁夏土地利用时、空变化及其驱动机制[J]冰川冻土,2005,27(6):899~904

[3] 徐霞,王静爱,朱玉洁,等内蒙古中部地区土地利用变化区域差异分析[J]北京师范大学学报:自然科学版,2006,42(3):310~313

[4] 俞文政,常庆瑞,寇建村青海湖流域草地类型变化及其生态服务价值研究[J]草业科学,2005,22(9):14~17

[5] 周胜利美国的遥感计划与政策[J]国际太空,2003(10):17

[6] 明庆忠,武友德,李宏云南森林生态旅游资源与可持续利用对策研究[J]热带地理,2000(4):321~325

[7] 蔡崇超文本分类新方法的研究与应用[D]江南大学,2008

[8] 郭健,张继贤,张永宏,等多时相MODIS影像土地覆盖分类比较研究[J]测绘学报,2009(1):88

[9] 乔婷,张怀清,陈永富,等基于NDVI分割与面向对象的东洞庭湖湿地植被信息提取技术[J]西北林学院学报,2013,28(4):170~175

[10] 骆剑承,周成虎,梁怡,等支撑向量机及其遥感影像空间特征提取和分类的应用研究[J]遥感学报,2002,6(1):50~55

[11] Breiman LRandom forest[J]Maching Learning,2001,45(1):5~32

[12] 肖兴威中国森林资源图集[M]北京:中国林业出版社,2005(9)

[13] 孙德福,王世红利用TM影像图进行林业调查应注意的问题[J]林业勘查设计,2002(2):65~67

[14] Richardsja,JiaxRemote Sensing Digital I mage Analysis:An Introduction[M]Berlin:Springer,1999

[15] 刘勇洪,牛铮,徐永明,等多种分类器在华北地区土地覆盖遥感分类中的性能评价[J]中国科学院研究生报,2005,22(6):724~732

[16] Martin Brown,Hugh GLewis and Steve RGunn,Support Vector Machines For Spectral Unmixing[J]IGRASS99,1999(2):1363~1365

[17] Lothar Hermes,Dieter Frieauff,Jan Puzicha and Joachim MBushman,Support Vector Machines for Land Usage Classification in Landsat TM Imagery[J]Procof the IEEE International Geoscience and Remote Sensing Symposium,1999(1):348~350

[18] 王健峰,张磊,陈国兴,等基于改进的网格搜索法的SVM参数优化[J]应用科技,2012,39(3):29

[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418

[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/

Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications

Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology

[18] 王健峰,张磊,陈国兴,等基于改进的网格搜索法的SVM参数优化[J]应用科技,2012,39(3):29

[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418

[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/

Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications

Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology

[18] 王健峰,张磊,陈国兴,等基于改进的网格搜索法的SVM参数优化[J]应用科技,2012,39(3):29

[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418

[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/

Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications

Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology

猜你喜欢
随机森林支持向量机
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于随机森林算法的飞机发动机故障诊断方法的研究
基于支持向量机的金融数据分析研究