基于GF-1数据的三峡库区水体信息精细化提取

2019-10-14 00:471
人民长江 2019年9期
关键词:三峡库区试验区水体

1

(1. 重庆市气象科学研究所,重庆 401147; 2. 成都信息工程大学 资源环境学院,四川 成都 610225; 3. 国家卫星气象中心,北京 100081)

三峡库区是指长江三峡工程正常蓄水水位达到175 m时,长江两岸受淹没的地区,总面积为5.8万km2。库区位于28°20′N~31°50″N与106°20′E~110°30″E之间,地处四川盆地与长江中下游平原的结合部,跨越鄂中山区峡谷及川东岭谷地带,北屏大巴山、南依川鄂高原。三峡水库正常蓄水达175 m后,将形成一个长约600 km、最宽处可达2 km、总库容达到393亿m3的峡谷型水库。巨大的库容不仅可以蓄洪,还成为长江流域最主要的灌溉水源,其2 250万kW的装机总量,为华中、华东、西南等地区提供了丰富的清洁能源[1]。

过去基于中低分辨率遥感影像提取得到的三峡库区水体数据存在分辨率低、数据呈线状、作用单一等缺点,已无法满足当前精细化遥感业务的需求。因此,亟需得到一种既能准确表达库区水体位置信息,又能统计分析库区内水域面积的数据,为库区防洪、航运和发电等各领域提供精确的信息支持。针对不同的遥感数据源,国内外学者提出了诸多方法,常用的有光谱谱间关系法[2]、水体指数法[3-5]、决策树法[6-7]、密度分割法[8-9]等。王志辉等基于MODIS遥感影像,分别采用RVI、NDWI、MNDWI、NDSI等模型对洞庭湖水域进行水体信息提取,并确定MNDWI模型为最佳的水体提取模型[10];胡卫国等人利用资源一号02C遥感影像对NDVI与NDWI进行适用性研究,提出决策树水体信息提取法更适合02C卫星的[11]。段秋亚等分别采用NDWI阈值法、支持向量机法和面向对象法对鄱阳湖GF-1影像进行水体信息提取,指出基于支持向量机法提取出的水体数据精度最高[12]。此外,赵书和等分别基于ETM+、CBERS-1和TM数据进行了水体信息提取方法适用性研究,并对各方法进行了改进分析[13]。上述水体信息提取方法主要的研究对象为面积较大的湖泊型水域,而对于江河这类狭长细小型水域的水体信息研究相对较少。狭长型河流易受周边环境的影响,水陆分界处光谱信息复杂,提取出的水陆界限易出现边缘残缺或河流断线等现象[14]。李艳华利用形态学膨胀滤波和Pavlidis对结果进行了细化处理,但是在弯曲度较大的地方依旧存在取直和细小短支的现象[15];周艺提出的FNDWI方法所针对的提取对象为城镇周边的细小水体,对复杂地形区域的水体信息提取效果不佳[16]。

综上所述机器算法在整体上水体信息提取的精度较高,能满足一般业务需要,但在细节上仍然存在较多的问题,直接影响着提取结果的质量。因此,本文提出以国产GF-1卫星数据为数据源,采用支持向量机法(Support Vector Machines, SVM)与目视解译相结合的方法对三峡库区复杂的水体信息进行提取。

1 数据源及数据处理

本文所采用的数据为2016~2018年国产GF-1卫星2 m分辨率的高分辨率相机数据和8 m的多光谱高分辨率相机数据。GF-1号数据预处理流程为:辐射定标→大气校正→正射校正→图像融合→镶嵌和裁剪。基于公式Lλ=Gain·DN+Bias实现高分图像的定标,辐射定标参数来源于中国资源卫星应用中心。Gain为定标斜率;DN为卫星载荷观测值;Bias为定标截距;Lλ的单位为W/(m2·um·sr)。采用FLASSH模型对定标后的数据进行大气校正。校正后借助地面高程模型(DEM)对图像中的每个像元进行地形误差校正,使得遥感图像满足正射投影的需要。采用NNDiffuse融合方法,将低空间分辨率的多光谱数据与高空间分辨率的单波段数据融合生成一幅高光谱、高分辨率的遥感图像。由于数据分辨率较高,且库区范围较广,融合后的数据需按照试验区的矢量范围进行数据的拼接和裁剪。

2 基于SVM法的三峡库区水体信息粗提取

2.1 支持向量机

支持向量机(SVM)是Vapnik等人在1995年提出的一种建立在统计学习理论的VC(Vapnik-chervonenkis)维理论和结构风险最小化(structural risk minimization, SRM)准则基础上的学习方法[17],因此能较好地解决小样本、非线性、高维数据和局部极小等实际问题。易用、稳定和精度较高等特点,使得SVM法得到广泛的应用,其基本思想如图1所示。

图1中,H是最优分类面,H1和H2之间的距离M称为分类间隔,最优分类面就是要求分类面不仅能够将两类正确分开,而且能使分类间隔最大,H1和H2上的训练样本称作支持向量。给定样本:K={(x1,y1),(x2,y2),…,(xn,yn)},其类别yi={0.1},线性SVM的二类分类问题是获得分离超平面,其方程以及相应的分类决策函数为

w·x+b=0

(1)

f(x)=sign(w·x+b)

(2)

式中,w为法向量,b为截距,f(x)为分类决策函数。而对于线性不可分的问题,则可通过核函数将低维输入空间的数据映射到高维空间,以便将原低维空间的线性不可分问题转化为高维空间上的线性可分问题[18]。一般是令χ→φ(χ),即让低维空间映射到高维空间的空间变换,在低维情况下的样本点内积χi·χj,变换成高维情况的φ(χi)·φ(χj)。因为非线性情况下维数的增加会导致计算内积的计算量增大,于是要用到一种能将高维内积转换成低维的函数,即核函数:

K(χ,z)=φ(χ)·φ(z)

(3)

将核函数K(χ,z)代入之前一般化SVM即线性情况下的目标函数中,可得到非线性SVM的分类决策函数:

f(χ)=sign(w·χ+b)

(4)

图1 线性可分条件下的最优分类面Fig.1 Optimal classification surface based on linear separability

2.2 三峡库区水体信息粗提取

本文选取三峡库区范围内具有代表性的4个区域为试验区(见图2),采用SVM法对试验区内水体信息进行提取和检验。

图2 各试验区域高分影像Fig.2 High-resolution picture of each test area

试验区1位于重庆市万州区,内含一段长江主干道和一段支流,该区域用于检测SVM算法在较小支流处水体信息提取的精度;试验区2位于湖北省秭归县内,区内水体较多,水陆交界处水体和陆地的光谱差异较小,用以探究水陆边界光谱特征差异较小区域水体信息提取的精度;试验区3位于湖北省夷陵区,大坝的出现将水体截断为两半,通过该区域来检验算法在提取水体时水体连续性的问题;试验区4位于重庆市涪陵区,区内水体含沙量较大,干流和支流光谱差异明显,含沙量较大的水域光谱特征与陆地部分裸土相似,通过该区域来检验含沙量较大的河流水体提取的精度。综上,基于4个试验区来讨论高分数据及SVM法在三峡库区水体提取中的适用性和可靠性,详细技术路线如图3所示。

图3 SVM法提取水体处理流程Fig.3 Treatment process of SVM method for extracting water information

2.2.1样本提取(感兴趣区ROI)

在选择样本时须遵循样本本身典型、具有足够的充分性且样本数目要满足分类器的要求。结合试验区高分影像表征的实际情况,本文按表1中各试验区样本类型的划分,每一类地物分别选择25个样本点,并选定部分检验样本。

2.2.2样本(ROI)可分离性检验

为检验各试验区样本类型选择的合理性,避免因人为选取样本时出现的误差,对后期地物分类造成影响,利用Export ROIs To n-visualizer将各试验区选取的实验样本进行多维展示,以判断不同样本间的分离程度。图4为4个试验区各地物类型样本在三维空间上的分布图,通过旋转数据点,可以从不同的角度观察数据聚类之后分散的效果,数据团离得越远表明分类效果越好。

表1 各试验区样本类型选取Tab.1 Sample type selection for each test area

注:“√”表示该区域样本中已选择该类,“”表示未选择该类

图4 地物样本三维空间分布Fig.4 Three-dimensional spatial distribution of ground object samples

从图4可以看出,各试验区不同地物类型数据团间的距离相对较远,数据团间不存在混杂融合的情况,表明各试验区样本可分离性较好。为更直观地判断不同地物样本间的可分离性,本次研究利用Compute ROI Separability对各试验区样本可分离性进行定量检验分析,用Jeffries-Matusita,Transformed Divergence参数对分离度进行评价,结果见表2~3。

表2 各试验区地物Jeffries-Matusita值Tab.2 Jeffries-Matusita value of each test area

从表2~3可知,4个试验区内水体样本与其他样本数据团间的可分离性较高,除试验区4水体与建筑(道路)样本间的Jeffries-Matusita参数小于1.8之外,其余试验区不同地物样本与水体样本间, Jeffries-Matusita参数和Transformed Divergence参数均大于1.8。虽然试验区4内水体和建筑(道路)样本间的Jeffries-Matusita评价参数值为1.14707965,而Transformed Divergence参数评价值为1.94794645,但利用人为目视判断发现样本选择并没有问题,因此也判识该样本选择合格。

表3 各试验区地物Transformed Divergence值Tab.3 Transformed Divergence value of each test area

2.2.3SVM法水体边界提取

基于SVM法直接得到的分类结果中图斑较多,且图斑面积较小,使得水体结果过于零碎。基于统计分析,将图斑面积小于0.05 km2的图斑筛选出来,采用Eliminate方法将较小的图斑块与临近同类别的图斑块融合。Eliminate处理后利用dissolve方法将临近同一类别的地物进行合并,最后按属性值将水体单独提取出来(见图5)。

图5 基于SVM法水体边界粗提取结果Fig.5 Rough extraction results of water boundary based on SVM method

2.3 水体提取精度验证

对分类结果需进行评价,以确定分类的可靠性,常用的分类精度通常用混淆矩阵、总体分类精度及Kappa系数进行评价。依照样本选择原则,对每个试验区选择50个真实感兴趣样本,通过真实感兴趣样本对4个试验区水体提取的精度进行检验,结果见表4~5。

结合表4~5可知,试验区1总体分类精度达到93.77%,Kappa系数为0.9101,两类精度评价指标值均较高,表明试验区1各地物分类精度高,分类结果符合真实地物覆盖类型。单独水体提取的精度结果显示,在提取水体过程中有178个建筑(道路)类像元被错分为水体,有13个水体类型像元被漏分;其中真实参考地物像元个数为7169,用户分类为水体的总体像元个数为7334,由此计算得到的水体的错分误差为2.43%、漏分误差为0.18%、制图精度为99.82%、用户精度为97.57%。且从图6(a)中可以看出,在复杂的地物覆盖条件下,基于SVM法能精确地提取出水体信息,并且较小的支流部分也能清晰地展现。

表4 试验区1 地物分类混淆矩阵Tab.4 Ground object classification confusion matrix for test area 1

表5 试验区1水体精度评价Tab.5 Water quality accuracy evaluation for test area 1

同时根据表6~11可知,其他3个试验区基于SVM法得到的水体信息结果均较好。

表6 试验区2 地物分类混淆矩阵Tab.6 Ground object classification confusion matrix for test area 2

表7 试验区2水体精度评价Tab.7 Water quality accuracy evaluation for test area 2

表8 试验区3 地物分类混淆矩阵Tab.8 Ground object classification confusion matrix for test area 3

表9 试验区3水体精度评价Tab.9 Water quality accuracy evaluation for test area 3

表10 试验区4 地物分类混淆矩阵Tab.10 Ground object classification confusion matrix for test area 4

表11 试验区4水体精度评价Tab.11 Water quality accuracy evaluation in test area 4

3 三峡库区水体信息精细化提取

3.1 细节处理

从上文可知,无论是从整体上,还是单独对水体的讨论,4个试验区地物分类结果都较好,精度较高,能清楚地表示水域范围和面积,但在细节上仍存在一些需要完善的地方(见图6)。

图6 基于SVM法水体提取后细节误差Fig.6 Detail error of water information extraction based on SVM method

如因大坝、桥梁等水面设施导致水体数据不连续(图6(a));水陆边界贴合不好(图6(b));泥沙含量较大导致错分(图6(c))以及小面积区域水体漏堤(图6(d))等问题。

总结大量的文献可知,基于机器算法提取到的水体结果始终存在着不同的细节问题,直接影响着最终水体数据的质量。因此对于本文基于SVM法提取得到的三峡库区水体数据,利用人工目视解释和GIS软件协同处理的方式对数据进行精细化处理和完善。处理内容主要包括:① 拓扑查错;② 小区域水体补充;③ 保证水陆边界贴合完美;④ 将岸边较小设施和船舶合并为水体;⑤ 通过目视判断,去除由泥沙造成的数据误差;⑥ 补充水体短缺处,保证水体连贯。最终得到的三峡库区完整水系图见图7。

图7 三峡库区水体分布Fig.7 Water distribution of the Three Gorges Reservoir area

3.2 三峡库区水体信息提取结果分析

图8为经过精细化处理后的细节图。对比图6和图8发现,处理保证了水陆边界平滑属实,缺漏的水体区域得到较好的补充和完善,被分割的数据得到连接补充。由此看出,在利用SVM法提取高精度水体数据的基础上,通过目视解译和GIS软件协同处理的方法,能进一步提高水体数据的精确度。

3.3 三峡库区及重庆市水体面积统计

不同于现有的水体数据,本次研究得到的水体数据呈面状,在精确表达水体范围位置的同时,可利用GIS处理软件精确计算出三峡库区及重庆市范围内水域面积,并能以该数据为基础计算得到水域宽度,为来往船舶提供航行数据。

图9为依据精细化后的水体数据对三峡库区不同区域水体面积的求算。在提取的水体数据中,三峡库区水域的总面积为1 059.79 km2,从统计结果可知,重庆段水体占三峡库区总面积的百分比较大,该段水体对三峡库区水体的变化有着重要的影响,因此为更好地讨论三峡库区水体的变化,本次研究重点对重庆市内的水体进行提取分析,并对重庆市的各大型江河水体面积进行统计分析(见图10)。

图8 水体数据精细化处理Fig.8 Data refinement processing

图9 三峡库区水域面积统计Fig.9 Water area statistics in the Three Gorges Reservoir area

图10 重庆市江河流域面积统计Fig.10 River area statistics of Chongqing city

由提取得到的重庆市水体数据统计计算可知,重庆市内水体(除去一些水域面积较小,基于高分数据分辨不清的水域)总面积为1 191.06 km2,其中较大的江河流域的面积分别为:嘉陵江面积62.63 km2,乌江面积46.13 km2,涪江总面积44.71 km2,綦江水系总面积22.64 km2,大宁河水体面积20.77 km2,渠江面积26.28 km2,大洪河水库面积9.60 km2,长寿湖面积48.16 km2(见图11)。

图11 重庆市水体分布Fig.11 Water distribution map of Chongqing city

4 总 结

本次研究以国产高分辨率遥感卫星GF-1号数据为基础,采用支持向量机法和目视解译相结合的方式对三峡库区及重庆市水体信息进行提取和分析,提取结果用以替换原始的三峡库区水体数据,以满足当前遥感业务的需要,具体得到以下结论。

(1) 本文基于GF-1号卫星数据,利用SVM法对三峡库区和重庆市水体进行精提取。精度验证结果显示,各试验区的总体分类精度和Kappa系数均较高,表明利用SVM法能较精准地从GF-1号卫星数据中将三峡库区和重庆市内水体信息提取出来。

(2) 由于机器算法的不灵活性易导致水体信息数据中存在一些较小的问题,影响了水体信息数据的整体质量和完整性。本次研究为追求水体信息结果的精准性和完整性,采用目视解译的方法对基于SVM法提取的水体信息结果进行精细化处理,最终得到完整的、精度更高的水体信息结果。

(3) 通过几何统计,三峡库区水体的总面积为1059.79 km2,其中重庆段的库区面积为879.43 km2,占三峡库区总面积的82.98%;湖北段库区水体总面积为180.36 km2,占库区总面积的17.02%。重庆市内水体总面积为1191.06 km2,其中较大的江河流域的面积分别为:嘉陵江面积62.63 km2,乌江面积46.13 km2,涪江总面积44.71 km2,綦江水系总面积22.64 km2,大宁河水体面积20.77 km2,渠江面积26.28 km2,大洪河水库面积9.60 km2,长寿湖面积48.16 km2。

(4) 基于提取得到的水体数据,以高分卫星数据为底图,可分别绘制出三峡库区、重庆市、以及重庆市各主要支流和水系的高分辨率水体信息分布图,能为以后的业务开展提供数据支持。

猜你喜欢
三峡库区试验区水体
推进自贸试验区高质量发展
农村黑臭水体治理和污水处理浅探
农村黑臭水体治理与农村污水处理程度探讨
生态修复理念在河道水体治理中的应用
探索自贸试验区金融改革新路径
18个自贸试验区
本市达到黑臭水体治理目标
4个自贸试验区总体方案实施率超过90%
三峡库区的动植物资源概况
三峡库区雕塑遗存忧思录