遥感模型评估中顾及样本数量的统计指标:基于水色遥感的比较研究*

2017-10-17 09:24朱渭宁蒋锦刚
关键词:水色个数反演

孙 璐, 朱渭宁, 蒋锦刚

(浙江大学海洋学院,浙江 杭州 310058)

遥感模型评估中顾及样本数量的统计指标:基于水色遥感的比较研究*

孙 璐, 朱渭宁**, 蒋锦刚

(浙江大学海洋学院,浙江 杭州 310058)

为了推荐在遥感模型评估中引入不确定性的评价指标,即测量学界近年来提出的不确定度A类评定(UA)。本文通过评估一系列水色遥感反演模型在各类数据集的表现,用计算机模拟了误差的各种近似分布,研究了样本个数n和统计指标RMSE、MAE与UA之间的关系。算法测试和计算机模拟的结果都表明,在样本个数少的情况下,遥感模型的不确定性(可信赖度)评价用UA比RMSE、MAE更适合,因为样本个数越多,建立的模型就越可靠(不确定度越小)。此外,本文至少使用50个样本验证遥感模型,可使精度评价更加准确。

不确定度;遥感验证;统计学;水色

定量遥感中各种分类、校正、反演模型和算法通常都需要实测的真实值加以验证,从而评估这些算法模型误差、准确度、精度、有效性、健壮性等特征,而这些特征往往用一些统计参量加以表征:如平均绝对误差(MAE)、标准偏差(SD)、均方根误差(RMSE),偏差(bias)等[1-2]。在遥感学界,这些统计参量往往被直接拿来使用而缺乏更深入的思考,这其中有两个原因:一是遥感研究者们从学校课本学习到的统计知识中,这些统计参数就被用于进行误差评估;二是他们往往引用参照前人文献里的模型评价指标,从而造成这些指标被继承使用。

但是,如果检索测量科学乃至地球科学、环境科学的最新相关文章,就会发现至今对这些模型评价指标,甚至整个误差评价模型仍然存在争论,例如最常用的两个指标:RMSE和MAE,究竟哪个是最合适的指标到目前为止还没有定论。美国特拉维尔大学的Willmott教授等人从1980年代初就关注地学、地理信息科学和环境科学中模型的评估问题[3-5],其研究[4]认为, RMSE的大小由三个因素所控制:(1)MAE,(2)误差的分布,(3)样本的数量n。并举例说明一些模型评估结果的MAE相同,但是由于误差分布不同,造成其对应的RMSE不同,从而认为MAE比RMSE更明确地指示了模型的误差状况。如果Willmott等人的研究结果属实,那么这意味着遥感领域中大量的使用RMSE的模型评估结果可能并不准确。

针对Willmott的观点,Chai和Draxler[6]进行了反驳,讨论了在误差是正态分布的情况下,当样本数量达到一定大小时,使用RMSE更能指示模型误差的正确大小。他们认为各种模型评估的统计参数都有一定的局限性,建议在评估报告中应列出各类参数,从而提供对模型结果的全面评估。本文基本赞同Chai和Draxle的观点。值得注意的是,一些遥感建模及评估的文献中也同时报告了MAE和RMSE。

除了RMSE、MAE等统计参数,样本数量n也是一个在测量、误差统计及模型评估上十分重要的参数,但是其在模型评估中的作用与影响常被忽视。以水色遥感为例,很多反演建模过程往往只是报告一下现场采了多少样,有多少样用于建模,多少样用于验证,最后仍然用MAE或RMSE对模型加以评估和比较,而其中样本的数量可能从十几样到几十万个样不等。由此产生一个问题:如何评估、比较由不同样本数量建立的遥感模型?如果一个由30个样本建模,15个的样本验证的叶绿素反演算法A1的误差评估为RMSE=0.12,另一个在同样地点用2 000个样本建模,1 000个的样本验证的算法A2的误差评估为RMSE=0.24,哪一个算法更优?从RMSE看,当然是越小越好,因此A1优于A2,但是从样本数量上看,也许A2更优,因为我们往往更信赖大样本建立的模型。当然,一个可行的方法是用同样的数据集去比较不同的算法,但是有时受数据集和模型特征的限制,这样的比较并不能实现,例如有些水色算法用的蓝绿波段比,而有些则用了红、红外波段或者更多的高光谱数据。

研究发现,不确定度评定在遥感领域模型评估有其重要性。1993年国际不确定度工作组制定了《测量不确定度表示指南》[7],(Guide to the Expression of Uncertainty in Measurement,简称GUM),由BIPM, OIML, ISO, IEC及国际理论化学与应用化学联合会(IUPAC)、国际理论物理与应用物理联合会(IUPAP)、国际临床化学联合会(IFCC)7个国际组织联合发布,随后由国际实验室认可合作组织(ILAC)批准,在全世界范围施行。测量不确定度评定理论己经是其他学科公认的测量可靠性评价规范, 而遥感领域仍然一直沿用传统的精确度评价理论,很少量的研究用到了不确定度A类评定(UA)这一指标,如Zhu等[8]在水色遥感中用UA评价了不确定性。但是除此之外,前人在遥感验证分析中几乎没有用到这一评价方法[9-10]。

本文将以水色遥感实测数据和一些常规算法为例,分析这些算法的评估参数(MAE、RMSE、UA)随样本数量变化的情况和特点,从而表明在指示算法的不确定性方面,UA是一个更加顾及样本数量的指标。除了实测数据之外,本文还用计算机模拟的误差数据集同步分析并验证了本文的结论。

1 实验

1.1 数据集

本文实验使用了3个数据集:(1)NASA生物光学海洋算法数据集(NOMAD)[4]是一个公开的、全球性的、高质量的原位实测生物光学数据集(共4 459个样本);(2)国际海洋水色协调小组(IOCCG)的合成数据集[11](共500个样本);(3)H30k,Hydrolight的模拟数据集(共35 934个样本)。以上3个数据集的每个样本包含了遥感反演所需的固有光学属性(IOP)和表观光学属性(AOP),如叶绿素浓度、有色溶解有机物(CDOM)吸光度,悬浮颗粒物浓度,在可见光波长范围内的遥感反射率(Rrs)等。IOCCG数据集和H30k数据集都是模拟数据,但H30k数据集的所含浓度范围(叶绿素0~500 mg/m3, CDOM 0~50 m-1)远远大于IOCCG数据集所含的浓度范围(叶绿素: 0.03~30 mg/m3, CDOM: 0.00 025~2.37 m-1)。

对于每一个数据集,分别从中随机选出多个子集,每个子集的样本个数从n=10到n=300,样本个数的间隔为1,即每次从数据集中随机选取样本个数为10、11、12、……、299、300的子集。这一过程重复进行50次以减小随机采样带来的误差,即共有50个样本个数为10的子集,50个样本个数为11的子集,以此类推,因此对于一个数据集而言,共产生14 550个样本子集。

另外,针对可能的模型评估的误差分布,本文用MATLAB软件生成4种不同分布(正态分布、指数分布、对数正态分布、均匀分布)类型的误差数据集Err1到Err4,每个数据集分别含有1 000个误差数据,针对每个数据集的随机选样方式与上面水色算法数据集的选样方式相同。

1.2 算法

研究共选取了9个具有代表性的遥感水色反演算法(见表1),其中5个是叶绿素算法,3个是CDOM算法,1个是悬浮物算法。使用上述9个算法,以及通过随机选取产生的子集,分别计算水色成分的反演值,然后与数据集提供的真实值比较从而获知每个样本的反演(模型)误差。部分算法以算法开发作者为算法名称,不同版本的算法,如Carder-1和Carder-2[10-12]是独立的算法,且分开进行计算、比较。每个算法的详细情况可参见其各自对应的原始文献。

表1 研究中评估的检索算法Table 1 Retrieval algorithms evaluated in this study

1.3 验证及评价统计

各算法的评估基于以下3种统计指标:均方根误差(RMSE),平均绝对误差(MAE)和UA。公式(1)~(3)分别给出了它们的定义,其中:xmod是算法的反演值,xobs是真实值(观测值),n是样本数量。

(1)

(2)

(3)

2 结果与讨论

2.1 算法结果分析

总体上看,RMSE、MAE和UA与n之间的关系表现为不同的趋势(见图1)。样本个数n从10增加至300,UA总是呈下降的趋势,且在n小于50时,UA下降幅度较大。对于9种不同的算法,UA下降的趋势几乎是一样的。RMSE随n的变化趋势总体上呈先上升,当n大于50后趋于平缓,但仍有小幅度波动。MAE对于不同的数据集和算法,表现出不一致的趋势。此外,相比于RMSE和MAE,UA的变化趋势更加平滑,即UA随样本个数n的变化更稳定。上述结果表明,只有UA这一统计参数与本文的统计经验相符,即样本个数越多,模型的不确定性越小。相反,在上述案例中RMSE和MAE呈现上升的趋势表明,在遥感算法验证中,使用越少的样本个数,呈现的结果会更好或更准确。

(实线表示由初始结果(点)移动平均后得到的结果。The solid lines are the moving averages of the original results (dots).)图1 由9种算法计算得到的RMSE,MAE,UAFig.1 RMSE, MAE, and UA calculated from 9 algorithms

2.2 模拟结果分析

计算机模拟的各类误差的分布(正态、指数、对数正态、均匀)如图2所示,根据这些分布和同样的方法(本文2.1、2.3节)得出的评估参数随样本个数的变化见图3。

从图3看出,所有的这4种误差分布所得到的RMSE/MAE/UA随样本个数n的变化趋势与图1水色遥感数据得到的结果相似。当误差样本个数较少时,RMSE和MAE随样本个数n的增加呈上升趋势,UA随样本个数n的增加呈下降趋势;当误差样本个数达到一定数量后,RMSE和MAE逐渐平稳,接近于其“真值”或“正解”。结果显示,RMSE随n增大而增大特征比较明显,特别是当误差是指数和对数分布的情况(见图3(b)和3(d)),相比较而言,MAE的类似特征就不是很明显,当n较小时(<10),MAE的值略小,随后就在一定的数据上随机变动。

图2 4种随机产生的误差值分布Fig.2 Four different distribution of randomly generated values

图3 四种随机产生的误差分布下RMSE, MAE, UA的随样本个数n的变化情况Fig.3 RMSE, MAE, UA vary with sampling sizes n for four different distribution of randomly generated values

由此可以看出,无论是RMSE和MAE,当样本个数增加时,它们都没有变小的趋势,因此用这些常规的误差统计评估指标来评估模型的不确定性是不恰当的,无法体现模型被验证的样本越多,其可信赖度就越高(不确定度越小)的特征。Chai和Draxler[6]也曾给出过类似的证明,当误差样本个数很有限时,RMSE和MAE即使作为模型误差的评价指标,也是不稳定的。

3个评估参数(UA、RMSE和MAE)随n的增加有不同的变化趋势(增加或减小),但是当n增加到一定程度后,3个参数的变化都趋于平稳(基本保持不变)。因此需要确定如何判定评估参数随n的变化趋于平稳。本文建议(1)设定一个小阈值k,例如k=0.02;(2)对于每两个相邻的n,计算其对应参数的比值t,例如t=RMSEn1/RMSEn+1;(3)如果从某个n1开始,连续m个t-1的绝对值都小于k,则认为从n1开始参数的变化趋于平稳,n1就是相对于该参数的所需样本数的最小值。当k和m的取值不同时,n1也会相应变化。

3 结语

对于遥感模型来说,其评估结果的不确定度可理解为:模型结果的误差的不确定的程度,它不仅仅评估了模型的误差,而且评估了这个误差的不确定性。而以往的RMSE和MAE仅仅评价了模型的误差,却无法衡量其不确定性。可以假想一个特例:某个水色遥感反演模型输出了一个叶绿素浓度值,其验证结果和真实值非常接近(MAE或RMSE很小),从误差评估的角度来说,这个模型是很准确的,但是显然其由于其验证的样本个数太少,仅凭一个数据是无法断言模型的可靠性的。只有当用于验证的样本数量越来越多时,模型的不确定性才会越来越小。从前面的结果看,当样本达到一定数量时,MAE和RMSE基本都没有大的变化,这表明此时MAE和RMSE已经能基本反映出模型真实的误差状况,但是UA仍然会缓慢的减小,这说明即使两个模型的误差相同(MAE或RMSE相同),但是使用验证样本个数多的模型的不确定度要比样本个数少的模型的不确定度低。

需要指出的是,UA是评估模型不确定性的指标,我们不能单独使用UA去评价模型的误差,因为可能会出现MAE和RMSE较大,但是用于样本数量特别多,使得UA很小的状况。作者建议是,当给出遥感模型评估时,同时报告其误差(MAE和RMSE)和不确定度(UA)的大小用于比较各个模型的性能,仅仅用误差的统计指标来评估模型是不够全面的,会使得验证样本个数少的模型显得性能较好,误差较小,而从不确定度的角度来看,小样本模型的可信赖程度是较低的。在条件允许的情况下,遥感建模和验证的样本数量应该是越多越好。

[1] 黄昌春, 李云梅, 徐良将, 等. 内陆水体叶绿素反演模型普适性及其影响因素研究[J]. 环境科学, 2013, 34(2): 525-531. Huang C C, Li Y M, Xu L J, et al. A study on the universality and influencing factors of chlorophyll inversion model of inland water[J]. Environmental Science, 2013, 34(2): 525-531.

[2] 王林, 赵冬至, 杨建洪, 等. 大洋河河口海域有色溶解性有机物的光学特性及遥感反演模型[J]. 海洋学报, 2011, 33(1): 45-51. Wang L, Zhao D Z, Yang J H, et, al. Optical properties and remote sensing retrieval model of colored dissolved organic matter in the estuary of the ocean [J]. Acta Oceanologica Sinica, 2011, 33(1): 45-51.

[3] Fox D G. Judging air quality model performance[J]. Bulletin of the American Meteorological Society, 1981, 62(5): 599-609.

[4] Willmott C J, Matsuura K. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance[J]. Climate Research, 2005, 30(1): 79-82.

[5] Willmott C J, Robeson M S M. Ambiguities inherent in sums-of-squares-based error statistics[J]. Atmospheric Environment, 2009, 43(3): 749-752.

[6] Chai T, Draxler R R. Root mean square error (RMSE) or mean absolute error (MAE)?[J]. Geoscientific Model Development Discussions, 2014, 7(1): 1525-1534.

[7] BIPM I E C,IFCC I,ISO I,et al.Evaluation of Measurement Data—Guide to the Expression of Unicertainty in Measurement[M].[s. 1. ]: GUM, 2008, 100.

[8] Zhu W, Yu Q, Tian Y Q. Uncertainty analysis of remote sensing of colored dissolved organic matter: Evaluations and comparisons for three rivers in North America[J]. Isprs Journal of Photogrammetry & Remote Sensing, 2013, 84(8): 12-22.

[9] Carder K L, Chen F R, Lee Z P, et al. Semianalytic moderate-resolution imaging spectrometer algorithms for chlorophyll a and absorption with bio-optical domains based on nitrate-depletion temperatures[J]. Journal of Geophysical Research, 1999, 104(104): 5403-5421.

[10] Carder K L, Chen F R, Lee Z, et al. MODIS ocean science team algorithm theoretical basis document[J]. ATBD, 2003, 19(7): 7-18.

[11] IOCCG. Remote Sensing of Inherent Optical Properties: Fundamentals, Tests of Algorithms, and Applications[M]. [s.1.]:Reports of the International Ocean Colour Coodirating Group,2006.

[12] Gitelson A A, Schalles J F, Hladik C M. Remote chlorophyll- a retrieval in turbid, productive estuaries: Chesapeake Bay case study[J]. Remote Sensing of Environment, 2007, 109(4): 464-472.

[13] Moses W J, Gitelson A A, Berdnikov S, et al. Satellite estimation of Chlorophyll- Concentration using the red and NIR bands of MERIS—The Azov Sea case study[J]. IEEE Geoscience & Remote Sensing Letters, 2009, 6(4): 845-849.

[14] Moses W J, Gitelson A A, Berdnikov S, et al. Operational MERIS-based NIR-red algorithms for estimating chlorophyll- a concentrations in coastal waters — The Azov Sea case study[J]. Remote Sensing of Environment, 2012, 121(138): 118-124.

[15] O′Reilly J E,Maritorena S, Siegel D A, et al. Ocean ChlorophyllaAlgorithms for Sea WiFS, OC2, and OC4: Version 4[M]. A Companion to the Literature and Culture of the American West, USA: John Wiley & Sons Ltd, 2000: 462-482.

[16] O’Reilly J E, Maritorena S, O’brien M C, et al. SeaWiFS poslaunch calibration and validation analyses, part 3[J]. NASA tech memo, 2000, 206892(11): 3-8.

[17] Mannino A, Russ M E, Hooker S B. Algorithm development and validation for satellite‐derived distributions of DOC and CDOM in the U. S. Middle Atlantic Bight[J]. Journal of Geophysical Research Oceans, 2008, 113(C7): 827-830.

[18] Zhu W, Yu Q. Inversion of chromophoric dissolved organic matter from EO-1 hyperion imagery for turbid estuarine and coastal waters[J]. IEEE Transactions on Geoscience & Remote Sensing, 2013, 51(6): 3286-3298.

[19] Doxaran D, Froidefond J M, Lavender S, et al. Spectral signature of highly turbid waters : Application with SPOT data to quantify suspended particulate matter concentrations[J]. Remote Sensing of Environment, 2002, 81(1): 149-161.

Abstract: In order to introduce the uncertainty evaluation index in the remote sensing model evaluation, which is the uncertainty A (UA) proposed by the surveying community in recent years. This letter focuses on the impact of sampling size on those statistical variables, by testing a number of ocean color algorithms with different datasets and four kinds of approximate distributions of errors simulated by computer. The results indicate that RMSE, MAE and UAall vary with the number of observationsnbut present opposite trends. Whennis less than 50, RMSE typically presents a upward trend from a smallnto a largen. MAE in most of the results are similar to the RMSE,while UAalways keeps a smooth downward trend with increasingn, Based on the results, we conclude that UAis better than RMSE and MAE to be employed for evaluating and presenting the uncertainty in remote sensing validation, because the more samples we take, the less uncertainty we get.In addition, using at least 50 samples to validate the remote sensing model, will make the evaluation more accurate.

Key words: uncertainty; remote sensing validation; statistics; ocean color

责任编辑 庞 旻

Statistical Parameters Concerned with Sample Size for Evaluating Model Performance:A Comparison Case Study in Ocean Color Remote Sensing

SUN Lu, ZHU Wei-Ning, JIANG Jin-Gang

(College of Ocean, Zhejiang University, Hangzhou 310058,China)

P237

A

1672-5174(2017)11-009-06

10.16441/j.cnki.hdxb.20160431

孙璐,朱渭宁,蒋锦刚.遥感模型评估中顾及样本数量的统计指标:基于水色遥感的比较研究[J].中国海洋大学学报(自然科学版), 2017, 47(11): 9-14.

SUN Lu, ZHU Wei-Ning,JIANG Jin-Gang.Statistical parameters concerned with sample size for evaluating model performance:A comparison case study in ocean color remote sensing[J].Periodical of Ocean University of China, 2017, 47(11): 9-14.

国家自然科学基金面上项目(41471346);国家自然科学青年基金项目(41401404)资助 Supported by National Nature Science Foundation of China (41471346); National Natural Science Foundation of China (41401404)

2016-12-28;

2017-02-21

孙 璐(1991-),女,硕士生。E-mail:sunlun@zju.edu.cn

** 通讯作者: E-mail: zhuwn@zju.edu.cn

猜你喜欢
水色个数反演
反演对称变换在解决平面几何问题中的应用
基于ADS-B的风场反演与异常值影响研究
怎样数出小正方体的个数
利用锥模型反演CME三维参数
水色
雨花·艺术 徐华翎作品
一类麦比乌斯反演问题及其应用
等腰三角形个数探索
怎样数出小木块的个数
怎样数出小正方体的个数