水文模型模拟预报的多源数据同化方法及应用研究进展

2021-01-05 09:29刘永伟刘元波

河海大学学报（自然科学版） 2021年6期

刘永伟，王文，刘元波，凌哲，刘庆

(1.中国科学院南京地理与湖泊研究所流域地理学重点实验室，江苏南京 210008；2.河海大学水文水资源与水利工程科学国家重点实验室，江苏南京 210098；3.江苏省水利工程规划办公室，江苏南京 210029； 4.江西省水利规划设计研究院，江西南昌 330029)

水资源的科学管理、调控是以流域水文循环过程及其演变规律的规律识别和水文情势的预测预报为基础的，而水文循环过程的规律识别和水文情势的预测预报均主要依赖于流域水文模型的模拟预报。水文模型模拟预报经历了由经验方法—具有系统理论概念的黑箱子水文模型—融合物理概念和经验概化的概念性水文模型—具有物理机制的分布式水文模型的发展过程，模型结构在水文物理过程精细化描述方面不断完善[1]。然而，分布式水文模型通常需要大量的观测数据和水文过程参数，致使单纯依靠传统观测手段难以满足模型的相关要求，成为限制分布式水文模型模拟预报能力提高的瓶颈。

近年来，多源观测技术，尤其是卫星遥感技术快速发展[2]，借助卫星遥感技术可直接或间接地获得流域的气象要素及下垫面特征信息(如降雨、流域土壤湿度分布等)，为分布式水文模型提供了更为丰富的数据信息。将不同来源、不同时间、不同空间分辨率的遥感和地面观测信息(即多源数据)同化到水文模型模拟预报过程中，成为提高模型模拟预报精度和可靠性的有效途径[3-4]，也是目前水文过程模拟预报领域的研究热点和前沿问题之一[5]。

本文介绍了水文模型模拟预报领域采用的数据同化方法，分析了变分和顺序数据同化法的优势与不足；以土壤湿度和径流数据同化为重点，分析了多源数据在水文模型模拟预报同化应用中的进展、存在的问题及其未来的发展方向。

1 水文遥感数据同化方法

数据同化作为一种方法论，集成了模型和观测这两种基本的地学手段。数据同化方法的核心思想是在动力学模型(如陆面过程模型、水文模型)框架内，通过集成观测算子(如辐射传输模型)，融合不同来源、不同分辨率的直接与间接观测信息以调整模型的运行轨迹，从而达到减小模型模拟预报误差、获得更高精度模拟预报结果的目的[6-7]。目前，水文领域中常用的典型数据同化方法根据优化途径的不同可归为两大类：变分数据同化方法(全局拟合途径)和顺序数据同化方法(实时优化途径)。

1.1 变分数据同化法

变分数据同化法以最优控制理论为基础，以分析值与观测值及背景场之间的偏差为目标函数，在一个同化窗口内，利用优化算法，通过迭代运算不断调整模型的初始场，最终寻求整个同化时段的最优解。目前，变分数据同化法中发展比较成熟且具有代表性的是三维变分法和四维变分法[8]。四维变分法中加入了时间维，则该模型状态在时间上的演进可以充分考虑观测信息时间和空间分布的影响，使得该方法比三维变分法有着更广泛的应用，其主要应用于气象和海洋领域。

变分数据同化法最主要的优点是可以采用一个同化窗口多个时间的观测信息来估计整个同化窗口的状态。但是，变分数据同化法需要构建伴随模型，这就要求伴随模型对其状态变量必须连续可微，然而，对于陆面模型和较为复杂的水文模型而言通常无法满足这一要求，这在一定程度上限制了变分数据同化法在陆面模型和水文模型中的应用。

1.2 顺序数据同化法

顺序数据同化法又称为滤波方法，该方法基于误差估计理论，着眼于求解单个时刻的最优分析值，不断用新的观测信息来更新模型的预报场，从而形成下一时刻模型预报的初始场，如此按顺序向前推进，依次获得整个时段的模式变量或参数的最优估计。由于顺序数据同化法可以显式地考虑模拟与观测的不确定性，并且其误差可以在模型运行过程中随时间传播，使得该类方法在水文领域应用广泛。顺序数据同化法主要有线性卡尔曼滤波(KF)法、扩展卡尔曼滤波(EKF)法、集合卡尔曼滤波(EnKF)法及粒子滤波(PF)法等。

KF法由Kalman[9]于1960年首次提出，且早在20世纪70年代就被应用于水文预报。但早期的KF法要求系统为线性或近似线性，随着模型的复杂程度和非线性程度越来越高，KF法已无法满足要求。为了适应非线性系统应用的需要，在KF法的基础上，Jazwinski[10]提出了EKF法。由于EKF法采用Jacobian矩阵对非线性过程方程和观测方程进行线性化，其要求模型的每个状态变量对于其他状态变量是连续可微的。然而，对于复杂的非线性系统，Jacobian矩阵可能无法推求，并且由于EKF法一阶线性近似中高阶截断误差，导致滤波精度不高甚至出现滤波发散问题。在此背景之下，Evensen[11]于1994年基于随机动态预报理论，将集合预报思想引入KF法，提出了EnKF法。EnKF法基于Monte Carlo和KF法，采用一组服从高斯分布的随机变量来代表随机动态预报中状态变量的概率密度函数，并基于观测信息，在模型模拟预报过程中不断更新这组随机变量使其逐步逼近状态变量总体的真实概率分布。EnKF法稳健、灵活[12]，易于使用，在陆面模型和分布式水文模型中获得广泛应用[13-15]。但是EnKF法中高斯分布的误差假定在一定程度上限制了其在高度的非高斯、非线性系统中的应用效果。PF法摆脱了EnKF法中高斯分布误差假定的限制，利用状态空间一组带权重的随机样本(每个样本/粒子代表系统的一个可能状态)逼近状态变量的后验概率分布函数[16]。虽然PF法近年来逐渐应用于水文遥感数据同化研究[17-18]，但由于在实际应用中该方法需要逼近状态变量的后验概率分布函数，因此往往需要大量的集合粒子数，造成很大的计算负担，尤其是在复杂的陆面模型或分布式水文模型的应用中。因此，目前基于PF法的数据同化多用于科学研究，还未达到实际应用水平。

为了克服EnKF、PF等方法的不足，有关学者基于各种数据同化方法的优缺点，在数据同化方法融合研究方面也取得了一些成果。如Hansen等[19]提出一种基于EnKF法与四维变分法融合的数据同化方法。该方法虽然大大增加了数值计算量，但对于模式状态变量的估计效果优于单独的EnKF法和四维变分法。Delft等[20]基于EnKF法和PF法，提出了一种集合粒子滤波(EnPF)法，并证明了该方法在流域降雨径流模拟预报精度方面优于EnKF法和PF法。另外，Yu等[18]将EnKF法与粒子滤波方法相结合，提出了一种新的集合粒子滤波法，并通过土壤温度数据同化试验证明了其有效性。总体而言，这些融合方法相较于单一方法在改进水文模型模拟预报精度方面表现出一定的优势，但在具体数据同化应用中的可行性和实用性有待进一步提高。

2 多源数据同化在水文模型模拟预报中的应用

关于多源数据同化在水文模型模拟预报中的应用，目前主要关注土壤湿度、径流、降水、蒸散发及高寒地区的地面积雪量等基础水文变量，其中，土壤湿度与径流变量的数据同化研究更为广泛[21-23]。

2.1 土壤湿度数据同化

土壤湿度是水文循环中的核心变量之一，决定了降雨入渗过程及形成径流的比例，将土壤湿度观测信息同化到水文模型模拟预报过程中，必将有助于提高水文模型模拟预报的精度和可靠性。早在20世纪80年代初，Jackson等[24]尝试通过直接插值法同化站点观测的表层土壤湿度数据来改进土壤剖面的水分估计，指出数据同化方法是4种基本的土壤剖面水分反演方法(统计外推法、辐射传输模型反演法、参数化的剖面模型法和数据同化方法)中最具发展前景的方法。Walker等[25]分别基于KF法和直接插值法同化站点实测地表土壤湿度以获得垂向一维不同时间尺度的土壤湿度估计，结果发现KF法优于直接插值法。王文等[15]基于EnKF法在一维Hydrus模型中建立了单点土壤湿度数据同化方案，通过同化表层土壤湿度的站点观测值改进土壤剖面上不同深度土层的水分估计。由于全球范围内土壤湿度地面站点观测数据严重不足，并且站点观测的空间代表性不高，导致站点观测土壤湿度数据在陆面及水文领域的应用受到很大限制。

直到20世纪90年代土壤湿度的遥感观测手段出现以后，随着空间和时间连续的土壤湿度信息可获取能力的提高，土壤湿度数据同化研究才逐渐兴起并快速发展起来。遥感土壤湿度数据同化研究根据其目标可以分为两类：一是为获得全球或区域尺度上更为准确的土壤湿度数据集，主要是陆面模型中土壤湿度数据的同化研究；二是在流域尺度上利用遥感反演土壤湿度数据的同化，改善流域或区域的水文过程模拟及预报精度和可靠性，主要是水文模型中土壤湿度数据的同化研究。

Entekhabi等[26]利用EKF法，通过对低频被动微波和红外数据的同化进行根区土壤湿度的反演。Crow等[27]采用EnKF法将1.4 GHz的地表(0～5 cm)亮温数据同化到陆面水文模型TOPLATS中，表明通过地表亮温数据的同化可以获得根区(0～40 cm)土壤湿度的时空连续变化趋势。Huang等[14]基于简单的生物圈模型SiB2和微波辐射传输模型，采用EnKF法，通过仿真试验对站点观测与遥感观测土壤湿度分别进行同化，明确了EnKF法在处理非线性模型算子与观测算子方面的优势，证明了在陆面模型中进行地面和遥感观测数据同化的可行性。此外，Yang等[22-23，28-29]研究了陆面模型中遥感土壤湿度数据的同化。目前，在全球范围内已经建立了多个陆面数据同化系统，包括北美、全球、欧洲陆面数据同化系统以及我国西北陆面数据同化系统。这些系统涉及全部常用陆面模型中的遥感反演土壤湿度数据的同化，发展了一套比较成熟的大尺度土壤湿度获取体系，整体达到了常态化运行水平。

水文模型中遥感土壤湿度数据同化研究可以归为两类：一是通过遥感观测土壤湿度数据同化的仿真模拟试验或地面站点实测数据同化，研究遥感土壤湿度数据同化方法，评估遥感土壤湿度数据同化对土壤湿度状态估计以及流域降雨径流模拟预报的效果[21，30-32]；二是通过遥感土壤湿度数据的同化改善流域的土壤湿度状态估计，进而改进流域降雨径流模拟预报精度[4，33-34]。大量遥感土壤湿度数据同化仿真试验研究表明，遥感土壤湿度数据同化在改善土壤湿度状态估计、改进流域降雨径流模拟预报方面具有很大的潜力[30-31，35]。然而，在实际应用中，同化遥感观测土壤湿度数据在改善流域降雨径流模拟预报方面却表现出一定的不确定性[36-38]。

遥感观测土壤湿度数据同化效果的不确定性主要与遥感反演土壤湿度数据的质量、时空分辨率和遥感探测深度有关。由于受到下垫面植被、冻土、积雪、地表粗糙度等因素的影响，遥感反演土壤湿度数据精度存在系统偏差并表现出较大的空间和季节差异性。虽然目前遥感反演土壤湿度数据的空间分辨率已有几千米到几十千米不等，时间分辨率可达1 d，但对于流域尺度的水文过程模拟预报而言还存在分辨率不足的问题，尤其在小流域水文过程模拟及小时尺度的径流预报方面还无法满足需求。遥感反演一般仅能获得表层(0～5 cm)的土壤湿度信息，但对降雨径流过程影响较大的往往是根区甚至是深层的土壤水分信息，因此，遥感反演土壤湿度数据同化效果依赖于水文模型在土壤水分垂向连通性方面的概化模拟能力，表现出较大的差异性。另外，遥感反演土壤湿度数据同化效果的不确定性还来自数据同化规则(不同的数据同化方法具有不同的理论依据)、水文模型(如模型结构误差)、遥感与模型模拟时空尺度不匹配等因素的综合影响[31，34，39-40]。

2.2 径流数据同化

径流是流域水文模型模拟预报中最为重要的输出变量，可以反映整个流域综合的水文信息，且地面实测径流数据具有很高的可靠性。将站点径流实测信息同化到水文模型模拟预报过程中，对于改善流域状态变量及模型参数的估计精度，进而改进流域的降雨径流模拟及预测具有重要价值。径流数据的同化始于20世纪80年代，主要是对流域水文预报中基于站点流量观测数据进行模型输出结果的修正，也称为误差校正，使用方法主要为KF法和EKF法。随着数据同化技术与模型模拟技术的发展，径流数据同化不仅体现在线性系统或弱非线性系统对系统状态变量和输出结果的校正上，更表现为在非线性系统中通过对模型状态变量及参数的优化来改进整个系统的过程模拟及预报精度[41-42]。用于数据同化的水文模型由简单的集总式概念性模型逐渐发展为具有物理机制的分布式模型，数据同化方法也由线性KF法逐渐发展为EnKF法、PF法等顺序数据同化法和变分数据同化法。

近年来，简单概念性模型中的径流数据同化研究已逐渐发展成熟。大量研究表明，通过径流数据同化可以获得较好的模型参数与状态估计结果，从而有效地改进流域水文模型模拟预报的精度和可靠性[42-43]。尤其在简单概念性模型的参数优化方面，径流数据同化表现出一定优势[44]，其主要原因在于基于径流数据同化进行模型参数的优化可以综合考虑模型输入、模型参数和模型结构3个方面的不确定性，而不像一般常规方法(如全局优化SCE-UA方法)中把模型模拟误差都归咎于模型参数上。相较于简单概念性模型，分布式水文模型，尤其是基于物理机制的分布式水文模型具有真实模拟现实世界流域水文过程的能力，并且能够考虑气象输入的空间异质性和流域下垫面的空间分布特征，理论上分布式水文模型在降雨-径流模拟预报方面应优于简单的集总式模型[45]。另外，分布式水文模型不仅能够提供流域出口的径流过程，还可以给出流域内部主要支流甚至格点上的径流过程，这使得分布式水文模型中径流数据的同化不但有利于观测站点以上流域的产汇流模拟，而且也可能有利于观测站点临近甚至以下流域的径流过程模拟，这一点对于无、缺径流资料流域的水文模型模拟预报具有重要意义。因此，分布式水文模型中径流数据的同化研究受到越来越多的关注。Xie等[46]在SWAT模型中根据站点径流数据同化的试验研究表明，EnKF法能够改进SWAT模型中敏感参数和状态变量的估计，从而有助于提高流域产汇流模拟预报的精度。Clark等[13]基于EnKF法将站点径流观测数据同化到分布式水文模型TopNet中，以期通过更新模型状态变量改进流域的降雨径流模拟精度，结果显示标准的EnKF方法并不适用，而在计算误差协方差矩阵前将径流数据转换到对数空间能够改进模型的模拟结果。虽然目前大部分研究表明分布式水文模型中径流数据的同化在改进流域产汇流过程模拟方面有一定的效果，但在较为复杂的分布式水文模型中，径流数据同化在实现模型参数与状态估计、改进流域水文模型模拟预报能力和可靠性方面还存在一定的不确定性[13，46-47]。Lee等[41]在基于网格的Sacramento模型中采用变分方法对站点观测径流数据的同化研究表明，数据同化能够在一定程度上改进流域的降雨径流模拟预报能力，但同化效果在分布式水文模型模拟预报中表现出很大的不确定性。在径流数据同化的分布式水文模型参数优化方面，Xie等[48]提出了基于EnKF法的参数-状态分类优化更新方案，虽然在SWAT模型中获得了较好的参数估计效果，但该方案在一定程度上仍存在径流观测信息重复使用、模型参数在数据同化过程中被过度更新等问题。

以上径流数据同化在改进分布式水文模型模拟预报方面表现出较大不确定性的主要原因在于：(a)分布式水文模型具有多计算单元、多变量、多参数的特点，导致数据同化过程中存在高维度现象，大大增加了数据同化效果的不确定性及同化实施的难度；(b)由于径流数据同化中常用的站点径流观测数据为经过点产流和面汇流的水文信息，只能反应流域的整体状况，当基于站点径流观测信息对分布式水文模型具有空间分布的各个参数与变量进行优化更新时，很容易存在更新过度或更新不足的问题，这也大大增加了径流数据同化效果的不确定性[49]。

2.3 降水、蒸散发、积雪数据同化

降水是水文模型模拟预报中最为重要的输入变量，其精度和可靠性在很大程度上决定了水文模型模拟预报的成败。目前降水数据的获取方式主要包括地面站点观测、雷达探测、遥感反演以及气象数值模型模拟。传统的站点观测可以提供时间连续且准确的点源降水信息，但由于受到观测站点空间分布密度及均匀性等条件的限制，实测降水通常不足以代表流域或区域实际的降水信息，尤其对于站点稀少且下垫面地势起伏较大的流域[50]。雷达探测能够获得流域面雨量的空间分布，但受地形遮挡、雷达射线抬升等因素的影响，其在地形复杂区域很难实施。卫星遥感观测可以获得区域甚至全球大范围时间持续和空间连续的降水信息，有效地弥补了站点观测在空间连续性和雷达探测精度受地形限制等方面的不足，但相较于站点实测及雷达探测降水数据，遥感反演降水通常存在较大的误差及偏差，但其数据往往在无、缺资料流域表现出较大优势[51-52]。气象数值模型模拟方面，尽管近几十年来降水的模拟预报技术不断提升[53]，但单纯依靠气象数值模型模拟手段还无法满足实际应用的需求，因此气象领域中降水观测尤其是遥感观测数据在气象数值模型中的同化研究成为获取大范围时空连续降水的有效手段[54-55]。但受降水本身非高斯误差分布和气象数值模型模拟误差及遥感观测误差等因素的影响，其数据同化效果不够理想[56]。另外，针对目前遥感反演降水数据精度不足的问题，不少学者尝试根据累积降水与土壤湿度动态变化之间的物理联系，利用水文过程模型建立二者之间的反馈机制，通过引入遥感探测的土壤湿度信息，基于数据同化算法实时修正遥感反演降水输入数据，进而提高水文过程模拟精度及可靠性。结果显示该方式可以在一定程度上提高遥感反演降水数据精度，且在改进流域径流模拟预报能力方面具有一定的成效[57-60]。但由于土壤湿度动态变化对降水的敏感性随着土壤湿度的增大而降低，土壤湿度达到饱和后基本不再随降水变化，导致基于遥感观测土壤湿度修正降水数据对中、小降水事件更为有效，而对大降水事件效果不好。此外，基于数据同化方法对降水的修正还受到遥感反演土壤湿度误差，水文模型对土壤湿度、降水二者反馈过程的概化能力等因素的影响。

蒸散发是区域或流域水循环中的重要组成部分，蒸散发的准确估算有利于流域水文过程模拟及预报[61]。目前实地观测手段(蒸渗仪)很难获得大尺度范围的实际蒸散发量，遥感反演与水文模型模拟是获取区域蒸散发量的主要手段。水文模型由于受到模型输入、模型结构、模型参数误差的影响，对蒸散发的模拟精度不足，将遥感反演[62]的蒸散发信息与水文模型模拟相结合将有助于提高蒸散发的估计精度和可靠性，进而可能有助于改进流域水文过程的模拟及预报。21世纪以来，国内外学者在蒸散发数据同化方面进行了诸多有益的尝试[63-64]，且在改进蒸散发估计精度方面取得了一定成效，但对流域水文过程的模拟预报能力改进效果不够理想。目前，遥感反演蒸散发数据在水文模型模拟预报中的同化应用在一定程度上还没有实现蒸散发观测与水文状态模拟之间的有效集成，其主要原因在于蒸散发属于非状态变量(属于通量)，在水文模型模拟预报过程中不能直接将蒸散发数据进行同化，而是需要首先建立蒸散发与土壤湿度等状态变量之间的关系。由于蒸散发受与能量、水分相关的多个变量控制，且与土壤湿度等状态变量之间存在明显的时间延迟，即迟滞，而这一迟滞效应在一般水文模型中通常不会显式呈现[65]，因此，基于蒸散发数据同化进行水文模型状态参数优化更新时往往会带来一定的不确定性。

近些年来，国内外一些学者尝试利用陆面模型、水文模型对积雪地面站点实测数据和遥感数据进行同化，以期改善雪深、雪水当量等水文变量的估计精度，进而改进流域水文过程的模拟及预报能力。Liu等[66]采用直接插值方法将标准和经去云处理后的MODIS积雪覆盖率数据同化到Noah模型中，发现同化标准数据对积雪和径流模拟的改进作用不大，但同化经去云处理后的数据能够改进积雪和径流的模拟精度。Su等[67]采用EnKF法将MODIS积雪覆盖率数据同化到CLM陆面模型中，发现经数据同化后CLM模型可以更准确地刻画出雪水当量的季节变化，但数据同化效果仍受到了雪盖消融曲线中形状因子的影响。目前，积雪数据同化研究还处于起步阶段，卫星遥感数据的同化在一定程度上改善了雪深、雪水当量等状态变量的估计精度，但积雪数据的同化(尤其在积雪消融期)仍表现出较大的不确定性。这在一定程度上与融雪期积雪变化所涉及的物理过程复杂、影响因素繁多而导致积雪的遥感反演精度和可靠性不足有关[68]。

3 结语

a.水文遥感数据同化方法主要以基于集合的顺序数据同化法为主，但为了满足复杂的陆面模型、水文模型在非高斯、非线性属性方面对数据同化法的要求，新的数据同化法(如EnPF法[19]、粒子批处理平滑方法[69])不断出现，但最优的数据同化法可能根据具体问题而定，数据同化法的适用与否受水文模型的复杂程度、同化实施过程中的计算负担、数据同化系统规则对各种不确定性(模型输入、结构、参数)的定义及量化方式的合理性等多个因素的影响。因此，水文遥感数据同化中同化方法的适用性及其影响因素研究还有待继续深入。

b.土壤湿度、径流、降水、蒸散发、积雪等遥感与地面观测数据的同化对于改进流域水文过程模拟及预报能力具有很大潜力。目前水文遥感数据同化效果非显著性及不确定性主要来自于土壤湿度、径流、降水、蒸散发、积雪等遥感反演数据的误差或偏差、时空分辨率差异及遥感探测深度等方面，同时与水文模型对水文过程模拟概化的不确定性及数据同化方法的适用性也有一定关系。因此，土壤湿度等水文变量的数据同化在改进水文模型模拟预报方面的应用潜力将会随着遥感观测技术与反演方法的改进、水文模型结构的完善以及数据同化技术的改进而不断增大。

c.多源数据在水文模型模拟预报中的综合应用将是水文遥感数据同化发展的必然趋势。多源观测数据在水文模型模拟预报中的应用经历了由地面站点观测到遥感观测、由集总式概念性水文模型到基于物理机制的分布式水文模型的发展过程，遥感观测与分布式水文模型模拟预报方式的出现，极大地促进了观测与模拟这两大水文信息获取途径的有效结合。由于分布式水文模型对水文物理过程的精细化描述需要大量的模型状态变量与参数，基于分布式水文模型的数据同化研究，在高度关注模型误差、同化算法等数据同化系统规则的同时，需要综合利用具有可靠精度的地面站点与具有空间分布优势的遥感观测信息，以获得模型模拟预报能力的更大提升。因此，随着遥感、地面等多源观测技术的蓬勃发展，以及水文过程模拟预报中模型结构等的不断完善，通过多源数据的联合同化改进水文模型模拟预报精度和可靠性将是未来水文模型模拟预报研究的重要发展方向，其数据同化研究所涉及的如何处理来自不同观测系统(地面与遥感)、不同时间和空间分辨率数据的误差及信息集成问题必将受到越来越多的关注。