深度学习提高有效波高预报精度的实验分析*

2024-02-28 11:46叶佳承于华明葛晶晶李松霖万江岳
关键词:波高海浪数值

叶佳承, 于华明,**, 葛晶晶, 李松霖, 万江岳

(1. 中国海洋大学海洋与大气学院, 山东 青岛 266100; 2. 中国海洋大学三亚海洋研究院, 海南 三亚 572025; 3. 解放军31110部队)

有效波高是重要的海浪波要素,是衡量海洋动力灾害的重要指标,在海洋工程设计中至关重要。有效波高的精准预报不仅能为海岸工程保驾护航,更能节省工程建设的成本,具有显著的社会效应与经济效应[1-2]。

当前有效波高预报主要依赖数值模式,该模式基于波浪生成、传播、耗散的物理过程,对海浪进行数值模拟,获得海浪的有效波高、平均周期等波浪信息,成为世界上研究海浪的最有力工具之一[3-4]。然而,当前数值模式仍无法准确刻画海浪生消、反射、折射、绕射等复杂机制,此外强迫场的误差,参数化方案的选取以及系统误差等因素仍制约着数值模式的精度[5-6]。根据前人的研究,当前模式预报的有效波高均方根误差(RMSE)在0.25~1.10 m之间[7-9]。由于中国东海近岸有效波高在2.50 m以下[10],这些数值模式误差较大,无法忽略不计。为使数值模式能更好地应用于近岸区域的海浪预报,需要对预报结果进行优化与订正。

目前,数值订正方法主要有三种。第一种是完全预报方法(Perfect prognostic method,PP)。PP法认为模式输出的值与实测值完全一致,然而数值预报结果与实际值之间存在偏差,故PP法订正不可避免地产生误差,对数值模式依赖较强[11]。第二种是模式输出统计法(Model output statistics,MOS),即将后报的数值产品与预报要素的历史数据通过统计的方式建立联系,设计订正经验方程,预报的时候将结果代入方程中,进而进行订正。MOS方法具有非线性映射较差的问题[12]。第三种是基于人工智能算法的订正方法,该方法将神经网络技术应用到订正领域,利用神经网络方法建立预报结果与实测数据的非线性关系进行预报,具有分布并行处理、非线性影射、自适应学习等特性,有着广泛的应用前景[13-16]。本文主要基于神经网络技术开展海浪有效波高的订正方法研究。

神经网络已广泛应用于数据订正中,例如,齐义泉等[17]结合了人工神经网络(Artificial neural network,ANN)与第三代海洋数值模式,建立了台湾北部的海浪数值预报订正模型,使预报误差减小了17.1%。Zhang等[18]将ANN与数值同化相结合,应用于西北太平洋的海浪模拟,有效提高了海浪模拟准确性。

综合以上可以发现,使用神经网络进行数据订正具有可行性,而具有多层隐藏层结构的深度学习神经网络订正方案是否可行还有待实验。与单隐藏层的传统神经网络相比订正效果如何,是否能通过加入其他量提高订正模型的订正效果,这是本文探讨的主要问题。

本研究主要基于董家口港的实测数据与近岸波浪模拟模式(Simulating wave nearshore model,SWAN)的数值模拟数据,采用深度学习长短期记忆(Long short-term memory,LSTM)[19]模型对该港口有效波高预报进行订正。在数据与方法中,将介绍LSTM模型建立的详细原理与实验数据的相关信息;在结果与讨论中根据相关系数(COR)、绝对平均误差(MAE)、均方根误差(RMSE)等相关指标对订正结果进行评价。

1 数据与方法

1.1 数据选取

本研究使用的数据资料有两种:

(1)董家口港区站点的海浪监测数据,经纬度坐标为119.78°E,35.58°N,采样间隔为1 h,使用要素为有效波高与平均周期。该观测站于2020年5月25日开始布设运行,截至2021年8月28日已获取超过一年以上的海浪观测数据。图1为实测点位的具体位置。

图1 董家口港以及潜标投放位置

(2)数值模拟数据采用SWAN海浪模式,对山东近海区域的有效波高等波浪数据进行数值计算。模拟区域为0°—55°N,94°E—155°E,空间分辨率为0.1°×0.1°,时间分辨率为1 h,预报时效为24 h;所用风场是通过气象研究与预报模式(Weather research and forecast model, WRF)获得,地形使用的是美国国家海洋和大气管理局发布的全球水深地形数据ETOPO1。为得到站点预报数据,采用双向线性插值的方式将数据插值到预报站点。

1.2 数据预处理

为使LSTM模型进行梯度下降处理时能尽可能快速的收敛最优点,需对数据进行归一化处理。本研究中采用的归一化方案为离差标准化,计算方式如下:

ji=(hi-hmin)/(hmax-hmin),i=1,2,…,n。

(1)

式中:ji是i时刻下的数据离差标准化的结果;hi是实测的i时刻海洋数据,本次实验使用的要素是有效波高与周期;hmax和hmin是实测数据中的最大值和最小值;n为时间序列的长度。

1.3 LSTM网络建立

1.3.1 LSTM网络运行原理 LSTM是循环神经网络(Recurrent neural network, RNN)网络的一种变体,其神经元内部引入了一个新的状态门Ct专门进行线性循环信息的传递处理,同时设置了非线性输出信息给隐含层的外部状态门ht记忆存储单元,其计算方法如下式:

(2)结合遗忘门ft和输入门it更新记忆单元Ct;

(3)结合输出门ot将内部状态的信息传递给外部状态ht,并输出数据yt。

图2为LSTM网络单元内部结构[20]。

图2 LSTM网络单元内部结构

1.3.2 LSTM模型方案设计 为订正SWAN模式有效波高的预报结果,考虑到近岸区域水深与岸线对波浪的影响,挑选某一时段内的预报有效波高(Forecast significant wave height,FSWH)、预报平均周期(Forecast mean period,FMP)作为训练数据的输入变量,对应时段下的实测有效波高(Actual significant wave height,ASWH)为训练数据中的输出变量,其中单一时刻下实测有效波高对应该时刻下的一组预报有效波高与预报平均周期,这些数据经过归一化处理输入LSTM模型中进行训练,流程为图3所示。

图3 LSTM网络训练流程

再选用另一时段下的预报有效波高与预报平均周期作为待订正数据,采用训练后的LSTM订正模型进行订正,获得订正有效波高(Correct significant wave height,CSWH),同时以相同时段下的实测有效波高作为验证数据,通过订正后的数据与验证数据的RMSE、MAE与COR评价模型订正效果。

本实验设置的LSTM订正模型有4层结构,存在1个输入层,2个隐藏层与1个输出层,隐藏层设置为100个神经元,网络结构如图4所示。该模型使用adam优化算法进行样本训练,训练次数为2 000次,激活函数为sigmoid。选取2020年5月25日—2021年6月11日作为训练时段,每小时1组训练数据,共9 168组训练数据,2021年6月12日—7月12日作为验证时段,共720组验证数据,LSTM模型的方案设定见表1。

表1 LSTM模型的方案设定Table 1 Scheme setting of LSTM model

图4 LSTM网络订正流程

2 结果与讨论

2.1 SWAN模拟结果与观测数据对比结果

SWAN主要输出的波浪要素为有效波高、平均周期与平均波向,其中由于研究区域靠近海岸线,根据海浪运动基本原理,该区域的波浪传播方向常年与海岸线保持垂直,平均波向基本不变。因此,本文仅讨论有效波高与平均周期的情况。

图5为2020年5月25日—2021年7月12日实测有效波高与预报有效波高的时间序列图。由图可知,SWAN模式在董家口港的有效波高模拟结果比实际数据偏大,RMSE为0.26 m,而两个序列存在较好的相关性,COR为0.76,满足自由度为5,显著性水平为0.05检验。从图中可以发现,SWAN模式对海浪的生成、传播复杂物理机制的模拟效果较好,故其模拟结果与实际数据的相关性较高,而SWAN模拟结果偏大的问题仍待解决。通过LSTM模型对SWAN模式的模拟结果进行订正,有望提高SWAN模式模拟的准确性,弥补SWAN模式结果偏大的缺陷。

(散点图红色线代表观测数据与预报数据完全吻合时的拟合线,黑色线为实际的预报数据与观测数据的线性拟合线,黑线与红线的夹角越小,两组数据的吻合程度更高。The red line in the scatter diagram represents the fitting line when the observation data is completely consistent with the prediction data. The black line is the linear fitting line between the actual prediction data and the observation data. The smaller angle between the black line and the red line, the higher coincidence degree of the two groups of data.)

图6为实测有效波高与预报平均周期的时间序列图。为了更好的对比二者的时间序列,本文采用归一化的方法,对两者进行处理。由图6可知,预报平均周期与实测有效波高存在一定的相关性,COR为0.59,相较于预报有效波高降低了0.17。

(散点图红色线代表观测数据与预报数据完全吻合时的拟合线,黑色线为实际的预报数据与观测数据的线性拟合线,黑线与红线的夹角越小,两组数据的吻合程度更高。The red line in the scatter diagram represents the fitting line when the observation data is completely consistent with the prediction data. The black line is the linear fitting line between the actual prediction data and the observation data. The smaller angle between the black line and the red line, the higher coincidence degree of the two groups of data.)

根据以上讨论,预报有效波高与实测有效波高的相关性更高,采用预报有效波高进行神经网路的训练更具合理性;而预报平均周期与实测有效波高存在一定的相关性,在订正预报方面仍具有一定的应用潜力,因此本文采用二者结合的方式进行训练。

2.2 LSTM订正结果对模拟效果的改善

LSTM模型训练阶段,观测数据和同期的SWAN模式结果相匹配,按照表1所列的计算方案进行训练,从而建立了相应的LSTM模型。图7、8为订正结果对比图,经过分析表明:经过训练后的LSTM模型能有效提高SWAN模式结果的精确度,训练后的有效波高的时间序列更接近观测值,RMSE和MAE分别为0.15与0.10 m,降幅分别为34.6%与46.2%。

图7 实测有效波高、预报有效波高与订正有效波高的时间序列对比图

图8中右图的夹角比左图的夹角更小,即订正有效波高与预报有效波高更吻合,误差更小。订正后的散点值明显比预报散点值更低,证明深度学习LSTM能够改善模式出现过大值的问题,弥补了SWAN模式结果偏大的缺陷。

2.3 其他订正方案平行对比

2.3.1 预报周期在LSTM模型中的作用 为评估预报平均周期在LSTM模型的订正效果,本研究重新构建了一套仅用有效波高进行训练的LSTM订正模型,第二套模型的设置与原模型相同,但输入变量剔除了预报平均周期,方案设定如表2所示。在该方案的订正下,RMSE降低为0.17 m,MAE为0.12 m,COR为0.76。图9、10为有无周期训练得到的订正有效波高对比图。

表2 第二套LSTM模型的方案设定Table 2 scheme setting of the second set of LSTM model

图9 有无周期的订正有效波高对比折线图

图10中右图的夹角比左图的夹角更小,表示有周期订正有效波高与实测有效波高更吻合,且有周期订正的RMSE、MAE均比无周期订正的低,COR比无周期订正的COR更高,表示有周期订正的结果从数值与运动趋势上都更加接近实测数据。

(红色线代表观测与预报完全吻合时的拟合线,黑色线为实际的预报与观测的线性拟合线,黑线与红线的夹角越小,两组数据的吻合程度更高。The red line in the scatter diagram represents the fitting line when the observation data is completely consistent with the prediction data. The black line is the linear fitting line between the actual prediction data and the observation data. The smaller angle between the black line and red line, the higher coincidence degree of the two groups of data.)

对比图10左图与图8左图可以发现,仅加入有效波高作为输入并不能很好的改善COR指标,而将预报平均周期纳入输入变量中,COR的改善效果极为明显。COR是衡量两组数据的运动趋势的拟合程度,COR越高,两组数据的运动趋势越相似。因此,平均周期能有效提高LSTM模型的订正效果,主要表现为对预报结果运动趋势的订正。

该现象体现了深度学习LSTM优秀的非线性映射能力。由于周期与波高为非线性关系,深度学习LSTM能够通过自适应学习的方式模拟波高与周期的非线性关系,进而通过预报平均周期改善订正结果,具体体现为对波高运动趋势的订正,具有更好的订正能力。

2.3.2 相较于传统方案的改善 为评估本实验订正方案,本文需要与传统单隐藏层订正方案的结果进行对比。国内学者通常采用人工神经网络(Artificial neural network, ANN)的方法对海浪进行订正,因此本实验采用齐义泉于2005年使用的单层ANN神经网络作为对比,配置方案与表1相同。在该方案的订正下,RMSE降低为0.17 m,MAE为0.12 m,COR为0.76。根据ANN模型的订正有效波高与加入周期后的LSTM模型订正有效波高进行对比,结果见表3与图11、12。

表3 ANN与LSTM模型的方案对比Table 3 ANN and LSTM model scheme comparison

图11 ANN、LSTM订正数据与实测数据对比折线图

(红色线代表观测与预报完全吻合时的拟合线,黑色线为实际的预报与观测的线性拟合线,黑线与红线的夹角越小,两组数据的吻合程度更高。The red line in the scatter diagram represents the fitting line when the observation data is completely consistent with the prediction data. The black line is the linear fitting line between the actual prediction data and the observation data. The smaller angle between the black line and red line, the higher coincidence degree of the two groups of data.)

由图11、12可以发现,相较于ANN订正方案,本实验采用的订正方案订正效果更好,RMSE与MAE均小于ANN的订正结果,COR大幅超越了ANN的COR,说明将预报平均周期与预报有效波高作为输入的深度学习LSTM订正结果从数值上与运动趋势上都更加贴近实测数据。

传统的ANN订正方案中虽加入了预报平均周期,但COR没有得到改善,证明传统的单层结构对非线性关系的映射能力较差,无法很好的映射周期与波高的关系。而使用深度学习LSTM能够通过加入其他相关变量,增强自身的订正能力,具有更强的订正潜力与能力,可更好的适用于近岸海浪预报中。

2.3.3 全实验方案总结 表4汇总了本次实验的全部结果。由表4可以看出,加入预报有效波高与预报平均周期的深度学习LSTM具有最好的订正效果,与其他方案相比,COR的改善效果最为明显。而只加入预报有效波高的深度学习LSTM与加入预报有效波高与预报平均周期的单隐藏层ANN二者订正效果大致相同。

表4 各方案结果Table 4 Results of each scheme

只加入预报有效波高的深度学习LSTM由于缺少周期的加入,导致订正效果降低;单隐藏层ANN无法很好的学习周期与波高之间的关系,导致其订正效果与只加入预报有效波高的订正效果大致相同。而加入预报有效波高与预报平均周期的深度学习LSTM能够通过学习周期与波高之间的关系,获得更好的订正效果。这些现象证明,加入相关变量进行订正将有效提高深度学习LSTM的订正能力,深度学习LSTM订正方案拥有许多未挖掘的潜力,具有广阔的研究前景。

3 结论

本研究在现场观测数据的基础上,将LSTM方法应用在订正近岸有效波高的模式结果中,获取了更加精确的订正结果,主要结论如下:

(1)SWAN模拟的有效波高与观测有效波高存在差异,RMSE为0.26 m。而经过深度学习LSTM订正模型的订正,能有效地减小SWAN模式数据与观测数据的误差,使RMSE与MAE等指标分别下降至0.15和0.10 m,降幅分别为34.6%与46.2%,证明深度学习LSTM订正模型具有很强的订正能力。

(2)将平均周期从输入变量中剔除,发现深度学习LSTM订正模型的订正效果下降,具体体现为COR下降了0.07。该现象表明,将平均周期纳入输入变量对LSTM订正模型的订正效果有明显改善,主要体现在对COR的改善。将平均周期纳入训练变量中,与有效波高共同训练订正模型,能进一步提高有效波高订正结果,COR提升了10%。

(3)与传统订正方案相比,深度学习LSTM订正模型能够通过加入相关变量提高订正能力,证明该模型拥有许多未挖掘的潜力,具有广阔的研究前景。

本研究证明深度学习可应用于近岸有效波高的数值模拟与预报的研究中,同时加入平均周期作为输入变量可作为提高订正精度的手段,为近岸海域设计波高的推算以及船舶泊稳领域的应用提供参考。

猜你喜欢
波高海浪数值
基于FHDI-GNWM 数据的全球超越概率波高宏观分布特征分析
用固定数值计算
丫丫和小海浪
海浪
数值大小比较“招招鲜”
基于漂流浮标的南大洋卫星高度计有效波高研究
非平整港池的多向不规则波试验研究
樊应举
海堤设计波高计算
基于Fluent的GTAW数值模拟