基于稀疏偏最小二乘的大坝安全监测模型研究

2022-12-08 13:33周子玉李艳玲朱斯杨李诗婉
水利规划与设计 2022年11期
关键词:解释性共线性回归系数

周子玉,李艳玲,朱斯杨,李诗婉

(1.四川大学水力学与山区河流开发保护国家重点实验室 水利水电学院,四川 成都 610065;2.四川省遂宁市水利局,四川 遂宁 629000)

大坝安全监测是保障大坝安全运行的重要措施[1],随着互联网、大数据等技术的发展,大坝监测迈向自动化与智能化,产生了大量的监测数据[2- 3]。利用原观数据构建合理的监测模型对于准确掌握大坝安全性态具有重大意义[4- 5]。

传统统计回归由于原理简单、计算便捷且能反应环境量对监测效应量的影响而在大坝监测数据分析中应用最为广泛。其中逐步回归能剔除不显著的环境量因子、偏最小二乘回归(PLS)能解决变量中高度相关的问题[6- 7]。王佳林[8]等结合偏最小二乘回归和遗传算法对回归系数的选取进行了优化,李麒[9]等通过SWT小波去噪后再采用SVR构建变形预测模型,均提升了模型的精度;Belmokre[10]等和Chen[11]等采用机器学习方法改进统计回归模型,消除了传统统计回归模型多重共线性带来的预测误差。

受施工、荷载等外界环境变化,人为或监测设备短期测值异常等因素影响,大坝安全监测数据中不可避免会出现单点离群、多点离群、台阶型等数据序列[12- 13]。以上对于周期型、直线型数据拟合较好,但是对于异常波动型、台阶型等含大量离群点的数据适用性低,且上述方法因不能准确进行变量筛选,导致模型解释性很差。为此,本文针对逐步回归、偏最小二乘回归在大坝统计回归中存在的主要问题,分析了其产生的原因,构建了基于稀疏偏最小二乘的大坝监测数据模型,将其运用于周期型、直线型、异常波动型、异常台阶型等多种原观监测数据序列中,并将结果与传统方法对比,分析其模型的拟合精度、预测精度与模型解释性能的改善情况,论证该模型的合理性与有效性。

1 基本原理

(1)

(2)

F0=t1r1+F1

(3)

判断模型是否到达满意的精度,如果没有则继续提取主成分。假设提取k个主成分后的回归方程(4)。

(4)

稀疏偏最小二乘法(SPLS,Sparse Partial Least Square)是在偏最小二乘法的基础上,通过在求解方向向量过程中施加惩罚来产生稀疏的估计结果,从而放大重要变量的回归系数,压缩无关变量的回归系数甚至移除变量,达到变量筛选的目的[14]。

SPLS模型的核心在于方向向量的求解,下面重点介绍方向向量的求解方法。首先引入SPLS中第一个方向向量,第一个主成分的稀疏化方向向量可以在方向向量w1上施加L1-惩罚(lasso惩罚)获得,即给式(1)增加一个权重,即:

(5)

(6)

式中,c1—w1的替代向量,两者高度相关;λ1和λ2—加权惩罚因子;κ—一个用来控制问题凹凸性的参数,可通过c1和w1进行求解。当κ=1时即可等价为PLS中初始最大特征值的求解。

针对于SIMPLS或NIPALS迭代算法结合史密斯正交化方法存在造成向量不收敛,得到的结果不准确的问题。本模型采取Hyonho Chun和Sunduz Kele[16]提出新的算法,通过记录NIPALS或SIMPLS算法的每一步来寻找活跃变量,使方向向量得到不断更新[17],从而进行求解。SPLS算法的步骤如下:

设A为活跃变量的指标集,K为方向向量的个数,令XA为监测环境量X的子矩阵,XA其列指标都包含在A中。

Step1:环境量X和效应量Y经过标准化。

Step3:若k≪K,则

稀疏偏最小二乘回归有4个参数(κ,λ1,λ2,K),为了让结果收敛,约束条件λ2需要足够大,即λ2→∞,κ取值范围为κ∈[0,0.5],对结果不起决定作用。因此这4个参数中只有阀值参数λ1和成分个数K是关键参数,可以使用交叉有效性判别来确定λ1和K的最优值,这里不作过多的介绍。

这样在提取主成分时,对方向向量施加惩罚,可以使不相关变量的回归系数被惩罚为零,达到变量筛选的目的。

2 工程校验与精度分析

2.1 模型拟合精度分析

以大坝监测数据中较为典型的测点TP10X(周期型)、P43(直线型)、P37(异常波动型)、TP32(异常台阶型)为例。经计算,对周期规律型、直线型等数据序列,本文提出的模型较逐步回归及PLS回归模型的拟合精度略有提升;对含有异常波动、台阶等异常测值的数据序列则提升明显,见表1,如图1所示。分析其原因在于异常测值影响到原始数据序列的变化规律,逐步回归、PLS模型不能正常提取解释能力最强的综合变量所致;而SPLS模型能够在方向向量求解过程中施加惩罚函数,将无关变量压缩至零,修正异常数据集合的估计结果,从而减小数据异常波动或飘逸的影响。

表1 各模型拟合精度对比表

图1 逐步回归、PLS、SPLS模型拟合效果对比图

2.2 模型预测精度分析

以某土石坝坝顶水平位移测点TP36为例,SPLS模型预测精度略优于偏最小二乘回归模型,较逐步回归模型预测精度提升明显,见表2,如图2所示。分析其原因在于逐步回归中变量之间共线性增加会使回归系数估计方差迅速增大,导致无法正常进行变量筛选,模型中因保留很多相关密切的变量而产生过拟合现象,从而导致出现模型拟合精度高,但是泛化性能差,预测精度低的情况;而PLS回归能助信息分解和筛选提取出解释性最强的综合变量,剔除多重相关信息的干扰,消除了变量间多重共线性影响,使模型不再出现过拟合现象,从而提高模型预测精度;SPLS模型是以PLS为基础,并对其变量进行稀疏化处理,更能有效消除变量间多重共线性影响,提高模型的泛化能力,避免产生过拟合现象,拟合精度得到进一步提升。

表2 各模型相同测点预测精度对比表

图2 某坝坝顶水平位移测点TP36 三种模型拟合效果和预测效果图

2.3 模型的解释性分析

以某土石坝高程2138.00m坝顶轴线水平位移测点TP28—TP36为例,通过逐步回归、PLS回归、SPLS回归模型进行环境效应量对比分析。其测点实测过程线如图3所示,环境效应量占比如图4所示。

逐步回归模型中,环境量影响因子差异较大,多数测点主要受时效影响。坝顶右岸测点TP36时效分量占比接近70%,而相邻测点TP35模型中却不含时效因子;就河床坝段测点TP30—TP34温度

图3 某土石坝坝顶水平位移测点TP28-TP36实测过程线

图4 某土石坝坝顶水平位移测点TP28-TP36 三种模型各样本环境效应量占比图

分量占比而言,占比分别为12%、12%、29%、10%、10%,其中TP32测点温度占比为相邻测点的3倍,均与土石坝水平位移变化规律不吻合。其原因在于变量之间的高度相关性会影响回归参数的显著性检验,可能将重要变量误删除,同时在变量高度相关的条件下,样本数据的微小变化对回归系数的估计值影响很大,因此同类测点的数据虽然变化规律类似,但得到的模型结果可能并不相似。

PLS回归模型消除了变量间多重共线性影响,但该模型不能进行变量筛选,模型中含有所有自变量,大量的无关变量使得模型解释性很差。各测点温度占比均在40%左右,效应量占比整体表现为土石坝主要受温度影响,时效次之,水压影响最小。然而对于土石坝而言,坝体变形主要受温度影响则不符合工程实际情况。

SPLS模型为PLS的改进,不仅能有效消除变量间多重共线性影响,而且由于该模型在提取方向向量时加入惩罚函数,能剔除无关变量,并扩大重要变量的回归系数,压缩影响程度较小但仍具有一定相关性的变量的回归系数,使得同类测点的模型稳定性和整体性很好。各测点水平位移主要受水位和时效影响,占比分别为55%、40%左右;时效占比均在5%以内,符合实际情况,其模型解释性较逐步回归及PLS模型显著提升。

3 结语

(1)常用的逐步回归模型能进行变量筛选但抗噪能力弱,易受到变量间多重共线性的影响,出现模型稳定性、解释性差,拟合精度高但预测精度低等问题。偏最小二乘回归模型解决了变量间多重共线性的影响,但仍存在抗干扰能力弱,不能进行变量筛选和解释性差等问题。

(2)稀疏偏最小二乘回归模型以偏最小二乘的基础,在方向向量的求解过程中施加惩罚函数产生稀疏估计,压缩无关变量,放大重要变量,因此可以消除变量间多重共线性,并且能够进行变量筛选。

(3)工程应用及对比分析表明,稀疏偏最小二乘回归模型对周期型、直线型、异常波动、异常台阶型等多种实测监测序列的适用性均较好,模型拟合、预测精度均有所提升,并且能够更加准确地挖掘监测环境量与效应量之间的潜在相关性,从而提高了模型的解释性,为大坝安全监测分析提供了一种新方式。

猜你喜欢
解释性共线性回归系数
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
论行政自由裁量的“解释性控权”
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
基于生产函数模型的地区经济发展影响因素分析
英汉互译中的认知隐喻翻译探究
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
一种基于词语计算的模糊分类系统的设计方法