最小二乘与岭估计在沉降数据处理的应用

2022-12-02 08:27程海港
农业与技术 2022年22期
关键词:估计量均方病态

程海港

(华北理工大学,河北 唐山 063210)

引言

最小二乘估计在回归分析中应用较为广泛,但当自变量自身之间存在某种复共线性关系,使得最小二乘估计的法方程系数矩阵N奇异,最终的参数估计与真实值相差很大,使得建立的模型很不稳定,最小二乘估计法在这类问题应用中无法得到较为准确的结果[1,2]。而岭估计是针对处理复共线性数据分析的有偏估计手段,其是以牺牲最小二乘法的无偏性和局部精确度为代价,从而找到效果略次于此但更加接近实际情况的回归过程,最终得到较为准确的模型结果[3]。

岭估计方法于1962由A E Hoerl首次提出,后来通过R W Kennard在1970年进行系统完善发展,该方法可以在很大程度上降低设计矩阵列复共线时最小二乘估计量的均方误差,增强估计的稳定性。岭估计的研究和应用得到广泛的重视是自1970年开始的,此后岭估计便在有偏估计这一领域占有了一席之地。岭估计之所以区别于常态的最小二乘估计是因其带有约束条件线性模型回归系数,属于岭估计理论的内容。模型回归系数的最小二乘估计的分量有偏大的趋势的原因是设计阵呈病态而导致其性质变差,故通过对其千分量加以约束的方法而获得的估计来改善这一不足。岭估计相对于非约束病态模型的最小二乘估计确实有所改进,但并不能改变其不唯一性这一特性。

1 岭估计

岭估计作为对最小二乘估计的一种改进的有偏估计,参数X的岭估计为:

(1)

岭估计的中心思想是一种改良的最小二乘估计法,岭估计方法的目的主要是在减少均方误差的同时尽可能提高估计量的稳定性,但其缺点是估计量是有偏的。估计量的方差与k值的大小呈反比,同时,k的引入也导致偏性发生变化使其成为有偏估计量,偏误趋势的大小与k值呈正比。一个优质的估计量虽然应同时具备无偏性、方差最小这2个标准,但是由于这2个标准是相互矛盾的,因此选k的值择成了一个难点。虽然许多专家学者已提出多种确定k值的方法,但是,还没有一种大家公认的、最优的确定k值的方法。

1.1 岭迹法

方程的各回归系数的岭估计大概率呈平稳状态;进行一般最小二乘法估计时,正负号的出现使回归系数出现病态,岭估计可以使其符号变得合理,即岭估计方法的使用改善了回归方程参数估计的效果,岭估计相对于非约束病态模型的最小二乘估计确实有所改进,但并不能改变其不唯一性这一特性;回归系数的符号全部合理;估计量没有损失太多的精度,即残差项的平方和增量很小。

1.2 双h公式法

一种确定随机岭参数的公式称为双h公式,可简化h1=t,h2=0。

(2)

式中,A>0为已知矩阵,此公式因含有h1,h22个可自定义的参数,故有“双h公式”之名。其是由Vinod和UIIah等归纳总结一系列结果而提出的一种方法。若使用式(2)来确定岭参数,一般称相对的岭估计为双h类岭估计(Double h-class ridge estimate),若取A=I,h1=p,h2=0,式(2)即为Hoerl-Kennard- Baldwin迭k公式。

(3)

若取A=X′X,h1=p,h2=0,则式(2)即为Lawless-Wang迭k公式。

(4)

在式(2)中,若Q′AQ为对角阵,h1,h2满足:

(5)

则对一切β,σ2,双h类岭估计比LS估计有较小的均方误差。这里ηp为式(2)中A的最小特征根。证明考虑β的任双h类岭估计:

(6)

(7)

(8)

由式(7)、式(8)可得:

(9)

(10)

(11)

这里ηi为W的对角元,欲

(12)

一个充分条件为h1>0,且式(11)的第2项均值部分小于0。假设h1>0,h2≥0,则

△g>0

(13)

于是式(12)成立的一个充分条件为:

(14)

将式(11)对i求和,从式(14)可知:

1.3 方差扩大因子法

(15)

此外,还可以根据Hoerl、Kernard和Baldwin提出的方法取k的固定值。具体确定方法如下。标准化的回归模型为:

(16)

k的计算公式:

(17)

1.4 迭代法

迭代法是将上面计算的k的固定取值作为k的初始值,记为k0,然后建立回归方程,估计回归方程的参数,并计算新的k:

(18)

按同样的方法,用k计算k2,重复这一过程,直到k的前后2个估计值之间的差异不是很明显为止。

2 应用实例

2.1 数据选取

为了对监测网的变形分析更加深入地了解验证方法的可行性,选取某区域地面沉降水准测量基准网作为试验网形,对4个点位其进行10个周期的观测,得到各个点位的观测值并通过计算得到其沉降量。数据来源于吕栋的《基于秩亏自由网平差的变形分析与C#程序设计》。原始数据如表1所示。在MATLAB中使用双h法,选取h1=4,h2=0,计算结果如表2所示。

表1 原始数据

2.2 数据对比分析

表2 ABCD 4点高程的最小二乘估值

表3 ABCD 4点高程岭估计估计值

图1 岭估计结果

由图1可知,岭估计在k取得最大值时效果最优,即k=10时。图2直观地描述出了最小二乘估计与岭估计值的差值(相同颜色的实线虚线为同一点的估计值,实线表示的是最小二乘估计值,虚线表示岭估计值),可以看出最小二乘估计值略高于岭估计值。

由表1、表2可知,最小二乘估计的残差较大,原因是法方程出现病态,从而歪曲了参数求解的稳定性,导致转换结果不稳定。为此,本文利用岭估计平差方法进行多项式曲面拟合,消除法方程病态以后,转换结果得到了有效的改善。因此,利用岭估计法进行沉降数据处理,能有效克服法方程的病态性,提高数据处理的稳定性。

图2 不同方法计算结果对比

3 结论

通过计算可得二者均方误差,最小二乘的MSE=73.2382 ,岭估计的MSE=0.1463,对比均方误差可以看到,由于数据存在共线性,最小二乘回归得到的均方误差大于岭估计方法,说明计算结果存在一定的偏差,说明岭估计确实在均方误差意义下改进了LS估计。本文通过实例计算验证了岭估计方法在二次曲面模型在高程拟合中的优越性,表明双h公式法求岭参数是可行的,而且效果显著。可以看出,岭估计法不仅可以解决变形监测计算点位高程时出现的法方程病态情况,而且拟合精度也有所提高。

猜你喜欢
估计量均方病态
一类随机积分微分方程的均方渐近概周期解
病态肥胖对门诊全关节置换术一夜留院和早期并发症的影响
病态肥胖对门诊关节置换术留夜观察和早期并发症的影响
Beidou, le système de navigation par satellite compatible et interopérable
君子之道:能移而相天——王夫之《庄子解》对“社会病态”的气论诊疗
基于抗差最小均方估计的输电线路参数辨识
基于配网先验信息的谐波状态估计量测点最优配置
基于随机牵制控制的复杂网络均方簇同步
负极值指标估计量的渐近性质
使用变异系数和Kurtosis系数的双辅助变量的比估计