黄收友,范凯旋,黄冠利
(1.湖北师范大学 数学与统计学院,湖北 黄石 435002;2.北京电子科技职业学院 基础学院数学部,北京 100176)
在过去的几十年里, 人工智能得到了快速发展, 已经成为许多国家大力发展的方向。伴随着人工智能的飞速发展,数据也呈指数级增长。而面对这样的大数据,经典的方法或者数据库在获取和存储数据等方面变得捉襟见肘,发展行之有效的方法已成必然。另外,大数据又很容易被异常值污染, 或者含有重尾分布的变量等等,这些使得许多传统的方法都不适用。 例如:受异常值或非高斯分布的噪声影响, 经典的最小二乘法[1,2]很容易产生较大偏差。
自从 Huber[3]提出稳健估计以来,已经有许多这方面的工作。文献[4]介绍了参数模型的稳健估计理论,并将其应用到实际中。Sun[5]等人近期提出了自适应 Huber 回归估计。在弱矩条件下,他们建立了回归参数的相位平移的稳健估计,并通过仿真证明了该方法的有效性。需要特别指出的是:在弱矩条件下,文献[6]考虑了误差熵最小化算法的点对学习问题。不仅论证了算法的相合性,而且证得最优收敛率。此外,Huang[7]等人研究了基于Huber损失函数的稳健学习问题。
尽管关于指数损失函数的文献已有一些,例如:Middleton[8,9]将指数损失函数应用到通信理论中。基于指数损失函数, Deutsch[10]研究了在非高斯噪声情况下的通信理论,但目前尚未发现有人研究在弱矩条件1+α阶下的稳健学习问题,为此本文将进行这方面的研究。
在统计学习理论框架下,通常假设随机变量X取值于输入空间Θ,随机变量Y取值于输出空间
假设1 (弱矩条件) 存在一个常数α>0,使得
本文将基于加性噪声模型
Y=f*(X)+ξ
假设2 不失一般性,令M=max{‖f*‖∞,supf∈H‖f‖∞,1}<∞对任意f∈H以及目标函数f*,则有
(1)
其中H为假设空间,在统计学习理论中通常选取再生核希尔伯特空间。假设2表明f以及目标函数f*是有界的,这是由于在统计机器学习中,通常采用小样本学习。该假设条件也是统计学习理论中经典假设条件。我们的目的在于:通过样本去学习一个定义在假设空间H上的函数,使其能很好地逼近回归函数f*(X).这个函数就是经验目标函数,即
其中L(yi-f(xi))为经验损失函数。εz(f)为经验误差,其相应的泛化误差为
ε(f)=EL(Y-f(X))
在经典的回归分析中,我们常常利用最小平方误差来刻画,此时的经验目标函数
众所周知,对于高斯噪声,fz是最优的。然而在现实问题中,样本点易受离异值或者重尾噪声干扰,经典的最小二乘回归容易产生较大偏差,因此本文选用一个更稳健的方法来代替经典的最小二乘法,我们定义稳健的经验风险最小函数
其中σ是调节参数且大于零,指数损失函数为
其中K>0.取K=2σ2,当σ充分大时,利用泰勒公式展开可知,
Lσ(y-f(x))≈L(y-f(x))
进而可知,其相应的稳健泛化误差为
εσ(f)=ELσ(Y-F(X)).
引理1 若f(x)是定义在Θ上的有界函数,f*(x)是回归函数,则有
证 一方面,由平方差公式可得
(y-f(x))2-(y-f*(x))2=2y(f*(x)-f(x))+(f(x))2-(f*(x))2
另一方面,由回归函数的定义可知
=2(f*(x))2-2f(x)f*(x)
进而可得
从而证得引理1.
本节首先阐述了主要结论,即关于指数损失函数的比较定理,得到过度泛化误差的稳健估计。进而利用马尔可夫不等式、赫尔德[12]不等式及相关性质,证明了过度泛化误差与预测误差间的关系。
定理1 若σ>1,假设1和假设2成立,对任意定义在Θ上的可测函数f(x)及回归函数f*(x),则有
其中φα=min{α,1}.C与K,M,α的取值有关,且
以及
从而可得
=∶Q1+Q2
一方面,由马尔可夫不等式可知
(2)
(3)
由赫德不等式及 (2) 可得
(4)
结合 (4),(2)及 (1),进而可得
(5)
联立 (3) 和 (5),从而可得
Q1≤Q11+Q12
(6)
接下来我们将估计Q2,为方便起见,不妨设Fσ(t)=Lσ(t)-t2,由均值定理可知
其中ζ取值于y-f(x)和y-f*(x)之间
(7)
结合 (6) 和 (7) 可得
≤Cσ-φα
其中φα=min{α,1}.C与K,M,α的取值有关,且
从而得证定理1.
注2 该定理表明了过度泛化误差与预测误差间的关系,也就是说它们间的差值上界为O(σ-φα).显然易知σ的取值与样本的大小n相关,即当n越大时,过度泛化误差与预测误差间的差值越小。
在统计学习理论框架下,基于非凸指数损失函数,本文阐明了统计学习过程中过度泛化误差与预测误差之间的关系。此外,研究表明算法的稳健性参数与样本大小、维数和矩条件密切相关。这为进一步研究经验风险的学习问题提供必要的理论支撑,后续我们将继续考虑在正则化条件或者更复杂的函数空间下的算法设计、稳健学习等问题。