次成分提取信息准则的加权规则方向收敛分析

2020-04-06 08:24杜柏阳孔祥玉冯晓伟
通信学报 2020年3期
关键词:夹角准则向量

杜柏阳,孔祥玉,冯晓伟

(1.火箭军工程大学导弹工程学院,陕西 西安 710025;2.火箭军工程大学核工程学院,陕西 西安 710025)

1 引言

在信息处理领域,次成分(MC,minor component)是指输入信号的自相关矩阵中与最小特征值对应的特征向量,次子空间(MS,minor subspace)是指由多个次成分张成的子空间。提取次成分和跟踪次子空间的算法分别被称为次成分分析(MCA,MC analysis)算法和次子空间跟踪(MSA,MS analysis)算法。MCA 算法和MSA 算法在总体最小二乘[1]、自适应波达方向估计[2]、曲面拟合[3]、稳健波束分析[4]等问题中具有重要应用。

传统的代数次成分批处理法只能处理离线的、静态的信号,且具有较高的计算复杂度。实际中的信号往往是在线获取的动态数据,因而传统方法的应用十分受限。相比而言,神经网络算法能够处理的信号不受上述2 个条件的限制[5],并且许多神经网络算法具有较小的计算复杂度。近年来,学者们提出了许多MSA 和MCA 的神经网络算法[5-7]。在这些算法中,Möller[5]算法只能提取单个次成分,PAST(projection approximation subspace tracking)算法[8]、Ojam 算法[9]和Kong 等[2]所提的算法可以跟踪输入信号的次子空间,Jankovic 等[10]所提的算法和AMMD(adaptive multiple minor direction)算法[11]可以提取输入信号的多个次成分。上述研究都是单独针对MSA 或者MCA 问题开展的,实际上,MSA 和MCA 算法之间存在一定关联,在一定条件下可以相互转换。例如,Jankovic 等[10]通过TOHM(time-oriented hierarchical method)转化装置实现了MSA 算法到MCA 并行算法的转换,Thameri 等[12]则通过Givens 旋转实现了MSA 算法到MCA 算法的转变。这种通过转化转置实现算法转化的方法具有结构复杂、计算复杂度较高的缺点[13]。另一种行之有效的转化方法是使用加权规则。然而,目前关于加权规则的研究还比较少。文献[14]介绍了用于提取多个次成分的加权信息准则。目前,对经过加权的次成分分析算法的性能分析与传统的单维次成分提取算法的性能分析大体相同,主要集中于算法的收敛性、自稳定性等。而实际上,经过加权的算法能够实现多个次成分同时提取,该性能是传统单维次成分提取算法所不具备的,需要研究多个次成分在提取过程中的方向收敛问题。目前,研究并行多个提取问题的学者主要将兴趣集中于算法的提出,极少有对方向收敛问题开展探讨。那么,加权规则对于MSA 信息准则转变为MCA 信息准则的过程发挥了什么样的作用,这样的作用过程对于其他子空间提取信息准则的转变是否具有普适性?这个问题的解答对灵活转换各种先进的成分提取算法,增加人们对提取算法本质和多种性质的理解具有十分重要的意义。

多个次成分可以张成一个次子空间,因而通常认为多个次成分的提取算法是次子空间跟踪算法的进步。Toshihisa[15]通过研究多个次成分提取算法的广义加权规则,指出广义加权规则的参数对提取算法的收敛速度存在影响,即加权规则的参数变化会引起算法的性质变化。当参数的取值沿着实数轴负方向变化时,加权矩阵则逐渐近似为单位矩阵,算法的提取能力逐渐由多个次成分提取退化为次子空间跟踪。

实际上,只有一部分次子空间提取算法在使用加权规则后可以转化为多个次成分的提取算法。次子空间与次成分的偏离程度可以通过次子空间的组成向量与次成分之间的夹角表示。当提取算法逐渐稳定以后,次子空间跟踪算法状态矩阵的夹角是一个随机值,而转化为多个次成分提取算法状态矩阵的夹角总是某个对角矩阵。这说明加权规则的加入改变了该夹角的变化规则。本质上,信息准则函数在算法对信息的归类方式、算法提取信息的方式等方面存在隐性的规定,因而信息准则对夹角的变化方式具有决定作用。因此,通过理论分析信息准则对MSA 和MCA 算法状态矩阵夹角的作用过程,能够反映算法的一些本质特性。

本文主要针对加权规则对次成分提取算法的信息准则的作用进行分析,以PAST 的次子空间跟踪算法为例,通过构建提取算法的动力学表达,对比有加权规则和无加权规则下的次子空间跟踪信息准则,挖掘信息准则对状态矩阵与次成分的方向夹角的梯度差异。本文专门对一类次成分分析算法的方向收敛性能进行总结,并同时采用理论和仿真的方法对该性能开展分析。

2 加权规则

Yang[8]在研究子空间跟踪问题时提出次子空间PAST 算法,该算法的信息准则为

其中,W ∈Rn×r为算法的状态矩阵,n 为输入信号的维数,r 为需要提取的次成分个数,R=E[xxT]∈Rn×n为输入信号x 的自相关矩阵,E[·]表示数学期望。假设R 是满秩矩阵且特征值互不相同,那么,输入信号有n 个特征向量 φi,i=0,1,…,n-1。当存在一个向量 W=Wn,使信息准则函数值 J1(W)取得最小值时,Wn就等价于信号的次子空间,也就是前r 个特征向量 φi张成的子空间。

PAST 信息准则对应的加权信息准则(WPAST,weighted PAST)为

其中,D=diag(d1,d2,…,dr)∈Rr×r为一个对角矩阵,其作用是为状态矩阵加权,其各元素降序排列。类似于PAST 算法的信息准则,当 W=Wn时,J2(W)取得最小值,此时Wn的各列向量恰好等于R 的前r 个特征向量 φi。显然,当加权矩阵等于单位阵时,WPAST 信息准则退化为PAST 信息准则。

以上2 个信息准则求取相应跟踪提取算法是通过梯度下降法实现的,其基本的计算式为

其中,ΔW(k)为算法的搜索方向,文献[15]指出,该方向为信息准则的梯度下降方向,即ΔW(k)=;W(k)为第k 步迭代中的状态矩阵,其维度与式(1)中W 相同;η ∈(0,1)为次成分提取算法的学习因子。另外,有些算法采用可变步长来加速算法的收敛过程,但是只要步长设置合理就只影响算法的收敛速度而不影响其收敛行为。因此,为了简化算法分析过程,假设学习因子是固定长度的。

式(1)信息准则对W 的梯度为

根据牛顿梯度下降法,可得

进而,可以得到PAST 算法的常微分方程形式为

文献[8]的收敛性分析表明,该算法能够有效地在线跟踪信号的次子空间。定义状态向量和实际次成分方向的偏转矩阵为M1∈Rn×r,实际次成分组成的矩阵为P=[φ0,φ1,…,φn-1]。由于矩阵M1一定位于由P 张成的空间中,于是状态矩阵W 可以改写为W=PM1,其中M1随着W 变化。当算法收敛后,M1的前r 行元素收敛为某个旋转矩阵,后n-r行元素收敛为0。

同理,式(2)信息准则经过梯度下降法推导,可得WPAST 算法的常微分方程形式,如式(7)所示。

该算法能够有效地在线并行提取多个次成分。类似地,存在一个M2∈Rn×r,使W=PM2。总体而言,2 种算法的稳定点PM1和PM2都包含信号的次成分,说明这2 种算法都提取出信号中能量较小的部分信息。不同之处在于,M1的前r 行和前r 列是一个旋转矩阵,这代表PAST 算法跟踪的次子空间与信号的真实次成分方向存在偏角,而且这个偏角随跟踪过程的变化而变化。在WPAST算法提取多个次成分时,M2的前r 行和前r 列元素最终收敛到一个对角矩阵。这说明与PAST算法相比,WPAST 算法因为加权而附加了角度变化的属性,这个属性决定了WPAST 算法具备多个次成分提取的能力,而PAST 算法则只能提取次子空间。本文通过分析M1和M2变化的差别,从微观角度探究加权规则对算法的动力学特性的影响。

3 次成分提取过程动力学分析

不同维数提取过程有不同的角度数量。一维特征提取时,次子空间退化为次特征向量,此时2 种算法效果一致。二维特征提取时,旋转矩阵包含一个旋转角度。三维特征提取时,旋转矩阵包含2 个角度。依次类推,多维次成分分析算法提取r 维特征时,旋转矩阵包含的角度数量为个。

需要说明的是,因一维特征提取算法不具有旋转角度信息,此时只需要考虑模值收敛性,此种情况已被确定离散时间(DDT,determinate discrete time)方法[16]广泛分析。因此,本文仅针对二维及以上的信号特征进行分析。下面从二维特征情况入手分析,并以二维特征为基础,逐步分析高维特征提取过程。

定理1考虑二维旋转矩阵M1只有一个旋转角度,那么对信息准则 J1(W)而言,其对该旋转角度的二阶导数为0。

证明已知二维旋转矩阵只有一个旋转角,假设M1的旋转角度为θ,则M1可以表示为

此时,信息准则式(1)则表示为

信息准则对角度的梯度可以通过梯度下降法求得,如式(10)所示。

其中,有

因而可以得出

式(13)表明不存在某一点,使在该点处状态向量与信号次成分方向的夹角最小。也就是说,信息准则 J1(W)不能确定状态矩阵的各个向量与信号次成分方向的变化。

证毕。

信息准则对角度的二阶导数为0,说明信息准则没有规定旋转角度的变化方式。具体地,在信息准则的任何一点上,状态矩阵中各个向量与对应次成分的夹角的导数以及其本身是不确定的。另外,从导数的角度理解定理1,则有在信息准则式(1)的梯度算法下,提取出的次子空间与信号次成分的夹角和算法设置的状态矩阵初值相关。实际上,加权规则能够改变信息准则的这个性质。具体过程可以通过定理2 说明。

定理2考虑二维旋转矩阵M2只有一个旋转角度,那么对信息准则 J2(W)而言,其对该旋转角度的二阶导数不为0。

证明令M2的旋转角度为θ,那么M2可以表示为

此时,信息准则式(2)则表示为

同样地,该信息准则对角度的梯度也可通过梯度下降式求解,可得

其中,有

此时,可得

信息准则 J2(W)对角度二阶导数不为0,说明信息准则规定了旋转角度的变化方式。具体地,在信息准则的任何一点上,状态矩阵中各个向量与对应次成分的夹角的导数是确定的,而且在极小值点处,状态矩阵中各个向量与对应次成分的夹角的导数以及其本身都是确定的。

证毕。

以上分析是在n=2、r=2这一特殊情况下进行的。为使结论更具有一般性,下面进一步讨论n>2、r=2的情况。

推论1当n>2、r=2时,二维旋转矩阵Mi,i=1,2各只有一个旋转角度,信息准则 J1(W)对旋转角度的二阶导数为0,而信息准则 J2(W)对旋转角度的二阶导数不为0。

证明文献[8]已经证明,对于n>2、r=2的情况下的 J1(W)和 J2(W),对应的梯度算法都能够跟踪次子空间。即W 的后n-r列元素总是逐渐变化为0。不妨认为,当迭代次数大于某一个大数时,状态矩阵可以表达为,i=1,2。问题转化为n=2、r=2的情况,此时结合定理1 和定理2 的结论可知,信息准则 J1(W)对旋转角度的二阶导数为0,而信息准则 J2(W)对旋转角度的二阶导数不为0。

分析推论1 的结论可知,只要提取二维特征向量,信息准则 J1(W)对角度二阶导数为0,即在J1(W)的任何一点上,状态矩阵中各个向量与对应次成分的夹角的导数以及其本身是不确定的。信息准则 J2(W)对角度二阶导数不为0,即在 J2(W)的任何一点上,状态矩阵中各个向量与对应次成分的夹角的导数是确定的,并且在极小值点处,状态矩阵中各个向量与对应次成分的夹角的导数以及其本身都是确定的。

在n=r、r>2的情况下,主要考虑欧拉转角描述所有的角度变化。假设第j 个相角变化为 θj,j=1,2,…,r,根据欧拉转角规则,第j 个角是在第j-1个角的基础上进一步旋转的。例如r=3时旋转矩阵M*表示为

其中,M*1和M*2分别为

依次类推,将1 放在不动轴的位置,并且该元素所在行和列的其他元素均为0,不动轴的数量为r-2,则旋转次数为

推论2当n=2、r >2 时,信息准则 J1(W)对旋转角度的二阶导数为0,而对信息准则 J2(W)对旋转角度的二阶导数不为0。

证明类似于定理1 和定理2 的证明步骤,信息准则式(1)表示为

不同的是此时的旋转矩阵变为

同时,信息准则对角度的梯度表达为多个计算式,如下所示。

由式(25)可得

显然,对于未加权的信息准则 J1(W),对于任意θ 恒成立。类似地,对加权信息准则,有

其中,有

对于n >r、r>2的情况,其基本思路同推论1,即通过分析一定条件下状态矩阵各个向量的长度变化情况,最终转化为n=r、r>2的情况,并结合推论2 的结论实现对该情况的讨论。

证毕。

通过上述定理和推论可知,加权规则对提取算法产生影响的本质因素是加权矩阵改变信息准则在方向上的梯度变化。这对研究的启发是在考虑将次子空间提取算法改进成并行提取算法时,其核心步骤是使算法在状态矩阵与实际次成分的夹角方向上产生梯度。

4 数值分析与仿真校验

为直观展示加权算法的方向收敛属性,本文通过2 组数值算例对比 J1(W)和 J2(W)这2 种信息准则的方向收敛性能。实验中,输入信号的真实次成分P=[φ0,φ1,…,φn-1]是通过离线的特征值分解方法计算得到的。

4.1 2 个次成分提取算例

该算例展示2 种信息准则对状态矩阵各个向量与信号次成分方向提取的不同表现。加权矩阵规定为D=diag(1,2)。令θ 表示状态矩阵的单个向量与对应次成分方向的夹角,设置θ 的变化区间为(0,2π],实验中均匀提取了10 000 个点,点间最小间距为。通过θ 可以表示旋转矩阵,通过M*可以表示状态向量W=PM*,状态向量在第一次成分方向的投影为X,在第二次成分方向的投影为Y,又根据式(1)和式(2)可以分别表示 J1和 J2,仿真结果分别如图1~图4 所示。

图1 PAST 信息准则和WPAST 信息准则在θ 变化情况下的数值变化

图2 PAST 信息准则和WPAST 信息准则在处的投影

图3 PAST 信息准则在θ 变化情况下的数值变化

图4 WPAST 信息准则在θ 变化情况下的数值变化

图1 中,外侧的曲面圆锥为PAST 信息准则函数值变化情况,内侧的曲面圆锥为WPAST 信息准则函数值变化情况。首先,函数值会随着状态矩阵中向量模值的变化而变化,为清晰地表征这个特点,该算例在某一个固定的角度投影2 个信息准则函数,如图2 所示,这说明信息准则函数能够提取信号的次成分信息。其次,2 个曲面变化都具有对称性。其中,内侧的曲面圆锥是随着θ 周期对称的,这印证了定理2 的结论,而外侧的曲面圆锥是处处对称的。

另外,2 个曲面的变化也存在差别。首先,观察向量模长固定,θ 在区间(0,2π]变化时,2 个函数的变化情况。由图1 中外侧的曲面圆锥可知,在θ 变化的情况下,PAST 信息准则函数值没有变化。为了直观展示,在图1 中做状态矩阵模长为1.5、θ在区间(0,2π]上的圆柱面,将圆柱面与函数曲面圆锥的交线向底面投影并展开,展开的结果如图3 所示。由图1 中内侧的曲面圆锥可知,WPAST 信息准则函数值在θ 变化的情况下,呈现三角函数的变化形态。为了直观展示,采用与外侧圆锥曲面相同的步骤得到投影的展开结果,并展示在图4 中。其次,观察θ 值一定时2 个函数沿着模值长度的变化情况。如图2 所示,WPAST 函数的斜率绝对值明显大于PAST 函数的斜率绝对值。

上述实验分析表明,在提取2 个次成分方向的情况下,PAST 信息准则不能确定状态矩阵各向量与对应次成分的方向关系,而WPAST 信息准则能够确定状态矩阵各向量与对应次成分的方向关系。这验证了定理1 和定理2 对PAST 和WPAST 信息准则的理论分析结果。

4.2 多个次成分提取算例

多个次成分的信息准则对应的坐标系超过三维,不容易直观表示,因此该算例主要通过PAST和WPAST 信息准则的提取算法在实际提取过程中的角度变化来展示加权规则对信息准则的角度关系的确定作用。假设提取状态矩阵的维数为4,加权矩阵为D=diag(1,2,3,4),状态矩阵各个向量与对应次成分的夹角分别为 θ1、θ2、θ3、θ4,状态矩阵的各向量与对应次成分的方向余弦为

其中,ui表示输入信号的次成分,可通过特征值分解方法提前计算出来,wi(k),i∈{1,2,3,4}表示算法在提取过程中的状态矩阵的单个向量,k 表示提取过程中的迭代次数,T 表示转置运算,表示求范数运算。

夹角的计算式为

需要说明的是,此处将方向余弦和方向夹角都作为实验结果展示。PAST 算法的结果分别如图5和图6 所示,WPAST 算法的结果分别如图7 和图8 所示。

图5 PAST 算法的状态矩阵各向量与对应次成分夹角θ 变化情况

图6 PAST 算法的状态矩阵各向量与对应次成分方向余弦变化情况

图7 WPAST 算法的状态矩阵各向量与对应次成分夹角θ 变化情况

如图5 所示,横坐标为迭代次数,按照10 的指数变化,纵坐标为方向夹角数值,其弧度值在区间内变化。PAST 算法的4 个方向夹角在经过振荡过程后,均呈现稳定状态。但是,稳定的常数各不相同。该特点在图6 中也有体现,方向余弦经过一段振荡过程,都稳定在一定的数值上。相比PAST 算法,WPAST 算法的方向夹角收敛过程比较长,且最终都稳定在0 附近。如图7 所示,4 个方向夹角最后都以不同的形式收敛到0 附近,这说明WPAST 算法状态矩阵的4 个向量最后都收敛到对应次成分的方向。图8展示的方向余弦也印证了WPAST算法的方向收敛性。在35 ×10次迭代后,状态矩阵各向量的方向余弦都接近1。需要说明的是,由于三角函数的非线性,在图7 中接近510 处的方向夹角振荡较剧烈,且都在区间内,图8 中对应的方向余弦都在区间(0.95,1.00)内振荡,振荡范围非常小。

图8 WPAST 算法的状态矩阵各向量与对应次成分方向余弦变化情况

5 结束语

本文通过分析PAST 信息准则和WPAST 信息准则的差异,从二维到多维逐步推导出加权规则能够改变状态矩阵和信号次成分的旋转矩阵梯度的结论。一方面,从理论上解释了加权规则对信息准则的作用规律,提高人们在信息准则层次认识影响算法性能的因素;另一方面,对于不能通过加权规则转化为多个次成分提取算法的次子空间跟踪算法,研究成果为推进未来并行提取多个次成分分析算法发展提供了研究思路和改进方向。

猜你喜欢
夹角准则向量
向量的分解
IAASB针对较不复杂实体审计新准则文本公开征求意见
聚焦“向量与三角”创新题
探究钟表上的夹角
求解异面直线夹角问题的两个路径
如何求向量的夹角
平面向量夹角问题的易错剖析
内部审计增加组织价值——基于《中国内部审计准则》的修订分析
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线