采用注意力DBN-GRU的滚动轴承剩余寿命预测方法*

2022-11-25 12:34张守京慎明俊

组合机床与自动化加工技术 2022年11期

吴芮，张守京，慎明俊

(西安工程大学机电工程学院，西安 710600)

0 引言

滚动轴承时刻影响着机械设备的运行状态，在高温、高压和重载等恶劣的运行环境下，滚动轴承会发生不同程度的缺陷和退化，从而逐渐发展成重大事故[1-2]。若能预知轴承的剩余寿命便可避免事故的发生，同时降低维护成本。所以，开发可行有效的轴承寿命预测方法具有重大意义。

近年来，滚动轴承的预测和健康管理成为研究热点[3]，基于数据驱动的剩余使用寿命(remaining useful life，RUL)预测是健康管理的重要途径[4-5]，马海龙[6]将人工提取的滚动轴承多个特征进行主元分析融合，再利用支持向量机进行RUL预测；王付广等[7]对滚动轴承振动信号先进行经验模态分析，再对其进行模糊熵分解，最后利用极限学习机预测RUL；吕明珠等[8]将自适应模糊C均值融入支持向量机，建立了自动更新的轴承相对特征聚类模型，实现了退化性能评估和RUL预测。上述方法均为人工提取滚动轴承的有效特征，结合浅层机器学习方法进行RUL预测，提高了预测精度，但特征提取过程较为复杂。而深度学习能实现自适应特征提取，有效降低人工参与造成的不利影响。

随着深度神经网络的快速发展，深度学习模型大多被用来研究滚动轴承故障诊断[9]，在RUL预测中相对较少。周陈林等[10]提出一种改进型卷积神经网络从原始信号中学习轴承的多状态特征信息，并通过实验准确率验证了所提模型的有效性；李巍华等[11]利用深度置信网络逐层学习敏感特征，完成轴承故障的分类识别；GUO等[12]利用卷积神经网络自适应提取敏感特征，结合长短时记忆网络完成轴承RUL预测；张继冬等[13]将轴承振动信号输入到全卷积神经网络中进行特征自提取和RUL预测。上述深度学习方法将深度特征作为轴承退化指标具有一定的智能性，但在评估深度特征是否具有表征能力方面略有不足，难免造成预测精度不高。

综上所述，笔者提出一种融合注意力机制的DBN网络结合GRU网络进行滚动轴承RUL预测，试验结果表明，改进后的DBN网络提取特征能力更强，联合GRU网络得到的预测精度更好，更适用于预测滚动轴承RUL的领域。

1 理论分析

1.1 改进深度置信网络

深度置信网络(deep belief network，DBN)[14]由多个受限玻尔兹曼机(restricted Boltzmann machines，RBM)叠加构成[15]，RBM可以看作是一个无向图结构的马尔可夫随机域，如图1所示，RBM包括可见层v和隐含层h，每层内的神经元无连接，两层之间通过权重矩阵W连接。

图1 RBM结构图

对于一个给定状态(v,h)的RBM，其联合能量函数为：

(1)

式中，Wij为可见神经元vi和隐含神经元hj之间的连接权重；bi为可见层中第i个神经元的偏置；cj为隐含层中第j个神经元的偏置；n、m分别为可见层和隐含层的神经元数量。

基于能量模型可得到任一组(v,h)的联合概率密度分布为：

(2)

(3)

同样的已知隐含层的状态h，计算可见层的单元激活概率函数为：

(4)

式中，f(x)=1/(1+e-x)为激励函数。

训练RBM时正向为无监督学习过程，反向为有监督参数微调的模型重构，参数过大或过小都会影响算法的收敛速度，考虑到RBM模型的特殊结构，最大化训练集上的对数似然函数可调整参数，一般采用对比散度算法(contrast divergence，CD)进行梯度估计，更新参数。可视层和隐含层的连接权重参数Wij可通过式(5)进行更新。

ΔWij=η(d-r)

(5)

式中，d为训练数据分布的数学期望；r为可见层的重构分布期望；η为学习率。对于激活概率函数中bi，cj的偏置参数也通过CD算法进行更新。这种算法能较快得到后一步位置梯度的状态，一定程度上提高RBM的训练速度，降低算法训练不稳定等问题，但其容易陷入局部最优的缺点仍不可忽视。

因此，笔者提出利用Nesterov加速的自适应矩估计方法(nesterov-accelerated adaptive moment estimation，Nadam)来最大化RBM训练过程中产生的对数似然函数进行参数微调，同时关联到DBN的所有层。Nadam不需要提前预测后面位置的梯度方向，能让不同参数自适应于不同的学习率，以增强算法的稳定性和训练速率。它利用动量项与二阶矩结合的动态估计来调整学习率，直接在当前位置参数θt对当前梯度方向同时做两次更新。Nadam的优点主要是对学习率有更强的约束，参数更新速度更快，使得算法运行更平稳。

mt=β1mt-1+(1-β1)gt

(6)

(7)

(8)

改进后的DBN网络从滚动轴承原始振动信号中挖掘深度特征的能力较强，收敛速度较快。

1.2 注意力DBN模型

注意力机制(attention mechanism)是一种仿生人脑模型，把注意力放在重要的信息上，而降低对其他无关信息的关注，将注意力机制引入神经网络，可增强提取特征的敏感性，提升网络获取关键信息的训练速率。笔者提出的ADBN模型，如图2所示。

图2 ADBN结构图

利用注意力机制将1.1节三个RBM训练获取的深度特征结合形成滚动轴承振动信号的全局特征，计算公式为：

ui=tanh(Lwhi+kw)

(9)

(10)

(11)

式中，hi为DBN挖掘的深度特征；Lw为权重向量；kw为偏置项；ai为注意力相应的分配权重；d为注意力机制得到的全局特征。预测滚动轴承RUL时，DBN网络获得的不同时刻特征对整体状态的贡献不同，所以在三层RBM结构中增加注意力机制，以加强重要时刻特征对RUL预测的贡献。

1.3 门控循环单元神经网络

长短期记忆网络(long short-term memory，LSTM)通过输入门、遗忘门、输出门的动态控制，解决了循环神经网络(recurrent neural networks，RNN)的“梯度爆炸”问题和“梯度弥散”问题。输入门和遗忘门互补结合可以实现对历史信息的遗忘以及新信息的获取，但仍具有一定的冗余性。门控循环单元(gated recurrent unit，GRU)将输入门和遗忘门融合为更新门，同时引入重置门作为LSTM的改进模型，它可以在保留原本功能的情况下减少网络参数，训练速率高且网络复杂度降低。GRU的标准结构如图3所示。

图3 GRU网络结构图

重置门rt动态控制前一时刻特征信息的遗忘程度，阈值越小，遗忘信息越多，更新门zt的作用是决定前一时刻的特征信息对当前特征信息的重要性，阈值越大，当前输入对整体的影响程度越大。GRU网络通过相关参数和偏置来调整激活函数σ的输入输出，从而决定门是否启动。具体计算如下：

(12)

2 采用ADBN-GRU的滚动轴承剩余寿命预测流程

设滚动轴承的振动信号为s(t)，将s(t)输入到DBN网络中进行深度识别，输出的深度特征作为注意力层的输入，注意力机制得到的敏感特征集输入到GRU网络中获取滚动轴承的RUL。在训练网络时，以预测值和真实值的均方误差作为损失函数，通过误差反向传播优化模型参数，以误差最小化，得到最优的模型参数。完成模型训练后，输入新的滚动轴承振动信号预测RUL。具体流程如图4所示。

图4 预测方法流程图

具体步骤为：

步骤1：输入滚动轴承的原始振动信号s(t)到DBN网络中的顶层RBM，对原始数据进行贪婪无监督学习，第一层RBM的输出作为第二层RBM的输入，最终挖掘出滚动轴承的深度特征集p1,p2,…,pi。

步骤2：将步骤1获得的深度特征集输入到注意力层，对特征序列赋予不同的权重ai，并针对不同的输出序列局部，反馈给输入序列不同的赋权规划。通过注意力机制的自适应动态加权求和形成最终的敏感特征集p。

步骤3：使用单层GRU网络将敏感特征集p中的无效信息过滤掉，挖掘出输入特征的长期依赖关系，将捕捉到的内部变化规律输出到全连接层，通过全连接层计算输出RUL的预测值。

步骤4：以预测值与实际值均方误差值最小为目标，使用Nadam优化器对模型参数进行微调减小预测误差。输入新的滚动轴承数据集，完成RUL预测。

3 试验验证

3.1 滚动轴承数据来源与分析

为验证构建的注意力机制融合DBN网络和GRU网络的组合模型应用于滚动轴承预测RUL的有效性和先进性，设计试验进行验证。笔者采用辛辛那提大学(university of cincinnati)的滚动轴承加速寿命试验数据集，此数据集轴承型号为Rex-ford ZA-2115，包含3次试验，试验1中轴承失效结束时，3号轴承出现内圈缺陷，4号轴承出现内圈滚子元件缺陷；试验2失效结束时，轴承1发生外圈故障；试验3中，3号轴承发生外圈失效。试验中设置轴承转速为2000 rpm，采样频率20 000 Hz，采样点20 480。图5是轴承加速寿命试验平台以及试验轴承和对应传感器的布局。

图5 轴承加速度试验平台

在验证过程中，选用试验2中的第一组数据集，该数据集共有984组文件，采样间隔为10 min，轴承的全寿命周期约为163.83 h。该轴承从正常运行到外圈故障失效的时域波形如图6所示。

图6 滚动轴承全寿命数据图7 滚动轴承退化性能趋势

前期振动信号相对平稳，随着运行时间增加、工作条件、运行环境等其他因素的影响，轴承振动加剧进入退化阶段，直到后期完全失效。结合滚动轴承运行过程的阶段性特点，笔者将选用滚动轴承从早期退化点开始直至失效的样本数据进行RUL预测。对该轴承的全部984组文件进行归一化，绘制出图7所示的轴承性能退化趋势，将退化量的平均值作为正常阶段和退化阶段的分界点，从性能退化趋势值与均值线相交的部分可以看出544组文件时退化曲线发生突变，即544号文件为早期故障点，对应轴承运转时间为86.66 h。

3.2 评估指标

为定量分析提出的预测模型精确度，对预测结果进行科学的评估，笔者选取均方根误差(root mean square error，RMSE)以及平均相对误差(mean absolute percentage error，MAPE)作为评价指标，计算公式分别为：

(13)

(14)

3.3 滚动轴承剩余寿命预测

笔者重点研究的是融合注意力机制的ADBN-GRU方法在滚动轴承剩余寿命预测这类时间序列问题上的有效性和先进性，为科学体现该模型的优势，通过4组预测方法进行对比。其中方法1为ADBN-LSTM，与笔者方法做对比，验证GRU网络的优势；方法2为DBN-GRU，方法3为DBN-LSTM，方法4为DBN-BP，验证注意力机制对模型的贡献。由于已判断出滚动轴承是在第544组文件开始产生故障，故笔者将从544组文件进行模型验证，为保证预测精度以及减少模型预测时间，选择训练集为前544组文件，测试集为544组～984组文件。

训练样本在改进的DBN网络中被挖掘出8组重要特征，输入到注意力机制中权重分配情况如图8所示，特征1、4、7的重视程度相对较高，权重占比大，说明这3个特征具有对轴承RUL预测结果更紧密的信息。注意力机制将这3个特征加权求和为一组敏感特征序列，输入到GRU网络中得到RUL预测值。

笔者提出方法的训练精度如图9所示，训练前期随着迭代次数增加预测精度迅速提高，第85次迭代后达到较高预测精度并趋于稳定。相较于ADBN-LSTM方法(收敛于第128次迭代)，笔者方法训练过程更快地收敛于较高的预测精度，可有效减少训练时间，提高模型的收敛速度和泛化能力。说明了笔者采用的GRU网络相较于LSTM网络所需的训练时间更短，训练误差更小。

图8 注意力机制权重分配结果图9 不同方法的训练精度与迭代次数关系

图10a为笔者方法ADBN-GRU的预测结果，同时，分别绘制出如图10b所示的5种方法预测结果并集中对比，可以看出笔者方法预测结果波动小，预测值接近实际寿命线，验证了笔者提出的融合注意力机制的改进DBN网络能有效增加深度特征对表征轴承状态信息的贡献，提高滚动轴承剩余使用寿命的预测精度。

(a) ADBN-GRU方法 (b) 5种方法预测结果对比图

为了更加准确地描述5种方法的预测效果，对5种方法的预测值分别进行了线性拟合，并计算预测拟合值与真实寿命拟合值之间的最大差值，计算公式如下：

emax=max(|pn-ym|)

(15)

从图11a～图11d可以看出，笔者方法ADBN-GRU的emax低于另外4种方法，预测结果更加稳定且误差相对较小。验证了笔者所提方法在滚动轴承寿命预测方面的有效性。

(a) ADBN-LSTM方法(b) DBN-GRU方法

其他评估结果如表1所示，可以看出笔者方法的RMSE和MPAE相较于另外4种方法分别平均降低了36.81%和34.15%左右，且由于GRU模型参数少，结构相对简单，其运行时间最短，相较于LSTM模型提升了5 s左右。

表1 不同方法评估数据

4 结束语

笔者针对滚动轴承RUL的预测问题进行分析，提出一种引入注意力机制的改进DBN网络和GRU网络的组合方法，试验后得出以下结论：

(1)ADBN-GRU方法与普通的DBN-GRU、DBN-LSTM及DBN-BP方法相比，预测结果更接近实际剩余使用寿命，曲线波动更平稳；ADBN-GRU方法与ADBN-LSTM方法相比，运行时间更短，拟合程度更高。

(2)笔者提出的改进DBN模型直接从原始振动信号中得到深度特征，再利用注意力机制得到全局特征，使得特征提取简单高效。同时，GRU网络在滚动轴承剩余使用寿命预测这类时间序列处理上具有良好表现，提高了预测精度，验证了笔者方法的可行性，为滚动轴承的健康管理提供了一种新思路。