一种基于Bi-LSTM和MLP融合的滚动轴承剩余寿命预测方法

2021-08-10 02:33武婷婷宋纯贺于诗矛杨雪滨邹云峰
关键词:编码器寿命轴承

刘 硕,武婷婷,宋纯贺,于诗矛,杨雪滨,邹云峰

(1.中国科学院 沈阳自动化研究所机器人学国家重点实验室,沈阳 110016)(2.中国科学院 网络化控制系统重点实验室,沈阳 110016)(3.中国科学院 机器人与智能制造创新研究院,沈阳 110169)(4.中国科学院大学,北京100049)(5.中国科学院沈阳自动化研究所,沈阳 110016)(6.国家电网辽宁省电力有限公司检修分公司,沈阳 110016)(7.国家电网江苏省电力有限公司营销服务中心(计量中心),南京 210000)

在如今的制造系统中,设备性能下降,健康衰退,零部件磨损等问题,造成工业生产中的不可控的风险[1],其中轴承的故障问题,占比较大,特别是对高精度重载搅拌设备,寿命预测的意义重大[2].根据轴承运行产生的振动等信号对轴承剩余使用寿命(remaining useful life,RUL)进行学习与预测,可及时有效地采取措施从而避免重大经济损失或人员伤亡[3-4],因而对滚动轴承进行寿命预测的研究意义是及其重大的[5].

由于深度学习具有强大的非线性拟合功能,故其在滚动轴承振动信号的研究方面也得到了广泛的应用[6].堆叠去噪自编码器(stacked denoising auto encoder,SDAE)是一种无需数据标签的深度学习网络模型,具有独特的无监督特征提取的能力[7].文中使用SDAE模型提取出滚动轴承振动信号的深层低维度特征信息,在特征提取的基础上,进行滚动轴承RUL预测,其方法主要包含两个大方向[8]:一种是通过建立数学模型的剩余寿命预测;另一种是基于数据驱动的剩余寿命预测.对于通过建立数学模型预测剩余使用寿命的方法,有Cox比例风险回归模型,指数模型以及Paris-Erdogan模型,除此之外,还有通过振动信号的均方根、峭度来提取特征,利用比例故障模型对滚动轴承的可靠性进行评估等方法[9].目前以数据驱动的方法较为热门,文献[10]使用深度置信网络(deep belief networks,DBN)对飞机发动机进行故障诊断,获得了良好的识别正确率.文献[11]使用循环神经网络提取轴承退化信息,预测轴承的剩余使用寿命.文献[12]利用BP神经网络预测轴承的剩余使用寿命.另外,还有基于非线性数据融合进行设备多阶段寿命预测[13]等方法.对于简单的设备结构,通过建立数学模型在剩余寿命预测方面可以取得较好的结果,对于较为复杂的机械结构,以数据驱动的预测方法展现了较为强大的生命力.

考虑滚动轴承的退化过程在时间上具有前后依赖关系,当前的信息和其前后时刻的信息有必要进行整合.文中通过SDAE提取出的重要特征,然后使用双向长短期记忆网络(Bi-directional long short-term memory,Bi-LSTM)对轴承RUL进行预测.虽然将双向长短期记忆网络用于负荷的短周期预测取得了较好的效果[14],且使用Bi-LSTM对轴承的剩余寿命预测的方法,在公开数据集上也有良好的表现[15].但是由于传统的Bi-LSTM网络输出结果映射到一层全连接层上,导致其最后的拟合能力受到限制,当需拟合复杂函数时,往往表现出拟合能力不足,模型训练阶段的收敛速度较慢,波动性严重,且预测出来的结果与真实数据的误差较大.因此,文中在Bi-LSTM输出结果层后添加多层感知机网络,以此增强网络的拟合能力,增加训练模型的收敛速度,降低预测结果的波动性与误差.

1 基于堆叠去噪自编码器的特征提取

1.1 堆叠去噪自编码器原理

自编码器(auto encoder,AE)是无监督神经网络模型,其由编码层与解码层两部分组成.单层去噪自编码器在自编码器编码层基础上可引入噪声机制,原始数据X经过噪声函数qD,获取含噪数据,对含噪声数据经过编码层f进行编码获得编码数据h,通过解码层g生成重构数据Z,由重构数据Z与原始输入数据X可得到损失函数Lh(X,Z),然后利用梯度下降法训练模型.对原始数据添加随机噪声,训练出的模型具有更强的稳定性,提高泛化能力.单层去噪自编码器如图1.

图1 单层去噪自编码器结构Fig.1 Structure of single-layer denoising autoencoder

编码过程为:

(1)

解码过程为:

z=gθ′(h)=Sg(W1′h+b1′)

(2)

得到目标函数为:

(3)

式中:n为样本数目;x(i)为第i个原样本数据.通过梯度下降法使得式(3)最小化,获取模型参数为:

(4)

堆叠去噪自编码器是多个单层堆叠去噪自编码器堆叠而成,各层采用逐层训练法[16].

1.2 基于堆叠去噪自编码器的轴承退化状态提取

文中采用IEEE PHM2012挑战赛提供的轴承加速寿命实验数据[17],该数据是利用图2中的PRONOSTIA实验台,在不同运行工况下获取的,用来对轴承进行故障检测、故障诊断以及剩余寿命预测的相关算法验证.

图2 PRONOSTIA实验台Fig.2 PRONOSTIA bedstand

实验数据在3种工况下获得,即负载4 000 N,转速1 800 r/min(工况1);负载4 200 N,转速1 650 r/min(工况2);负载5 000 N,转速1 500 r/min(工况3).数据的采样频率为25.6 kHz,每隔10 s记录一次,每次采样时间为0.1 s,故每个样本包含2 560个振动值.实验数据包含了水平振动信号与垂直振动信号,为了避免垂直方向受到外力后,导致主轴形变,从而对滚动轴承垂直方向的振幅产生影响,只考虑水平振动信号,该振动信号由加速度传感器采集获得.实验采用Learning_set中Bearing1_1数据集(包含2 803个采样数据)作为训练集,采用Full_Test_set中的Bearing1_3数据集(包含2 375个采样数据)作为测试集.数据集的振动信息时域波形如图3.其中,横坐标的物理量为采样的时间,单位是10 s,即10 s采样一次.纵坐标为振幅,单位g为重力加速度,用来表示振动的强烈程度.

图3 时域振动信息Fig.3 Time-domain vibration information

实验采用的SDAE网络结构,其从左到右的神经元的个数依次为:2 560,1 500,500,100,50,1,50,100,500,1 500,2 560,其中2 560对应轴承每个采样点对应的振动值个数.由堆叠去噪自编码器原理可知,该网络需逐层训练5次,最终将2 560维振动信息提取为一维特征,且该无监督学习网络,大大提高了网络的自主性,无需人为选定提取哪些特征,提取出的一维特征如图4.其中,纵坐标为振幅归一化后的结果.

图4 提取的一维特征Fig.4 One-dimensional feature extracted from dataset

从关于轴承的时域振动波形图3中,可以获取轴承的寿命信息.对于轴承的寿命,当轴承振幅短期内迅速增加的时刻点定义为轴承退化起始时刻选取,当轴承振幅迅速增加并超过正常振幅3倍时,为轴承的失效状态.轴承Bearing1_1在采样数达2 500时处于失效状态,轴承Bearing1_3在采样数达2 200时处于失效状态.获取轴承Bearing1_1剩余寿命标签[2 500 ∶1],和轴承Bearing1_3剩余寿命标签为[2 200 ∶1].其中,[2 200 ∶1]表示从2 200递减到1的数组,即表示2 200,2 199,2 198,…,1.

2 Bi-LSTM模型原理及其改进方法

滚动轴承的退化过程是一个故障积累过程,其状态不仅和当前检测值有关,还与历史时刻的检测值有关.故采用Bi-LSTM,即双向LSTM网络,来预测轴承的当前剩余使用寿命.

LSTM网络模型在循环神经网络RNN基础上添加了3个门控,即输入门、遗忘门、输出门,通过3个门控对信息进行筛选、遗忘和输出,解决了RNN梯度消失和梯度爆炸问题.单个LSTM模型结构如图5.

图5 单个LSTM模型结构Fig.5 Single LSTM model structure

单个LSTM的工作原理如下:

(1)遗忘门用于选择性地删除历史信息:

ft=σ(Wf[ht-1,xt]+bf)

(5)

式中:σ为sigmoid激活函数;Wf为遗忘门网络的权重;bf为遗忘门网络的偏置;[ht-1,xt]是上一时序隐藏层信息与当前输入信息的拼接融合,融合结果经过遗忘门之后得到的ft为保留信息的权重,用于决定上一时序的内部状态Ct-1信息保留的权衡.

(2)输入门用于对输入信息的保留裁决:

Ct=ft*Ct-1+σ(Wi([ht-1,xt])+bi)*

tanh(Wc[ht-1,xi]+bc)

(6)

式中:tanh为tanh激活函数;Ct为当前内部状态信息;* 表示逐点乘积.

(3)输出门决定输出哪些信息:

ht=σ(Wo[ht-1,xt]+bo)*tanh(Ct)

(7)

式中:ht为该时序隐藏信息.

Bi-LSTM与LSTM的区别为:LSTM为单向长短期记忆神经网络,而Bi-LSTM为双向长短期记忆神经网络,在训练过程中,Bi-LSTM会训练一个正向LSTM网络与一个负向LSTM网络.这两个网络会输入到同一个输出层.由于Bi-LSTM获取的是时序信息的双向特征信息,LSTM获取的是单向特征信息,所以Bi-LSTM长短期记忆神经网络可以获取更多的特征信息.Bi-LSTM网络结构如图6.

图6 Bi-LSTM神经网络模型结构Fig.6 Bi-LSTM neural network model structure

尽管Bi-LSTM网络在提取序列信息时,展现了融合前后信息的强大能力,但是输出的结果映射到目标结果时,却表现出收敛速度慢,且预测效果波动性较大的问题.因此,文中提出了加深全连接层的策略,即把Bi-LSTM输出的结果送入到多层感知机中,来增强网络的非线性表达能力.

3 实验流程与分析

3.1 轴承RUL预测方法与流程

基于堆叠去噪自编码器与改进后的Bi-LSTM轴承RUL预测方法流程如图7.

图7 轴承RUL预测方法流程Fig.7 Bearing RUL prediction method process

(1)数据预处理.提取数据Bearing1_1和Bearing1_3轴承水平振动数据,先对数据绝对值处理,之后归一化处理,得到时域信号.

(2)训练SDAE模型.将预处理后的数据作为堆叠去噪自编码器的输入,提取高维数据的深层特征.把所有的网络逐层训练一遍后,对整体网络进行微调[7],最终提取的特征为一维信息特征.

(3)训练Bi-LSTM融合多层感知机的模型,对比训练收敛过程及预测结果.把从SDAE网络中提取的一维特征且在原始时域振幅小于正常振幅3倍的数据为有效数据,作为Bi-LSTM融合多层感知机网络模型的输入,其中训练集使用的数据为Bearing1_1数据集,根据前文提到的振幅要求,选取[1 000 ∶2 500]范围的数据经SDAE提取出的特征数据用于训练,对应的训练标签为[1 500 ∶0].在训练集中首先训练Bi-LSTM加一层全连接层模型,当均方差损失小于0.000 03时,且在10个Epoch内仍满足持续小于0.000 03时,结束训练,防止过拟合.

验证集采用Bearing1_7在[700 ∶2 200]范围内数据经SDAE提取出的特征数据,标签为[1 500 ∶0],用于验证模型训练结果的好坏.按照以上步骤依次训练和验证Bi-LSTM融合多层感知机的模型,并选取最优的网络模型.

(4)使用最优模型来对测试集进行预测.测试集使用的是Bearing1_3在范围[7 000 ∶2 200]内的数据,经SDAE提取的特征作为模型的输入,来预测该测试集对应轴承的RUL寿命.预测结果与真实值对比.为了验证该模型对轴承当前剩余使用寿命的预测准确度.使用平均绝对值误差(mean absolute error,MAE)对模型的准确度进行评价,如式(8):

(8)

式中:yi为轴承的真实寿命标签.

3.2 实验与分析

使用Bearing1_1做为训练集进行训练模型,Bearing1_7做为验证集检测模型的好坏,选取最优模型在Bearing1_3测试集上进行测试.设计网络训练参数如表1.

表1 Bi-LSTM融合多层全连接网络训练参数Table 1 Bi-LSTM fusion multi-layer fully connected network totraining parameters

如果Bi-LSTM只融合一层全连接网络,则全连接第一层单元数为1;如果Bi-LSTM融合二层全连接网络,则全连接第一层单元数为150,第二层单元数为1;如果Bi-LSTM融合三层全连接网络,则全连接第一层单元数为150,第二层单元数为70,第三层单元数为1,依次类推.实验数据信息如表2.

表2 实验数据参数Table 2 Experimental data parameters

分别以一层全连接层、两层全连接层、三层全连接层和四层全连接层来映射Bi-LSTM网络的输出,使用训练集训练模型并获取模型的收敛速度如图8.

图8 模型的收敛速度Fig.8 Convergence rate of the model

从图8中可以发现,连接一层全连接层时,收敛曲线波动剧烈,主要是因为全连接层数较少,每一轮训练权重过度学习,所以对下一轮的学习带来了不好的影响,最终表现为收敛曲线波动较大,较难收敛.而随着层数的增多,震荡明显减小,和上面的分析相吻合.经过大量实验,得出当模型采用3层全连接层时,得到更好的效果.不仅振幅降低而且收敛速度也得到了提升.从图中可以看出,尽管选择4层全连接层时,效果和3层全连接层的效果差别不大,但是根据奥卡姆剃刀原理,选择3层全连接层优于4层全连接层.为了选择最优模型,在验证集上进一步测试模型的预测准确度.在验证集Bearing1_7上进行验证,其中,Bearing1_7水平振动时域信号与经SDAE网络提取特征的结果如图9.

图9 Bearing1_7水平振动时域信号与SDAE网络提取的特征结果Fig.9 Bearing1_7 horizontal vibration time-domain signal and the feature results extracted by SDAE network

把Bearing1_7提取出的特征分别输入到4个不同的模型中,得到的验证结果如图10和表3.

图10 不同模型对验证集测试结果对比Fig.10 Comparison of test results of different models on validation set

表3 不同模型验证结果对应的MAETable 3 MAE corresponding to different model verification results

根据图10以及表3,可以看出Bi-LSTM加单层全连接层模型,其预测结果的波动性比较大且MAE也较大.随着全连接层的增加,模型预测的波动性急剧下降,且MAE值也随之下降.但是并不是全连接层数越多越好,因为随着全连接层数的不断加深,对验证集的预测效果反而有所下降,导致这一现象的原因是模型过拟合.

综上所述,选取Bi-LSTM加3层全连接层,作为模型结构的最终结果.确定模型后,为了验证模型的有效性,在数据集Bearing1_3基础上进行测试,并与其他实验结果进行对比,如图11和表4.

图11 各个模型的预测结果Fig.11 Forecast results of each model

表4 文中方案与其他3种方案的构成Table 4 MAE corresponding to different modelverification results

从实验结果(表5)看出,采用基于Bi-LSTM结合多层感知机的模型对轴承Bearing1_3进行剩余寿命测试,预测结果与真实寿命的变化趋势和变化速率一致,重合度相比较其他3种模型也大大增加.采用本文方案预测结果与真实值的平均MAE为0.014 8,较其他3种方案均为最小,且本文方案预测结果波动性也得到大幅度降低,从而增强了预测结果的可靠性.使用多层感知机来映射Bi-LSTM和LSTM模型的输出结果,其MAE分别降低了0.04和0.141 1.因此文中提出的模型为滚动轴承剩余寿命提供了有效的预测方案.

表5 实验预测误差MAETable 5 Experimental prediction error MAE

4 结论

文中提出一种基于堆叠去噪自编码器与Bi-LSTM结合多层感知机的滚动轴承RUL预测方法.通过堆叠去噪自编码器提取轴承的深层特征,并利用Bi-LSTM结合多层感知机使用已提取的深层特征对滚动轴承的剩余使用寿命进行预测.

LSTM网络按照时序处理序列信息,导致网络只能考虑过往的信息而忽略未来的信息,网络信息特征学习能力降低.引入Bi-LSTM网络,可以对未来的信息进行学习,提升网络的特征学习能力.同时针对Bi-LSTM输出结果映射到复杂函数关系时,模型拟合能力不足、收敛速度过慢且预测结果波动性较大的问题,提出了Bi-LSTM结合多层感知机的模型.经过实验,可以发现提出的模型对轴承剩余寿命进行预测所得结果中,在收敛速度和预测结果的准确度方面,均得到了有效提升.

对于滚动轴承的剩余使用寿命预测方法,不仅缩短了模型训练的时间,降低了模型训练过程中误差的波动性,而且滚动轴承的剩余使用寿命的预测精度也有了显著的提高.

猜你喜欢
编码器寿命轴承
融合CNN和Transformer编码器的变声语音鉴别与还原
轴承知识
轴承知识
人类寿命极限应在120~150岁之间
轴承知识
轴承知识
仓鼠的寿命知多少
马烈光养生之悟 自静其心延寿命
基于FPGA的同步机轴角编码器
人类正常寿命为175岁