基于一维CNN与BiLSTM结合的轴承故障诊断*

2021-09-28 01:41吴楠，王喆

组合机床与自动化加工技术 2021年9期

吴楠，王喆

(1.中国科学院沈阳计算技术研究所，沈阳 110168；2. 中国科学院大学，北京 100049)

0 引言

滚动轴承是工业生产机械设备中极其重要的一部分，由于轴承的工作状态有长时间，高强度，并且一旦发生故障就会引起重大后果的特点，因此针对滚动轴承的故障判断有极大的现实指导意义[1]。故障诊断作为一种多方法融合的模式识别过程，其主要过程包括原始振动信号的采集和信号预处理，故障信号特征提取等步骤[2]，其中故障特征提取是其中一个关键的步骤。传统的故障诊断方法一般使用经验分解模型(Empirical Mode Decomposition, EDM)[3]、短时傅立叶变换、小波分解等方法对信号进行分析处理。振动信号作为反应机械设备运行状态的一项重要特征信号，李学军等利用齿轮振动信号的非高斯性，使用振动信号双谱分析表示齿轮双谱分布区域与故障模式问存在映射关系，实现了实现故障分类与故障诊断[4]。随后有学者提出在滚动轴承振动信号数据集上使用深度学习算法进行诊断。朱丹宸等针对滚动轴承故障信号非平稳非线性且易受背景噪声干扰的特点,结合深度学习的优势,提出了基于卷积神经网络的滚动轴承故障诊断法[5]。

但是以往的轴承故障方法多使用单一数据集进行训练，训练出的模型对于即使在同样运行环境下提取的不同负载的数据诊断效果也不佳。轴承振动信号是一种自然时间序列,单纯的CNN网络难以捕捉轴承信号随时间变化的故障信息。双向长短期记忆网络(Bi-LSTM)是一种特殊的RNN结构,具有很强的依据时序信息建模的学习能力。许多涉及顺序数据的机器学习问题都证明了BiLSTM在分析时间信息上的有效性[6]。

本文利用卷积神经网络提取特征的能力及循环神经网络获取上下文信息的能力，将卷积神经网络与循环神经网络相结合，构建了双向循环卷积神经网络模型(BiLSTM-CNN)。该模型同时兼具时间和空间上的特征表达能力，但是比传统循环神经网络的训练时间更短，效果更稳定。经过实验分析了在训练时模型参数对轴承故障诊断结果的影响。通过与其他方法的对比得到结论，BiLSTM-CNN在变负载的数据集上比普通CNN模型和CNN-LSTM模型有更高的适用性。

1 基础理论

1.1 CNN

卷积神经网络(convolutional neural network，CNN)是基于计算机视觉的发展成果。卷积神经网络通过不同尺寸的核对图像进行卷积，可以较好的处理局部特征，最终从经过深层网络处理的数据中得到从原数据中提取不到的特征。也有学者将CNN应用于声音信号的检测，取得了有效的成果[7]。设给定输入轴承振动信号X，一维卷积特征映射可表示为：

(1)

池化层是对输入特征进行缩放，提取主要特征。本文采用最大值池化，它对输入特征取最大值操作，以减少参数并获得位置不变特征。这使网络对于振动信号中的小偏移和失真更具鲁棒性，更能反应信号尖峰变化趋势。在神经网络进行卷积时，图像会缩小，边缘信息会丢失，因此使用边缘零填充沿着数据边缘填充一层数据，保证输入大小与输出大小相同。

1.2 长短期记忆网络

循环神经网络(recurrent neural network，RNN)是一种处理文本，音频输入的神经网络，可以有效地利用音频信息上文的信息[8]。但是由于RNN网络受前文信息的影响，存在梯度爆炸或梯度消失现象，从而导致神经元的短期记忆。

长短期记忆((long short term memory，LSTM)网络是一种解决循环神经网络长时间输入序列的梯度爆炸与梯度消失问题的改进算法。LSTM的改进方向在于将LSTM变为两个传递状态，一个ct和一个ht。并在算法中加入了一个模块，在一个信息xt进入cell后，和ht拼接训练得到3个状态。

LSTM每一时间(步)状态更新的公式如下：

ft=sigmoid(Wf[ht-1,Xt]+bf)

it=sigmoid(Wi[ht-1,Xt]+bi)

ξt=tanh(Wξ[ht-1,Xt]+bξ)

Ct=ft·Ct-1+it·ξi

Ot=sigmoid(Wo[ht-1,Xt]+bo)

ht=Ot·tanh(Ct)

其中，ft,it,Ot分别表示遗忘门，输入门和输出门。遗忘门决定是否保留先前细胞状态信息Ct-1；输入门确定保留哪些值，更新细胞状态的长期记忆；输出门是当前LSTM的输出；这些门的值在0～1之间，ht,ξt表示隐藏状态，候选细胞状态。Wf,Wξ,Wi,Wo,bf,bξ,bi,bo分别对应各个门的权重和偏差。

1.3 双向LSTM

双向LSTM(bidirectional long short term memory，BiLSTM)是在LSTM的基础上，加入了对前后文的理解，不局限于只从过去的信息得到结论，而是结合当前时间点的未来信息得到此刻的结果。双向LSTM基于输入序列的时间顺序对整个输入进行预测，将隐藏层分为正反两个独立的隐藏层，输出层同时具有过去和未来的信息，加深对原序列特征提取层次，提高模型输出结果的准确性．因此BiLSTM在解决时序性问题方面往往能够取得比单向LSTM更好的效果[9]。

根据图1，第一层LSTM计算当前节点顺序得到的信息，第二层LSTM计算当前节点逆序得到的信息。相比于其他神经网络结构，LSTM更加真实地模拟了人类的行为逻辑理解了前文信息对后文的影响，在目前视觉方向的研究，卷积神经网络在准确性和训练时间上比LSTM表现更好，但LSTM网络在处理时序关联和富有逻辑的任务潜力更大。

图1 LSTM图示

2 双向循环卷积神经网络模型

本文针对传统故障诊断方法特征提取的局限性和卷积神经网络模型对时序数据时间信息不敏感的问题，结合卷积神经网络与循环神经网络的优点，提出了BiLSTM-CNN的模型用于轴承故障诊断。该网络以卷积层提取主要特征，连接BiLISTM提取时序信息，主体框架包含两个卷积层，两个池化层，一个全连接层和一个双向LSTM循环层。每个卷积层处理前一层输入的特征映射分为三步：卷积运算、批标准化运算BN和激活函数单元(ReLU)。BN可以加速网络训练并提高深度神经网络的性能防止梯度爆炸，提高模型精度。CNN特征提取的结果作为BiLSTM网络输入。BiLSTM引入时间对网络的影响，增加时间维度，最后将输出结果经过softmax层分类[11]。网络内部结构框架及信息处理过程如图2所示。

图2 双向循环卷积神经网络模型诊断流程图

该模型由深度一维CNN及BiLSTM网络组成，能够学习原始信号中的深层特征信息和时间动态信息。首先，一维CNN利用其强大特征自学习能力从原始振动数据中自适应提取故障特征，减少对人工处理信号和有经验人员诊断经验的依赖[10]。其次，考虑到轴承振动信号的时间关联特性，双向LSTM被用来学习CNN网络输出的故障特征，建立动态时间序列分类模型。最后，通过softmax完成特征分类，以识别轴承故障的类型。

由于单纯的卷积神经网络只能满足单一数据集上的准确度，而使用LSTM网络的训练时间时间较长，将两者混合使用，先对输入的数据进行卷积操作，提取深层次的特征，同时减少数据量，再将处理过的数据输入到LSTM中训练，可以使训练结果更加稳定；训练时间比单纯的LSTM网络短；在不同负载的数据集中进行测试，有小幅度的效果提升。使用比LSTM效果更好的双向LSTM，进行训练，训练时间相差较少，但是训练效果有较好的提升。

3 实验部分

3.1 实验环境

实验使用的深度学习框架为Google公司的TensorFlow，所用计算机的配置为CPU i5 8265U、16G内存，利用Python在TensorFlow环境下搭建卷积神经网络模型，将每个文件中的数据按比例分为训练集，验证集和测试集，标注数据经过定义模型结构，初始化模型参数以后，就可以使用训练集的数据对模型进行训练，用验证集的数据对模型每轮进行测试准确度和损失。最后使用测试集的数据对训练好的模型进行测评。数据集共有10种数据状态，包括一种正常数据状态，和3种不同位置损伤组合3种损伤的直径大小共9种损伤状态。

本文实验采用的数据集及参数配置数据如表1所示。

表1 实验所用模型参数配置

3.2 实验结果及分析

为了验证本文方法的效果，选择与其他传统方法进行比较。将本文方法与传统BP方法，传统卷积神经网络方法和使用LSTM的卷积神经网络方法比较，实验结果比较如图3所示。

图3 不同模型诊断准确率对比图

将本文模型与上述模型进行对比，比起其他模型，CNN-BiLSTM模型准确率最高并且更加稳定，在CWRU的数据集上的准确率达到了99.4%。其他模型在多次训练后有不同程度的精度下降。

3.3 主要参数的选择与分析

(1) BN Layer

BN layer是一种数据归一化处理的方法，通过计算数据的均值和方差，将不太标准的数据统一到一个标准的范围内。使经过一轮卷积池化后变得松散的数据，按照分布规律重新变成均值为0方差为1的一组数据。深层神经网络在做前向反馈时，随着网络层深度的增加，模型训练时的数据的分布发生偏移或者变动，反向传播时模型向数据变化梯度最大的方向变化，数据分布的偏移会导致模型训练效率不高。使用BN算法，可以替代dropout操作有效的防止梯度爆炸。

根据图4结果的对比，可以得出结论：使用BN层的模型比不使用BN层的模型具有更高的诊断精度，平均可提高7%的精度。

图4 是否使用BN结果图

(2)激活函数

激活函数解决了神经网络深层模型的非线性问题。常用的激活函数有relu、tanh、sigmoid三种，sigmid常用于分类问题的输出层，tanh几乎适用于所有问题，relu是激活函数的默认函数。本文根据表1的模型参数设置，对使用relu、tanh、sigmoid三种激活函数的效果进行了对比，实验结果如表2所示。在训练时间方面，实验组之间没有太大差异，训练时间最短的是1号。在准确率方面，效果最好的是4号，其次是1号。对比几组实验结果，可以看出relu在全连接层有更好的效果；sigmoid在卷积层没有relu和tanh优秀；在卷积层使用tanh，全连接层使用relu有最好的精度效果。在卷积层使用relu的精度更平均。因此本文卷积神经网络模型在卷积层使用tanh激活函数，在全连接层使用relu激活函数。

(3)优化器

在深度学习模型训练过程中的优化器的选择十分重要，这关系到训练出的模型能否取得比较高的准确率和召回率，以及训练模型的速度。使用优化器，使其在学习方向梯度下降速度最快，在非学习方向减少摆动，有利于加快梯度下降的速度，可以使用较大的学习率。采用表中的模型参数设置，卷积层使用relu激活函数，全连接层使用tanh激活函数，对常用的5种优化器算法以及不使用优化器进行测试，实验结果如表3所示。

表3 不同优化器效果表

由表中数据可得：Adam自适应优化器在性能上优于其他几种优化器。在几种优化器算法训练时间相近的情况下，本文采用Adam自适应优化算法作为改进的CNN模型的训练优化器。

(4)BILSTM

表4 变负载下各模型的效果表

由结果可知，从准确率方面分析，使用卷积神经网络的模型比传统BP模型有更好的结果，卷积神经网络准确率达到98%以上，BP方法平均准确率只有77%；卷积神经网络与循环神经网络结合使用的模型比单纯使用循环神经网络的模型准确率更高。从诊断稳定性分析，本文方法稳定性最高，损失率只有0.15。实验表明所提出打方法在故障诊断方面的表现优于传统方法。

3.4 变载荷工况下的故障诊断结果分析

为了验证BiLSTM的的重要作用，将CNN+BiLSTM模型与普通CNN模型，CNN+LSTM模型进行比较。对于其他两种情况，卷积层的卷积核数量与全连接层的神经单元是相同的。CNN + LSTM模型与普通CNN之间的差别主要在于全连接层的拓扑不同，CNN+LSTM中卷积神经网络模型连接的是LSTM层，而普通CNN模型的卷积神经网络连接的是全连接层。CNN+BiLSTM模型与CNN+LSTM的差别主要在于CNN + LSTM卷积神经网络的全连接层连接的是BiLSTM层。为了验证BiLSTM-CNN在变负载工况下的泛化能力，使用滚动轴承在负载为1 hp条件下的样本数据对模型进行训练，并使用负载为2 hp和3 hp的样本数据进行验证和测试结果如表5所示。

表5 变负载下各模型的效果表

同样使用相同的参数模型，将训练数据变为使用3个不同负载混合的数据集训练出的模型，在各自的数据集上的准确度见表6。

表6 多数据集混合训练下各模型的效果表

混淆矩阵结果：图5是在使用3个负载混合的数据集上训练出的BiLSTM-CNN的模型上测试负载为2 hp的数据集的混淆矩阵，可以看出，准确率为88.6%，并且在大部分的分类在准确率达到100%，只有在第3个类别，第9个类别上的识别效率不高。

图5 混淆矩阵结果图

4 结论

本文提出将卷积神经网络与循环神经网络相结合，使用CNN结合BiLSTM构建深度网络模型进行轴承故障诊断。本文提出的BiLSTM-CNN模型，以混淆矩阵、准确率为评价依据，与传统机器学习模型、CNN、LSTM模型进行对比。实例分析表明，深度学习模型相比于机器学习模型能够更有效地提取特征信息；BiLSTM-CNN模型对提出方法的主要优势在于无需手动特征提取即可完成高精度断，摆脱对先验知识的依赖。除此以外，利用双向BiLSTM有更好的分类效果，因此相对于CNN、BiLSTM模型收敛速度更快，在变负载情况下有更高的准确度，具有一定的泛化能力。