基于卷积双向长短期记忆网络与混沌理论的滚动轴承故障诊断

2022-09-23 01:33金江涛许子非缪维跑肖俊青

振动与冲击 2022年17期

金江涛，许子非，李春,2，缪维跑，孙康，肖俊青

(1.上海理工大学能源与动力工程学院，上海 200093；2.上海市动力工程多项流动与传热重点实验室，上海 200093)

随着智能制造业的迅速发展，现代工业中设备智能化和集成化正在普及。状态监测与故障诊断已逐渐成为确保设备安全性和可靠性的必要手段[1]。滚动轴承作为工业应用中最广泛的机械部件之一，其性能直接影响设备的稳定性和可靠性，轴承故障将导致设备异常运行，重则发生重大事故且造成巨大经济损失。因此，对滚动轴承进行早期故障诊断尤为必要[2]。

信号特征提取和状态分类是传统故障诊断方法的两个重要过程。特征提取由信号处理方法和特征值组成，信号处理方法主要有小波变换、经验模态分解、固有模态分解和变分模态分解等[3]；特征值主要有样本熵、排列熵、能量熵和分形维数等[4]。状态分类器主要有K近邻算法、人工神经网络以及支持向量机(support vector machine,SVM)等[5]。在实际机械系统中受振动、环境噪声以及变载荷影响，导致信号故障特征被淹没，而基于传统特征提取方法严重依赖于专家经验和先验知识，无法从复杂环境中提取有效故障特征。为此，采用合理有效的特征提取方法成为实现准确故障诊断的关键技术。

近年来，深度学习技术在学术界和工业界发展迅速，彰显了其对于复杂信号具有强大的非线性处理能力。深度学习中应用较为广泛的卷积神经网络(convolutional neural network,CNN)是一种前馈神经网络，具备高效特征提取和分类能力，其核心是通过构建多个滤波器对输入数据经卷积、池化和非线性激活等操作，逐级提取隐含于数据中的局部和全局化拓扑结构特征[6-7]。随着网络结构层数增加，所提取特征更具抽象化，呈现平移、旋转和缩放不变性的特征表示，提高了网络模型的鲁棒性，且该特性同样适用于时间信号[8]。CNN通过稀疏交互、共享权重以及时间或空间上的降采样，减小训练参数数量，降低模型复杂度，因此可大幅提升机器学习模型的性能[9]。基于此优势，文献[10]采用卷积神经网络对变压器实现了比BP神经网络更为准确的故障诊断。Chen等[11]将原始时域信号作为CNN的输入实现了齿轮箱的故障诊断。Zhao等[12]将一维振动信号归一化后输入CNN，用于滚动轴承的故障诊断，结果表明：经数据归一化后CNN模型比传统CNN模型具有更好的外推能力。文献[13]结合经验模态分解和CNN开展滚动轴承故障诊断方法研究，显著提高了模型的泛化性能和诊断准确率。

然而仅凭一维时域信号输入CNN中尚无法提取有效的非线性特征信息，且传统的时频分解方法对参数选择过于依赖人为经验，导致模型鲁棒性差。而混沌可反映时间序列无规律性的自相似变化，弥补了传统时域、频域分析方法的不足[14]。由于长短期记忆网络(long short term memory networks,LSTM)可学习时间序列中的历史信息，在时序数据处理方面有较大优势，但其仅可学习前向信息，无法有效利用后向信息[15]。为此，Schuster等[16]提出双向长短期记忆网络(bi-directional LSTM,BiLSTM)，能够充分获取前后向关联信息。文献[17]采用基于BiLSTM端到端的智能故障诊断方法，结果显示：相比传统故障诊断方法，该方法具有更加便捷有效和识别准确率更高的优势。

为此本文基于混沌理论，采用相空间重构法，将原始一维时间序列转化为二维混沌序列，以还原动力学系统中非线性特征，提出CCNN-BiLSTM (chaotic CNN-BiLSTM)算法，学习并提取混沌序列中有效非线性信息，并将两维度分别提取的特征进行融合输入BiLSTM全面提取时间特征，并以Softmax完成分类，实现具有强普适性和鲁棒性的智能诊断，为轴承故障诊断提供技术支持与实现途径。

1 混沌理论

混沌是非线性动力学系统中一种常见的行为，其貌似随机又类似无规则，是一种确定的但不可长期预测的运动[18]。由于一维信号难以提取具有表示性的非线性信息，为此采用基于相空间重构技术分析时间序列在高维动力学环境中的混沌特性。

1.1 相空间重构

相空间重构技术通过重构吸引子研究非线性系统动力学特征。为突显轴承振动信号动力学特征，将一维时间序列{xi|i=1,2,…,N}嵌入m维空间中可得相点Y

(1)

式中：τ为延迟时间；m为嵌入维数m≥2d+1；d为原动力系统维数。

嵌入维数m和延迟时间τ为相空间重构时两个重要参数，决定混沌吸引子特征。若m选择过小，吸引子无法充分展开，会发生重叠现象。反之，一方面会增加运算时间，另一方面会引入噪声，无法准确体现系统动力学特性。若τ值选择过小，各坐标相关性强，无法相互独立；若τ值过大，将导致某一时刻与下一时刻的相互关系更为复杂。m的选取方法主要有G-P法、假最近邻点及Cao方法[19]。Cao方法适用于数据量小的信号，弥补了虚假临近算法需选取阈值的缺陷。τ的选取方法主要有自相关函数法[20]和互信息法[21]。互信息法由于同时考虑了数据间的线性与非线性相关程度而被广泛使用，因此本文采用互信息法和Cao方法分别计算延迟时间和嵌入维数。

1.2 最大Lyapunov指数

Lyapunov指数是判断时间序列是否具备混沌特性的一个重要参数，其大于零时，初始时刻两相邻轨线在某些方位随时间增长按正的指数律发散，该方位系统的吸引子轨道反复拉伸与折叠，导致吸引子中原先相邻的轨线愈发不相关，使结构更复杂，最终产生混沌现象[22]。反之，无混沌特征发生。当λ>0时，系统的非线性特征随λ增大而增强[23]。采用Wolf方法[24]计算Lyapunov指数λ为

(2)

2 深度学习

2.1 卷积神经网络

CNN是一种“端到端”的数据处理方法，省略了人为特征提取过程，其主要通过卷积与池化提取拓扑结构特征，具有较强的特征自学习能力[25]，广泛应用于故障诊断中。CNN主要由卷积层、池化层和全连接层组成。

2.1.1 卷积层

采用多个卷积核与输入矩阵进行卷积运算，基于偏置，通过激活函数获取特征矢量，其数学表达式如下所示

(3)

2.1.2 池化层

输入数据经过卷积核特征提取后，由于数据庞大，往往添加池化层以减少模型权重参数大小，提高运算速度，并避免过拟合问题。池化层的计算公式如下所示

(4)

式中,β为权值矩阵，down(·)为降采样函数。

池化主要分为两种：均值池化与最大值池化。其中最大值池化最为常用，其表达式如下所示

(5)

式中,l为池化区域长度。

2.1.3 全连接层

输入数据经过多个卷积与池化交替后，将提取的特征通过全连接层进行分类，全连接层中包含多个隐含层，可提高模型的泛化性能。

2.1.4 Dropout层

Dropout正则化技术[26]是以一定比例忽略神经元，在全连接层前添加可防止模型发生过拟合现象，其标准过程由下式所示。

y=f(Wx)·m，mi～Bernoulli(p)

(6)

式中,x为输入量，W为权值矩阵，y为输出。

2.2 长短期记忆网络

LSTM通过引入输入门、遗忘门和输出门，较好解决了循环神经网络中存在的梯度消失和爆炸问题。其内部结构图如图1所示。

图1 LSTM内部结构图Fig.1 LSTM internal structure diagram

遗忘门决定过去记忆单元的重要性，根据输入单元Xt与前一时刻的输出单元ht-1判断过去记忆单元是否需保留。

输入门用于控制是否使用t时刻的记忆单元值更新下一时刻的记忆单元值。

输出门用于区分记忆单元与隐层单元，从而更新隐藏状态。

LSTM的更新公式如下所示

it=σ(Wxixt+Whiht-1+bi)

(7)

ft=σ(Wxfxt+Whfht-1+bf)

(8)

ot=σ(Wxoxt+Whoht-1+bo)

(9)

Ct=ft×Ct-1+it×tanh(Wxcxt+Whcht-1+bc)

(10)

ht=ot×tanh(Ct)

(11)

式中,σ表示sigmoid激活函数，输出为0～1，tanh输出为-1～1，W为各门之间权重矩阵，b为各门偏置项。

2.3 双向长短期记忆网络

LSTM虽具有记忆功能，但仅可学习前向信息，无法有效利用后向信息。而BiLSTM可同时学习历史信息和当前信息间联系，因此可获取更多有效信息。BiLSTM结构图如图2所示。

图2 BiLSTM结构图Fig.2 Structure of BiLSTM

由图2可知，输入的样本信号经过正向与反向LSTM计算各得到一个值，共同决定输出层值。

3 故障诊断方法

3.1 CCNN-BiLSTM框架

由于旋转机械的振动耦合与在役环境复杂导致振动信号具有强非线性特征。以原始信号作为数据源因信号单一难以提取具有表示性的非线性特征，导致CNN模型泛化能力较差，而混沌可反映时间序列无规律性的自相似变化，可较好提取非线性特征，且BiLSTM具有长期记忆功能，可全面学习时间序列信息。为此，本文提出CCNN-BiLSTM的故障诊断方法，其算法结构如图3和表1所示。

由图3和表1可知，基于混沌理论，提出采用相空间重构方法将一维时间序列转化为二维混沌序列，还原并丰富轴承振动的动力学特性，将二维混沌序列作为CCNN-BiLSTM模型的输入，然后将各维度信号分别输入至两个不同尺度的一维CNN网络中，提取并融合各尺度高级抽象特征至BiLSTM层，最终通过Softmax完成分类。该方法与基于单一CNN模型和基于BiLSTM模型相比，通过混沌与多尺度特征融合的方法可捕获更多有效的特征信息以提高模型性能。此外，通过在所提出的CCNN网络中实现预处理，可降低模型复杂度，改善了与BiLSTM网络完全连接所带来的时间复杂度高的问题。

图3 CCNN-BiLSTM模型Fig.3 The model of CCNN-BiLSTM

表1 CCNN-BiLSTM模型部分参数Tab.1 Parameters of CCNN-BiLSTM model

4 结果与分析

4.1 数据说明

实际工程环境下，模型需具备在变载荷与噪声背景下识别不同故障类型、损伤程度及故障位置判断的能力。采用凯斯西储大学的轴承实验数据[27]以验证所提出的方法在滚动轴承故障诊断中的可行性和有效性。

该滚动轴承实验平台装置图如图4所示。

图4 轴承实验平台装置图Fig.4 Device diagram of bearing experimental platform

由图4可知，实验台主要由电机、转矩传感器和功率计三部分组成。在滚动轴承内圈、外圈和滚珠上采用电火花加工技术布置单点故障缺陷，设置采样频率为12 kHz，轴承损伤直径分别为0.007和0.014英寸(1 inch=25.4 mm)。将轴承各状态分别在负载为0、1、2和3 HP(1 HP=745.7 W)工况下进行实验，在垂直方向上放置加速度传感器采集轴承驱动端故障状态和正常状态下的信号数据。轴承样本标签划分如表2所示，以电机负载2 HP时为例，原始振动信号时域图如图5所示。其中外圈@6表示外圈在6点钟方向的损伤。

图5 11种状态时域图Fig.5 Time domain diagram of 11 states

由表2可知，采用11种不同故障类型与损伤程度的轴承进行故障诊断以验证本文方法的有效性。

表2 滚动轴承样本标签划分Tab.2 Label division of rolling bearing samples

为增强轴承各状态下样本数量，对各数据集中的数据进行重采样以增多样本个数，重采样技术如图6所示。

图6 数据重采样Fig.6 Data augment with overlap

将数据集以8∶1∶1的形式划分训练、测试及验证集。其中轴承各状态训练集为800组，其结果如图7所示。

由图7可知，CCNN-BiLSTM方法在迭代步数为83次后损失值几乎不再变化，且准确率达100%，可判定模型已收敛，此时验证集损失为0.010 48。说明该模型未发生过拟合且收敛到全局最优，具有较好的泛化性与鲁棒性。

4.2 混沌特性分析

本文采用互信息法和Cao方法分别计算各故障原始信号的最佳延迟时间和嵌入维数，同时计算最大Lyapunov指数，其结果如表3所示。

由表3可知，通过延迟时间和嵌入维数计算11种不同故障时间序列的最大Lyapunov指数各不相同，但均大于0，说明轴承各故障振动信号具备不同程度的混沌特性。其中，外圈故障为0.007英寸时最大Lyapunov指数最大，为3.620 7，说明其混沌特性最强烈；而外圈在6点钟方向故障为0.014英寸时最大Lyapunov指数最小，为1.068 0，说明其混沌特性最弱。

表3 11种不同状态原始信号的最佳延迟时间、嵌入维数和最大Lyapunov指数Tab.3 The optimal delay time,embedding dimension and maximum Lyapunov of the original signal data in 11 different states

11种不同状态原始信号的相图如图8所示。

(a) 准确率

由图8可知，各状态相图均呈冗杂毛球状，该相形表示原始时域信号由有序朝混沌发展，不同故障信号混沌吸引子形态各异，表明其具有不同的动力学特征。

图8 11种不同状态原始信号的相图Fig.8 Phase diagrams for 11 different states

因CCNN-BiLSTM模型中的融合层3已融合各尺度的非线性特征信息，且由于该层通道数较多，数据量丰富。为此，将融合层3中11种不同状态对应的数据进行相空间重构，所得相图如图9所示，计算对应数据的最佳延迟时间、嵌入维数和最大Lyapunov如表4所示。

图9 11种不同状态在融合层3对应数据的相图Fig.9 Phase diagram of data corresponding to 11 different states in fusion layer 3

表4 11种不同状态在融合层3对应数据最佳延迟时间、嵌入维数和最大Lyapunov指数

由图9与表4可知，从融合层3中所提取的数据在空间内局部折叠、反复缠绕最终形成奇异吸引子，其相轨迹既非周期函数的往复性运动，也非随机运动。且融合层3对应的数据在各种状态下的最大Lyapunov指数均小于原始信号所计算的。而由于当最大Lyapunov指数大于0时，系统的非线性特征随最大Lyapunov指数增大而增强，因此原始输入信号经过CCNN-BiLSTM进行特征提取后的数据非线性减弱，因此该方法可提取更为纯净的非线性信息。

4.3 噪声对模型性能的影响

考虑实际工程中，轴承振动信号采集往往伴随环境噪声干扰。本文研究不同噪声水平下，CCNN-BiLSTM模型的泛化能力与稳定性。将测试集样本添加信噪比分别为-8、-6、-4、-2、0 dB的高斯白噪声，以模拟真实工业环境。

不同算法在各信噪比下准确率对比如表5与图10所示。

表5 不同算法在各信噪比下准确率对比Tab.5 The accuracy comparison of different methods under each SNR

图10 不同算法在各信噪比下准确率对比Fig.10 The accuracy comparison of different methods under each SNR

由图10与表5所示，对相对纯净信号(信噪比为0)下进行的故障诊断，本文方法平均有99.51%的识别准确率，相比于CCNN-LSTM、CCNN、CNN及SVM有近0.38%、0.45%、1.83%及6.05%的提高。在处理信噪比为-8 dB的信号时，CCNN-BiLSTM方法仍具有95.58%的准确率，相比CNN与SVM分别高出5.21%和12.96%。而采用SVM方法在噪声环境下运行10次准确率最低且变化幅度最大，因为传统故障诊断方法依赖专家经验，无法有效提取故障特征，导致SVM分类准确率较低，模型鲁棒性较差。由于数据各时刻点之间的关联性，仅采用CNN在数据分割时存在信息丢失现象，而BiLSTM可同时学习历史信息和当前信息间联系，且混沌可反映时间序列无规律性的自相似变化，可较好提取非线性特征。因此本文所提出的CCNN-BiLSTM方法在环境噪声下具有最佳性能。

4.4 负载对模型性能的影响

在实际工程应用中，模型应具备在变负载情况下的诊断能力。表6给出了不同的变负载情况。

表6 变负载实验设置Tab.6 Variable load experiment Settings

由于现实环境中滚动轴承在变载的同时亦受环境噪声的影响，为此对原始信号添加信噪比为-4 dB的高斯白噪声，以模拟真实工业环境。并将五种方法在6种变负载工况下进行对比，结果如图11所示。

图11 负载变化时各方法准确率Fig.11 Accuracy of each method when load changes

由图11可知，由于CNN模型采用一维时域信号，易引发特征信息缺失，导致模型性能低下。而基于混沌理论，通过相空间重构方法，将一维振动信号升至二维，可学习更多特征信息，增强了模型的鲁棒性。因此在6种变载荷工况下，采用CCNN-BiLSTM方法的平均准确率为96.94%，相比现有方法至少高出3.76%。

为定量评估上述不同方法的分类性能，计算出准确率和召回率，其表达式如下所示

P=TP(TP+FP)-1

(12)

R=TP(TP+FN)-1

(13)

式中：P为精确率；R为召回率；TP为正确分类为阳性样本数，FP为错误分类为阳性样本数，FN为错误分类为阴性样本数。

以工况4为例，五种方法的精确率与召回率结果如表7所示。

表7 不同算法的精确率与召回率Tab.7 Precision rate and recall rate using different methods

由表7可知，CCNN-BiLSTM方法在识别不同滚动轴承运行工况方面具有较好的性能，其定量指标优于另四种方法。

4.5 模型可视化

t-SNE作为一种可视化算法，通过将数据点之间的高维欧式距离转换为表示相似性的条件概率。在高维空间中彼此分离的点仍然保留在低维空间中。

为研究基于CCNN-BiLSTM算法的内部机制，运用t-SNE流行降维算法可视化分析原始数据集添加噪声以模拟SNR=-4 dB，经t-SNE降维后各卷积层和BiLSTM层可视化结果如图12所示。

由图12可知，随卷积层的深入，模型逐步学习信号特征，呈现出明显的流形分布，各故障类型重叠区域逐渐减小，间距增大，区分越显著。在卷积层3和卷积层4中外圈6点钟方向缺陷为0.007英寸的故障发生分离，在卷积层5中正常状态已分离。而融合层3因结合了各尺度非线性特征信息，已将正常状态和外圈6点钟方向缺陷为0.021英寸的故障实现了较好的分离，在BiLSTM1层中，11种状态区分度明显。说明通过CCNN-BiLSTM方法可从二维时域信号中提取较为纯净的非线性信息。

卷积层1

5 结论

针对传统故障诊断方法依赖人为经验，在大噪声与变载荷环境下难以有效提取故障特征，导致模型鲁棒性能差的问题。基于混沌理论，提出CCNN-BiLSTM故障诊断方法，以滚动轴承实验数据为研究对象验证有效性，结论如下：

(1) 相比于其他算法，当信噪比为-8 dB时CCNN-BiLSTM方法的准确度仍接近95.58%，在不同信噪比下均具备最高的准确度，说明CCNN-BiLSTM方法具有较好的泛化性能。

(2) 在变负载实验中，CCNN-BiLSTM方法的准确度接近96.94%，相比现有算法至少高3.76%，体现了该算法在变负载环境中良好的鲁棒性。

(3) CCNN-BiLSTM方法在处理不同故障类型、损伤程度以及不同故障位置时均具有良好表现，通过采用多尺度1D-CNN可提取更多有效的故障特征。

(4) 通过最大Lyapunov指数可知轴承各故障状态均具有混沌特性，原始信号外圈故障为0.007英寸时混沌特性最强，外圈在6点钟方向故障为0.014英寸时最弱。而经CCNN-BiLSTM方法进行特征提取后的信号最大Lyapunov指数减少，表明非线性减弱，因此该方法能提取较为纯净的非线性信息。