残差卷积自编码网络无监督迁移轴承故障诊断

2022-08-05 06:23温江涛张鹏程孙洁娣
中国机械工程 2022年14期
关键词:残差故障诊断准确率

温江涛 张鹏程 孙洁娣 雷 鸣

1.燕山大学电气工程学院,秦皇岛,0660042.燕山大学信息科学与工程学院,秦皇岛,0660043.燕山大学河北省信息传输与信号处理重点实验室,秦皇岛,066004

0 引言

轴承振动信号采集相对容易且包含大量有用状态信息,因此基于振动信号分析的数据驱动类智能故障诊断方法已成为轴承故障诊断领域的研究热点[1]。与此同时,深度学习理论已在各个领域展现出显著的应用优势,其强大的神经网络结构可用于自动提取原始振动数据的分层表示特征,有效解决传统机器学习诊断模型存在的一些不足[2-4]。因此,近年来基于深度学习理论的智能机械故障诊断研究受到广泛关注,学者们将深度自编码网络及其变体、深度卷积网络等引入旋转机械故障诊断中。SHAO等[5]提出基于深度自编码网络的故障检测与识别方法。JIA等[6]提出归一化稀疏自编码的典型旋转机械的故障诊断方法。SUN等[7]提出堆叠稀疏自编码网络,实现了对轴承故障的较好识别。JIANG等[8-9]研究了风电机组齿轮箱故障诊断,提出了基于堆叠去噪自编码网络以及多尺度卷积神经网络的深度学习模型。周奇才等[10]、曲建岭等[11]针对不同类型的旋转机械信号,提出基于一维深度卷积神经网络的原始数据学习及故障分类方法。WEN等[12]、WANG等[13]利用不同方法将一维振动信号转换为二维形式,进一步利用LeNet-5或Alexnet网络实现故障自动特征提取及类型识别。雷亚国团队一直致力于机械装备故障诊断相关的研究工作,提出了多种有特色的故障诊断方法[6,14]。

多数基于深度学习的故障诊断方法通常采用实验室数据或运行的历史数据训练模型,然后直接用于测试数据,此类方法在训练集数据与测试集数据具有相同数据分布时效果较好,一旦分布不同则诊断性能下降明显;此外,深度神经网络模型通常需要足够多的有标签数据才可以训练出性能良好的分类模型。工业应用场景下,机械设备通常运行在复杂多变的环境下,即使同一设备的训练数据和测试数据也难以满足相同分布要求,且真实的故障样本极为稀少甚至缺失,有监督学习模式难以适用。为此,本文引入迁移学习方法,并通过无监督学习方式来解决上述问题。迁移学习能够将从某个领域或任务中学习到的知识或模式应用到不同但相关的领域或问题中[15]。特征迁移学习通过特征变换与处理实现源域和目标域的分布差异最小化,从而完成分类模型的有效训练,在故障诊断领域已有一些研究成果[3,16-17]。现有研究成果表明迁移学习方法能够在一定程度上解决数据分布差异以及数据不平衡等问题。

深度神经网络类识别方法会随着网络的加深,参数量急剧增长,导致训练困难、网络收敛越来越慢、参数调节难度也随之增大。为解决以上问题,本文提出一种端到端的基于无监督残差卷积网络迁移学习的智能诊断方法,该方法主要由一维残差卷积自编码(one dimensional residual convolutional auto-encoder, 1D-RCAE)特征提取方法及迁移学习域自适应分类方法构成。1D-RCAE自适应学习不同工况下轴承运行信号的特征,在获得良好特征提取效果的同时,能够缩小网络训练参数量,缩短训练时间;迁移学习域自适应分类方法通过域间差异最小化方法学习源域与目标域数据之间的域不变特征。实验表明,本文所提出方法具有较高的识别准确率,同时有效缩小了模型的训练参数量,加快了网络的训练速度,为实现轴承智能故障诊断方法在实际中的应用提供了新的思路。

1 理论研究

现有的轴承迁移学习方法研究中多数采用有监督学习方式,并假定有少量带标签的目标域训练样本可用,但在实际工业环境下,带有标签的目标域样本数据获取代价巨大或者无法获得。因此,本文研究无监督域自适应迁移的故障诊断方法,避免网络训练过程中对标签数据的依赖。轴承振动信号为一维复杂非平稳信号,本文以一维卷积自编码作为深度网络基础来构建诊断网络模型。

1.1 一维卷积自编码

传统自编码器属于无监督式学习,而一维卷积自编码器结合了卷积神经网络的一维卷积层和池化层,可完全替代传统自编码器的全连接层,有效降低了网络模型中的参数数量,并增强了对高维复杂数据深层特征的提取能力。一维卷积自编码网络结构如图1所示。

图1 卷积自编码网络结构

卷积自编码Encoder部分由输入层和多个一维卷积层与最大池化层组成,Decoder部分则由输出层和多个一维反卷积层与上采样层组成。通过多卷积层堆叠可以实现较好的特征提取效果。

深度卷积神经网络因优越的特征提取性能,在故障诊断领域获得了广泛应用,但随着网络层数逐渐增多,参数量不断增加,训练难度逐渐增大。而残差学习[18]通过引入更易优化的残差函数,可以在网络层数增加时有效缓解深度网络退化以及梯度消失与梯度爆炸问题。同时,在深度残差网络中使用卷积核为1×1的卷积层,可以在不改变网络深度的情况下,大幅减少网络参数量。

1.2 一维残差卷积自编码

本文以一维卷积自编码网络为基础,将残差学习引入堆叠的一维卷积自编码网络中,构建1D-RCAE网络。1D-RCAE可以通过无标签训练数据对特征提取器进行优化训练,再利用少量标签数据微调训练分类器,可以实现较好的域不变特征提取及迁移识别。1D-RCAE网络结构如图2所示。

图2 1D-RCAE网络结构

1D-RCAE在传统卷积自编码中引入残差学习块与瓶颈层,实现网络深度增加的同时减少网络优化参数量,也改善了梯度消失与网络退化等问题,增强了网络对深层特征的提取能力。

(1)1D-RCAE网络的编码器部分由输入层、一维卷积层、最大池化层和瓶颈层构成。为实现对输入数据的有效降维,减少网络的学习参数,一维卷积层卷积核大小为1×3,步幅为2。瓶颈层卷积核大小为1×1,步幅为1,可以灵活改变输入特征的维度,减少分类器中全连接层的神经元个数。

(2)1D-RCAE网络的解码器部分由输出层、一维反卷积层、上采样层和反卷积瓶颈层构成。解码器的目的是通过与编码器相逆的过程对编码器输出特征进行还原,使得解码器输出与编码器输入无限逼近。如图2所示,1D-RCAE有两个残差块结构。①残差块1。编码器中最大池化层1的输出通过跳跃连接与解码器反卷积层3的输出进行加和后生成的新特征作为解码器上采样层1的输入,即上采样层1的输入

xu1=P1(C1(xin))+D3(yD2)

(1)

式中,P1为最大池化层1;C1为卷积层1;D3为反卷积层3;xin为原始输入数据;yD2为反卷积层2的输出。

②残差块2。编码器卷积层3的输出通过跳跃连接与解码器反卷积层1的输出进行加和后生成的新特征作为解码器反卷积层2的输入,即反卷积层2输入xD2为

xD2=C3(yC2)+D1(yB2)

(2)

式中,C3为卷积层3;D1为反卷积层1;yC2为卷积层2的输出;yB2为瓶颈层2的输出。

1.3 迁移学习诊断模型

以1D-RCAE网络为基础,搭建无监督域自适应迁移学习网络模型,学习从源域空间和目标域空间到公共映射潜在空间的转换。公共映射特征空间包含源域与目标域数据的特征表示,可以将源域知识迁移到目标域。本文的迁移学习诊断模型如图3所示,将1D-RCAE编码器部分的输出作为由两个全连接层和一个Softmax层构成的域自适应分类器的输入。

图3 无监督预训练迁移学习诊断模型

基于单一核函数的最大均值差异(maximum mean discrepancy, MMD)适配方法目前被广泛采用,但核函数的差异会造成计算源域与目标域之间的最大分布差异时得到不同的估值,为此本文采用多层多核最大均值差异(multi kernel maximum mean discrepancy, MK-MMD)方法[19-20],用多核核函数替代单一核函数,降低单一核函数对迁移学习领域适配结果的影响,并将传统的核参数选择的问题转化为多核核函数的优化问题。通常认为深层特征的分布差异保留在域自适应分类器的全连接层中,但是在特征提取器训练过程中,学习的特征分布也会随网络参数的更新而变化,为此需要调整特征提取器学习的迁移特征分布。定义迁移学习模型代价函数

(3)

卷积神经网络中,归一化操作可以缓解网络内部协变量偏移现象。考虑到实际应用中,计算机的内存消耗限制只能使用较小的批处理量(batch size),这样会导致批归一化BN(batch normalization)的误差迅速增大,为减小batch size对BN的影响,本文采用组归一化GN(group normalization)进行归一化处理[21],GN归一化处理将通道进行分组,在每组内计算归一化的均值和方差,其计算与batch size无关。

1.4 处理过程

本文方法的处理过程如图4所示,包含数据采集与整理、RCAE无监督预训练和域自适应迁移学习模型训练与测试三个阶段,可归纳为如下步骤:

图4 本文方法处理过程

(3)迁移网络模型初始化。将1D-RCAE编码器部分作为迁移学习模型特征提取器,两层全连接层和一层softmax层作为域适应分类器。将1D-RCAE预训练结束后得到的网络参数值作为迁移学习模型特征提取器的参数初始值,完成特征提取器初始化。域适应分类器部分则对参数进行随机初始化。

(5)反向传播与优化。①通过ADAM优化器对迁移学习网络进行逐层反向训练以更新网络权值;②返回步骤(4)继续执行。

2 实验结果与分析

实验均在如下配置的PC端进行:Intel Core i9 CPU,32G运行内存,NVIDIA RTX2080Ti GPU。

为验证本文方法的有效性,实验部分选用凯斯西储大学(Case Western Reserve University, CWRU)轴承数据集[22],文献[23]使用各种熵和分类方法对CWRU数据进行全面的基准分析,对本研究如何选择CWRU数据提供了可参考的建议。本文实验验证部分所使用的十类故障振动加速度数据同文献[24]。

2.1 数据预处理

本文对CWRU轴承数据集采用重叠采样法来增加有效样本量,设置重叠采样的单个数据样本长度为4096,每种健康状况包含400个数据样本。实验过程中从每一类健康状况数据中随机取80%样本数据作为训练数据,剩余20%样本数据作为测试数据。CWRU轴承数据集数据标签处理结果如表1所示。

表1 CWRU数据状态分类标签

2.2 域自适应迁移诊断结果

基于图3所示网络结构搭建1D-RCAE域自适应迁移学习故障诊断模型,具体参数设置如表2所示。

表2 本文网络参数表

基于此模型,以本文构造的实验数据集,按照跨域迁移任务分别进行10次重复实验,统计得到实验平均识别准确率与平均训练时间如表3所示。

表3 本文方法的诊断结果

由统计结果可以看出,本文方法在多数跨域迁移诊断任务中可保持99.4%以上的故障诊断准确率,且标准偏差较低。实验结果也证明了本文方法在处理CWRU轴承数据集的不同负载迁移的诊断问题时具有较好的结果。

图5所示为2hp→0hp跨域迁移诊断任务中某次实验迁移诊断模型训练损失与目标域测试数据识别准确率随训练次数的变化曲线。其中蓝色曲线表示迁移诊断模型训练损失随训练次数的变化,红色曲线表示对应跨域迁移诊断任务中目标域测试数据的故障识别准确率随训练次数的变化。

图5 CWRU数据集识别准确率曲线及损失曲线图

可以看出本文方法在训练过程中迁移诊断模型能够快速收敛,且目标域识别准确率稳步提高,当达到最高识别准确率后也可以稳定保持。

为了更直观地分析无监督迁移学习模型的域自适应与特征分类能力,图6给出了2hp→0hp跨域故障诊断的某次实验在迁移学习诊断模型训练过程中领域适配器输出的源域数据特征与目标域数据特征的T-SNE图[25],其中,有背景色的图例表示源域数据特征,无背景色的图例表示目标域数据特征。

(a)k=0

在无监督迁移诊断模型训练初始,特征提取器所提取的目标域数据特征和源域数据特征杂乱无章,无法很好地进行聚类,但随着无监督迁移诊断模型迭代训练的不断进行,相同健康状况数据的特征逐渐被聚集在一起,不同健康状况数据的特征得到分离。此外,T-SNE图还展示出领域适配模块的设计可以使特征提取器较好地弥合源域数据特征与目标域数据特征之间的分布距离。

2.3 主要参数值及影响

2.3.1诊断模型深度的确定及影响

理论上,网络结构越深误差越小,准确率越高,但与此同时网络复杂度也会随之增加,训练更困难。本文设计的1D-RCAE结构中含有一定量的卷积、池化等层,能够通过级联多个基础模块提高诊断性能。笔者综合目前轴承诊断研究成果中通常采用的网络层数,并且考虑计算复杂度及故障检测响应时间的要求,分别设计并对比了三种具有不同网络深度的一维残差自编码网络模型,分别记为Net1、Net2、Net3,网络结构如表4所示。

表4 不同深度网络结构表

为了减小随机因素的影响,本次实验以2hp→0hp跨域迁移诊断任务为例,分别对上述三个网络进行10次重复实验。图7展示了上述三种不同深度网络10次重复实验的识别准确率结果。

图7 不同网络深度识别准确率对比

由统计结果可以发现,随着网络深度的增加,识别准确率也在提高,但当网络深度增加到一定程度后,识别准确率难以继续提高,说明网络性能已经达到了饱和。识别准确率、标准差、网络训练时间统计结果如表5所示。

表5 不同网络层数的诊断结果

观察统计结果可知,采用Net2网络结构时识别准确率最高,由网络平均训练时间统计结果可以看出,随着网络的不断加深,网络性能达到饱和,并且训练参数的激增导致训练时间也不断增加。综合以上分析,本文选用有两个残差块的Net2实现滚动轴承故障诊断,在保证故障识别准确度的同时还可以有效缩短网络训练时间。

2.3.2卷积核宽度的影响

在卷积神经网络中,卷积核宽度是一个重要的超参数,表示卷积层输出特征通道数。对于一个模型而言,相较于深层网络所提取的特征,浅层的特征非常重要,因此网络浅层的卷积核宽度是一个较为敏感的系数。

为了分析卷积核宽度大小对本文模型性能的影响,以CWRU数据集2hp→0hp迁移任务为基础,设计了以卷积核宽度为变量的对比实验:分别设置卷积核宽度为4、16、32、64,每组进行10次实验。某单次实验中训练损失及目标域测试数据识别准确率随训练次数变化曲线如图8所示。

图8 不同卷积核宽度的训练损失及识别准确率变化

由训练损失变化曲线可以看出,卷积核宽度为16时模型收敛最快;宽度为32时模型收敛最慢。由目标域测试数据识别准确率变化曲线可以看出,卷积核宽度为16时最终识别准确率最高。

表6列出了不同卷积核宽度条件下,10次实验的平均识别准确率、标准差和平均训练时间。

表6 不同卷积核宽度的诊断结果

由统计结果可知随着卷积核宽度的增大,网络训练时间也相应变长,卷积核宽度为16时平均识别准确率最高。综合考虑故障识别准确率与训练时间消耗等因素,本文设置网络模型的卷积核宽度为16。

3 对比实验分析

3.1 距离度量函数

基于特征映射的迁移学习方法中,需要尽量最小化源域和目标域之间的概率分布差异,因此分布差异性度量方法成为影响模型诊断效果的重要因素。以CWRU数据集2hp→0hp迁移任务为例,在相同网络结构的基础上,对网络提取的特征使用不同距离度量方法来计算特征分布差异,主要对比以下方法:MMD[26]、多核MMD[19](MK-MMD)、双层MK-MMD(MC-MMD1)、三层MK-MMD(MC-MMD2)[27]。单层指计算不同域数据FC2输出特征距离分布差异,双层指计算不同域数据FC1和FC2输出特征距离分布差异,三层指计算不同域数据特征提取器、FC1和FC2输出特征距离分布差异。统计各网络10次实验结果的识别准确率,结果如图9所示。

图9 不同距离适配方案识别准确率

由统计结果可以看出MK-MMD性能要优于MMD,且不同层数的MK-MMD对诊断结果也有较大的影响。其中MC-MMD1平均识别准确率(99.70%)最高,MC-MMD2平均识别准确率(99.59%)稍低于MC-MMD1。因此,本文选择双层MK-MMD作为最终的距离度量函数。

3.2 归一化函数

以CWRU数据集2hp→0hp迁移任务为例,分别以BN 和GN作为归一化函数,在batch size为8、16、32、64和128的条件下进行10次实验,目标域测试数据平均识别准确率及训练时间结果如表7所示。

由表7可知,在BN归一化函数下,本文模型诊断准确率随着样本批量大小的增大而提高,当样本批量大小为128时平均识别准确率最高(99.438%),训练时间最短(582 s)。在GN归一化函数条件下,识别准确率受样本批量大小影响较小,在样本批量大小为32时平均识别准确率最高(99.638%)。由网络训练时间统计结果可知,在相同参数条件下,分别应用BN和GN作为归一化函数,模型训练时间近乎相同,且网络训练时间消耗会随着样本批量的增大而快速降低。实验统计结果表明,利用GN归一化处理可有效缓解样本批量大小对跨域迁移诊断结果的影响,因此综合考虑网络模型的识别准确率、训练时间及计算机内存消耗等因素,本文采用GN作为归一化函数,样本批量大小设置为32。

表7 不同归一化函数的诊断结果

3.3 诊断结果比较

本文诊断模型采用了一维残差卷积自编码网络,并融合多层多核概率分布适配来约束网络学习域不变特征,提高了变工况下的轴承故障识别准确率。为了考察方法的诊断性能,此处给出与其他经典方法识别相同故障类型的对比结果,对比方法包括:基于SAE、CAE、CNN的迁移诊断方法、无域自适应的1-DRCAE方法,主要的模型结构如表8所示。

表8 5种对比方法的模型结构

应用上述方法对所有跨域迁移故障诊断任务进行10次重复实验,平均识别准确率与训练时间的统计结果分别如图10、图11所示。

图10 不同方法识别准确率统计图

图11 不同方法训练时间统计结果

由图10、图11可知,本文方法的识别准确率明显高于对比方法,训练时间比采用1D-RCAE及SAE方法的长,但短于其余两种方法的训练时间。究其原因,首先本文方法引入了迁移学习,对不同工况故障的差异进行了域适应处理,改善了诊断效果,由统计结果可以看出,即使都采用1-DRCAE网络结构,本文采用了迁移处理方法的诊断结果明显好于未采用迁移处理的效果。与采用其他网络的方法对比,本文方法采用了深层结构,相比浅层SAE迁移方法示本文方法在各个跨域诊断任务中具有明显优势;相比具有相同网络深度的CAE和CNN迁移方法,引入残差块结构的1-DRCAE网络不但提高了网络模型的跨域迁移故障诊断性能、增强了网络模型的鲁棒性,还可以有效缩减模型训练时间。由以上分析可以看出,本文所提出的无监督迁移学习故障诊断方案能够将网络从源域所学习到的特征知识有效迁移到目标域中,有效提高了网络模型的跨域故障诊断性能。

4 结论

实际故障诊断应用中,旋转机械复杂的运行环境会导致传感器采集的振动信号与实验室获取的典型故障信号存在较大差异,影响基于机器学习算法的故障识别类方法的准确率。为此,本文提出了基于无监督特征知识迁移学习的智能故障诊断方法,通过引入一维卷积与残差学习构建深度一维残差卷积自编码网络,采用无监督域自适应方法实现不同负载条件下轴承故障的识别。实验结果表明,本文方法在实现较高准确率故障识别的同时,相比传统深度学习方法,减少了模型训练参数数量,加快了网络的训练速度,而且对不同应用环境的迁移识别任务鲁棒性较好。

猜你喜欢
残差故障诊断准确率
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于包络解调原理的低转速滚动轴承故障诊断
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
数控机床电气系统的故障诊断与维修