基于深度迁移学习的滑动轴承-转子故障诊断

2022-08-19 13:18王小静郑成东
噪声与振动控制 2022年4期
关键词:源域概率分布分类器

朱 琰,黄 敏,王小静,郑成东

(1.上海大学 机电工程与自动化学院,上海 200444;2.上海船舶设备研究所,上海 200031)

结构越来越精密、系统越来越复杂的现代旋转机械设备在使得生产力飞速提升的同时也使得设备发生故障的概率增加,对其维修性的需求也进一步增加。虽然不可能做到完全杜绝机械故障的发生,但是可以对旋转机械设备的运行状态进行监测和利用先进的智能故障诊断技术对机械系统进行故障预警与故障诊断[1]。传统的智能故障诊断方法依赖于人工进行特征提取,难以保证被提取的特征具有识别机械故障的最佳信息。在过去的十年中,深度学习技术已经成为一个快速增长的研究方向,其最先进的性能在许多应用中得到了体现。许多神经网络,如SAE(堆叠自动编码器)[2]、DBN(深度信念网络)[3]、CNN(卷积神经网络)[4]和RNN(递归神经网络)[5]已经被开发出来处理高非线性和强相关性的工业数据。因此,基于深度学习的故障诊断由于其自动提取故障特征的优势也得到了广泛的应用。尽管深度学习相对于传统机器学习在故障诊断方面有着巨大的优势,但训练集和测试集之间总是存在分布分歧,这将导致深度网络的诊断性能显著下降。为了应对这个问题,有必要通过减少两个数据集的分布差异来实现知识转移。近年来,基于深度迁移学习的算法体现出良好的性能,它可以利用来自预先存在的任务(源域)的知识来促进模型训练和在不可见的机器诊断问题(目标域)中进行诊断。如Lu等[6]提出了一种基于DNN(Deep Neural Network)和无监督迁移学习的轴承故障诊断方法,无监督迁移学习即假设源域数据标签可以获得但目标域数据的标签不可获得或者目标域故障数据标签不可获得。利用DNN提取数据特征,源域数据特征与目标域数据特征间的分布差异通过最大均值差异(Maximum Mean Discrepancy,MMD)度量,最后利用SVM(Support Vector Machine)进行分类。Li 等[7]提出一个两阶段的基于CNN与生成对抗网络(Generative Adversarial Network,GAN)的诊断方法,即第一阶段利用源域数据训练生成器用以生成尽可能逼真的特征,第二阶段利用目标域正常数据以及源域数据训练判别器用以分辨数据来自于哪一个领域,并利用美国凯斯西储大学轴承数据集进行了工况之间的迁移试验验证。Han等[8]提出一个基于一维CNN的无监督诊断框架,主要用于目标域数据标签不可获得的应用场景。该诊断框架不仅利用MMD适配了源域数据与目标域数据间的边缘概率分布,还适配了每个类别的条件概率分布。该文在公开的滚动轴承数据集上进行了不同工况之间的迁移试验验证。

然而,他们只考虑了两个领域的边缘概率分布,没有对两个领域的条件概率分布进行综合考虑;并且存在单纯的一维时序信号空间特征不明显、提取一维信号特征困难等问题。文中提出了一个新的深度卷积迁移学习框架(Deep Convolution Transfer Learning Network,DCTLN)来解决上述问题。首先提出改进型联合分布适配方法,综合考虑了两个领域的特征空间概率分布与标签空间概率分布,适配了源域与目标域的联合概率分布,使之适应更加普遍的情况。其次将从原始信号中以等分截取的方式获得的振动数据转换为灰度二维振动图像作为该框架的输入,利用多隐藏层的卷积神经网络(CNN)作为提取可迁移特征的主干。其中在提出的改进型联合分布差异方法中利用标记源样本和未标记目标样本训练分类器,能够很好地泛化目标领域的测试数据。最终通过滑动轴承-转子的两个诊断案例验证了所提方法的有效性。特别是在所模拟的这些迁移任务中,既有不同工况间的迁移,也有不同机器间的迁移。对比研究表明,该方法可以在不需要标记目标数据的情况下具有较高的诊断能力。

1 基础理论

1.1 卷积神经网络

CNN作为深度学习的重要分支之一,以其出色的特征捕获能力[9]而在模式识别领域具有突出的优势。一个基本的CNN包括输入层、卷积层、池化层、全连接层和输出层。它的本质是构造多个过滤器来对输入进行一层一层的卷积和池化,并提取他们的特性。其独特的网络结构可以有效地减少训练参数的数量,从而降低网络的复杂性。卷积层由多个卷积核滤波器组成。运用内核过滤器与输入层的子节点进行卷积,然后输出结果。池化层也由卷积核滤波器组成,通常设置在卷积层之后。池化层核滤波器的计算不是神经元节点的加权和,而是最大或平均运算,池化层的功能是执行二次特征提取。全连接层是模型的一个分类模块。它可以将通过卷积层和池化层提取的分布式特征映射到目标空间,即从高维空间转换到低维空间。全连接层基于Softmax激活映射功能实现数据的多分类。

1.2 迁移学习

迁移学习是指将从一个或多个领域(源域)学到的知识迁移到其他相似但不相同的领域(目标域)[10]。领域由数据以及对应的数据概率分布构成。目标域由要解决问题时所直接依赖的数据及其概率分布构成,而源域可以是任何拥有大量标注数据且与目标域相似的领域。在故障诊断领域,同类零部件的数据,比如机器A上的两个不同的滚动轴承、机器A与机器B上的滚动轴承等,都可看作是相似的领域,彼此之间可以进行知识迁移。在目标域中,当难以获取大量的故障数据去训练网络时,迁移学习可以使得我们能够借助于其他工况或者类似的机器上的数据(可以看作源域),结合目标域中训练集有限的数据样本,来帮助训练网络模型,从而在目标域的测试集上获得令人满意的效果。具体而言,迁移学习可以使得深层网络提取不随领域变化的特征,并且将从源域数据中提取的特征用来训练特征分类器,实现对目标域数据的准确分类。

1.3 邻域自适应与最大均值差异

在迁移学习中,领域自适应(Domain Adaption)是最常用、最热门的迁移方法之一,其思想大致为:给定一个有着ns个标记样本的源域和一个有nt个无标记样本的目标域代表特征空间,Y={yi}ni=1是对应的标签空间,在迁移学习中,假定两个领域的边缘概率分布P(X)和条件概率分布Q(Y|X)彼此不相同,即P(Xs)≠P(Xt)、P(Ys|Xs)≠P(Yt|Xt),而领域自适应的目的就是把源域和目标域的概率分布对齐,从而实现利用源域标记数据训练出来的分类器可以准确预测出目标域数据样本的标签。

而在领域自适应中,常用最大均值差异(Maximum Mean Discrepancy,MMD)[11]度量两个领域间相似度的距离。MMD 具有效果好、无额外参数的特点,用来度量两个数据分布在一个叫作再生核希尔伯特空间的高维空间中的距离:

其中:kφ(·)代表核函数。

上述MMD 是基于单一核变换的,性能通常达不到最佳。而多核的MMD(Multiple-kernel MMD,MK-MMD)[11]由多个核线性组合得到,通常可以取得比单核MMD更好的效果。

2 深度卷积迁移学习框架

2.1 深度卷积迁移学习网络DCTLN

本文提出了1种基于深度迁移学习的新型网络诊断框架—标准化的卷积迁移学习网络(Deep Convolution Transfer Learning Network,DCTLN),其结构示意如图1所示。整个框架由输入部分、数据预处理部分、特征提取器(CNN)、分类器、迁移学习模块(IM-JDD)等构成,能够更加方便地实现端到端诊断且适合在线诊断,具有无监督迁移学习功能。

图1 DCTLN结构示意图

首先,由于CNN 本身擅长图像数据处理,网络的输入为将原始振动时域信号经过预处理后所得的二维振动图像,大大提升了特征提取的效率,同时大大降低了在信号处理方面要求。诊断框架中特征提取器(Feature Extractor)的主体结构为CNN,主要用于高维输入数据自动提取特征,得到较低维度的主要特征,然后送入分类器进行分类,同时也送入IMJDD用来衡量源域与目标域的数据分布差异。特征提取器部分如表1所示,主要由3 层卷积层、池化层和2 层全连接网络组成,且每一层网络的输出都会经过批量标准化层(Batch Normalization,BN)进行处理,然后再输入到下一层网络,这在一定程度上解决了内部协变量偏移问题,降低了梯度发散的几率。

表1 卷积神经网络结构参数

由特征提取器所提取的目标域、源域数据样本的特征,一方面被送入分类器进行分类,得到特征的标签概率分布,并通过计算预测标签与真实标签的差异来求得数据样本的分类损失;另一方面,被送入IM-JDD中去度量源域与目标域的分布差异。最后,用以反向传播更新网络参数的总的损失项由分类损失与迁移损失(目标域与源域的分布差异)两部分组成。

2.2 基于二维振动图像的数据预处理

与传统的一维振动信号时域分析和频域分析相比,二维振动图像可以很好地揭示故障信息和非平稳信号的时变特性。因此,由每一个短信号转换成的灰度像素图像包含了更为丰富的轴承健康状态信息[12]。通过MATLAB转换振动图像,如图2所示:首先对轴承几种状态的原始振动信号进行等分截取,如为了得到n×n像素大小的图像,就要在原始信号中从第一个信号开始截取n2的信号长度,后面的信号每段都截取相同长度,将信号序列最后剩余的数据去除。然后将截取的每个n2的信号长度转换得到二维振动图像,转换的公式表示为:

图2 振动数据转换成振动图像的过程图

在式(2)中:j=1,2,3…,N;k=1,2,3,…,N,L(i)中的i=1,2,3,…,N2,函数round( )是舍入函数,将整个像素值从0归一化成255,即灰度像素的像素强度。

2.3 改进型联合分布差异IM-JDD方法

一般而言,常用的MMD 方法只考虑了两个领域的边缘概率分布,也就是特征的概率分布,没有对两个领域的条件概率分布,即标签空间的概率分布进行综合考虑。Long 等[10]提出的联合分布差异(Joint Distribution Discrepancy,JDD)方法综合考虑了两个领域的特征空间概率分布与标签空间概率分布,适配了源域与目标域的联合概率分布。这时两个领域的分布差异可以被估计为:

其中:Ds、Dt分别代表源域与目标域,ns、nt分别为源域、目标域中样本数量,kφ、kφ表示不同的核函数,xs、xt表示网络自动提取的样本特征,、为网络所预测的样本标签概率分布,经过Softmax层处理。

由于迁移学习方法JDD主要应用在图像识别方面,且应用场景为无监督迁移学习,即假定目标域中样本标签不可获取或者样本没有被标记,缺乏真实的标签,所以式(2)中的源域与目标域的标签y均以网络分类器所预测的伪标签y^ 来代替,且将伪标签均输入到Softmax输出层处理,为原始的标签概率分布。为了能让这种迁移方法在故障诊断领域有着更好的效果,对JDD 方法进行改进,得到改进型JDD(Improved JDD,IM-JDD)方法,即将式(2)中的源域预测标签改为真实标签,而目标域标签仍为网络预测的伪标签的概率分布:

其中:ys为源域数据样本的真实标签,而为网络所预测目标域中数据样本的标签概率空间。

2.4 无监督学习流程

当将DCTLN用于无监督迁移时,特征提取器被用以提取数据样本的特征,所提取的特征一方面送入源域分类器中计算分类损失,另一方面要用来计算两个领域之间的数据分布差异。由于目标域中的数据样本没有标签,所以图1中的用于目标域数据分类的分类器是不工作的,只有源域数据的特征才会送入源域分类器,并计算源域数据的分类损失,加入到总的训练损失里面。IM-JDD 中计算的是联合分布差异,所以不仅需要两个领域中数据样本的特征,还需要对应数据样本的标签。送入IM-JDD 中的标签分为两部分:一部分为源域数据的真实标签概率分布,另一部分为目标域数据的预测标签概率分布。无监督迁移时,整个框架的目标函数为:

其中:μ、λ分布为分类损失与概率分布差异的惩罚系数,为超参数。D(Ds,Dt)为源域与目标域中样本概率分布差异,即迁移损失。Θ是网络可训练参数的集合,包括各网络层的权重矩阵W、偏置b。Lc为交叉熵分类损失:

其中:ns为源域样本,y为源域数据样本的真实标签,为对应样本的分类器预测的标签。预测标签y^ 由如下过程得到:

其中:C为总的类别数,其数值等于分类器中神经元数目。W为权重,f2表示第二层全连接网络层的输出,即特征提取器的输出,b为偏置项。式(7)的主要作用为将分类器的全连接网络层的输出转换成样本属于每一类的概率。

3 实验与分析

3.1 诊断实验描述

(1)诊断实验1:双轴滑动轴承-转子振动实验

该实验平台主要由直流电机、联轴节、转轴、配重圆盘、轴承座、底座、压板等结构组成,如图3所示。实验时通过改变转速、引入故障的程度来模拟不同工况的故障数据。模拟不同工况时,通过改变调速器输出电压来改变转速,采集转速分别为1 500 r/min、1 800 r/min、2 500 r/min、2 800 r/min、3 500 r/min、3 800 r/min 时的振动信号。试验中模拟的故障类型有不平衡、不对中以及复合故障,通过在圆盘上添加配重螺钉模拟不平衡故障[13],用在轴承座下添加垫片方式模拟不对中故障[14],2种故障同时存在时模拟复合故障。为了清晰起见,使用轴在承转速为1 800 r/min、2 500 r/min和3 800 r/min时的数据来构建迁移学习任务,分别用A、B和C表示,如表2所示。与大多数现有的公共数据集相比,本次实验的转速差更大。据此,设计了6 个不同工况间转移任务。不同转速下的不平衡振动信号时域图如图5所示。

图3 双轴滑动轴承-转子振动实验台

图5 不同转速下的不平衡振动信号时域图

(2)诊断实验2:单轴滑动轴承-转子振动实验

相对比的单轴实验台如图4所示。该实验平台相较实验台1是单轴结构,多了水箱、控制箱。试验设置同实验1,不同的是不对中故障通过改变电机底座螺纹拧的深度模拟。本实验中使用轴承转速为2 000 r/min和3 000 r/min时的数据构建迁移学习任务,分别用D 和E 表示,如表2所示。4 种轴承健康状态的二维振动信号图像如图6所示。

图4 单轴滑动轴承-转子振动实验台

表2 迁移任务中所用数据集的主要信息

图6 4种轴承健康状态的二维振动信号图像

3.2 实验设置

为了验证框架中迁移方法IM-JDD 的效果,在不同的数据集上执行不同类型的迁移任务,即实现工况之间的迁移和机器间的迁移。不同方法所用网络模型与图1所示一致,即均为CNN 网络。除了所提出的IM-JDD方法以外,作为对比,还引入了其他两种方法:(1)CNN(没有实施迁移学习);(2)CNN+MK-MMD(在CNN网络中实施了多核MMD迁移学习方法)。对于每次迁移任务,对网络模型迭代训练300次。使用Adam优化器来加速网络的收敛过程,学习率设为0.001。式(5)所示目标函数中分类损失的惩罚因子μ取为1,领域分布差异的惩罚因子λ在训练过程中的取值由如下过程确定:

其中:p为当前训练的进度,其值在0~1之间变化。比如,总共训练网络300 次,当前已经迭代训练了150次,那么p取为0.5。λ的取值从0到1逐渐增加,这样使得领域分布差异在总的损失中所占的比重在逐渐增加,网络训练会比较平稳,波动会减少。

3.3 实验验证和结果分析

基于不同诊断方法的在不同迁移任务中的推断结果如表3所示。对于每一项迁移任务,箭头前的字母表示源域,箭头指向的字母代表目标域。诊断结果为训练后的模型在目标域测试集上的推理准确率。

表3 不同诊断方法在各项迁移任务中的推理准确率/(%)

在无监督迁移学习中,对于迁移任务A→B,A代表源域,包含大量有标签数据样本,B 为目标域,训练集中的数据样本都是没有标签的,但通常假设测试集标签可以获得,以方便对模型性能进行评估。对于第一种诊断方法CNN,由于没有使用迁移学习,网络模型只能利用源域中训练集的有标记数据进行训练,然后在目标域测试集上进行测试。对于第1、第2种诊断方法,由于分布使用了MK-MMD与IM-JDD 迁移学习方法,使得在训练CNN 网络时还可以利用目标域训练集中的无标签数据。

根据表3中的数据,可以发现:

(1)第1种诊断方法(使用深度学习但不使用迁移学习)在各项迁移任务中的推理准确率均远远低于另外两种基于迁移学习的诊断方法,这说明在训练集与测试集的数据分布差异比较大时,非常有必要利用迁移学习来提升深度学习网络模型的诊断准确率;

(2)基于IM-JDD 的深度迁移学习诊断方法在各项迁移任务中的表现均优于基于MK-MMD的深度迁移学习诊断方法,最多时可以提升准确率接近5个百分点,平均诊断准确率超过了91%;此外展示了迁移任务D→E 的推理准确率随着模型训练次数增加的变化情况,如图7所示。可以看到,IM-JDD曲线在此迁移任务中比MK-MMD 曲线更加稳定、波动幅度更小,同时收敛更快。

图7 迁移任务D→E的推理准确率

(3)对于两个领域,迁移的方向不同,最终的迁移效果也不同,比如任务A→B 与任务B→A,以及任务A→C 与任务C→A,尤其跨机器迁移的任务B→E 与任务E→B,这两个任务所涉及的领域相同,但迁移的方向相反,最终的推理准确率相差了接近10%甚至18%,这说明迁移的方向也是影响迁移效果的重要因素;

(4)由较复杂的数据领域迁移至较为简单的数据领域的难度要小于由较简单的数据领域迁移至较为复杂的数据领域。A中的数据相较于B和C中的数据,D中的数据相较于E中的数据来说,其低转速工况下的信号成分因为故障程度较低,相对于高转速工况简单,所以由低速工况做源域的迁移难度较大。

图8给出了在迁移任务B→E中,基于只用CNN以及用迁移学习MK-MMD 与IM-JDD 的网络模型中的特征提取器所提取特征的t-SNE可视化图。图中圆点代表源域数据,加号代表目标域数据,不同的颜色代表不同的类别。图例中的大写字母代表类别,小写字母代表源域或者目标域。例如,imbalance-s表示源域中的不平衡故障,imbalance-t代表目标域中的不平衡故障。

从图8中可以看出两种迁移方法在类与类之间基本都能正确地区分。但是对于几种故障类型,基于IM-JDD 方法能够增加类与类之间的距离,让各个类别的轮廓更加清晰,如图8(c)中每个类所集中区域相隔较远;同时所提取的源域与目标域特征要更集中一些,即类内距更小,如图中normal 和compound类的样本更加紧凑,这样有利于分类器进行正确分类。

图8 迁移任务B→E可视化结果

4 结 语

本文提出了一个新的深度卷积迁移学习框架DCTLN。采用二维振动图像作为输入,提出的迁移方法IM-JDD 明显缩小了目标域数据与源域数据的分布差异。该框架实现了无标记滑动轴承-转子系统的状态的准确识别。经实验验证得到以下结论:

(1)在迁移学习方法JDD 的基础上进行改进得到IM-JDD 以适应输入数据类型的变化,实现了故障诊断领域中源域与目标域的联合概率适配。在滑动轴承-转子系统上进行了无监督场景下的故障诊断试验,结果表明在所有诊断任务上IM-JDD 均优于其他迁移学习方法。

(2)将振动时域信号转化为二维灰度图像用于直接诊断,避免了预处理导致的信息丢失问题,减少信息处理的繁琐步骤和时间,大大提升效率。

(3)基于IM-JDD 的DCTLN 框架对于滑动轴承-转子系统不同工况和不同机器间的无标记样本具有有效的分布对准能力和判别能力,能更好地应对实际应用场景。

猜你喜欢
源域概率分布分类器
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
基于参数字典的多源域自适应学习算法
一类摸球问题及其解法
基于特征选择的SVM选择性集成学习方法
弹性水击情况下随机非线性水轮机的概率分布控制
基于差异性测度的遥感自适应分类器选择
关于概率分布函数定义的辨析
风速概率分布对风电齿轮
从映射理论视角分析《麦田里的守望者》的成长主题