类别标签辅助改进稠密网络的变工况轴承故障诊断

2022-09-23 00:58孙洁娣温江涛时培明闫盛楠肖启阳
振动与冲击 2022年17期
关键词:跨域概率分布特征提取

孙洁娣,刘 保,温江涛,时培明,闫盛楠,肖启阳

(1.燕山大学 信息科学与工程学院,河北 秦皇岛 066004;2.燕山大学 河北省信息传输与信号处理重点实验室,河北 秦皇岛 066004;3.燕山大学 河北省测试计量技术及仪器重点实验室,河北 秦皇岛 066004;4.河南大学 人工智能学院,郑州 475000)

滚动轴承作为旋转机械的重要部件,对整个旋转机械的安全运行有着直接影响。轴承出现故障可能导致大量人力财力损失,因此快速准确的轴承故障诊断在机械健康状态管理中意义重大。近年来,轴承故障诊断已由传统方法向智能化方向转变,基于数据驱动的智能机械故障诊断方法取得了较大发展[1-4]。

随着深度学习在多学科交叉研究中取得了令人瞩目的成绩,学者们将其引入机械故障诊断中,形成了一类新的智能故障诊断方法。该类方法主要通过复杂的学习算法提取高维特征中的隐藏信息,建立输入数据与预测类别之间的关系,继而实现端到端的识别。在众多方法中,深度卷积网络因其具有的强大特征提取能力得到了广泛关注,文献[5]利用卷积网络从振动信号频谱中自动学习特征,实现了变速箱健康状态诊断。文献[6]利用三维卷积网络对原始振动信号的时频图像进行自动化特征提取,实现了齿轮箱复合故障的识别。文献[7]利用CNN对原始监测信号的二维矩阵进行自适应特征提取,实现了轴承故障识别。

分析文献发现,多数诊断方法均假设训练数据与测试数据同分布,数据来自同一工况下机械振动信号。而实际轴承诊断应用中,运行工况复杂多变,不同工况下轴承的振动信号差别较大,直接将前述方法应用于变工况的轴承故障诊断中将导致故障识别准确率大幅度降低,严重限制了很多理论上成功的诊断方法在复杂工况下的应用。因此,针对轴承实际应用中的多工况变化导致的数据分布差异问题,研究自适应的特征提取及识别方法,实现复杂变工况环境下的轴承智能故障诊断是目前该领域的迫切需要。

迁移学习(transfer learning,TL)为解决变工况下的轴承故障诊断带来了新思路[8-10],其尝试将源域知识应用于目标域的样本分类任务中。很多学者研究了多种迁移识别方法,文献[11]利用自动编码机提取轴承故障信号的敏感特征,通过引入特征域适应,提升了网络在小样本情况下的诊断准确度。文献[12]基于卷积神经网络提出一种迁移学习分析方法,实现了齿轮箱故障识别。文献[13]基于卷积神经网络,在全连接层处的域适应损失及卷积网络分类误差共同作用下实现了不同机械间的故障识别。为了更好的对齐源域和目标域特征分布,文献[14]在卷积神经网络的多层中引入最大均值差异来最小化数据的特征分布差异,在两种机械间的跨域诊断任务中实现了很好的识别结果。文献[15]在以上深度迁移学习的基础上,通过结合域适应和域分类器损失实现了目标机械的故障诊断识别。

上述文献表明,源域和目标域间的特征分布差异信息能够有效提高网络的跨工况适应性、辅助深度神经网络实现不同工况下的轴承故障诊断任务。以上算法虽然取得了较好的识别效果,但是忽略了信号特征提取过程的优化以及不同域中样本的标签概率分布信息对故障分类的潜在作用。

针对以上问题,本文提出优化的特征提取和知识迁移的故障诊断方法。该方法引入稠密卷积网络和注意力机制来优化信号的特征提取过程,同时引入标签概率分布适应来对网络输出的源域和目标域样本标签分布进行优化。模型中的稠密卷积网络和注意力机制负责信号多层特征的提取及特征重要程度标识;标签概率分布适应在特征分布适应的基础上进行二次分布对齐,从而更有效的实现域知识迁移,实现变工况轴承故障诊断。实验结果表明,相较于传统方法,本文所提出的方法从特征提取和域适应的角度都实现了更高的跨工况故障诊断准确率。

1 深度神经网络的特征提取

深度卷积神经网络CNN因其良好的性能常被用作机械故障信号特征提取模型,但其本身也存在不足之处[16-19]。稠密卷积网络(DenseNet)作为CNN的一种变体,通过将网络内部不同层次的特征合并传递,增强特征的传递性,实现浅层特征重复利用,有效缓解梯度消失并提高网络的收敛效率[20-21]。

1.1 基于稠密卷积的特征提取

DenseNet本质上是一种具有较深层数的卷积神经网络,主要由稠密卷积块和过渡层构成。

稠密卷积块在特征提取过程中,为了确保网络的前馈性以及网络各层能够提取最大信息量,对各层特征进行拼接,每一个卷积层都从前面的各卷积层中获得额外的输入,并将本层的特征映射传递给后面所有层。设x0为稠密卷积块的输入,x0经过稠密块第一层卷积处理得到特征x1,第二层卷积层的输入为[x0,x1],第L层卷积的输入特征则为[x0,x1,…,xL-1]。每层卷积的处理可表述为下式

(1)

式中:xi为输入特征;wi为权重参数;b为偏置;f(·)为非线性激活函数。

为了有效控制网络参数数量,在每个稠密卷积块后连接一个包含1*1卷积层和平均池化层的过渡层,对特征进行降维处理。

1.2 基于注意力机制的特征重要性区分

对于稠密卷积网络所提取的信号特征,卷积注意力机制(convolutional block attention module,CBAM)[22]通过通道及空间注意力处理分析,实现了特征权重的差异性区分。结合一维卷积网络结构,本文基于CBAM的特征区分处理过程如图1所示。

图1 本文基于CBAM的特征区分Fig.1 Feature distinguishing processing based on CBAM

通道注意力处理包含降维、特征变换、特征激活三部分。输入特征F在空间维度上进行全局平均池化和全局最大池化,得到降维后的特征Favg、Fmax。该特征在共享权重的卷积网络中进行非线性变换,得到特征Convc(Favg)、Convc(Fmax)。利用Sigmoid函数对输出的两个特征求和结果进行激活,得到通道注意力权重分布图Wc,权重分布图中标识了各个通道特征的重要性,代表着特征图的各通道特征对网络跨域识别任务的贡献率。通道注意力的输出特征权重可用式(2)表示。

Wc=σ(Convc(AvgPool(F))+Convc(MaxPool(F)))=

σ(Convc(Favg)+Convc(Fmax))

(2)

式中,σ为sigmoid激活函数,Convc为通道注意力处理中权重共享的卷积层。

Ws=σ(Convs([AvgPool(F′);MaxPool(F′)]))=

(3)

式中,σ为sigmoid激活函数,Convs为权重共享卷积层。

2 领域适配

通过特征映射寻找两个域的相关性,找到对两个域分布影响较小的潜在参数,实现域不变特征的迁移是基于特征的迁移学习主要解决的问题。

2.1 特征概率分布适配

迁移学习基于领域适配理论[23]将两个域中的特征非线性的映射到同一个高维空间,在该空间中对不同分布特征进行对齐,特征域适应过程如图2所示。

图2 基于特征映射的迁移学习结构图Fig.2 Transfer learning based on feature mapping

最大均值差异MMD[24-25]常用于判断图中两个特征分布是否相同,但该指标侧重度量不同域分布间的整体差异,未考虑不同域分布中任何细粒度信息。局部最大均值差异(local maximum mean discrepancy,LMMD)[26]将源域和目标域特征划分为多个子域分布,并计算源域和目标域中相关子域特征分布间的距离。给定两个独立数据集x和y,LMMD计算如式(4)。

(4)

(5)

lic为标签编码向量li的第c项。

2.2 标签概率分布域适配

为了更好的利用不同域间的特征知识,在特征域适应的基础上,从跨工况情境下两个域共享相同标签空间的角度出发,本文提出对跨域识别任务中两个域内的标签概率分布进行适配,在特征子域分布适配之后,增加标签概率分布适配,改善识别效果。

考虑到目标域数据的无标签问题,本文结合网络softmax层的输出结果实现对源域和目标域的标签概率分布对齐。Softmax层中的计算公式为

(6)

式中:i代表k中的某个分类;gi代表该分类的值。

一方面,softmax层作为网络的最后一层,包含着数据集的非线性特征信息;另一方面,softmax层将源域和目标域数据的多分类结果以概率分布p和q的形式展现,分别刻画了网络预测标签对不同类别的归属程度。对于网络中softmax层的输出,可以应用MMD距离度量函数度量两个标签概率分布的差异。进一步将该差异作为网络的损失函数,约束网络的训练过程。标签概率分布差异的度量如式(7)

(7)

式中:dk(·)为MMD距离度量函数;pl,ql为softmax层输出的源域、目标域标签概率分布;K为高斯径向基核函数的数量;γ为各个核函数系数。

3 本文所提方法

综合考虑网络特征提取能力和数据特征及标签信息利用,本文提出结合注意力机制的稠密卷积网络以及标签概率域适应的轴承跨域诊断模型。如图3所示。

图3 本文的深度迁移诊断模型Fig.3 Proposed deep transfer diagnosis network

3.1 稠密卷积特征提取模型构建

本文首先采用稠密连接的一维卷积网络对输入信号进行特征提取,网络的第一层卷积采用1×6卷积核,实现一维振动信号向高维特征转换。两个稠密卷积块具有相同结构,包含四层卷积层和四层批标准化(batch normalization,BN)层。两个过渡层包含卷积层、批标准化层、整流线性单元(ReLU)和平均池化(Avg-pooling)层。

之后采用CBAM从通道和空间两个维度对网络提取的特征进行处理,CBAM作为一个轻量级的模块,本文将其在稠密网络提取特征之后加入,以便于对总体特征实现重要性区分。

3.2 特征域适应模型构建

模型的全连接层包含一个展平层、两个全连接层和一个softmax层。为了提升源域数据和目标域数据特征知识的匹配程度,在全连接层对网络提取的高维特征及标签概率分布进行领域适配。如图3所示,高维特征经展平后,输入全连接层FC1,利用式(4)对FC1层输出的源域和目标域特征分布进行差异度量并匹配,得到源域和目标域局部特征分布差异LMMD(Fs,Ft),其中Fs,Ft为源域目标域的高维展平特征。特征经过全连接FC2层非线性变换处理后,输入softmax层进行标签预测。在softmax层利用式(7)计算源域和目标域标签概率分布差异MMD(Ls,Lt),Ls,Lt为源域和目标域的标签概率分布。

3.3 跨域诊断模型的训练

为了更好的对源域和目标域特征知识、标签分布信息进行综合利用,提高轴承跨域故障诊断准确度,结合式(4)与式(7)的分布差异值,构建如下优化目标:

Min(losss+γLMMD(Fs,Ft)+γMMD(Ls+Lt))

(8)

式中,γ为域适应的惩罚项系数,losss为源域数据集分类损失,定义为:

(9)

网络在式(8)的约束下,模型的每次更新都进行了特征概率分布对齐、标签概率分布对齐,经过多次的双重对齐操作,模型提取的源域特征知识分布逐渐趋近于目标域的特征知识分布,从而借助源域数据集的特征知识来实现目标域数据的正确分类。

模型训练过程主要包括如下步骤:

(1) 初始化:初始化模型参数。对源域数据集和目标域数据集进行Z-score标准化预处理:

(10)

式中,σ和μ分别代表原始振动信号x的均值和方差。

(2) 前向传播:依据本文方法搭建特征提取及域适应网络,输入源域和目标域数据,利用网络对数据样本进行特征提取。提取的特征在全连接层中按照式(4)、式(7)、式(9)分别计算域适应损失和源域分类损失。

(3) 反向传播:采用小批量梯度下降(mini-batch gradient descent,MBGD)优化算法,逐层反向训练更新迁移网络模型参数。返回继续执行(2)的前向传播过程,直到达到设定的迭代次数后结束训练过程。

(4) 目标域测试样本识别:将目标域测试数据输入训练好的网络,返回网络识别结果。

4 实验结果与分析

为了测试本文提出的跨域故障诊断模型的性能,以轴承不同工作负载下采集的数据集为基础进行迁移故障诊断,下述实验都在如下配置的PC端进行:Intel Core i7 CPU,NVIDIA GEFORCE GTX 1070 Ti GPU。

4.1 数据集概况

实验采用了凯斯西储大学提供的轴承振动信号数据集[27],识别的轴承状态包括:正常NO(normal)、内圈故障IF(inter race fault)、外圈故障OF(outer race fault)、滚珠故障BF(ball roller fault)。每种故障有三种严重程度,故障直径分别为0.007英寸、0.014英寸、0.021英寸。信号采样速率为12 kHz和48 kHz。四种不同的设备运行负载为0 HP,1 HP,2 HP,3 HP。实验中选取12 kHz采样频率下的驱动端轴承信号进行分析,考虑三种不同故障下的三种严重程度,与正常状态信号共计故障类别为10类,文中故障类型分别表示为0~9,每类234个样本,每个样本包含1 024个采样点,数据标签处理结果如表1所示。

表1 状态标签Tab.1 State labels

本文实验中将不同负载记为load0、load1、load2、load3,研究四种不同负载工况轴承之间的跨域诊断。

4.2 迁移故障诊断实验结果

按照本文方法构建深度特征提取网络及域适应网络,网络参数如表2所示。

表2 网络参数表Tab.2 Parameters of the network

基于以上参数,构建深度迁移网络,对本文所提出的多种跨域识别方法进行10次重复实验,统计实验结果如表3所示。

表3 文中所提方法的跨域诊断结果Tab.3 Cross-domain diagnosis results of the proposed method

由表3可以看出,本文方法在多数迁移诊断任务中实现的故障识别准确率保持在99.0 %以上,且具有较低的标准偏差,表明文中所提方法在处理不同负载迁移诊断问题时总体效果较好,且单次的可信度高。

4.3 主要参数的影响分析

深度迁移模型构建过程中,合适的参数可以有效提高目标域轴承故障的诊断准确率,下文将从多方面分析重要参数的不同取值对跨域诊断结果的影响。

4.3.1 网络模型深度对诊断结果的影响

网络模型深度对特征提取过程和训练时间有直接影响。网络模型过浅会导致网络特征提取能力下降,难以提取到具有表示性的域不变特征;网络模型过深会加长网络训练时间,并且带来过拟合、梯度消失等风险。下文比较的三种不同深度网络结构如下:

网络a:(稠密卷积块+过渡层)×1、注意力机制层×1、全连接层×2。

网络b(本文方法):(稠密卷积块+过渡层)×2、注意力机制层×1、全连接层×2。

网络c:(稠密卷积块+过渡层)×3、注意力机制层×1、全连接层×2。

下表为10次识别结果的统计值。

表4 不同网络层数下跨域识别统计结果Tab.4 Cross-domain recognition results with different layers

从统计结果可以看出,三种网络中,本文所提出的网络b诊断准确率最高,且具有较高的鲁棒性。从训练时间可以看出,随着网络结构的加深,网络训练所需时间随之增加,而本文网络训练所需时间适中。以上分析也表明本文的网络结构b诊断效果较好。

4.3.2 特征注意力机制处理的影响

本文特征提取中引入卷积注意力机制进行特征的重要性区分。在前文确定的网络结构基础上,此部分分析卷积注意力机制对分类识别的影响,主要对比了三组不同的结构,如下所示。

网络①:仅两个稠密卷积块而无注意力机制处理,即(Dense block1+Dense block2)。

网络②:CBAM注意力机制处理层置于第一个稠密卷积网络之后,即Dense block1+CBAM+Dense block2。

网络③(本文方法):CBAM注意力机制处理置于第二个稠密卷积块之后,即(Dense block1+Dense block2+CBAM)。

为避免偶然因素影响,现进行十次实验结果统计,以跨域诊断实验load2→load3为例,结果如图4所示。

图4 不同网络结构对应的识别结果Fig.4 Results of different network structures

由图中可以看出,网络③即本文方法的识别准确率最高,而没有卷积注意力机制处理的网络对多数样本分类效果较差,跨域识别准确率较低。表明文中将注意力机制结合稠密网络进行特征的提取及优化,可以更好的实现特征的重要性区分,改善了跨域诊断网络的识别效果,获得了最高的识别准确率。

4.3.3 惩罚项系数取值对识别结果的影响

域适应中的惩罚项系数表征了网络在训练过程中域适应的强度。惩罚项系数过小会导致域适应强度不够,难以实现满意的跨域诊断结果;惩罚项系数过大则会显著增加网络反向传播的损失,带来梯度爆炸风险。为探究不同惩罚项系数值对识别结果的影响,重复十次实验并对不同跨域诊断效果进行分析,图5以load0→load3为例,给出惩罚项系数取值为0,0.01,0.5,1,10,0-1的识别结果,其中0-1取值按照公式2/((1+exp(-10*q))-1)变化,q为网络训练过程中已训练次数与总训练次数的比值。

图5 不同惩罚项系数的跨域诊断识别率Fig.5 Cross-domain diagnosis accuracies with different penalty coefficients

从图中可以看出,在多组实验中,变化的惩罚项系数取得了最好的迁移诊断结果。分析其原因,在网络训练前期更注重对源域数据特征的提取,此时惩罚项系数应取较小值;随着训练过程进行,网络优化重点逐渐转移到不同域间的特征适配任务上,因此惩罚项系数应逐渐增大,提升网络的域不变特征提取能力。

5 对比实验及分析

5.1 不同距离度量函数的诊断结果比较

源域及目标域提取特征的差异性度量是影响跨域识别结果的重要因素,此处以实验load3→load2为例,分析本文采用的LMMD与传统的MMD对跨域识别结果的影响。记录某次实验网络训练过程中测试准确率和测试损失值,如图6所示。

图6 测试准确率曲线及损失曲线图Fig.6 Accuracy curve and test loss curve

由图中可以看出,与传统MMD距离度量对应的网络相比,文中所提方法实现了更平滑的测试损失曲线和更低的损失值,说明文中所提网络具有更好的收敛性能和故障分类能力。表5为试验统计结果。

5.2 标签概率分布对跨域诊断的影响

为了提高源域和目标域之间的特征匹配程度,本文所提方法增加了对网络输出的标签概率分布进行适配的处理,此处以跨域实验load1→load3为例,分析标签概率分布适配对跨工况轴承故障诊断结果的影响,某次实验结果混淆矩阵如图7所示。

(a) 本文考虑标签概率分布影响的结果

图中结果表明,在使用相同特征提取网络的情况下,增加标签概率分布适配层对跨域诊断结果有较大影响。无标签概率分布适配层的网络模型在目标域数据分类过程中容易出现错误识别,其原因在于,无标签概率分布适配方法中,各类别决策边界不够明确,分类准确率较低;而利用标签概率分布适配对该特征值进行映射对齐后,在各个类别上都实现了较好的识别结果。下表统计了两种不同域适应网络实现的识别结果。

5.3 与常用方法对比

本文在传统跨域诊断模型基础上进行改进,提出一种包含稠密卷积网络、注意力机制、特征及标签概率分布适配的网络模型,提高了变工况下的轴承故障识别准确率。为了验证本文方法的性能,将其与三种常用的方法进行对比实验,基于不同的对比目的,设置三类对比方法,各方法的模型结构如表5所示。

表5 对比模型结构表Tab.5 Different structures for comparing models

多个迁移诊断任务上的实验统计结果如表6所示。

表6 不同方法迁移结果对比Tab.6 Transfer diagnosis comparison of different methods

不同方法的准确率结果如图8所示。

图8 不同方法对比结果Fig.8 Comparison of different methods

由统计结果可以得出,(1)本文方法在多种变工况故障识别中均实现了较高的准确率,说明了文中方法的有效性;(2)处理跨域故障诊断任务时,本文网络相较于传统卷积网络在故障诊断时更具优势。(3)文中提出方法的故障诊断准确率高于没有迁移过程的稠密卷积网络的诊断准确率,说明源域数据和目标域数据的特征分布、标签概率分布适配迁移了数据的特征知识,有效改善了跨工况故障诊断结果。(4)相比传统基于手动提取特征的浅层迁移学习方法TCA,本文提出的诊断网络可以自动而全面的提取数据中的深层次特征知识,并且能够在深层特征空间内降低源域数据和目标域数据的特征知识差异性,改善迁移故障诊断结果。

5.4 不同数据集实现的跨工况诊断实验

为了进一步验证该方法的有效性,本文在西安交通大学轴承数据集(XJTU-SY Bearing Datasets)[29]上做进一步实验。选取了数据集中11 kN和12 kN两种工况下的轴承振动信号,主要识别了轴承的保持架(cage)故障、外圈(outer)故障、正常(normal)三种故障状态。数据处理中,每类故障状态包含315个数据样本,每个样本包含1024个采样点,数据处理结果如表7所示。

表7 故障状态标签Tab.7 Fault labels

基于以上两种工况以及分别进行两种情景下的跨工况诊断实验,试验结果如表8所示。

表8 迁移识别结果Tab.8 Diagnosis results with different transfer methods

由上表的统计数据可以看出,本文方法在多场景下的跨工况故障诊断中均能有效提高目标域的故障诊断准确率,表明了本文所提方法在处理跨工况诊断问题时的有效性。

6 结 论

机械的运行环境差异大,导致采集的振动信号差别较大,且多为无标签数据,给传统的轴承故障诊断方法的实现带来了很大的困难。基于此,本文提出了一种基于深度迁移学习的跨工况轴承故障诊断方法,在深度卷积网络基础上引入卷积注意力机制,改善特征提取性能;并通过域适应实现了轴承故障的变工况迁移识别。实验结果表明,通过深层卷积神经网络的自动学习,解决了传统浅层机器学习需要手动提取特征的不足;通过将特征分布差异和标签概率分布差异最小化,提取了源域和目标域样本集中的域不变特征,解决了不同运行工况下标签数据不足导致的轴承故障识别准确率低的问题。本文提出的方法在跨工况情境下,利用大量的无标签目标域辅助数据即可实现较好的跨工况轴承故障诊断效果,为提高机械实际作业中的故障识别准确率提供了新思路。

猜你喜欢
跨域概率分布特征提取
基于多标签协同学习的跨域行人重识别
为群众办实事,崂山区打出“跨域通办”组合拳
G-SRv6 Policy在跨域端到端组网中的应用
一类摸球问题及其解法
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于Daubechies(dbN)的飞行器音频特征提取
弹性水击情况下随机非线性水轮机的概率分布控制
物联网环境下的跨域信任评价研究