基于优化混合模型的航空发动机剩余寿命预测方法

2022-09-25 08:43刘月峰张小燕郭威边浩东何滢婕
计算机应用 2022年9期
关键词:注意力预测传感器

刘月峰,张小燕,郭威,边浩东,何滢婕

(内蒙古科技大学信息工程学院,内蒙古包头 014010)

0 引言

预测和健康管理(Prognostics and Health Management,PHM)系统能够为设备的故障预测提供重要依据,剩余使用寿命(Remaining Useful Life,RUL)预测作为PHM 的重要组成部分,对于维护设备的正常运行至关重要。通过准确的RUL 预测,可以提前设计维护方案来保持设备的正常工作状态,避免突发事故造成的巨大经济损失。通常将RUL 的预测方法大致分为基于模型的方法[1]、数据驱动方法[2]和混合方法[3]三类。基于模型的方法,通常需要构建数学模型来描述设备的退化过程,但随着工业的迅速发展,机械系统复杂程度越来越高,设备相互之间的联系也日趋复杂,建立准确的模型变得不太现实,并且基于模型的设计方法其灵活性以及可移植性较差。混合方法是基于模型与数据驱动方法的结合体,想要同时利用两个方法的优势且规避其缺点依然存在较大的挑战。因此,使用数据驱动方法来预测RUL 受到越来越多学者的关注。数据驱动方法经常用于预测系统的RUL,其预测结果能很好地表现设备健康状况,其中,特征集的有效构造是影响数据驱动方法效果的关键因素之一。当前主流的传感器选择策略包括:删除值为恒定的传感器数据,选择剩余数据组成新的数据集[4-8];依据相关系数选择传感器数据[9-10];使用单调性、可预测性以及趋势性来选择有代表性的传感器数据[11];通过分析单调性和相关性来实现传感器的选择[12-13]。选取合适的传感器数据后,相应方法的选择也决定了最终的预测效果。在数据驱动方法中,很多机器学习方法在RUL 预测中有不错的表现:Ompusunggu 等[14]提出利用卡尔曼滤波(Kalman Filter,KF)进行自动变速器离合器RUL 预测;Javed 等[15]使用极限学习机(Extreme Learning Machine,ELM)来预测锂电池的RUL;Wu 等[16]使用随机森林(Random Forest,RF)方法用于诊断发动机转子的故障情况。目前,深度学习方法也被广泛用于处理状态监测数据以预测工业系统的RUL,其中,长短期记忆(Long Short-Term Memory,LSTM)网络利用3 个控制门来传递长期时序特征信息。Wu 等[17]使用香草LSTM 预测发动机的RUL;李京峰等[18]利用LSTM 与深度置信网络(Deep Belief Network,DBN)的组合用于预测航空发动机的RUL。卷积神经网络(Convolutional Neural Network,CNN)拥有很强的学习能力,能够很好地提取数据局部特征,如Li 等[19]首次使用多层CNN 用于预测轴承的RUL。双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络是LSTM 的进一步优化,利用双层反向的LSTM 来对时序数据进行处理,获得更多有用的提取特征。Al-Dulaimi 等[4]通过将一维卷积神经网络(One-Dimensional Convolutional Neural Network,1D-CNN)和LSTM 以及Bi-LSTM 组合用于预测涡轮风扇发动机的RUL;Liu 等[20]将Bi-LSTM 和CNN 进行合理组合用于预测发动机的RUL。时序卷积网络(Temporal Convolutional Network,TCN)是一种特殊的卷积神经网络也被用于预测发动机RUL,利用因果卷积、扩张卷积以及残差连接来提取特征。朱霖等[21]利用遗传算法和时序卷积网络的组合来预测涡扇发动机RUL。这些网络的共同特点是都将重点放在最后一个时间步上,但是也许在其他时间步中学习的特征也会对最终的RUL 预测有不同程度的贡献。因此,将不同权重分配给不同时间步下各种特征就显得尤为重要。目前,注意力机制能够很好地解决这一问题,即为不同特征提供不同的注意力权重,这使得注意力机制受到学者的广泛关注。Liu等[22]提出注意力机制直接加权输入特征,使得网络在训练中动态地将注意力放在那些重要特征上;Jiang 等[23]将注意力机制与时间卷积网络结合用于预测涡轮发动机的RUL,时间卷积网络的输出作为注意力机制的输入可以更好地加权关键特征;Das 等[24]将注意力机制与深度LSTM 相结合用于预测发动机的RUL,运用注意力机制来权衡较早的时间步长用于RUL 预测。

综上所述,本文提出了一种优化混合模型来预测航空发动机的RUL,采用融合多路径特征预测RUL 的思想,选择三种不同的路径提取特征:第一,将原始数据的均值和趋势系数输入全连接网络获得第1 条路径的提取特征;第二,原始数据经过Bi-LSTM 学习,Bi-LSTM 输出数据再经过注意力机制给予重要输出特征更大的权重,获得第2 条路径的提取特征;第三,将注意力机制直接作用于输入数据,加权特征再输入CNN 与Bi-LSTM 中,使得CNN 与Bi-LSTM 模型训练过程中把注意力集中在重要特征上,获得第3 条路径的提取特征。将以上输出特征融合在一起作为输入传给全连接网络用于预测航空发动机的RUL。所提方法通过商用模块化航空推进系统仿真(Company-Modular Aero-Propulsion System Simulation,C-MAPSS)数据集进行验证,同其他RUL 预测方法相比具有较高的准确性。本文的主要贡献包括:

1)提出了基于优化混合模型框架,前置注意力机制作用于输入数据,经过CNN 与Bi-LSTM 可以学习更重要特征。注意力机制置于Bi-LSTM 之后可以更好地关注网络输出的关键特征,以获得更多有效特征。

2)C-MAPSS 数据集拥有多种传感器的测量数据,从数据集中选取不同传感器的数据可能对RUL 预测产生较大的影响,所以本文从不同角度选择传感器数据,探究其对模型预测的影响程度。

3)使用C-MAPSS 数据集来评估本文方法的有效性,结果显示,该方法比其他方法具有较高的RUL 预测性能。

1 优化混合模型的RUL预测方法

本文提出了一种优化混合方法来预测航空发动机的RUL,该模型由3 个并行路径组成,如图1 所示。第一条路径,提取原始数据的均值和趋势系数,提取特征输入全连接网络;第二条路径,原始数据经过Bi-LSTM 网络学习,然后将注意力机制作用于Bi-LSTM 输出数据,能够从大量提取特征中加权关键特征;第三条路径,注意力机制作用于原始传感器数据,对原始数据进行特征加权,加权处理的特征再经过CNN 和Bi-LSTM,学习数据的局部特征和长期依赖性。通过3 条并行路径分别处理原始数据获得特征的不同表现形式,将3 条路径的输出特征经过concatenate 函数进行特征融合后输入至全连接网络进一步预测航空发动机的RUL。

图1 模型结构Fig.1 Model structure

1.1 全连接网络与手工特征提取

本文提取了原始传感器数据的手工特征(Handcrafted Features),具体包括数据的均值和趋势系数,并将获得的数据经过全连接网络可以提取更多的抽象特征。平均值能够表示传感器数据的大小,相应的趋势系数则表示传感器数据的退化趋势,并且提取特征的优势已经在文献[25-26]上得到验证,能够为RUL 预测提供帮助,以提高网络的预测精度,如图2 所示。

图2 特征提取示意图Fig.2 Schematic diagram of feature extraction

1.2 Bi-LSTM与后置注意力机制

将原始特征经过归一化和滑动时间窗处理后传入Bi-LSTM 进行初步的特征学习,Bi-LSTM 获得的提取特征作为注意力机制的输入数据,注意力机制可以为网络输出的重要特征分配更大的权重,有助于提高RUL 预测的准确性,具体流程如图3 所示。

图3 Bi-LSTM与后置注意力机制Fig.3 Bi-LSTM and post-attention mechanism

为了最大化利用输入数据,学习特征的双向长期依赖关系,本文使用Bi-LSTM 网络进行特征学习,Bi-LSTM 在传统的LSTM 基础之上被提出,已经在很多领域被证明比单向的LSTM 更具有优势,例如:自然语言处理和语音识别等。Bi-LSTM 包括两层LSTM 且两层的信息传递方向相反(正方向和反方向),最终的输出序列是两层结果的结合。在时刻t处,Bi-LSTM 模型计算正反两个方向的值(和),最终的输出hb是两个值的结合。由于前向传播与反向传播的表达公式相同,所以只表示了前向传播过程的公式以及最终的输出结果,具体由式(1)~(7)所示:

注意力机制的提出是受人类视觉的启发,在图像信息处理过程中,人会有选择地注意信息中的某些区域,对图像的不同区域给予不同的重视程度,即不同区域分配的权重不同。目前,注意力机制被广泛应用于许多领域,如自然语言处理和时间序列预测等。

为了更准确地预测航空发动机的RUL,本文引入注意力机制为不同时间步长的特征分配不一样的权重,将更大的权重分配给重要特征。一个数据样本通过Bi-LSTM 网络获得的特征表达为F=,T 表示进行转置运算。基于注意力机制,在时间步长i输出特征的重要性表达为:

其中:W和b分别用于表示权重以及偏置,Ui代表特征的得分函数,计算特征的得分后,对其使用softmax 函数实现归一化,表达式如下所示:

最终通过注意力输出的特征表示为:

其中:B={t1,t2,…,td},⊗代表乘法运算。

1.3 前置注意力机制与CNN和Bi-LSTM

将原始数据输入注意力机制可以给予数据中关键特征更大的权重,输出的加权数据传入到CNN 中提取数据的局部特征,再将数据传输到Bi-LSTM 网络中学习数据之间的长期依赖关系。前置注意力机制能够使得CNN 与Bi-LSTM 网络在训练过程中动态地将更多注意力集中在更重要的特征上,从而使得网络学习的特征是具有代表性的,输出的结果能够很好地表示输入数据特征,为下一步RUL 的准确预测提供了坚实的基础,具体流程如图4 所示。

图4 前置注意力机制与CNN+Bi-LSTMFig.4 Pre-attention mechanism and CNN+Bi-LSTM

由于输入数据的信息量巨大,如果每个数据在网络中拥有相同的重视程度,模型对数据的学习效果会受到制约。为了能给预测模型提供更多重要的输入特征,提出了使用注意力机制进行原始特征加权,对不同特征给予不同的权重,在大量的输入数据中聚焦学习关键的数据,减少对其他数据的学习,能解决网络信息过载导致学习效率下降的问题,帮助提高模型RUL 的预测准确性。一个数据样本的输入特征表示为X={X1,X2,…,Xd}T,T 表示转置运算。基于注意力机制,在时间步长i原始数据Xi的重要程度表达为:

其中:W和b分别用于表示权重以及偏置,φ(·)能够代表特征的得分函数,获得Xi特征的得分后,对其使用softmax 函数实现归一化,表达式如下所示:

最终通过注意力输出的特征表示为:

其中:C={s1,s2,…,sd},⊗代表乘法运算。

CNN 最先被应用于图像处理领域,近些年也被广泛用于处理时序问题。在本模型中,CNN 置于注意力机制之后提取数据的空间特征,该网络中分别包含了卷积层和池化层,其中,卷积层中利用多个过滤器提取数据的空间特征,池化层的作用在于选择最重要的信息。在卷积层中,输入的数据通过与过滤器卷积来生成包含许多局部特征的特征图。卷积之后得到的特征图继续经过池化层执行下采样,模型中池化层采用最大池化。经过CNN 学习后,为了捕获特征之间的双向长时间依赖性,Bi-LSTM 被用于池化层之后进一步学习数据,使用Bi-LSTM 的作用是能够处理两个方向的时间序列,作为正向的信息流LSTM 可以进行预测,而反向的LSTM能使预测更加平滑。

2 实验研究与结果讨论

2.1 数据集描述

本文使用由美国国家航空航天局(National Aeronautics and Space Administration,NASA)提供的航空发动机仿真公开数据集来评估方法的有效性,其中,C-MAPSS 数据集包含4 个子集,每个子集包含训练和测试集,训练集的传感器测量值记录运行开始时间到最终故障整个过程,在测试集中仅记录到故障发生以前的持续时间。RUL 文件记录了测试集中的真实RUL,用于评估预测RUL 方法的准确性。4 个数据集中包含两种故障模式,FD001 和FD002 是由高压压缩机(High Pressure Compressor,HPC)引起退化,而FD003 和FD004 由于HPC 和风扇作用引起退化。每个数据集共有26列,分别包括1 列发动机号、1 列循环数、3 列操作条件以及21 列传感器测量数据,具体描述见表1。

表1 C-MAPSS数据集的描述Tab.1 Description of C-MAPSS datasets

2.2 数据预处理

本文使用的FD001~FD004 数据集,由于传感器与发动机的差异导致它们的物理特征各异,为了提升模型预测的精确度以及提高训练的收敛速度,通常对原始输入数据采取归一化处理,将原始数据的大小归一化在[0,1]:

2.3 滑动时间窗处理

经过数据归一化处理后,将原始数据经过滑动时间窗(winsize)处理,生成网络的输入数据,经过时间窗口处理后的输入数据可以表示为N=[X1,X2,…,Xn],窗口处理沿着时间维度,不同数据点之间的相关性对时序问题来说非常重要。为了捕获这些相关性,使用时间窗口处理能够将多个数据的关联封装在滑动窗口中,并且使用滑动窗口对原始数据进行处理,能够实现数据的扩充。因为设置较短的滑动步幅能够增加输入样本的数量和降低训练过拟合的风险,因此本文将滑动步幅L设置为1。为了方便显示,如图5 所示将滑动窗口的长度设为2,滑动步幅设为1,在实际情况下,会根据输入数据来选取适当的时间窗长度。一些学者研究表明,时间窗口的长度越大其包含的数据信息越多,有助于提高模型的预测性能;但时间窗长度太长,可能会增加模型的复杂性。因此,在选取时间窗长度时会综合考量。

图5 滑动时间窗口处理Fig.5 Sliding time window processing

2.4 评价指标

本文使用均方根误差(Root Mean Square Error,RMSE)和得分(Score)函数两个指标用于评估模型的RUL 预测性能。指标RMSE 可以用于评估模型RUL 估计的准确性,公式如下所示:

其中:d=RUL预测-RUL真实,RUL预测代表模型估计的RUL 值,RUL真实代表真实的RUL 值,n是测试数据的数量。

另一个广泛使用的度量指标是不对称得分函数,它能够评判模型RUL 的预测性能,不管是早期预测或是后期预测都有相对应的得分表达式。模型最好能够进行早期预测,即得到的预测RUL 值小于真实RUL 值,这样能在发动机发生故障之前进行维护。公式如下所示:

两个评价指标的具体图像如图6 所示。

图6 两个评价指标的结果图Fig.6 Result diagram of two evaluation indicators

2.5 模型的参数设置

对C-MAPSS 数据集经过归一化处理后,输入的数据范围在[0,1],通过规范化处理后,将原始数据经过滑动时间窗处理,生成网络的输入数据,由于数据量巨大,因此,选择小批量(batch size)进行模型训练。在训练过程中,将数据集分为训练集和验证集,选择20%作为验证集,80%作为训练集,为了避免过拟合现象,将dropout 技术应用于模型,如表2 给出了模型参数详情。

表2 参数设置Tab.2 Parameter setting

由于选取不同大小的时间窗对模型训练效果有较大影响,因此为整个实验选择合适的时间窗很重要。本文根据最常用的时间窗大小采用对比择优的选取方法,winsize ∈{20,30,40,50,60}。在实验训 练的过程 中,FD001~FD004 选取不同时间窗的实验结果如图7 所示。

图7 时间窗大小和RMSE的关系Fig.7 Relationship between time window size and RMSE

2.6 依据不同角度选取传感器

学习所有传感器的测量数据会增加模型复杂度,为了减少数据量和提高模型学习的准确度,研究者通常会删除一些传感器数据,根据不同角度选取传感器数据。由于不同数据携带的信息各异,因此,合理选择传感器变得十分重要,它很可能会影响模型学习的准确度。本次实验删除值为恒定的传感器数据,以传感器S2、S3、S4、S7、S8、S9、S11、S12、S13、S14、S15、S17、S20 和S21 为数据集进行模型训练,并进行模型参数的调整;然后根据其他三种角度选取传感器数据,即依据相关性、单调性和相关性的线性组合,以及单调性、可预测性和趋势性的线性组合选取传感器,并通过实验来验证选择不同传感器对实验结果的影响程度。

1)相关性。

文献[10]通过分析传感器数据的相关性,分别依据相关性为0%、30%和60%进行划分,其中,6 个传感器数据的相关性为0%,7 个传感器数据的相关性小于30%,9 个传感器数据的相关性小于60%,具体传感器的选择情况如表3所示。

表3 传感器的选择结果Tab.3 Sensor selection results

为了减少本模型预测性能的随机性,本文进行了多次实验,并使用RMSE 和Score 的均值作为实验的最终结果,实验结果如表4 所示。

表4 删除相关性选择传感器后的RMSE和Score实验结果Tab.4 RMSE and Score experimental results with correlation selected sensors

2)单调性和相关性的线性组合。

文献[12-13]通过计算每个传感器数据的单调性和相关性,将两者进行线性组合选取其值超过阈值的传感器,最终选择传感器S2、S3、S4、S7、S8、S11、S12、S13、S15、S17、S20 和S21。为了减少模型实验结果的随机性,本文使用RMSE 和Score 多次实验的平均值作为最终结果,实验结果如表5 所示。

3)单调性、可预测性和趋势性的线性组合。

文献[11]通过使用单调性、可预测性和趋势性的3 个指标进行线性组合来选取有意义的传感器,最终选择传感器S2、S3、S4、S7、S11、S12、S15、S17、S20 和S21,实验结果如表5所示。

表5 两种线性组合的RMSE和Score实验结果Tab.5 RMSE and Score experimental results of two linear combinations

为了减少数据量和获得更好的实验结果,需要根据不同标准选取传感器作为网络的输入数据。由于传输给网络的数据不同,导致网络的学习情况也存在较大差异。从以上实验可以看出选择不同传感器数据对最终的结果会产生较大的影响。因此,合理挑选传感器变得非常重要。如果依据相关系数选择传感器,则删除相关性为0%的传感器数据,得到的实验效果较好,而相比其他选取传感器的方法,实验结果显示删除恒定值的传感器测量数据,剩余传感器数据组成新的数据集获得的实验结果是最优的。

2.7 结果与分析

1)消融实验。

为了验证提出模型的有效性,对本文方法进行了消融研究。具体来说,本文将组成模型的3 条路径分别进行模型训练,即特征提取与全连接网络的组合(Path1),Bi-LSTM 与后置注意力机制的组合(Path2)以及前置注意力机制与CNN 和Bi-LSTM 的组合(Path3),分别查看网络的预测效果,由于模型训练存在随机性,因此进行多次实验获取平均值。总体来说,特征提取与全连接网络的组合(Path1)在FD002 和FD004获得的RMSE 和Score 结果相较另外两种网络组合有更好的表现。最终结果表明,将3 个路径输出特征进行融合输入全连接网络来预测RUL 获得了较好的结果。消融实验的结果如表6 所示。

表6 消融实验的RMSE和Score结果Tab.6 RMSE and Score results of ablation experiments

2)同其他方法的比较。

C-MAPSS 数据集作为预测RUL 的基准数据集,许多方法均使用该数据集验证方法的有效性。将本文方法与其他一些RUL 预测方法进行比较来验证本文方法的有效性。由于模型预测结果存在一定的随机性,进行了多次实验,获得RMSE 和Score 的平均结果。如表7 所示同其他方法相比,本文方法整体获得了不错的结果。从表7 中可以看出,本文方法比受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)+LSTM 组合在FD003 获得的RMSE 结果稍差一些,但与其他方法相比,本文方法在所有子集中RMSE 预测精确度均得到了显著提高,这意味着提出的模型预测航空发动机RUL 非常接近实际RUL。由于飞机系统对发动机可靠性的要求很高,较高的RUL 预测准确度意味着能及时进行设备维护,提高飞机系统的安全性。在表7 中,FD003 上使用特征注意的双向门控循环单元卷积神经网络(feature-Attention based bidirectional Gated recurrent unit Convolutional Neural Network,AGCNN)获得的Score 比本文方法有较好的表现,混合深度神经网络(Hybrid Deep Neural Network,HDNN)在4 个数据集上获得的Score 均较低;但总体来说本文方法在Score 指标上获得了更好的结果,尤其是在FD002 和FD004 数据集上预测准确性与其他方法相比有较大提升。实验结果证明所提方法在RUL 预测中能够提供更准确的预测结果。

表7 不同方法之间的Score和RMSE比较Tab.7 Comparison of Score and RMSE of different methods

选取某次实验结果,4 个数据集的预测RUL 如图8 所示。对于这4 个数据集,预测RUL 与真实RUL 非常匹配,这表明所提方法的可行性。由于FD001 和FD003 数据集运行条件单一且发动机数量较少,因此FD001 和FD003 的预测性能相比FD002 和FD004 更好。

图8 航空发动机RUL预测结果Fig.8 Aero-engine RUL prediction results

如图9 展示了本文方法在FD001~FD004 测试集中误差分布直方图,横坐标代表预测RUL 值与真实RUL 值之间的误差,纵坐标代表相应误差区域所对应的发动机数量。其中,FD001 和FD003 真实RUL 与预测RUL 的误差集中在[-20,20],而FD002 和FD004 误差值集中分布于[-30,30]。依据表1 可以了解FD002 和FD004 属于复杂数据集,均拥有6 个操作条件,因此模型预测具有更大的挑战。从式(16)可以看出Score 函数对模型滞后预测惩罚更大,即预测RUL 与真实RUL 差值大于零且误差越大获得的Score 惩罚就越高,从图中能够看出所提模型预测RUL 与真实RUL 大于零的误差区间较小并且引擎数量较少,因此获得了较低的Score 值。

图9 预测误差分布直方图Fig.9 Prediction error distribution histogram

3 结语

本文提出了一种优化混合模型来预测航空发动机的RUL。由于本模型拥有3 条并行路径,通过消融实验分别验证每条路径的预测能力,并且说明将3 条路径进行特征融合对于航空发动机RUL 预测的有效性。第一条路径,提取数据的均值和趋势系数传入全连接网络获得更多抽象特征,经过消融实验表明此路径在FD002 和FD004 数据集上获得的RUL 预测结果准确性较高;第二条路径,将注意力机制作用于Bi-LSTM 网络之后,为重要的输出特征加大权重;第三条路径,前置注意力机制来加权不同时间步下的原始数据,加权处理的数据输入CNN 和Bi-LSTM 网络中,实验结果显示此路径在FD001 和FD003 数据集上获得的RUL 预测结果准确性较高。将上述3 条并行路径进行特征融合作为全连接网络的输入来预测RUL,最终得到的预测RUL 准确性较高。由于滑动时间窗口大小对RUL 预测非常重要,本文分别探究了选取不同值对模型预测结果的影响。此外,不同传感器数据携带的特征存在差异,可能会导致模型学习效果存在差异,所以本文依据不同角度选取传感器进行模型训练,结果显示删除恒定的传感器测量数据,剩余传感器数据组成新的数据集获得的实验结果是最好的。本文方法同各种RUL 预测方法进行了比较,使用两种流行的评价指标进行对比实验,结果证明本文方法的RUL 预测准确性较高。虽然本方法获得了良好的实验结果,但仍有进一步优化的空间,例如:改善复杂运行条件下方法预测的稳定性将是未来的研究方向。目前使用的训练和测试数据均是在相同环境下获得的,但如果训练和测试数据是在不同的工作条件下收集的,则可能会降低方法的预测性能。因此,使用迁移学习方法提高模型的预测能力将作为下一步研究方向。利用3 条路径提取特征,计算量和计算负担相应会有一定的增加,但是为了获得更好的预测精度,牺牲了一定的计算量,所以下一步将考虑引入模型压缩等技术来减少计算量。

猜你喜欢
注意力预测传感器
制作二氧化碳传感器
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
让注意力“飞”回来
舰船测风传感器安装位置数值仿真
跟踪导练(三)2
A Beautiful Way Of Looking At Things
用传感器重现伽利略对自由落体运动的研究
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
阅读理解两则