基于双局部近邻标准化与主多项式分析的故障检测方法

2022-09-07 03:19张轶男
计算机应用与软件 2022年8期
关键词:模态样本标准化

李 元 张轶男

(沈阳化工大学信息工程学院 辽宁 沈阳 110142)

0 引 言

生产过程的实时监控是提高工业设备生产效率、确保工业过程长期稳定运行的必要解决方案[1]。目前基于模型、专家系统和数据驱动的方法是学术界常用的几种过程监控方法[2]。其中:基于模型的方法需要获得精确的系统模型;基于专家系统的方法需要利用丰富的经验知识;基于数据驱动的方法仅需要获得由历史数据构建的模型即可进行故障检测。因此基于数据驱动的多模态监控技术已在工业领域引起了研究人员的广泛关注[3-4]。

主元分析法为应用广泛的故障检测方法之一,主要通过将原始数据投影到正交子空间中实现降维,以达到对高维特征数据预处理的目的。而变量间的相关关系可以解释为特征空间中信息的重叠,PCA通过减少主成分数量降低变量间的相关程度,从而尽可能多地保留原始变量的主要信息[5-6]。由于PCA通常用于处理单模态的过程数据,但是在多模态的工业过程中,PCA对数据的全局建模处理会导致过程数据中的重要信息丢失。因此在多模态的过程中,PCA不能表现其特有优势[7]。此外,PCA处理过程数据时需要数据满足线性假设,因此PCA在非线性工业过程中的应用同样有所受限[8]。针对非线性问题,核主元分析方法(Kernel Principal Component Analysis,KPCA)被引入到过程故障检测中,KPCA通过引入核函数,将非线性低维数据映射到高维空间中,使高维空间数据存在线性关系,然后再使用PCA在特征空间中进行监控。当样本容量过大时,核映射使KPCA的计算量增加且核函数的参数不易选取[9-12]。除此之外,Zhang等[13]提出了基于主多项式分析(Principal Polynomial Analysis,PPA)的故障检测方法。PPA是PCA的一种非线性扩展,通过构造一组灵活的主多项式分量来描述过程数据的非线性结构,从而达到消除非线性特征的目的[14-15]。由于PPA与KPCA仍然使用T2和SPE为统计量进行过程故障检测,因此对于多模态过程的故障检测PPA与KPCA的检测效果仍然具有局限性。

针对多模态问题,He等[16]提出了基于K近邻的故障检测(Fault Detection based on K Nearest Neighbors,FD-KNN)方法。FD-KNN方法主要通过检索计算每个样本与其K最近邻之间的距离分布状况,来判断样本数据是否为故障样本,从而降低数据非线性与多模态特征对故障检测的影响。该方法对于大尺度故障具有良好的检测能力,但FD-KNN存在计算量大的缺陷[17-18]。Ma等[19]提出了一种局部近邻标准化(Local Neighborhood Standardization,LNS)方法。通过搜索每个样本间的K最近邻集,使样本在经过近邻集的标准化处理后消除了数据中的多模态结构,但当故障来自多个模态之间时,故障样本的近邻集会出现跨越多个模态的情况,难以实现故障样本与正常样本的分离与检测[20-21]。针对上述LNS的问题,冯立伟等[22]提出双局部近邻标准化(Double Local Neighborhood Standardization,DLNS)方法。该方法在每个样本近邻集的基础上再次构建其近邻,使样本在经过近邻集的标准化处理后达到消除样本数据的多模态特征的目的。当故障样本位于多个模态之间时,对数据寻找双层局部近邻集且经过标准化处理后,故障样本能有效地偏离正常样本的范围,避免了近邻集同时存在于多个模态的缺点。

复杂的实际工业过程中往往同时具有非线性与多模态特征,因此针对包含非线性与多模态特征的工业过程故障检测问题,本文提出一种将双局部近邻标准化与主多项式分析相结合的DLNS-PPA故障检测方法。首先搜索多模态数据的双层局部近邻集,然后利用近邻集信息对样本进行标准化处理,最后通过PPA进行故障检测。DLNS-PPA方法不仅具有DLNS处理多模态数据的能力,而且还能通过PPA有效消除非线性结构,从而可以有效地提升多模态工业过程的故障检测率。

1 主多项式分析

主多项式分析(PPA)是PCA的一种非线性扩展,通过使用多项式函数拟合数据各维度间的非线性特征,使用曲线分量对过程数据的最大方差方向进行建模。在PPA离线建模阶段,假设训练样本X∈Rd×N为d个测量变量和N个训练样本,PPA对原始数据X的分解如下:

(1)

(2)

主多项式参数如下:

(3)

Vp=[vp,1,vp,2,…,vp,N]

(4)

(5)

式中:†表示伪逆操作。

在线故障检测阶段中,PPA使用统计量T2和SPE监测主多项式子空间(Principal Polynomial Components,PPCs)和残差子空间的对应变化。获得观测数据xnew∈Rd时,利用训练集样本可将其投影到相应的PPC成分子空间和残差空间上。根据式(1)和式(2),可以得到第p步的主多项式得分anew为:

(6)

(7)

(8)

式中:ΛPPA∈Rρ×ρ为对称矩阵其对角元素为主多项式成分的方差。PPA的SPE统计量如下:

(9)

(10)

(11)

(12)

式中:T2和SPE分别服从F分布和χ2分布,F分布的自由度为r和N-r,χ2分布的自由度为h;将训练数据SPE统计量的均值和方差记为a和b;α为置信水平[13]。

2 基于DLNS-PPA的故障检测

由于复杂的工业过程数据具有多模态特征,同时传统的T2和SPE统计量要求过程数据服从单一模态高斯分布,因此在多模态工业过程中PPA的检测性能有所降低。

传统的LNS虽然能降低多模态数据中心漂移对后续故障检测带来的影响,但当近邻集中数据同时位于多个模态之间时,其近邻集方差变化显著,同时导致经过LNS处理后故障样本会混入正常样本集中,无法有效将故障样本与正常样本分离出来。所以对样本进行标准化时,为了避免其近邻集的样本来自不同模态,基于双局部近邻标准化的方法被提出。

假设原始数据为X,DLNS首先对每个样本xi构建前k近邻集N(xi):

(13)

(14)

利用式(15)对样本进行标准化处理:

(15)

DLNS-PPA方法的具体计算过程如下。

离线建模:

(1) 获得正常的训练样本集X。

(4) 对获得的新训练集数据进行构造PPA模型,得到主多项式分量和残差分量。

(5) 计算主多项式分量和残差分量的统计量T2和SPE。

(6) 根据统计量T2和SPE的分布式确定控制限CLT2和CLSPE。

在线检测:

(1) 获取测试样本集Xnew。

(4) 将T2和SPE分别与各自的控制限CLT2和CLSPE比较,若有任一个统计量超过对应控制限,则可以将样本x判断为故障样本,反之则为正常样本。

DLNS-PPA故障检测步骤如图1所示。

图1 DLNS-PPA故障检测步骤

3 数值例子

本文使用了文献[23]中提出的数值仿真过程,用以说明该方法在多模态与非线性过程中特征提取与故障检测方面的有效性,该非线性过程如下:

(16)

(17)

(18)

式中:e1-e5为服从[0,0.01]正态分布的高斯噪声;s1、s2为系统的主要控制变量,通过改变s1和s2对系统的调节方式,产生多模态数值例子。利用上述模型在每个模态中生成200个正常数据用来构建训练样本,并在不同模态下分别引入不同的故障样本。在模态1中,变量x2从样本101到样本200之间添加0.2(i-100)的斜坡故障。在模态2中,变量x5从样本101到样本200之间添加一个振幅为25%的阶跃故障。

首先,应用传统的PCA在数值过程中进行故障检测,根据85%的累计贡献率来确定PCA的主元个数为2。然后采用99%的控制限对检测过程进行监控,检测结果如图2(a)所示。图3所示为PCA方法中前两个模态的主元散点分布图,可以明显看出多模态特征包含在PCA的主元空间中,具有多模态特征的过程数据存在方差和均值差异较大的缺陷,因此PCA方法的检测率较低。

(a) PCA

(b) PPA

(c) DLNS-PPA图2 三种方法对数值例子的检测结果

图3 多模态散点图

接下来使用PPA方法在本数值过程中进行故障检测,由交叉验证获得主多项式个数为2,采用99%的控制限对检测过程进行监控,检测结果如图2(b)所示。虽然PPA方法是一种能有效解决非线性问题的方法,但PPA的T2与SPE统计量的检测方式与PCA类似,所以受多模态数据特征的影响,PPA方法的检测率也相对较低。

最后用本文方法在本数值过程中进行故障检测,同样通过交叉验证获得主多项式个数为2,首先使用DLNS方法处理本数值例子中的数据,其中:k选为10;K选为9。然后采用99%的控制限对检测过程进行监控,检测结果如图2(c)所示。DLNS-PPA方法的检测率明显高于其他的对比方法,由图4可知,经过DLNS-PPA方法处理后,两个模态的数据融合为单一模态的数据,由于DLNS方法可以消除数据的多中心结构和方差差异较大的影响,能有效避免近邻集中的样本所属模态不同的问题,因此DLNS-PPA方法具有较高的故障检测率。三种方法的检测结果如表1所示,可以看出,DLNS-PPA方法T2与SPE的检测率明显提高。

图4 样本散点图

表1 数值例子检测率(%)

4 TE过程

本文所应用的TE数据来源于依斯曼化学品公司创建的田纳西-伊斯曼生产过程。TE数据基于实际工业过程,因此被广泛应用于传统数据驱动的建模及过程监控等研究中。TE过程主要包括反应器、冷凝器、汽液分离器、循环压缩机和产品汽提器这5个主要的操作单元。TE过程中总共有12个操作变量与41个监测变量。为了模拟正常的过程变化,在仿真过程中引入了21种故障[24]。

下面使用本文所提出的DLNS-PPA方法对TE过程中的21个故障进行检测研究。其中PCA的主元个数由85%的累计贡献率获得,据此所求得的PCA主元个数为28;通过交叉验证确定PPA的主多项式空间设为2,幂值设为2;DLNS-PPA方法的主多项式空间和主多项式参数与PPA方法的参数相同,所规定的近邻集k个数为150,第二层近邻集个数K为100。监测统计量的控制限设置为99%,表2中包含了基于PCA、PPA和DLNS-PPA方法对TE过程中的21种故障的检测结果,最高的故障检测率用粗体显示。由于基于DLNS-PPA的统计量变化要比基于PCA和基于PPA的统计量变化更加显著,因此基于DLNS-PPA的检测方法对故障更加敏感。从表2中可以明显得知,与其他监控统计数据相比,本文所提出的DLNS-PPA方法提供了多模态TE过程中大部分故障的最佳监控效果。

表2 三种方法的检测率汇总表

续表2

可以看出,PCA和PPA对故障10和故障19均具有较低的检测率,本节将DLNS-PPA对故障10与故障19进行检测,并与PCA及PPA方法进行对比,可以发现本文方法对故障10及故障19有良好的检测性。对于故障10而言,基于PCA和PPA不同故障检测方法的检测率低于50%,而本文方法的检测率可达90%。在1 922个样本中,采样数从0到961和从962到1 922分别为两个模态的采样数据,由于PCA和PPA方法更适合用于描述单模态的工业数据,因此对于多模态工业数据不能具有良好的检测性能,由图5(a)和图5(b)可以看出,PCA方法及PPA方法的统计量大多数在其控制限之下,其检测性较差。

(a) PCA

(b) PPA

(c) DLNS-PPA图5 三种方法的故障10检测图

同理,对于故障19而言,基于PCA和PPA的不同故障检测策略的检测率低于60%,而本文方法的故障检测率可达100%。由图6(a)和图6(b)可以明显看出,使用PCA和PPA的检测方法,故障样本未能有效地被检测出。这是由于多模态的数据方差差异明显导致,因此对这两种方法的故障样本检测造成较大的影响。

(a) PCA

(c) DLNS-PPA图6 三种方法的故障19检测图

而本文方法中,数据经过DLNS的处理后,能够使数据更好地服从多元高斯分布,消除了多模态特征带来的影响,所以再进行PPA检测会使故障样本的检测率显著提高。将DLNS-PPA方法的统计量检测图分别与PCA、PPA方法的检测图进行对比,通过图5(c)与图6(c)可以明显看出本文方法的检测优势。

5 结 语

本文提出双局部近邻标准化与主多项式分析(DLNS-PPA)的故障检测方法。首先通过DLNS方法解决具有多模态特征的数据近邻集中样本所属模态不同的问题,可以使样本数据成功融合为单个模态且服从多元高斯分布。然后使用PPA方法消除了过程数据的非线性结构,从而克服了PPA在多模态结构中的局限性。本文通过非线性数值例子和田纳西-伊斯曼多模态过程证明了基于DLNS-PPA方法在故障检测中的有效性。

由于本文中的双局部近邻集的构建需要事先调节近邻的参数,因此如何在无先验知识的过程中如何设置合适的参数为下一步的研究目标。

猜你喜欢
模态样本标准化
装配式钢结构住宅标准化设计与应用
联合仿真在某车型LGF/PP尾门模态仿真上的应用
EASY-EV通用底盘模态试验
基层党组织建设中的“标准化”原理
吃肉频率能体现乡村治理水平? 走形的标准化徒增负担
谁“捆住”基层的手脚?——泛滥的规范化和标准化
模态可精确化方向的含糊性研究
随机微分方程的样本Lyapunov二次型估计
基于支持向量机的测厚仪CS值电压漂移故障判定及处理