多SVDD模型的多模态过程监控方法

2015-09-08 05:57杨雅伟宋冰侍洪波
化工学报 2015年11期
关键词:离群差分模态

杨雅伟,宋冰,侍洪波

(华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237)

多SVDD模型的多模态过程监控方法

杨雅伟,宋冰,侍洪波

(华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237)

现代工业过程往往具有多个运行模态,并且单一模态中的变量服从高斯与非高斯混合的复杂数据分布。针对多模态与复杂数据分布问题,基于局部离群概率(local outlier probability, LOOP)算法与支持向量数据描述(support vector data description, SVDD)算法,提出了一种名为MSVDD(multiple support vector data description, MSVDD)的多模态过程监控方法。首先,考虑到不同模态之间存在差异,利用差分策略以及局部离群概率算法对多模态数据进行聚类。其次,在每个单一模态下分别建立SVDD模型。然后,通过计算测试样本对每个单一模态的离群概率选择合适的模型进行过程监控。最后,在Tennessee Eastman(TE)平台上进行仿真测试以验证提出方法的可行性与有效性。

多模态;复杂数据分布;局部离群概率;支持向量数据描述;过程监控

生产过程往往具有多个运行模态,针对这一问题,学者们做了一些研究,提出了多种多模态过程监控方法。Zhao等[5]通过建立多个模型对多模态过程进行监控。对于这种多模型监控策略,在建模阶段,对历史数据集进行模态划分,并在每一个模态中分别建立局部模型。在监控阶段,若从多个局部模型中选择最优模型进行监控,则需要确定准则挑选最优模型;若选择多个局部模型而非单一局部模型进行监控,则需要确定准则对各个局部模型结果进行整合[6]。Tan等[7]提出了基于数据相似特性的模态识别方法用于模态划分。文献[8-9]分别采用贝叶斯分类方法、模糊C均值聚类方法实现对多模态数据的模态划分。Xie等[10]将模糊C均值聚类方法与局部保持映射算法相结合应用于多模态化工过程监控。Ge等[11]将贝叶斯整合策略应用于多模态过程监控,取得了令人满意的监测结果。由于高斯混合模型可用来描述多峰数据,Choi等[12]将高斯混合模型与主元分析方法相结合对多模态过程进行监控。Yu 等[13]将高斯混合模型与贝叶斯推断方法相结合建立了一种概率监测指数用于过程监控。最近,Song 等[14]通过建立多个子空间,利用主元分析方法与局部离群因子算法对多模态过程进行监控。

实际工业生产过程受内、外界因素诸如反馈系统、非高斯噪声的影响,所采集的数据并不严格服从高斯分布或某种非高斯分布,而是服从一种高斯与非高斯混合的复杂数据分布。在实际工业过程中采集的数据,仅仅部分变量服从高斯分布,其他变量服从不同类型的非高斯分布。针对此问题,根据独立元分析方法、主元分析方法对数据分布假设条件的不同,Ge等[15]提出了将独立元分析方法与主元分析方法相结合(independent component analysis-principal component analysis,ICA-PCA)的监控策略。Zhao等[16]将核函数引入到ICA-PCA模型中,提出了 KICA-PCA(kernel independent component analysis-principal component analysis)两步建模方法用于间歇过程的故障检测,解决了复杂数据分布,过程非线性问题。近年来,越来越多的无须数据分布假设的算法吸引了广大学者的关注。Ma等[17]将移动窗策略引入局部离群因子(local outlier factor,LOF)算法中,实现了对具有时变特性过程的监控。文献[18]基于SVDD算法提出了一种用于间歇过程监控的方法,取得了令人满意的监控结果。

针对现代工业过程中存在的多模态与复杂数据分布问题,本文提出了一种新的名为MSVDD的过程监控方法。首先,考虑到不同模态之间存在差异,利用差分策略以及LOOP算法实现对多模态数据集的模态划分。其次,利用SVDD算法在每个单一模态中分别建立模型,并得到SVDD模型的中心以及半径。然后,计算测试样本对每个单一模态的离群概率,选择离群概率最小的模型进行过程监控。最后,通过TE过程仿真验证MSVDD方法对于多模态过程监控的可行性与优越性。

1 基础算法

1.1局部离群概率(LOOP)算法

LOOP算法是一种无监督的数据挖掘方法,最早应用于离群点检测领域。LOOP值的大小表明一个样本为离群点概率的大小。具体算法步骤如下。

(2)根据样本ix的k个近邻点集合计算ix的概率集距离(λ为权重系数)

(3)估计ix周围样本的分布密度,概率局部离群因子定义如下

(4)计算概率局部离群因子的标准差ep _lof如下

(5)利用高斯误差函数,根据式(5)计算局部离群概率

由以上计算过程可以得到,loop(xi)取值范围为[0,1]。loop( xi) 值越大, xi是离群点的概率越大。

1.2支持向量数据描述(SVDD)算法

SVDD算法是一种数据描述方法,最早提出应用于一阶分类问题。随着研究的深入,学者将SVDD算法拓展到过程监控领域以解决复杂数据分布问题。算法具体步骤如下。

其中,iξ为松弛变量。

(2)通过引入拉格朗日乘子以及核策略,将上述问题转化为如下问题

2 MSVDD过程监控方法

为了解决现代工业过程中存在的多模态以及复杂数据分布问题,首先基于差分策略与LOOP算法将多模态数据进行聚类。然后,根据每一单模态中的数据分别建立SVDD模型,构造统计量并确定其控制限。最后,根据测试样本对每个单一模态的局部离群概率选择合适的模型进行监控。

2.1模态划分

由于市场需求的变化、原料的变化等因素的影响,现代工业过程往往具有多个操作工况。当操作模态不同时,过程数据特性如均值与方差会存在很大的不同。由于建模数据X来自于多个操作模态,需要将多模态数据集通过聚类得到每个单一模态的数据。考虑到同一模态中的样本具有相似性,不同模态的样本具有差异性,并且样本采样具有时序性,将X进行差分得到差分矩阵Xc。确定差分步长为d,差分矩阵可以表示如下

由于建模数据X具有时序性,差分矩阵Xc中会包含一些由不同模态样本差分得到的点。如果建模数据X包含B个操作模态,那么差分矩阵中将包含 d×B个不同模态样本差分得到的点。考虑到差分步长 d 远远小于单一模态中样本的个数,d×B个点在差分矩阵中的密度很小,利用离群点检测方法LOOP进行检测。通过LOOP算法找到这d×B个离群点,也就可以得到模态的切换点。

在差分矩阵中,不同模态样本差分的点的LOOP值大于同一模态样本差分的点的LOOP值。由于LOOP是一种概率,很难取到1,因此本文采用置信度0.99作为其阈值。

例如,Xe中包含30个模态1的数据,30个模态2的数据,差分步长选为1。差分矩阵可以表示如下

从式(11)可知,差分矩阵 Xec包含一个不同模态样本差分的点。由于同一模态中的样本具有相似性,所以差分矩阵 Xec中存在一个离群点。采用 LOOP算法对差分矩阵 Xec进行离群点检测,可以得到点的位置,该位置即为模态切换的地方。切换点前的样本为模态1中的样本,切换点之后的样本为模态2的样本。

相较于传统的聚类方法,本文提出的聚类算法是根据差分矩阵中不同模态样本差分的点来找到模态切换点,因此不需要提前确定模态个数。另外,由于本文所提出的聚类算法不需要迭代过程,所以不会陷入局部最优。本文所提聚类算法假设训练数据集中仅包含多个稳定模态的数据,不包含过渡模态。因此相邻模态如果出现差异性缓慢发生的情况,本文所提方法不能对训练数据进行很好的聚类。

2.2MSVDD方法

其中,biy为bY中的一个样本,bky为支持向量。

对于测试阶段的一个测试样本xt,首先计算xt对每个单一模态的离群概率,选择离群概率最小的模型b( b =1,2,…,B)作为其监控模型。然后,利用meanb, stdb对样本xt进行标准化得到样本yt。最后,定义其监控统计量如下

由式(13)可知,DIS的控制限为1。

2.3MSVDD过程监控方法步骤

离线建模过程:

(1)将建模数据X进行差分,得到矩阵Xc;

(2)利用LOOP算法对矩阵Xc剔除离群点,得到每个单模态数据集

(4)利用SVDD算法在每个单一模态中分别建立模型,得到中心以及半径

在线监控过程:

(1)计算测试样本xt对每个单一模态的离群概率,选择离群概率最小的模型作为其监控模型;

(2)利用meanb, stdb对样本 xt进行标准化得到yt;

(3)根据式(14)定义统计量DIS;

(4)判断DIS是否超过1。

3 TE过程仿真

本节通过 Tennssee Eastman过程仿真验证MSVDD方法的有效性与优越性。PCA方法是一种广泛应用于过程监控的方法。此外,SVDD算法可以直接应用于过程监控。将本文提出的MSVDD方法与PCA,SVDD方法进行比较,验证本文提出的MSVDD方法在监控多模态过程上的优越性。

TE过程由连续搅拌式反应器、气液分离器、离心式压缩机、再沸器、冷凝器5个主要操作单元组成,已被广泛用于测试不同监控方法的监控性能[19-22]。TE过程一共有6个不同操作模态,本文选取9个被控变量、22个连续过程变量作为监控变量。TE过程的原理和变量详细信息见文献[14]。

多模态 TE过程设定了 20个故障,其中故障16~20未知,故障3、9、15幅值过小,因此本文选取剩余的12个故障测试方法的性能。建模数据包括500个模态1的正常数据和500个模态3的正常数据。测试过程中,过程首先运行在模态1下,采样1000个数据,然后切换到模态3,采样1000个数据。故障测试数据集均设定在第1200个样本处发生故障。在PCA方法中,根据95%的方差贡献度选择主元个数。在SVDD和MSVDD方法中均采用高斯核函数(其中参数为sigma),参数设置如下:C=0.5,sigma=50。

图1 TE过程模态3中2个变量的正态分布概率Fig.1 Probability plot for normal distribution of two variables in TE under mode 3

图2 TE过程中模态1和模态3下变量散点图Fig.2 Scatter plot of variable in TE under mode 1 and mode 3

图1是TE过程模态3中2个变量的正态分布概率,从图可看出,变量(汽提器塔底流量)服从高斯分布,变量(压缩机功率)不服从高斯分布。图2是TE过程中模态1和模态3下变量的散点图,从图可看出,不同的模态数据具有不同的均值与方差,其数据分布也不相同。总之,不同的模态具有明显的差异性。对于TE过程的多模态训练数据,首先采用提出的聚类算法进行聚类。在线监控时,选择离群概率最小的模型作为当前样本的监控模型。图3是离线模态划分结果。从该图可看出,训练数据集中前500个样本被分为一类,对应于模态1;后500个样本被分为一类,对应于模态3。模态1的数据建立第1个模型,模态3的数据建立第2个模型。图4是在线模型选择结果。从该图可看出,测试数据集中前1000个样本选择模型1作为其监控模型;后1000个样本选择模型2作为其监控模型。

图3 离线模态划分结果Fig.3 Result of offline modes partition

图4 在线模型选择结果Fig.4 Result of online models selection

图5 正常过程监测结果Fig.5 Monitoring results of normal database

图5是3种方法对于正常数据集的检测结果,3种方法均没有检测到故障的发生,并且误报率均在可接受范围内(5%)。表1列出来3种方法对模态3中12个故障的检测结果。对于每一个故障,最小漏报率以加粗形式突出显示。从表1可以看出,对于所有故障,相较于PCA与SVDD方法,MSVDD方法均可以取得最好的监控结果,说明了本文提出方法的优越性。

表1 模态3中故障数据集的漏报率Table1 Miss alarm rate of fault database in mode 3/%

图6以图示的形式展示了3种方法对于模态3中故障10的检测结果。在图6(a)~(c)中,PAC方法以及SVDD方法不能检测到该故障的发生,漏报率均大于90%,几乎所有的故障样本均位于控制限以下。相比而言,本文提出的MSVDD方法可以及时有效地检测到该故障的发生,故障漏报率仅为10%。

图7以图示的形式展示了3种方法对于模态3中故障14的检测结果。在图7(a)中,PCA的T2统计量不能检测到故障的发生,漏报率大于90%。在图7(b)与图7(c)中,PCA的SPE统计量与SVDD方法可以检测到故障的发生,但是检测结果不能令人满意,仍有相当一部分的故障样本被错误地判定为正常样本。在图7(d)中,MSVDD方法能够快速地检测到故障的发生,并且故障样本一直位于控制限以上,漏报率为 0%,说明了本文所提出方法的优越性。

图6 模态3中故障10的检测结果Fig.6 Monitoring results of fault 10 in mode 3

4 结 论

图7 模态3中故障14的检测结果Fig.7 Monitoring results of fault 14 in mode 3

针对现代工业过程中存在的多模态以及复杂数据分布问题,本文提出了一种新的多模态过程监控方法MSVDD。首先,根据提出的聚类方法对多模态数据进行模态划分。相较于传统的聚类方法,本文提出的聚类算法不仅不需要提前确定模态的个数,而且不会陷入局部最优。其次,在每个单一模态中建立SVDD模型。然后,根据测试样本对每个单一模态的离群概率选择模型。最后,通过TE过程仿真验证所提出方法的有效性。

References

[1]Kruger U, Dimitriadis G. Diagnosis of process faults in chemical systems using a local partial least squares approach [J]. AIChE J., 2008, 54: 2581-2596.

[2]Lee J M, Yoo C K, Choi S W, Vanrolleghem P A, Lee I B. Nonlinear process monitoring using kernel principal component analysis [J]. Chem. Eng. Sci., 2004, 59: 223-234.

[3]Ge Z Q, Song Z H. Mixture Bayesian regularization method of PPCA for multi-mode process monitoring [J]. AIChE J., 2010, 56: 2838-2849.

[4]Jin H D, Lee Y H, Han C H. Robust recursive principle component analysis modeling for adapting monitoring [J]. Ind. Eng. Chem. Res., 2006, 45: 696-703.

[5]Zhao S J, Zhang J, Xu Y M. Monitoring of processes with multiple operation modes through multiple principle component analysis models [J]. Ind. Eng. Chem. Res., 2004, 43: 7025-7035.

[6]Ma H H, Hu Y, Shi H B. Fault detection and identification based on the neighborhood standardized local outlier factor method [J]. Ind. Eng. Chem. Res., 2013, 52: 2389-2402.

[7]Tan S, Wang F L, Peng J, Chang Y Q, Wang S. Multimode process monitoring based on mode identification [J]. Ind. Eng. Chem. Res., 2012, 51: 374-388.

[8]Liu J, Chen D S. Fault detection and identification using modified Bayesian classification on PCA subspace [J]. Ind. Eng. Chem. Res., 2009, 48: 3059-3077.

[9]Ge Z Q, Song Z H. Multimode process monitoring based on Bayesian method [J]. Journal of Chemometrics, 2009, 23: 636-650.

[10]Xie X, Shi H B. Multimode process monitoring based on fuzzy C-means in locality preserving projection subspace [J]. Chinese J. Chem. Eng., 2012, 20:1174-1179.

[11]Ge Z Q, Gao F R, Song Z H. Two-dimensional Bayesian monitoring method for nonlinear multimode processes [J]. Chem. Eng. Sci., 2011, 66: 5173-5183.

[12]Choi S W, Park J H, Lee I B. Process monitoring using a Gaussian mixture model via principal component analysis and discriminant analysis [J]. Comput. Chem. Eng., 2004, 28: 1377-1387.

[13]Yu J, Qin S J. Multimode process monitoring with Bayesianinference-based finite Gaussian mixture models [J]. AIChE J., 2008, 54:1811-1829.

[14]Song B, Shi H B, Ma Y X, Wang J P. Multi-subspace principal component analysis with local outlier factor for multimode process monitoring [J]. Ind. Eng. Chem. Res., 2014, 53: 16453-16464.

[15]Ge Z Q, Song Z H. Process monitoring based on independent component analysis-principal component analysis (ICA-PCA) and similarity factors [J]. Ind. Eng. Chem. Res., 2007, 46: 2054-2063.

[16]Zhao C H, Gao F R, Wang F L. Nonlinear batch process monitoring using phase-based kernel-independent component analysis-principal component analysis (KICA-PCA) [J]. Ind. Eng. Chem. Res., 2009, 48: 9163-9174.

[17]Ma Y X, Shi H B, Ma H H, Wang M L. Dynamic process monitoring using adaptive local outlier factor [J]. Chem. Intel. Lab. Syst., 2013, 127: 89-101.

[18]Ge Z Q, Song Z H. Bagging support vector data description model for batch process monitoring [J]. J. Process Control, 2013, 23: 1090-1096.

[19]Downs J J, Vogel E F. A plant-wide industrial process control problem [J]. Computers and Chemical Engineering, 1993, 17: 245-255.

[20]Ricker N L. Optimal steady-state operation of the Tennessee Eastman challenge process [J]. Comput. Chem. Eng., 1995, 19: 949-959.

[21]Wang L, Shi H B. Multivariate statistical process monitoring using an improved independent component analysis [J]. Chem. Eng. Res. Des., 2010, 88: 403-414.

[22]Zhao C H, Gao F R. Fault-relevant principal component analysis (FPCA) method for multivariate statistical modeling and process monitoring [J]. Chemom. Intell. Lab. Syst., 2014, 133: 1-16.

Multimode processes monitoring method via multiple SVDD model

YANG Yawei, SONG Bing, SHI Hongbo
(Key Laboratory of Advanced Control and Optimization for Chemical Processes of Ministry of Education, East China University of Science and Technology, Shanghai 200237, China)

Modern industrial processes always have multiple operation modes. Besides, the variable in the single mode often obey complex data distribution which is a mix of Gaussian distribution and non-Gaussian distribution. Considering the problems of both multimode and complex data distribution, a new multimode processes monitoring method called multiple SVDD is proposed based on the local outlier probability algorithm and the support vector data description algorithm. First, given that the differences exist between different modes, the clustering is conducted by employing the differential strategy and the local outlier probability algorithm. Second, the SVDD algorithm is used to build the monitoring model in each single mode. And then, the most suitable model is selected for each testing sample through calculating the outlier probability. Finally, the feasibility and efficiency are proved through the Tennessee Eastman process simulation.

multimode; complex data distribution; local outlier probability; SVDD; processes monitoring

引 言

为了保证生产安全,提高产品质量,需要对过程运行状态进行实时监控。由于过程数据易于记录与收集,多元统计过程监控技术得到迅速发展[1-4]。实际操作条件下,受进料组分变化、生产策略变更等因素影响,生产过程往往具有多个运行模态。此外,单一模态下采集的数据并不严格服从单一的高斯或非高斯分布,而是服从高斯与非高斯相混合的复杂数据分布。然而,传统的多元统计过程监控方法假设系统运行在单一模态下以及采集的数据服从高斯分布。因此,直接将传统的多元统计过程监控方法应用于实际生产过程中,将会导致高误报率与高漏报率,进而影响产品质量。

date: 2015-04-14.

SHI Hongbo, hbshi@ecust.edu.cn

supported by the National Natural Science Foundation of China (61374140).

10.11949/j.issn.0438-1157.20150479

TP 277

A

0438—1157(2015)11—4526—08

2015-04-14收到初稿,2015-07-24收到修改稿。

联系人:侍洪波。第一作者:杨雅伟(1979—),女,博士研究生。

国家自然科学基金项目(61374140)。

猜你喜欢
离群差分模态
RLW-KdV方程的紧致有限差分格式
基于BERT-VGG16的多模态情感分析模型
一种基于邻域粒度熵的离群点检测算法
多模态超声监测DBD移植肾的临床应用
数列与差分
一种相似度剪枝的离群点检测算法
车辆CAE分析中自由模态和约束模态的应用与对比
离群数据挖掘在发现房产销售潜在客户中的应用
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR