一种符号化的汽轮机效率异常检测方法

2019-06-10 09:31张恒远毕肇骏柴耀军章正传

科技创新导报 2019年5期

张恒远毕肇骏柴耀军章正传

摘要：汽轮机异常检测对于其可靠和经济的运行具有重要的意义。考虑到异常数据和检测模型的敏感性和鲁棒性，本文提出了一种基于序列符号的异常检测方法，并将其应用于汽轮机回热器的异常检测。本文采用有限状态机评估回热器产生符号序列的后验概率，然后基于概率估计的模型用于检测异常。实验结果表明，模型具有理想的性能，并且基于估计的模型具有较强的鲁棒性。因此，本文所提出的方法可以很好地促进现有的基于符号动态分析的异常检测方法，特别是在汽轮机异常检测领域。

关键词：有限状态机异常检测汽轮机状态监测

中图分类号：TK262 文献标识码：A 文章编号：1674-098X（2019）02（b）-0075-02

汽轮机作为工业级是最复杂的装置，在工业制造中扮演重要角色。然而，汽轮机的日常的维护对于检测异常和消除故障来说是一个巨大的挑战。自从Urban[1]首次涉及EHM研究以来，许多技术和方法在这个领域得到了很好的应用。以往的工作主要集中在2种方法，基于模型的异常检测和基于数据驱动的异常检测。汽轮机异常的检测模型既需要灵敏度又要求鲁棒性。与主成分分析（PCA），人工神经网络（ANN）和贝叶斯方法[2]等其他方法相比，符号动态滤波（SDF）[3]在异常检测领域都有较好的灵敏度和鲁棒性。

本文结合汽轮机运行的实际情况，建立基于SDA的符号化异常检测模型，用于检测汽轮机高压缸效率异常。本文的结构如下，在第2节中，给出了关于动态符号分析的初步数学理论和数据的符号分区方法。第3节提出了有限状态机训练和异常检测模型。因此，第4节对实验结果和分析进行了阐述，第5节简要进行了讨论。

1 有限状态机模型和数据符号化方法

1.1 有限状态机模型

假设在当前t时刻，一个系统的状态为，同时该系统产生了一个可观测的符号。其中系统的状态不可见而符号可见，因此一个给定长度的隐状态序列也会产生一个可见的观测序列。我们称这种模型为有限状态机（Finite State Machine）。

1.2 数据符号化

在汽轮机状态监测中，传感器观测到的所有运行数据都是连续的，无法自动获取多个离散符号的条件。因此在本节中，我们将重点放在可以分散表示不同负荷条件的符号提取上。在本文中，数据资源来自某330MW亚临界机组，实时参数取自SIS系统。在FSM中，隐藏状态和可见符号的数量都是有限的，所以我们将一种聚类方法应用于符号提取：K均值聚类。本文中，有7个集群对应7种不同的负荷条件。因此在这里，KM模型的k=7。

2 有限状态机建模和异常检测方法

在汽轮机性能异常检测中建立序列符号模型的主要任务是构建一个有限状态机来估计出现异常序列的概率，建立检测模型来定义序列是否异常。

本文建立了一个估计模型来计算FSM产生一个符号序列的概率。在这种情况下，通过排除异常样本的训练数据构建有限状态机模型，在计算得到测试数据中包含的异常序列的概率就会很低。异常检测的流程是：首先，将数据按长度为T的初始滑动窗口分割成时间序，然后将数据分为训练数据和测试数据两部分。训练数据被用来构造FSM，估计未知状态和可见符号的传输和激活概率，测试数据被用来评估FSM的性能。对FSM进行建模后，将通过异常检测策略对性能进行测试。通过不断更新长度T直到模型达到最佳性能。

2.1 有限状态机训练

训练有限状态机的主要任务是确定隐状态之间的转移概率aij和隐状态向外发出可见符号的激活概率bjk。本文采用Baum-Welch算法来进行概率估计。定义一个前向递归概率，如式（3）所示。

2.2 基于有限状态机的异常检测模型

通过A部分利用训练数据中的正常样本建立的有限状态机模型，就可以用该模型对测试数据进行异常检测。测试数据中包含异常样本和正常样本，当模型计算正常样本的可见符号的序列时，概率值会比估计异常样本的概率要高得多，通过合理确定分类阈值即可实现异常检测。

首先，设定分类阈值θ，当一个测试序列送入模型时，逐一计算序列中每个可见符号的概率乘积，得到最终的概率。当时，则表示系统处于正常状态，反而，说明系统处于异常状态。需要指出的是，这种异常检测方法的性能不仅取决于有限状态机的训练效果，还取决于分类阈值的选取。因此，为了得到最佳性能，我们遍历θ的取值，直到达到最佳效果。

3 实验设计和结果分析

3.1 模型评价指标

在模型的训练与测试中，假设正常的样本被标记为“正类（Positive）”，异常的样本被标记为“负类（Negative）”。当一个正类样本被正确地识别时，这个样本就被称为“正确的正类（True Positive）”，当一个负类样本被错误的识别成正类时，这个样本就被称为“错误的正类（False Positive）”。同理，当一个负类样本被正确地识别时，称为“正确的负类（True Negative）”，当一个正类样本被错误地分为负类时，称“错误的负类（False Negative）”，因此每个样本都有四种可能的标记。

3.2 实验案例和结果

首先本文给出了两个典型的检测样本的序列：一个是正??常的序列，另一个是异常的序列。所选择的序列长度为T= 0，即10min采样间隔，共100min。表1给出了交叉验证中每个数据组的模型性能，模型的TPrate=0.9192，TNrate=8661。可以得出结论，在T=10，θ=0.00743的条件下，该估计模型很好地检测汽轮机高压缸效率异常。但是，正如前面所分析的，分类阈值的选取会严重影响检测性能。因此，需要进一步讨论阈值对分类模型效果的影响。

4 结语

异常检测的基本任务是从大量看似正常的数据中发现异常。许多传统的点异常的检测方法大都建立在连续的实时传感器观测上。尤其对于汽轮机这种大型设备。噪声、工况波动或环境条件的变化都包含在原始数据中，大量的扰动淹没了异常数据的特征。然而异常特征往往隐藏在反映设备运行状态的各种结构化的数据中。汽轮机由于其结构复杂，工作环境恶劣，导致设备的异常检测非常困难，尤其是实现早期的异常检测。本文提出了基于符号分析学的异常检测办法，通过构建马尔科夫概率模型分析符号化序列的后验概率，能够很大程度上消除由于各种干扰因素导致的異常检测结果的偏离。这种方法在大型设备的异常检测中具有很好的指导意义。

参考文献

[1] Urban， Louis A. Gas Path Analysis Applied to Turbine Engine Condition Monitoring.[J].Journal of Aircraft 1973，10（7）：400-406.

[2] Rao， Chinmay， et al. Review and comparative evaluation of symbolic dynamic filtering for detection of anomaly patterns. Signal， Image and Video Processing，2009，3（2）：101-114.

[3] Ray， A. Symbolic dynamic analysis of complex systems for anomaly detection[J].Signal Processing，2004，84（7）：1115-1130.