数据驱动方法在化工过程故障诊断中的研究进展

2021-04-20 10:30姚羽曼罗文嘉戴一阳

化工进展 2021年4期

姚羽曼，罗文嘉，戴一阳

（1 西南石油大学化学化工学院，四川成都610500；2 四川大学化学工程学院，四川成都610065）

为了预防化工事故的发生，降低事故的影响，故障诊断技术被广泛用于化工过程中。故障诊断技术自20 世纪80 年代以来取得了长足发展，一般分为基于机理模型的故障诊断技术、基于知识的故障诊断技术和基于数据的故障诊断技术[1]。基于机理模型的故障诊断技术是基于过程第一性原理，利用先验的物理和数学知识进行故障诊断的过程[2]；基于知识的故障诊断技术是依赖操作人员的经验和专家的知识，应用于知识简单的特定场所进行故障诊断的方法；基于数据的故障诊断技术是通过分析大量数据，建立具有故障诊断功能的系统或算法模型的方法。化工过程机理模型难建立、知识复杂多样难简化集成，且随着工厂DCS 系统的发展，系统中储存了大量数据也亟待被挖掘，这使得基于数据的故障诊断技术成为化工领域研究的重点。随着国家对化工安全的逐渐重视、数据驱动方法的不断改进与创新，探讨与分析近些年数据驱动方法在化工过程故障诊断中的研究与应用对该领域技术的发展与研究具有重要的指导意义。

1 化工过程的数据驱动方法

数据驱动方法一般分为统计方法、基于人工智能的方法、综合性方法[3]。统计方法又分为单元统计方法和多元统计方法，单元统计方法是对单一变量的数据进行处理的方法，由于化工过程的数据常是多维度且相互关联影响的，因此现在的研究多不考虑单元统计方法。其化工数据驱动方法的详细分类结构如图1所示。

1.1 多元统计方法

多元统计方法是一种基于统计学的无监督多变量数据分析方法，该类方法将高维数据投影到多个低维空间，利用统计学原理计算每个空间中表征数据信息与特征的统计量，并与阈值进行比较，进而分析结果[4]。常见的基础方法有主成分分析法（PCA）、偏最小二乘法（PLS）、独立成分分析法（ICA）、高斯混合模型（GMM）[3]，以及引入核函数后使其能处理非线性数据的核主成分分析法（KPCA）[5]、核偏最小二乘法（KPLS）、核独立成分分析法（KICA）、非线性内核高斯混合模型（NKGMM）[6]。

图1 化工数据驱动方法分类结构

主成分分析法是将正常工况的数据进行正交转换，投影到两个子空间（主元子空间、残差子空间）[7]，并对监测点在两空间中的T2、SPE 统计量进行计算的方法。偏最小二乘法是一种将数据结构简化、相关性分析以及多元线性回归功能相结合的线性统计方法[8]。该方法可以间接获得不可测变量的预测值，可用于故障检测。独立成分分析法是将输入进行非正交分解，求特征最大化独立时的数据特征集，从而达到降维的作用。高斯混合模型是将多种高斯模型混合加权，并使用最大期望算法（EM）优化参数，获得数据标签以及标签概率，从而进行故障分类的方法。4种传统方法因其不同的特点，适用于不同的数据类型，其之间的性能比较、分析与应用结果见表1。

表1 传统多元统计方法的性能比较与应用

除传统的多元统计方法外，最近几年，基于统计理论的流行学习和粗糙集学习被提出和应用。流形学习是一种在保持数据非线性结构和信息的前提下将其降维的方法[11]，常用于本身具有一定空间连续性和规律性的数据，例如数据组成了直角坐标系中的圆心为原点的实心圆，那么降维后的数据维度为一维，特征为半径。粗糙集是一种新的分析和处理不精确、不一致、不完整信息与知识的数学工具[12]，是通过计算舍去不同变量后其上下近似集合的改变情况来进行特征约简，从而提取核心知识的方法。通常流形学习仅适用于连续数据，而粗糙集则仅适用于离散数据。因此，如何扩宽方法的使用范围是当前研究的一种方向。

多元统计方法数据处理能力强，但故障识别和诊断能力弱，大多数的研究集中在以下两点：①通过改进统计量和核函数防止主要信息的丢失和优化多元统计方法在非线性系统的效果；②与其他数据挖掘方法结合，利用该类方法作数据预处理。

1.2 基于人工智能的方法

人工智能研究的是如何让计算机做一些目前人类做得更好的事情[13]，机器学习是人工智能依靠数据在计算机上的一种应用[14]。机器学习方法一般分为监督学习和无监督学习两类。

监督学习是一种需要提供示例输出结果，通过训练得到输入输出关系的误差最小化方法，例如决策树、人工神经网络、深度学习、支持向量机、集成学习。决策树是一种由节点、分支构成的树结构，节点表示对象，分支表示选择。决策树常包含ID3、C4.5、CART等方法[15]，常需要进行树深度设置、剪枝操作以及评价指标选择来获得最优的树结构和分类拟合效果。决策树方法无法在数据量过大时构建优异鲁棒的非线性模型，为此人工神经网络这一从神经学提炼出来的一种应用于计算机的黑箱模型被提出[例如反向传递神经网络（BP）、径向基函数神经网络（RBF）]，人工神经网络包含1个输入层、5～7个隐含层以及1个输出层，通过调整权重和偏执使误差最小来构建非线性模型[16]。但由于人工神经网络的缺陷，非线性模型的非线性程度较低，无法满足复杂的工业过程，科学家开始思考是否可以通过增加隐含层层数提高模型的非线性程度，因此诞生了深度学习的概念。现如今深度学习的目的主要是模拟更复杂的人脑和学习活动而非只满足非线性要求，常用于图像识别领域，常见的算法有栈式自编码网络（SAE）、卷积神经网络（CNN）、深度置信网络（DBN）、循环神经网络（RNN）等[17]。集成学习类是将多种弱学习器结果集成的方法，它解决了深度学习计算复杂度高的缺点，能通过简单的弱学习器达到惊人的效果，根据组合方式的不同可分为boosting、bagging、stacking三种[18]。支持向量机是基于统计理论和距离计算的二分类器，通过不断构造超平面，计算两类数据对超平面的几何间隔距离（两类别的数据分别到第i∈n个超平面的距离的最小值），取不同类数据间几何间隔距离最大的超平面为分类最优超平面，并用于数据分类，是最简单又快捷的适用于数据量少的非线性分类方法。对监督学习的代表性方法进行汇总和分析，结果见表2。

表2 基于AI的监督学习方法的性能比较和应用

无监督学习能自主挖掘数据关系，常不需要示例输出，例如k-means和自动编码器。无监督学习虽然不需要标签就能对数据进行处理，但也因此使得模型具有了随机性，结果的好坏会过分依赖于数据本身的质量。k-means 是一种典型的无监督学习方法，通过预给出族群数量，按照距离计量方法获得划分模型[21]。但很多时候族群数是未知的，族群数的确定需要花费较多的时间。自动编码器则是一种人工神经网络，它能通过网络结构挖掘到数据的内在关系，降低数据的维度，提取出核心的信息，因此也能进行重构生成与输入相似的数据，可用于图像领域，也常用作深度学习的预训练。

随着近些年来物联网等技术的发展，工业数据已越发趋向于大体量、非线性、非高斯分布，对方法本身的要求趋向于高鲁棒性、低计算复杂度、高效性。虽然无监督方法对样本的标签要求少，但与监督学习相比还不够成熟，因此结合工业数据特征，能充分挖掘大数据信息结构以及整合数据处理功能的深度学习和集成学习方法（例如集成学习中基于bagging 方法的随机森林）将会是故障检测和识别领域的研究热点。但深度学习模型的训练和测试时间较长，不具有时效性，需要进一步的优化提升。

1.3 综合性方法

综合性方法是将统计原理应用于人工智能方法中的第3 种数据驱动方法，主要有贝叶斯网络（BN）和隐马尔可夫模型（HMM）[3]两种。

贝叶斯网络是应用贝叶斯定理，在事件相互独立的条件上，通过先验知识预测后验概率的算法[22]，具有不确定推理能力的优点但无法学习数据的结构，常用于数据量较小的多分类独立问题[23]。该方法能很好地与机理结合使用，使模型更专业和正确，弥补基于数据的模型的缺陷，这促使了该方法的研究和应用，但由于网络的构造需要人工进行，在数据量大时会加大工作量，因此如何使其自动化成为BN的研究难题。

隐马尔可夫模型[24-25]创造于20 世纪70 年代，是一种马尔可夫链，具有双重随机性，结构中所包含的隐含参数需要通过概率统计方法获取，链式的结构和统计参数形成的模型能对数据进行预测，能有效地处理前后关系密切的数据集，例如时序数据。

贝叶斯网络和隐马尔可夫模型均是利用机器学习的结构和统计学的理论对数据进行分析的概率图模型，能更好地解决特定问题，扩展性强。

2 化工故障诊断研究与应用现状

化工过程的数据具有体量大、标签数据需要手动添加、样本不平衡、非线性强、高维度、高相关性、动态特性明显的特点，因此数据驱动方法在化工过程的故障诊断中的研究应用多是集中在以下几个方面：

（1）无标签的大数据下的化工故障诊断方法的研究与应用；

（2）高维度特征下的化工过程故障诊断方法的研究与应用；

（3）数据不平衡下的化工过程故障诊断方法的研究与应用；

（4）数据动态特性下的化工过程故障诊断方法的研究与应用。

接下来针对以上4种研究方向，分别叙述、分析、总结近五年来与其相关的文献供读者阅读和思考。

2.1 大量无标签数据下的化工故障诊断技术

通过DCS 系统采集获得的化工过程数据常不含分类标签，需要在应用部分数据驱动方法时手动添加，导致数据处理时人力和时间成本较高，且使得诊断结果易受标签添加的人为因素影响。

多元统计方法属于无监督方法，不需要添加标签，但故障诊断的能力和处理强非线性过程的能力较弱，往往需要先优化传统方法后与其他机器学习方法结合来应用，以提高在处理化工数据标签问题上的诊断综合效能。解亚萍等[26]优化了无监督聚类方法PCA，提出了一种基于k-means聚类贡献图的核熵成分分析的间歇过程故障诊断方法，并将该方法应用于青霉素发酵过程中，其诊断结果证明该方法具有有效性。刘丽云等[27]采用无监督聚类方法kmeans对故障进行聚类检测，再结合PCA的贡献图方法对检测出的故障进行识别，在TE 过程的故障检测中，该方法能检测出其他方法不易检测出的故障且故障平均正确率高。

深度学习方法具有高适应性和很强的学习能力，能够处理无标签或部分标签的数据，鲁棒性强，整体效果好。Li等[28]结合卷积神经网络特征提取方面的强大能力，提出了一种基于卷积神经网络和DAEs 的无监督混合故障诊断模型，将其应用到脱丙烷精馏过程中，其平均故障诊断率达92%，高于传统的CNN、DAE模型；Arunthavanathan等[29]提出了半监督的基于增量式单类神经网络的浅层神经网络故障诊断方法，减少所需手动添加的标签量，自主学习新故障的信息并进行自动更新，在TE 过程中，诊断所花费时间为80s以内，远少于其他神经网络诊断时间。Zheng 等[30]采用深度自编码器网络和t-SNE算法进行特征提取和数据可视化。提取的二维特征采用小批量k-means算法聚类，降低了添加标签所需要的时间。将该模型应用于TE 过程的阶跃型故障中，能100% 识别出故障1、2、4、6、7。

一些学者将多元统计方法和深度学习方法结合起来，提高单一方法的无监督诊断能力。张祥等[31]提出了一种基于无监督特征提取降维方法VAE 的DBN 故障诊断方法，在TE 过程中故障诊断效果远优于SAE方法。赵帅[32]基于Tri-training和GPR方法建立了半监督集成方法，利用Tri-training 的协同作用对无标签数据自动进行标签添加，在脱丁烷塔化工模拟过程中验证了方法的有效性。

化工过程中大量无标签的数据使诊断过程时间成本高，研究者常通过使用传统聚类方法（多元统计方法）和深度聚类方法（结合深度学习的方法）来解决。传统聚类方法的聚类效果受噪声和数据的平衡程度影响较大，聚类标准、统计量的优化和设定依旧是研究的重点；深度聚类方法无法提取数据的结构关系，如何有效利用数据结构关系提升深度学习对聚类效果的调整能力具有一定的研究前景。除此之外，由于加入深度学习进入诊断模型中，导致模型的诊断时间过长，这不利于化工实际应用，需要重视和额外研究。

2.2 高维度强相关性下的化工故障诊断技术

化工过程输出变量繁杂，变量与变量之间、变量与故障之间都存在相关、不相关两种关系，多余的变量会干扰诊断结果，增加诊断时间。

大多数能够进行特征提取或者降维的方法，在处理具有高非线性和非高斯分布特征的化工过程数据时诊断效果下降，其原因是这些方法无法适应高非线、非高斯分布的数据。汪庆宁等[33]针对化工过程数据非线性变量繁杂的特点提出了一种基于PPA的多元统计分析方法并应用于TE过程的故障诊断，与KPCA等传统非线性特征提取方法相比具有更好的效果。钱锟[34]将高斯径向基核函数与多项式核函数进行加权作为新的核函数，提出了一种基于组合核函数KPCA与改进ELM的故障诊断方法并应用于TE过程，其能力远优于传统的KPCA。曹玉苹等[35]提出了基于动态单类随机森林的故障检测方法，在TE 过程中，与单类支持向量机（OSSVM）方法相比，该方法检测效果好，检出率提高了20%。夏永彬[36]利用遗传算法优化了粗糙集的属性约简性能，并与BP结合应用于某厂70m3的PVC聚合釜中，提高了对变量的提取能力，从而降低了过拟合情况，提高了测试诊断率。Norazwan等[37]对传统的用于数据降维和特征提取的多元统计方法进行了改进，提出了多尺度KFDA方法，并与ANFIS故障诊断方法结合形成新的诊断框架，并应用于TE 过程中进行方法验证，结果显示该方法优于PCA-ANFIS、FDA-ANFIS方法。

目前大多数特征提取和降维方法仅能针对变量繁杂问题，而无法对故障趋势和结构进行提取，只是根据相关性去掉不相关变量，达到降维作用，但这样同时会丢失许多局部信息，影响诊断结果。Yu 等[38]研发了具有增量学习能力的广义卷积神经网络（BCNN），该网络能提取非线性的故障结构特征和趋势，并且通过增量学习减少了每次新样本的加入导致网络重新训练时间，使得模型具有更强的自学习和泛化能力，在TE 过程和实际的三相流设备中证明了方法的有效性。Lyu 等[39]为了获取变量间更深度的信息，减少降维后信息的损失率，解决统计学方法不易检测早期突发故障的问题，提出了基于叠加稀疏自编码器（SSAE）的加权时间序列故障诊断方法。利用SSAE 网络将其转换为深度学习所能处理的数据形式，使其能应用在化工过程中。张展博等[40]针对传统方法局部信息的提取能力弱的问题，提出了局部时空正则的慢特征提取独立成分分析（LTSS-ICA）方法用于故障检测，并应用于TE 过程进行了方法检验，与DGE 方法相比，其检测效果有所提高，但该方法不适用于高度非线性数据。

不同的优化算法和不同的特征提取方法进行组合以弥补单一方法的不足，提高整体诊断框架的特征提取效果和诊断效果。冀丰偲等[41]提出了一种基于线性判别分析（LDA）与SVM 相融合的故障诊断方法并应用于TE过程，其中SVM的超参数是通过网格搜索和K 折交叉验证寻优获得，与SVM、PCA-SVM相比具有特征提取能力强、收敛速度快、诊断准确率高、模型健壮的优点。任玉佳等[42]研究了一种ICA与互信息方法相结合进行特征提取于故障检测，使用基于遗传算法优化的核极限学习机进行故障识别的化工故障诊断方法，在TE 过程与某工业脱丙烷过程中的应用结果表明该方法的有效性。

特征提取是解决化工数据维度过高导致故障诊断效果低的传统方法，而特征提取的研究多着重于降低特征信息的损失率，未来可以从制定降维程度和信息完整度的综合评价方法、利用其他数据驱动方法对评价方法进行学习和寻优两个方面进行深入研究。

2.3 数据不平衡下的化工故障诊断技术

由于化工过程的故障诊断数据具有极度不平衡性，即正常的负样本数据远多于故障正样本数据，并且不同故障类型之间的数据量相差悬殊，导致传统意义上的数据驱动方法经训练后其故障诊断效果极差或结果偏向于少数几个类别，泛化能力差。

一些学者通过对少数类数据进行过采样或对多数类数据进行欠采样的方法提高数据的平衡度，从而提高故障诊断模型的适应性。易维淋[43]将随机欠采样和SMOTE 方法进行组合对不平衡数据进行混合采样，从而训练极限学习机进行故障诊断，TE结果表明当不平衡度较大时，该方法比传统极限学习机的总体分类精度和G均值更高。Hu等[44]利用数据预处理方法和DNN 模型来减少不平衡现象的影响，形成新型的增量式不平衡修正深度神经网络（incremental-IMDNN），在TE过程中的诊断结果表明该方法鲁棒性好、适应性强。夏丽莎等[45]利用Easy Ensemble 思想对正常样本进行欠采样，分别与故障样本形成多个训练集，应用PCA 方法进行降维后，使用Adaboost 集成方法集成多个SVM 分类器进行故障诊断，在TE 的不平衡数据中，故障状态的诊断准确率和正常状态的查准率分别高达99.59%和99.83%。

从统计学方面来看，数据不平衡等价于某类数据所对应的事件发生概率比较低，将数据不均匀分布的决定因素进行定义并引入到模型中，使模型通过自学习获得内在规律是一种比数据处理方法更方便的解决方法。Askarian 等[46]将故障发生率考虑进来，对贝叶斯网络进行了改进，该方法通过先验概率对信息流进行计算，以在线诊断与训练模块交互、先验概率自主更新学习来保障系统稳定性。在不平衡度为10∶1的TE过程中，与基于C4.5相比，该方法提高了30%的F1 性能指数（精确率与召回率的调和平均数）。张远绪等[47]采用稀疏理论对DAEN 进行了改进，并添加Softmax 分类器提高标签利用率，改进的DAEN 方法在处理TE 过程的不平衡数据时比传统DAEN的诊断率更高。Peng等[48]通过配置不同的权重和偏置处理不平衡数据，形成了针对数据不平衡、无标签、动态特征的基于双向门控神经网络的诊断框架，用于动态环境中具有不确定性的故障诊断。该方法被用于TE 过程中进行了验证，结果表明其在二类故障诊断和多类故障诊断中都取得了较好的效果。

由于故障的发生概率不同，造成故障样本之间，故障与正常样本之间存在不平衡，学者大多通过欠采样将少数类增多的处理方法解决，也有部分通过研究发生概率的数学理论并将其引入模型中进行修正和优化。预处理方法的精度依附于对数据本质的研究，探讨所添加数据和真实数据的对应关系应为该方法的研究重点。而优化和修正方法则应先着眼于不平衡因数的确定和模型抽离，再在较统一的基础上逐步提升模型诊断效果。

2.4 动态特性下的化工故障诊断技术

化工过程采集到的数据常不是静态的，但在传统的应用中，大多数方法将其当作静态数据，忽略了数据在时间维度上的信息以及数据间的相关性，导致其无法处理具有更复杂关系的例如开停车等化工过程。

大多数传统方法直接应用于时序数据时处理能力大幅降低，因此可以考虑对原始数据进行一定的处理，将数据中的时序动态关系转换成静态关系，然后应用到传统方法中，保证其诊断效果。罗磊等[49]改进了交叉收敛映射（CCM）算法使其适用于化工动态故障诊断过程，得到的DCCM 算法在TE过程中进行验证，表明该方法对动态过程的变量因果分析与时滞分析有较好的效果，具有一定的启示性。冯立伟等[50]提出了一种基于时空近邻标准化和局部离群因子的复杂过程故障检测，时空近邻标准化将动态数据中正常与故障最大化分开，局部离群因子在此基础上有效地诊断故障，在TE 案例中，与其他多元统计方法相比该方法在动态数据上具有更高的诊断率和鲁棒性。宋晓云等[51]针对非稳态过程的故障诊断问题提出了基于DTW 的PCA 诊断方法，通过DTW 对时间序列的数据进行处理，再应用PCA 进行静态故障诊断，从而简化非稳态数据的诊断复杂度，提高诊断效果。该方法被用于青霉素发酵过程的Birol 模型中，其结果表明该方法能有效解决非稳态早期过程诊断问题。由于化工过程的动态数据随批次、操作及故障程度不同会有较大差距，要求故障诊断方法具有更强的适应性。赵劲松等[52-53]将DTW算法与人工免疫系统结合，提出了动态人工免疫算法，可以应用于青霉素发酵等间歇过程，也可以应用于精馏塔开车及稳态运行的全生命周期，具有自学习、自适应能力。

上述将时间序列数据转换为静态数据的方法可能导致信息丢失严重，而直接使用动态提取或聚类方法对时间序列进行处理，然后再应用到静态系统中的方法能够在数据处理和信息保留中实现平衡，获得较好的效果。Tanatavikor 等[54]提出了一种新的批处理过程监控方法——附加时间序列主成分分析。该方法采用改进的聚类方法进行相位识别和数据分割，并根据数据序列构造多个时间有序的重叠主成分分析模型，然后将主成分分析模型用于静态过程监测。该方法在工业青霉素发酵过程中诊断的假阳性率在0.2%之内，平均诊断时间为0.6h。Barragan 等[55]提出了一种基于小波特征、主成分分析相似度度量和模糊聚类相结合的多变量时间序列模式识别方法，在TE 过程中验证了有效性，该方法理论上可对不同时间长度的数据进行聚类与诊断。

通过数据处理的方法解决动态问题其处理过程相对简单，但当数据量过大时易造成更高的计算复杂度，而通过利用LSTM 网络的动态数据处理能力，与其他方法相结合，提高诊断效果能更高效地适用于各种情况。王楠等[56]发明了一种基于LSTM和多层感知机（MLP）结合的故障诊断方法，利用LSTM 的和MLP 进行时间特征提取，再在Softmax上进行分类，该发明可以运用于具有时变性、非线性、高维性的化工过程。在TE 过程中进行检验，其故障诊断准确率为86.3%。Park 等[57]针对工业数据时延性、高维度非线性、不平衡性等特征，提出了一种同时解决3种问题的故障诊断方法，该方法结合了无监督故障检测的自动编码器和识别故障类型的LSTM网络，与深度卷积神经网络相比，在TE过程中，故障诊断的平均准确率显著提高了16.9%。

LSTM 网络属于比较新颖的数据驱动方法，相关技术还不够成熟，应用存在不确定性。因此通过优化具有一定动态处理能力的传统方法，提升鲁棒性和综合效果。魏小林[58]针对化工数据动态性提出了一种基于滑动窗机制的PPA 方法，针对贝叶斯网络不适用于数据量过大的过程的缺点，提出了一种人工蜂群算法与差分进化算法融合，通过评分高低搜索最优贝叶斯网络结构的改进贝叶斯网络，并将两者均应用于了TE 过程故障诊断中，其结果表明改进PPA 方法能更高效地处理化工过程的动态数据。Wu 等[59]利用CNN 数据结构的二维特性，处理具有时间序列的化工数据，并将其运用到了TE过程，结果表明，基于CNN 的故障诊断方法在较少的训练次数下依然能够表现出良好的诊断性能。

数据具有动态特征使化工故障过程的诊断难度高于其他过程，传统动态转静态的间接方法无法处理大量的复杂数据，无法保留更多时间信息，而综合性能较好的方法现阶段只有还停留在基础研究的LSTM 方法，因此应该针对性地研究化工动态特征数据的数学特性（例如因果逻辑分析），并根据特性对传统数据驱动方法的模型进行改进，提出更多的新方法。

2.5 工业应用现状

化工故障诊断技术融合了多个学科的理论，其研究的意义是为了保障实际工厂的安全运行，因此其工业应用是技术研发的根本，但近五年来根据化工数据的特点进行研究的相关文献大多将研究成果应用于成熟、稳定的通用过程（TE 过程）和青霉素发酵过程进行方法验证，有些学者为了验证方法的普适性，也会将方法应用于流程模拟数据和普通工厂中某一装置的历史数据，但少有将其软件化后应用于实际工业中进行实用性探讨。

化工故障诊断技术的工业应用并不是没有，只是最新研究成果的应用具有滞后性，在我国最早被投入使用的化工故障诊断技术是专家系统，如中国华东化工学院自动化研究所的沈建平团队[60]设计、编写的用于石化集团安庆化肥厂的CO2吸收塔故障检测专家系统。而随着大数据时代的来临和国家做出的制造强国、网络强国战略部署，部分高校和企业通过组合多种数据挖掘方法或将数据挖掘方法融入专家系统的形式，开发其软件和系统，并应用于实际化工过程，以解决化工过程故障诊断问题。例如北京化工大学的高金吉院士团队[61]根据多元统计方法针对机泵群开发了机泵群故障诊断专家系统，并在多个石油企业应用；华南理工大学化学产品和过程系统工程研究室利用PCA 等多元统计数据驱动方法与专家系统结合研发了润滑油酮苯脱蜡油回收装置集成运用系统，应用于茂名石化润滑油过程进行实时检测和故障诊断；化学品安全控制国家重点实验室与中国石化合作将PCA方法和专家系统、神经网络等故障诊断技术结合开发了针对某炼化企业己内酰胺装置的安全运行指导系统[62]，并投入使用，其运行过程中系统的诊断结果与实际情况一致；清华大学与九江石化、石化盈科集团合作研发了催化裂化过程报警分析、结焦预测和汽油收率寻优综合系统，并在九江石化的催化裂化装置进行了运用，结果表明该系统能合理分析实际装置的报警情况，并进行故障原因追溯。除和高校合作研发外，隶属于石化企业的研究机构针对企业自身的工艺研发了具有故障诊断功能的系统并应用于企业中。例如中国石化青岛安全工程研究院的王春利[63]根据数据挖掘技术研发的石化过程安全运行报警预测装置在上海石化、仪征化纤、燕山石化、石家庄炼化等石化企业的装置上成功应用，取得良好效果；镇海炼化在常减压装置上采用大数据技术建立装置各点位之间相关性模型，运用特定算法预测生产区间的工艺波动趋势，实现提前2min 预警，有效避免了异常工况。

3 结语

随着大数据时代的来临，鲁棒性强、处理能力优越的数据驱动方法被广泛应用于各行各业中。高非线性处理能力的深度学习和高效、高鲁棒性的集成学习已成为数据驱动方法的研究重心，如何降低深度学习的计算复杂度、挖掘集成学习的多样性是数据驱动方法的理论研究方向。

化工过程数据具有维度高、非线性强、不平衡度高、标签难标注、动态特性明显的特征，近些年大多学者针对这些特征分别提出降维、优化、欠采样、聚类、动转静态的数据处理方法，并据此提出多数据驱动方法组合的诊断框架。组合不同数据驱动方法，取长补短，获得更具泛化性和高效性的诊断技术将会是后续故障诊断方法研究的常用思维。

而化工过程中依旧存在例如数据缺失或异常导致故障诊断效果下降、时滞现象导致故障诊断错位、数据类型不唯一导致模型对部分数据不敏感等问题待解决，从优化集成学习中的bagging 方法、快速自动构建动态贝叶斯网络结构、搭建自然语言处理与传统方法的化工诊断桥梁出发研究是一种有效思路。

最新科学研究成果的应用还处于偏离实际的情况，这与工厂数据保密性高、数据安全保障性低的现状相关，但不难看出，数据挖掘方法的应用能有效保障工厂的安全运行。期待当工厂数据研究自由时，基于数据挖掘的化工故障诊断方法的蓬勃发展。

综上，在未来化工故障诊断研究过程中应围绕“诊断时效”“数据特征”等关键词从理论出发结合多种数据驱动方法来提高复杂化工过程的实际诊断效果，保障工厂安全运行。