基于特征提取的输油管道泄漏系数预测*

2022-11-12 04:58马云路郑坚钦梁永图
中国安全生产科学技术 2022年10期
关键词:均值系数流量

马云路,郑坚钦,梁永图

(中国石油大学(北京),北京 102249)

0 引言

我国目前油气输送方式主要有公路、铁路、水路和管道运输4种,其中,管道由于经济、平稳、可连续输送等优势,成为长距离油气运输的首选方式[1]。但由于输送介质的易燃易爆属性,一旦发生泄漏,不仅造成大量经济损失、污染环境[2],还有可能发生爆炸,造成人员伤亡等重大事故[3]。此外,管道老龄化比例逐年增大[4],带来诸多安全隐患,1992年4月22日,墨西哥瓜达拉哈拉市汽油管道泄漏,引发连续爆炸,导致206人死亡[5];2000年1月27日,广西贵港输油管道泄漏,油品遇明火引发连锁反应,致9人死亡[6];2013年11月22日,青岛市东黄输油管道与排水暗渠交汇处管道破裂,大量原油外泄,现场人员施工时产生火花,发生爆炸事故,造成62人死亡,直接经济损失高达7.5亿元[7-9]。因此,开展管道泄漏检测研究十分必要。

目前,针对管道泄漏检测比较成熟的方法包括质量平衡法、负压波法、实时模型法、压力梯度法、统计决策法等。质量平衡法[10]成本低、响应快速,但只能用来检测泄漏时间,对于加热输送管道需要考虑温降对流体密度影响,一般与其他方法结合使用;负压波法[11]原理简单、实施方便、泄漏定位能力较强、精度较高,但无法预测泄漏系数,容易混淆泄漏与工况调节,误报警率较高;实时模型法[12]灵敏度和精度高,可适用于各种复杂工况,对泄漏系数预测效果较好,但计算量大、费用高、耗时较长;压力梯度法[13]实施简单、费用低,但精度低,一般作为辅助方法;统计决策法[14]成本低廉,误报警率低,对不同管道和不同输送介质的适应能力较强,但对泄漏系数预测能力弱,更多用于检测是否发生泄漏。

近年来,随机器学习技术兴起,部分学者采用基于机器学习的方法开展管道泄漏检测研究:Wang等[15]提出基于过程与数据耦合的管道工况监测模型,准确率高达93.1%;Abdulla等[16]通过分析检测方法缺陷,开发基于神经网络的概率决策支持系统,将管道入口、出口压力和流量与泄漏状态相关联,用于检测管道是否泄漏;Kayaalp等[17]将RAkELd方法用于管道泄漏检测和定位,实验效果良好;Zhang等[18]提出基于水热力动态瞬态分析的液体管道泄漏检测和定位模型,并使用改进粒子群算法优化模型参数;文献[19-20]提出基于生成对抗网络和变分自编码器的泄漏参数估计模型,优于传统机器学习算法。但上述方法缺乏对流量、压力等数据特征提取,模型可解释性较差。

鉴于此,本文针对管道流量和压力数据特点,提出2种特征提取方法,并将这2种方法与机器学习方法相结合,建立多个管道泄漏系数预测模型,其中使用均值提取法的多层感知机模型效果较好,该模型通过将均值提取法与多层感知机模型相结合,可有效降低管道时序数据特征维度,准确拟合泄漏系数与流量压力之间的非线性关系,具有较高精度和良好的抗噪性。

1 管道泄漏数据处理

由于管道泄漏样本少,数据保密性强,导致模型训练样本数据收集困难。本文参考华南成品油管道数据,为增强通用性,管道内流动介质包括92号汽油、95号汽油和0号柴油,基于瞬变流模拟管道在100 s内的流动情况,记录上下游流量和压力数据,基于现场操作习惯,控制下游流量和上游压力不变,不断改变泄漏系数大小,重复多次模拟,共产生约20 000条数据。模型训练时,将管道泄漏系数作为标签进行监督学习,管道基本参数见表1,流量和压力如图1所示。由于长输管道沿途地形起伏,需要考虑高程差影响,一般使用压力指代压强,以m作为单位,表示相同高度水柱产生的压强。

为分析各模型抗噪性,分别对数据添加1%,2%,3%,4%,5%的噪声,添加5%噪声后流量和压力如图2所示。原始数据样本为400维,存在“维数灾难”问题,需降维处理,提取相关性较强特征,提高模型预测精度。因此,提出序列提取法和均值提取2种数据预处理方法。具体包括以下6个流程:

图2 加噪后的流量和压力Fig.2 Operating flow rate and pressure after adding noise

1)数据筛选。发生泄漏后,压力波传导到管道两端需要时间,原始数据包含100 s的数据,为保证压力波到达管道上下游,过滤80 s后的数据,同时考虑管道经济流量范围,删除流量大于0.7 m3/s的数据。

2)判断变化时间。受噪声干扰,难以判断流量和压力变化属于正常波动还是泄漏引起,通过设定阈值,当变化大于阈值时视为发生突变,本文采用阈值为管道平稳运行时流量和压力的1/10。

3)特征提取。序列提取法考虑原始数据时序特性,在特征提取过程中保留原始数据时序性。均值提取法选取管道突变前后流量压力表征整个序列,可显著降低特征维度,同时降低噪声干扰。图3为序列提取法示意,在变化时间点前后各取长度为5 s的序列数据,视为变化特征,得到4条10 s的序列数据,保留数据时序性,特征数为40。图4为均值提取法示意,使用变化时间前后各10 s的平均值作为提取特征,得到8个流量压力数据,最终特征数为8,相比原来的400维数据,特征维度大大降低。

注:白色方块代表上下游流量和压力,竖线代表变化时间,深色方块代表提取的特征。图3 序列提取法Fig.3 Sequence extraction method

注:白色方块代表上下游流量和压力,竖线代表变化时间,横线代表求平均值。图4 均值提取法Fig.4 Mean extraction method

4)归一化处理。由于不同特征具有不同数量级,需归一化处理,加快模型收敛。处理流程如式(1)所示:

xi=(xi-xmin)/(xmax-xmin)

(1)

式中:xi表示第i个样本;xmin为特征值最小的样本;xmax为特征值最大的样本。

5)模型评价指标。选取2个评价指标相关系数(R2)和平均绝对百分比误差(MAPE),R2反映模型拟合程度高低,越接近1,说明模型拟合程度越高;MAPE反映预测数据误差,越接近0说明误差越低,如式(2)~(3)所示:

(2)

(3)

6)数据划分。将数据集划分为训练集和测试集,划分比例为8∶2,80%用于模型训练,其余20%用于模型性能评估。

2 基于机器学习的管道泄漏检测模型

多层感知机(MLP)模型是在生物大脑启发下提出的,其结构简单、训练高效,理论上可拟合任意函数关系,适用范围广且效果出色。本文研究可通过学习上下游流量、压力数据与泄漏系数之间的复杂映射关系,用于泄漏系数预测。

多层感知机的基本组成单元是神经元,其模仿人类大脑中的神经元细胞,接受1组输入向量,与自身权重向量求内积,加上偏置向量后经激活函数得到最终输出。对于管道流量和压力x,输出泄漏参数y=f(wx+b),其中w为权重向量,b为偏置向量,函数f(·)为激活函数。激活函数采用非线性ReLU函数,如式(4)所示:

f(x)=max(0,x)

(4)

1个神经元产生1个输出,多个神经元并联构成1层网络。神经元个数对应网络输出个数,中间层为隐藏层,将多层网络串联到一起,形成最终模型。网络结构示意如图5所示。

图5 多层感知机泄漏预测模型Fig.5 Leakage prediction model based on multi-layer perceptron

图5展示含有3个隐藏层的多层感知机,3个隐藏层的神经元数量分别为4,5,4。在实际模型中,可通过试错法和经验法确定最优层数和神经元数,多层感知机模型接收预处理后的管道泄漏数据,利用隐藏层做特征提取,最终通过输出层预测管道泄漏系数。本文基于2种数据预处理方法,建立2个不同的多层感知机模型。模型1(1-MLP)使用序列提取法进行数据预处理,输入数据特征维度为40,隐藏层为4层,激活函数采用ReLU函数,输出为预测的泄漏系数;采用小批量学习法,每批样本数为256,使用自适应梯度下降法优化参数,学习率设置为0.001,共训练100轮。模型2(2-MLP)使用均值提取法进行数据预处理,输入数据特征维度为8,其他设置与模型1一致。为对比模型效果,基于2种数据预处理方法,建立4个对比模型,分别为基于序列提取法的长短期记忆神经网络(1-LSTM)、基于均值提取法的随机森林(2-RF)、基于均值提取法的K近邻回归(2-KNN)和基于均值提取法的支持向量机(2-SVM),模型前数字1表示基于序列提取法,2表示基于均值提取法,英文缩写代表选用的机器学习算法。

3 结果与分析

不同模型的预测结果如表2所示。由表2可知,基于均值提取法建立的多层感知机模型(2-MLP)预测效果相对较好,R2为0.997 5,MAPE为1.599%。所有模型预测结果和真实值对比如图6所示。由图6可知,1-MLP、2-MLP和2-SVM模型的散点均集中在基准线附近,说明模型拟合效果较好,其中2-MLP模型预测结果与真实值最为贴近,1-LSTM、2-RF和2-KNN模型较为分散,说明模型拟合效果较差。

表2 泄漏系数预测模型结果Table 2 Results of prediction models on leakage coefficient

注:散点表示真实值和预测值的组合,实线为基准线,表示预测值与真实值相等。图6 不同预测模型的预测结果Fig.6 Prediction results of different prediction models

为进一步测试模型鲁棒性,对模型进行抗噪性分析。分别使用添加1%~5%噪声数据训练模型,观察模型的效果变化。添加1%~5%噪声后,模型R2和MAPE表现结果如图7所示。由图7可知,RF和MLP的抗噪性相对较好,其次为SVM;对比1-MLP和2-MLP模型发现,2-MLP模型的抗噪性明显优于1-MLP模型,说明均值提取法具有抗噪声功能。

图7 添加不同噪声后不同模型的R2和MAPEFig.7 R2 and MAPE of different models after adding different noises

4 结论

1)基于均值提取法建立的多层感知机模型(2-MLP)对泄漏系数的预测效果相对较好,R2为0.997 5,MAPE为1.599%,明显优于其他模型,这说明多层感知机模型可以比较准确地拟合泄漏系数与流量和压力之间的非线性关系。

2)使用均值提取法的多层感知机模型与使用序列提取法的多层感知机模型相比,前者抗噪性相对较好,说明均值提取法具有一定去噪能力,可以使模型拥有较强的抗噪性。针对管道泄漏系数预测而言,时序性数据使用均值提取法比序列提取法可以更好地降低特征维度,提取关键特征,提升模型抗噪性能。对于泄漏系数与流量和压力之间的非线性关系,使用多层感知机模型拟合效果更佳。

猜你喜欢
均值系数流量
直播助农冲流量 勿忘质量
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
过去的一年开启了“流量”明星的凛冬时代?
浅谈均值不等式的应用
小小糕点师
苹果屋
嬉水