基于机器学习的冻土区融沉变形管段识别方法*

2022-03-22 01:45刘啸奔陈朋超
石油机械 2022年3期
关键词:决策树准确率样本

刘 燊 刘啸奔 李 睿 李 博 陈朋超 张 宏

(1.中国石油大学(北京)油气管道输送安全国家工程实验室/石油工程教育部重点实验室/城市油气输配技术北京市重点实验室 2.国家管网集团北方管道有限责任公司 3.国家管网沈阳管道检测中心)

0 引 言

管道地质条件变化引起的管道附加载荷波动是影响管道运行安全的重要因素[1-5]。在附加载荷作用下管道会产生一定的变形,对于冻土区管道,弯曲变形的主要成因是冻胀融沉等自然灾害的影响产生的地表变形。

基于惯性检测单元(IMU)的内检测技术可以在检测过程中记录检测器在三个轴向上的姿态数据和加速度信息,从而计算得到管段的弯曲应变及位移[6]。与现有的位移检测技术相比,该技术可以在几十公里长的管道全线逐点检测,对管道弯曲应变的检测更加全面和精确[7-8]。根据GB 32167—2015《油气输送管道完整性管理规范》附录Ⅰ要求,IMU检测结果应满足单次检测识别的弯曲变形曲率大于1/400D(应变值超过0.125%)的管道弯曲特征,从这些特征中筛选出弯曲变形危险段是保证管线安全运行的重要举措之一。

通过分析IMU应变检测数据,现已形成初步的弯曲变形危险段识别方法。赵晓明等[9]结合几何/漏磁检测数据定位管体缺陷,利用人工识别的方法,逐段识别找到IMU数据中构成潜在威胁的高风险点。人工识别方法在分析处理海量IMU应变检测数据时需耗费大量时间,处理效率低,同时还存在处理标准不一致的问题,对于模棱两可的管段类型,不同的人判断得出的结果可能各异,所以需要借助机器进行识别,但现在缺乏高效智能的机器识别方法。

因此本文以漠大一线的IMU应变检测数据为基础,提出了基于机器学习的弯曲变形危险管段智能识别方法。该方法利用1阶低通数字滤波降低应变检测数据中的干扰噪声,保证应变值的准确性[10];根据弯头段、凹陷段和弯曲变形段的特征差异,结合几何与漏磁检测数据提取IMU应变检测数据中不同管段类型的数据特征,利用PCA主成分分析法完成特征降维;基于CART决策树及随机森林原理建立分类模型,进而实现对弯曲变形管段的智能识别。

1 IMU应变检测数据分析与预处理

1.1 IMU应变检测数据的特性分析

IMU内检测器在检测管线过程中,其搭载的惯性检测单元易受到管道内、外部环境和第三方破坏等因素的影响而产生噪声干扰信号,主要包括管道螺旋焊缝对IMU检测装置的干扰,以及管道内部的油垢、杂质沉积形成的阻塞等,使内检测器在运行过程中出现颠簸式的运动状态[11],在IMU应变检测数据中表现为上下波动的高频锯齿状噪声干扰信号,噪声信号会使应变值偏大或偏小。

本文以选取的漠大管道线为例,从漠河至大庆一线中提取了3 431份训练数据集,其中,弯头段962份,凹陷段975份,弯曲变形段1 494份;提取了1 754份测试数据集,包括弯头段337份,凹陷段442份,弯曲变形段975份。两种数据集共5 185份样本数据。在整条管线的应变检测数据中,应变值为零值附近的正常管段占主要部分。管道变形特征值分布如图1所示。由图1可知,管道变形主要包括弯头、凹陷和环焊缝等几何特征,以及由管道外部载荷引起的弯曲变形。不同管段类型的特征差异为利用机器学习方法对IMU应变检测数据识别分类创造了条件。

图1 管线变形特征比例图

管线中的几何特征会妨碍对弯曲应变段的识别,凹陷段和弯头段数量众多且应变值较大,在识别弯曲变形段时应主要排除弯头和凹陷的干扰。弯头的IMU应变曲线如图2a所示。弯头按照固定规格制成,总长一般不会超过12 m,弯头段的应变曲线特征为12 m范围内发生应变或突变,呈纺锥形尖刺状,通常在应变绝对值最大处大于0.5%[12],不同检测年份的弯头弯曲应变值不会出现较大的偏差。凹陷的IMU应变曲线如图2b所示。凹陷段的情况较为复杂,通过漏磁检测与几何检测可以发现,在整条管线上存在大小不一的凹陷,部分凹陷段在应变曲线上的数据特征不明显,甚至与正常管道之间没有明显差异。凹陷段的应变曲线特征为在较短范围内应变发生突变,呈半菱形状,且凹陷的弯曲应变值相比弯头较小。

图2 两种几何特征IMU应变曲线

弯曲变形风险段的应变呈正弦曲线波动,管道弯曲长度一般超过12 m[13],弯曲变形最大处的应变绝对值大于0.125%,可以将弯曲变形段的应变曲线特征总结为“W”形和“V”形,以及多个“W”形变形段和“V”形段的串联,如图3所示。为了方便截取弯曲变形段的数据特征,简化计算过程,“W”形的弯曲变形段包含或者可看作是“V”形弯曲变形段。

图3 两种弯曲应变的IMU应变曲线

1.2 IMU应变检测数据平滑降噪处理

数据噪声对识别弯曲变形段的影响主要有两点:一是原本弯曲应变较小的管段,在锯齿状噪声的干扰下会使得弯曲应变值超过识别阈值,从而可能会误认为其是应变较大的异常管段;二是数据噪声会影响管线弯头、凹陷、弯曲变形段的数据特征,影响机器学习模型的识别准确率。因此利用科学合理的方法有针对性地降低IMU检测中的数据噪声干扰非常有必要。

本文选用1阶数字低通滤波去除IMU应变干扰噪声。其原理是低频的弯曲应变信号能够正常通过,而超过临界值的噪声信号会被阻拦或减弱,从而实现IMU应变检测数据的平滑降噪。1阶数字低通滤波公式如下:

Yn=qXn+(1-q)Yn-1

(1)

q=2πΔtfc

(2)

式中:q为滤波系数,其实际取值取决于滤波时间常数和采样周期;Xn为第n次采样时的滤波器输入应变,即数据的原始应变值;Yn为第n次采样时的滤波器输出应变,即降噪后的应变值;Δt为采样间隔时间;fc为截止频率,即区分应变信号与噪声信号的临界值。

设置截止频率为0.1 Hz,采样频率为1.0 Hz,对某段IMU应变检测数据降噪后的应变曲线如图4所示。由图4可见,降噪后应变数据的锯齿状干扰噪声有所减缓。

图4 1阶低通滤波降噪效果图

1.3 IMU应变检测数据特征值分类

基于IMU应变检测数据的管段识别,实际上是对不同管段类型数据特征的识别。根据IMU应变检测数据的物理意义,并结合数理统计规则,参考信号分析的相关方法,从每份样本数据中提取11个特征值,分别为长度、幅值、峰峰值、最小值、均值、标准差、偏度、峭度、峰值因子、脉冲因子及裕度因子。

长度表示一份样本数据中应变值的个数,长度的计算公式为:

nL=length(x1,……,xn)

(3)

幅值也叫做最大值,表示一份样本数据中最大的数,幅值的计算公式为:

xmax=max{|x1|,|x2|,……,|xn|)

(4)

峰峰值表示一份样本数据中最大值与最小值之差,峰峰值的计算公式为:

xmax-min=max{x1,……,xn)-min{x1,……,xn)

(5)

最小值表示一份样本数据中最小的数,最小值的计算公式为:

xmin=min{|x1|,|x2|,……,|xn|)

(6)

均值又称作平均数,表示一份样本数据中所有值之和除以样本中的个数,均值的计算公式为:

(7)

标准差表示样本数据的离散程度,用以衡量样本数据值偏离算数平均值的程度,计算公式如下:

(8)

偏度表示样本数据的偏离程度,也就是样本数据的对称程度,偏度的计算公式为:

(9)

式中:μ为均值,σ为标准差,n为样本个数。

峭度表示样本数据中大幅值出现的概率,峭度的计算公式为:

(10)

式中:σ2为方差。

峰值因子表示峰值在样本数据中的极端程度,其计算公式为:

min{x1,……,xn))

(11)

脉冲因子是样本数据峰值与样本数据绝对值的平均值的比值,计算公式如下:

min{x1,……,xn))

(12)

裕度因子表示样本数据峰值与样本数据方根幅值的比值,计算公式如下:

(13)

1.4 特征值主成分分析

特征提取在表征原始数据特征的前提下实现了对样本数据的简化[14],但只有部分特征值在区分不同管段类型时起关键作用,因此需对特征值主成分进行分析。对主成分分析(Principal Component Analysis,PCA)可以对已有的数据特征进行降维处理,从而提高机器学习模型的计算效率。PCA通过借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量,在新平面中使不同类别的样本点尽量得散开,从而达到用几个综合变量代替已有特征值的目的,降低特征数据的信息量,简化特征数据处理的复杂程度[15]。对上述11个特征值进行主成分分析,结果如表1所示。由表1可知:第一主成分的贡献率为63.099%;第二主成分的贡献率为22.064%;计算得到前5个主成分T1~T5的累计贡献率达到了98.539%,因此取前5个主成分作为样本数据的主要特征分量,降维后形成3 431行5列的特征矩阵作为训练数据集[16],之后对测试数据集也做同样处理。

表1 前5种主成分的贡献率 %

2 基于机器学习的异常管段智能识别

2.1 CART决策树

决策树由根节点、子节点和叶节点三个部分组成,如图5所示。决策树通过将样本数据分配到某个叶节点从而确定样本所属的分类,它的一个分支就是一个决策过程,每个决策的节点涉及到数据样本的一种特征。使用基尼指数(CART)作为特征选择的准则,建立CART决策树,从根节点出发计算基尼指数,自上而下进行决策,在每个子节点都会进行一个判断,最后到达一个叶节点,递归产生决策树。建立决策树后,将测试样本输入,经过决策树的分类,最后得到的叶节点就是测试子集的类别[17]。

图5 决策树示意图

2.2 随机森林

随机森林(Random Forest,RF)是在决策树的基础上构建的一种更为高级的算法,根据集成学习的思想解决单一决策树模型固有的缺陷,如图6所示。随机森林采用了基于Bagging方法的抽样技术,即通过一种有放回重复抽样的采样方法,随机抽取数据特征组成多个决策树,建立一个森林[18],根据多个决策树模型的分类结果,用投票表决多数的方式决定最后结果。随机森林的显著优势是能够处理高维度的数据即不需要对特征进行降维处理。筛选出的11个特征值可以直接用于训练随机森林模型,在RF模型训练过程中随机选取样本和特征属性,从而提高模型算法的不确定性和多样性[19],因此随机森林分类的过程近乎是一个黑箱操作。

图6 随机森林示意图

2.3 训练模型

在得到带标签的特征向量矩阵后,本研究基于Python中的sklearn机器学习库对CART决策树和随机森林模型进行参数优选,建立理论条件下的最优模型。影响CART决策树性能的超参数有最大深度与最大叶节点数,设置决策树的最大深度为5~9之间,设置决策树的最大叶节点分别为10、20、30、40和50个,在不同参数下进行10次10折交叉验证后取平均值,则决策树分类精度对比如图7所示。随着最大深度的增加,CART决策树模型的识别准确率整体呈波浪式变化。将最大叶节点数设置为10时,即使增加最大深度也不会影响模型的性能,这是因为最大叶节点数过少,限制了决策树模型的增长。当最大深度设置为7,最大叶节点数设置为30或40时,CART决策树有着较好的性能,识别准确率在87.8%左右。

图7 不同参数下的决策树分类精度对比

结合随机森林的原理,影响随机森林模型分类性能的超参数有两个:决策树数量和随机选取的特征数量[20]。设置决策树数量为10~100个之间,每次间隔10个进行取值,随机选取的特征数量分别取1、3、5、7、9个,交叉验证后选择最优参数,则随机森林分类精度对比如图8所示。决策树的数量为10个时,随机森林模型的识别准确率整体偏低,随机选取的特征数从1个增加至3个时,随机森林的识别准确率有所增长,平均增幅在1%左右,之后随着随机选取特征数量的增加,模型的性能趋于稳定。从图8可以看出,当随机选取的特征数超过3个,决策树的数量超过20个时,随机森林的识别准确率超过了91%。因此,为保证识别准确率,可以设置随机森林的特征值数量为7个,决策树数量为100个。

图8 不同参数下的随机森林分类精度对比

运用随机森林模型可得出各特征值在分类时所占的权重[20],如图9所示。

图9 随机森林要素指标权重

由图9可以看出,对分类效果最重要的指标是长度(0.251 9),其后依次是标准差(0.186 6)、平均值(0.135 8)、幅值(0.129 6)及峰峰值(0.106 9)。研究结果表明,由于IMU应变检测数据中各管段类型的边界不明确,如何界定不同管段类型的长度影响范围对模型的分类性能有重要的影响。在以后的研究中,需要优化处理IMU应变检测数据中不同管段类型的截取长度,从而达到更好的分类效果。

3 结果分析

本研究将3 431份样本数据设置为训练数据集,在模型训练中使用10次10折交叉验证后取平均值,求得模型的识别准确率,如表2所示。对训练数据集交叉验证后可以发现,两种模型对凹陷段的识别准确率都偏低,对弯头段和弯曲变形段的识别准确率均高于90%。凹陷段的特征不明显、凹陷段样本数据中截取到其他管段特征是导致出现这种情况的潜在因素。

表2 10次10折交叉验证 %

将1 754份测试数据集代入模型中训练得出分类结果,求出混淆矩阵得到(见图10)CART决策树和随机森林模型的分类性能,混淆矩阵的行表示预测值,列表示真实值。

混淆矩阵进一步分析得到两种算法的分类精度[21]。图10中,0代表凹陷段,1代表弯头段,2代表弯曲应变段。决策树模型中测试集337份凹陷样本数据中有137份被识别为弯曲应变段,975份弯曲应变样本数据中有612份样本数据被识别为凹陷段。分析结果表明:决策树模型没有很好地区分凹陷段与弯曲变形段之间的特征差异,因为凹陷段与弯曲变形段存在相似,一般情况下很难辨别。可以看出随机森林模型的性能较好,但是在区分凹陷段和弯曲变形段也存在少数误识别的情况。

图10 两种模型的混淆矩阵

混淆矩阵中统计的是样本的个数,根据混淆矩阵可以衍生出许多评价指标,在分类监督学习模型中,常用的分类模型评价指标有:①Accuracy准确率,即正确预测的正反例数除以总数;②Precision精确率,即正确预测的正例数除以预测正例总数;③Recall是召回率,即正确预测的正例数除以实际正例总数;④F1值是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时F1值最大,F1值较大时说明模型比较有效[22]。表3给出了两种模型的指标对比情况。

表3 两种分类模型在不同管段类型测试集的评价指标对比 %

由表3可知:在测试数据集中,CART决策树模型的性能远低于随机森林模型,CART决策树的识别准确率只有55.25%;随机森林的识别准确率为93.39%,CART决策树在训练数据集上的平均识别准确率有87.94%,在测试数据集上准确率骤降到52.25%。这说明CART决策树出现了过拟合,导致决策树过拟合的主要原因可能是样本数据量较少,以及不同管段之间的特征参数差异不明显、IMU应变检测数据中仍存在干扰噪声、不同管段类型的样本数量不一致等。

4 结论及建议

(1)相比人工逐段识别应变较大的异常管段,采用机器学习方法对弯曲应变数据进行深入挖掘有重要作用。基于海量的IMU应变检测数据建立样本特征数据库,利用机器学习方法能够高效地找到管线中的融沉段,是管道安全状态定量识别的一个新方向。

(2)长度是区分不同管段类型的重要参数,然而截取的样本数据长度易受主观因素影响,在数据预处理时可以将样本数据的长度作为变量,以模型识别准确率为优化目标,从而起到提高模型识别分类的效果。

(3)本文基于IMU弯曲应变数据,利用机器学习方法要实现对管线中异常管段的智能识别。通过对比,随机森林的分类效果优于CART决策树,随机森林在训练集和测试集的识别准确率都超过了90%,说明训练得到的随机森林模型与数据拟合较好,稳定性和准确率更高。

尽管已经初步构建完整的异常管段智能识别方法,但是IMU弯曲应变的数据挖掘工作目前仍处于起步阶段。根据工业需求,建议从以下两个方面进行完善:

(1)现有方法识别准确率能达到90%,在真正应用于工程实际时还要加以优化,可以尝试更为新型的高效机器学习方法。

(2)IMU检测器在经过管道环焊缝时,由于错边等会发生跳动,使得环焊缝处的弯曲应变检测值超过阈值,因此在对不同管段的分类识别中可考虑加入对环焊缝异常段的识别。

猜你喜欢
决策树准确率样本
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
简述一种基于C4.5的随机决策树集成分类算法设计
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
决策树学习的剪枝方法
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)