一种用于页岩气井返排率监测数据的组合插值算法

2018-08-03 01:03鲁柳利赵蒙川何亚彬
钻采工艺 2018年4期
关键词:样条单井气井

鲁柳利, 赵蒙川, 何亚彬

(1成都工业学院信息与计算科学系 2四川理工学院数学与统计学院 3西南油气田分公司川中油气矿)

根据我国页岩气田近几年在四川地区的开发实践,发现页岩气井的返排率普遍偏低,部分井返排率不到10%。在页岩气井投产后,计算压裂液的返排率将会变得更艰难。甚至不能得到这一关键数据,造成返排率连续监测的数据缺失,影响对页岩气井产量及相关施工的决策。为了建立科学完整的压裂液返排率监测数据集,目前对缺失数据的处理可以采用删除和插补两种方法,如果简单地将包含缺失值的样本单元删除,虽然能够产生完全数据集,但会造成数据信息的浪费或者预测不准确[1-2]。本文研究如何利用插补的方法来填补缺失的数据。

页岩气单井返排率的监测数据实际上是一系列时间序列,通常的缺失数据插补方法并不适用于时间序列。拉格朗日插值和三次样条插值是解决时间序列缺失值的方法。使用插值基函数得到拉格朗日多项式很便捷,并且式子简单,计算速度较快,精度高,在对页岩气返排率的理论分析计算尤其方便,但这个方法也存在一些缺陷,当插值节点增减时,所有的插值基函数都会发生改变,整个式子也会产生改变,导致计算复杂,不利于工程应用。三次样条插值是利用三次多项式生成一条连接所有主干点的平滑曲线,光滑性较好,该方法在工程中用得较多,且计算精度和计算速度都能满足工程实际需要。

由于压裂液返排率监测数据不可能覆盖到每一口单井、每一个层位,单井监测数据不连续、缺失的现象普遍存在。本文通过对多种插补方法进行对比,利用基于SPSS提供的缺失数据处理方法及三次样条插值方法的组合算法,对单井返排率数据缺失值进行填补,为构建页岩气区块监测指标体系提供计算方法及依据[3]。

一、页岩气井压裂液返排率数据处理的组合插值算法

1. 基于页岩气井的SPSS缺失数据处理方法

本文将利用SPSS统计分析软件的基本模块来实现对页岩气井返排率数据的缺失值插补[4-5]:

目前SPSS提供了以下5种缺失值插补方法供工程计算中使用。①序列均值。该方法是使用整列数据的均值来插补缺失值,这种插补方法会导致插补值过于集中,不能完整体现真实的数据分布、总体的方差,以及协方差;②临近点均值。该方法是用缺失值附近的点的均值来插补缺失值,需要点的数量,可以通过插补缺失值附近点的间隔来设定;③临近点的中位数。这种方法的思路是使用缺失值附近点的中位数来完成插补缺失值,需要多少插值点,还是由相邻点的间隔情况来设定;④线性插值法。这种方法的插补原理是利用缺失值前一个和后一个数据,通过建立线性插值函数和函数计算缺失值的近似值实现插补计算;⑤点处的线性趋势。该方法的基本原理是通过建立整个序列的线性回归方程,利用该线性方程计算缺失值的近似值来实现数据的插补。以上5种方法各有利弊,可以结合工程实际需要采用较为合理的计算方法。

2. 三次样条插值方法在页岩气井返排率中的应用

根据页岩气井返排率数据实际和计算要求,三次样条插值方法对计算页岩气井返排率有一定优势,如何用三次样条插值方法来实现对页岩气井返排率的科学合理计算,首先需要了解三次样条插值方法的算法原理及特点。

三次样条插值:对给定的区间[a,b] 做一个划分a=x0

如果函数y=f(x)在[a,b]上连续,并给定节点函数值为f(xi)(i=0,1,…,n),并且函数S(x) 还同时满足以下条件:

S(xi)=yi(i=0,1,…,n)

S(x)∈C2[a,b]

该函数在整体上就是二阶导数连续;那么S(x) 在所有区间[xi,xi+1](i=0,1,…,n-1) 为三次多项式。

这种情况下就可以称S(x) 作三次样条插值函数。由于S(x)在每一个[xi,xi+1]区间上都不同,所以必须分段构造Si(x) ,其中x∈[xi,xi+1](i=0,1,…,n-1)。在所有区间上,利用4个参数来确定三次多项式,以上三次样条插值函数含有n个区间。

基于求解代数方程组相关条件可知,要有4n个方程才能实现对三次样条插值函数的求解,具体求解方法及相关计算过程见文献[6]。

以上过程可以看出,实际工程中构造三次插值样条函数时,如何得到三次多项式函数,如何科学合理得到样条函数形式最为关键。根据三次样条插值函数概念及算法可以看出,采用三次样条曲线模拟页岩气井返排率时,得到的结果要比线性插值更加接近页岩气井的真实情形[7]。

3. 页岩气监测数据处理的组合插补算法

在页岩气井返排率计算中,只采用单一插补算法可能会扭曲数据分布,导致低估数据的方差,不能满足页岩气井等工程实际需要。因此,本文利用一种基于SPSS提供的缺失数据处理和三次样条插值方法的“组合算法”来实现对页岩气单井返排率缺失值的插补。“组合算法”实际上就是综合了多种插补法的优势,这样既增加了估计的有效性,解决单一插补算法的局限性。

针对页岩气单井返排率的组合算法过程由以下步骤完成[4]:

首先假设x(ti)(i=1,2,…,n):表示页岩气单井监测指标x在ti时刻的监测值,并假设该监测指标在时刻tj(j=1,2,…,m)处的数据x(tj)缺失,需要插补计算,计算过程如下。

(1)根据页岩气单井实际情况,按一定比例在x已有的监测数据基础上,采用随机的方式,划分出页岩气单井监测数据的训练集x(tp)和相应的测试集x(tq)(q=1,2,…,h)。

(2)利用SPSS软件具有的5种缺失值插补功能模块,根据页岩气单井数据划分出的训练集数据x(tp)(p=1,2,…,k),对页岩气单井的监测返排率部分缺失数据x(tj)(j=1,2,…,m)和测试集数据x(tq)(q=1,2,…,h)进行插补,其插补值表示为:

x1(tj),x2(tj),x3(tj),x4(tj),x5(tj),(j=1,2,…,m)

x1(tq),x2(tq),x3(tq),x4(tq),x5(tq),(q=1,2,…,h)

(3)根据页岩气单井返排率监测数据划分出的训练集数据x(tp)(p=1,2,…,k),建立三次样条的插值函数S(x),利用其在页岩气井监测缺失数据和测试集数据时间点的函数值,对缺失数据x(tj)(j=1,2,…,m)和测试集数据x(tq)(q=1,2,…,h)的插补计算,插补值为:

x6(tj)=S(tj)(j=1,2,…,m),x6(tq)=S(tq)(q=1,2,…,h)

(4)利用页岩气单井返排率监测数据的测试集真实值和测试集插补值之间的平均相对误差绝对值(MAPE)来评估各插补方法计算误差如下:

(i=1,2,…,6)

(1)

通过计算误差可以评价该计算方法的合理性和工程实用价值。

(5)本文根据每种方法的特点,结合页岩气井监测数据的实际情况,采用平均相对误差绝对值的办法来确定其在组合插补算法中权重系数值,具体算法是平均相对误差绝对值越大,其所占的权重就越小,具体算法如式(2):

(2)

(6)采用以上提出的6种方法所得到的缺失数据插补值进行加权平均后作为该页岩气井返排率缺失值的最终插补值:

(3)

通过以上计算过程可以实现对页岩气单井监测数据缺失值的插补,其中训练集和测试集比例的值是可以根据页岩气井的实际情况进行调整。需要设计页岩气单井返排率监测数据测试集的目的是希望通过误差来调节各算法的权重,实现真正意义的“组合插值”。

二、组合插值算法在202H2-2页岩气井中的应用

以202H2-2页岩气井为例,本文计算的该页岩气井2014年10月到2017年3月的30个返排率点,并使用其中的25个监测数据当作训练集,余下的5个监测数据当作测试集,即假设测试集的5个点的数据缺失,如图1所示。

图1 202H2-2井返排率监测数据

采用SPSS提供的五种缺失值数据处理功能和三次样条插值函数,并利用训练集的25个数据(已知数据),对图1中涉及的红色方心标注的5个测试数据(缺失数据)来插补计算,如图2所示。其中,202H2-2_1代表序列均值插补方法,202H2-2_2代表临近点均值插补方法,202H2-2_3代表临近点中位数插补方法,202H2-2_4代表线性插补方法,202H2-2_5代表点处的线性趋势插补方法,202H2-2_6代表三次样条插补方法。

由图2可知,基于三次样条和SPSS的组合插值算法的平均相对误差绝对值为0.56%,且比前述6种插补法的都小。因此,在页岩气单井返排率的预测上精度高,满足其返排率监测需要,为页岩气井的预测和施工提供参考,具备较好的推广应用价值。

图2 6种插值方法下202H2-2的返排率

三、结论

页岩气监测数据的不完整是由于多种因素造成,科研工作者应该利用现有的监测数据,找到最科学的方法实现对缺失数据进行插补,将有利于页岩气田开发作业的下一步开展。本文利用了基于SPSS和三次样条组合插补的算法,克服了单一插补方法缺陷,同时充分利用不同插补法的优点从而提高插补值的精度。针对202H2-2井返排率缺失数据进行了插补,验证了“组合算法”在进行时间序列数据插补时的可行性和应用价值,对后期页岩气区块开发指标的预测具有巨大参考价值。

猜你喜欢
样条单井气井
一种应用于高含硫气井的智能取垢器系统设计
气井用水合物自生热解堵剂解堵效果数值模拟
对流-扩散方程数值解的四次B样条方法
基于STM32F207的便携式气井出砂监测仪设计
气井出砂动态监测技术研究
采油“一井一策”全员效益目标的构建与实施
三次参数样条在机床高速高精加工中的应用
单井成本核算分析
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
基于节点最优分布B样条的火箭弹开舱点时间估算方法