基于GA-BP神经网络的长宁地区页岩气水平井产能预测技术

2020-04-24 02:16黄浩勇刘俊辰杨昕睿

科学技术与工程 2020年5期

陈娟, 黄浩勇, 刘俊辰, 曾波, 杨昕睿

(1.中国石油西南油气田公司页岩气研究院，成都 6100017； 2.中国石油西南油气田公司四川页岩气公司，成都 610017)

页岩气以其储量丰富、开采潜力巨大在世界能源中占有重要地位。四川盆地页岩气资源丰富，具有广阔开采前景，是中国天然气规模生产的重要组成部分[1-4]。目前，页岩气井水平井产能预测技术仍处于起步阶段。产能预测是实现页岩气藏经济效益开发的关键科学问题，准确预测进行体积压裂后水平页岩气井的产能是确定合理开发决策的重要前提，对四川盆地页岩气田勘探开发进程具有重要意义。

目前，中外专家从不同角度对页岩气井产能开展了相关研究，主要有经验图版、解析模型和数值模型等3种方法[5]。Li等[6]建立了Barnett页岩气藏双曲线递减图版，并利用图版对Barnett页岩气藏超过8 700口水平井进行了分组评价。李龙龙等[7]基于半解析方法，建立了页岩气井体积压裂产能计算模型。Yu等[8]考虑了应力敏感和吸附解析的作用，采用数值模拟方法建立页岩气压裂水平井产能预测模型。通过经验法、解析法以及数值模拟法对页岩气产能进行描述和评估[9-14]，推动了页岩气产能研究的理论进步，在解决实际问题中，均提供了巨大的帮助。但是，由于研究方法主要基于理论模型，需要理想化假设条件和不易得到的参数，同时，在排采测试初期，缺乏历史拟合数据，无法应用理论模型开展产量预测，且受地质与工程参数的综合影响，地质参数和压裂工程参数与页岩气水平井产量之间存在复杂的非线性关系，常规的线性回归方法预测精度较低。

人工神经网络是在生物学研究基础上发展起来的新型信息处理网络系统，具有通过学习获取知识并解决问题的能力，是一种通过自学习的方法求解复杂非线性问题的有效方法。近些年来，一些学者[15-17]用人工神经网络来解决油田实际生产过程中的一些复杂性及模糊性的参数预测问题。2011年Arabjamaloei[18]利用人工神经网络方法开展了机械钻速的预测，训练样本有330组，实际预测准确度可以达到74%。2012年，雪佛龙采用Hadoop技术来实现地震数据分析[19]，可以快速准确地定位油藏的位置，显著降低了地震数据处理的时间和花费。2013年，英国石油公司也采用类似的技术，采用更高性能计算中心，对地震成像进行模拟和处理，以估算油藏状况，使团队更好地了解地下情况，减少地震数据分析时间，并在钻井之前提供更精细的地层信息[19]。2016年，田亚鹏等[20]根据遗传算法改进的反向传播(back propagation,BP)神经网络，建立了以时间、累计产量、地层压力作为输入层，页岩气日产量作为输出层的页岩气产量递减预测模型，产量预测精度较高。2017年，朱红等[21]提出了一种适用于高维小规模页岩气储层改造产量预测的自适应阈值去噪法神经网络模型(ATD-BP)，该模型首先利用自适应阈值去噪法(adaptive treshold denoising,ATD)算法去除噪声，再运用BP神经网络对储层改造数据进行非线性拟合，得到页岩气井产量预测模型，与传统的BP神经网络模型相比，该预测模型有效提高了预测的准确率和稳定性。2017年Manshad[22]采用多层神经网络开展了机械钻速的预测，通过332组参数的训练，最终预测精度达到96.2%。2019年，张远汀等[23]应用机器学习技术预测强雨雪天气过程中的积雪；2019年，Zhao等[19]鉴于传统油气生产的复杂性和不确定性以及难度，提出了一种基于大数据挖掘的潜在解决方案。通过大数据分析和处理，可以对油气井生产状态进行诊断、预测和警告。

在页岩气田开发过程中，解决众多地质、工程参数与页岩气井产能之间的非线性问题是BP神经网络的重要挑战之一。首先利用灰色关联度计算影响页岩气压后产能的地质和工程因素的权重，然后利用遗传算法优化BP神经网络的权值和阈值，通过数据挖掘技术直接从地质参数和工程参数入手，突破传统理论模型的局限，建立长宁地区页岩气藏体积压裂水平井产能预测模型，提高页岩气水平井产能预测效率和精度。

1 压裂产能影响参数优选

影响页岩体积压裂井产能的因素有很多，包括总有机碳含量(total organic carbon,TOC)、孔隙度、含气量、脆性矿物指数、I类储层钻遇长度、巷道位置距离优质页岩底部等地质参数，单井百米液量、单井百米砂量、平均分段段长、排量、脆性矿物指数、巷道位置距离优质页岩底部、平均停泵压力、井筒完整性等工程参数。为研究页岩气井体积压裂后产能与各因素之间的关系，利用灰色关联度确定影响长宁地区57口页岩气水平井压后产量的主控因素及权重，为下一步的神经网络产能预测模型提供重要的指导。

1.1 灰色关联理论

灰色关联方法的基础是灰色系统理论，能够统计多种因素之间的关联度。多因素之间的关联度是通过计算参考数列和比较数列的关联系数来实现，若参考数列和比较数列变化趋势不一致，则说明关联度较低，反之关联度较强。

设X0={X0(k)|k=1,2,…,n}为参考数列，Xi={Xi(k)|k=1,2,…,n}(i=1,2,…,m)为比较数列，其中m表示因素个数，n表示每个因素的实验次数。灰色关联度分析方法的具体计算步骤如下。

(1)数据无因次化。

(1)

(2)求差序列记。

(2)

(3)计算两级最大差M与最小差m。

(3)

(4)

(4)计算关联系数。

(5)

式(5)中：ξ∈(0,1)，一般ξ=0.5。

(5)计算灰色关联度。

(6)

1.2 产能影响因素关联度排序

将TOC、含气量、孔隙度、脆性矿物指数、巷道位置距离优质页岩底部、Ⅰ类储层钻遇长度、平均分段段长、排量、单井百米液量、单井百米砂量、平均停泵压力、井筒完整性等参数与测试产量的关联度进行排序，如图1所示。通过计算得到的各因素对单井测试产量的影响程度由大到小排序依次为：TOC>单井百米液量>单井百米砂量>脆性矿物指数>含气量>Ⅰ类储层钻遇长度>孔隙度>平均停泵压力>巷道位置距离优质页岩底部>排量>平均分段段长>井筒完整性；TOC的关联度最高，井筒完整性的关联度最小；关联度在0.7以上有TOC、单井百米液量、单井百米砂量、脆性矿物指数4个参数。据推断，在与测试产量相关的地质工程参数中，TOC含量非常关键，同时页岩气水平井体积压裂的规模和复杂程度对页岩气水平井的开发初期影响更大。

图1 影响产量的因素与测试产量的关联度大小排序Fig.1 Sorting the degree of correlation between factors affecting production and test production

将TOC、含气量、孔隙度、脆性矿物指数、巷道位置距离优质页岩底部、Ⅰ类储层钻遇长度、平均分段段长、排量、单井百米液量、单井百米砂量、平均停泵压力、井筒完整性等参数与3个月累产量的关联度进行排序，如图2所示。通过计算得到的各因素对单井测试产量的影响程度由大到小排序依次为：TOC>单井百米液量>脆性矿物指数>单井百米砂量>巷道位置距离优质页岩底部>平均停泵压力>含气量>孔隙度>Ⅰ类储层钻遇长度>平均分段段长>排量>井筒完整性；TOC的关联度最高，井筒完整性的关联度最小；关联度在0.7以上的有TOC、单井百米液量、单井百米砂量、脆性矿物指数等4个参数，其中TOC含量相关性还是最高。与地质参数相比，压裂工程参数在此阶段与3个月累产的相关性更大。据推断，页岩气水平井体积压裂的规模和复杂程度对页岩气水平井的开发初期影响更大。

图2 影响产量的因素与3个月累产量的关联度大小排序Fig.2 Sorting the relationship between factors affecting production and the production of three months

将TOC、含气量、孔隙度、脆性矿物指数、巷道位置距离优质页岩底部、Ⅰ类储层钻遇长度、平均分段段长、排量、单井百米液量、单井百米砂量、平均停泵压力、井筒完整性等参数与12个月累产量的关联度进行排序，如图3所示。通过计算得到的各因素对单井测试产量的影响程度由大到小排序依次为：TOC>Ⅰ类储层钻遇长度>孔隙度>含气量>脆性矿物指数>平均停泵压力>单井百米砂量>巷道位置距离优质页岩底部>排量>单井百米液量>平均分段段长>井筒完整性；TOC的关联度最高，井筒完整性的关联度最小；关联度在0.7以上的有TOC和Ⅰ类储层钻遇长度2个参数。与地质参数相比，压裂工程参数在此阶段与12个月累产的相关性显著下降，基本处于关联度排序的后半段。据推断，页岩气藏地质条件对页岩气水平井的开发稳产阶段影响更大。

图3 影响产量的因素与12个月累产量的关联度大小排序Fig.3 Sorting the relationship between factors affecting production and the production of twelve months

2 GA-BP神经网络

2.1 BP神经网络基本原理

BP神经网络是一种自学习的非线性拟合建模方法，根据输入的训练样本，即可自动适应和确定各神经元的连接权重[19]。通过神经网络系统进行多次训练后，神经网络的各层权值将存储拟合信息，该拟合信息是从样本数据集中提取而来的。最终，通过输入数据和权值的运算即可得到所需的预测值。

尽管BP神经网络具有很多优点，比如计算量小和并性强等，但是它的网络收敛速度慢，造成学习效率低，可能会使神经网络性能变差，甚至无法使用。需要寻求一种方法来克服BP神经网络的缺点，通过遗传算法来对BP算法进行优化。

2.2 GA-BP神经网络算法

遗传算法是通过迭代算法实现计算的，是在全局内进行优化搜索的一种算法[20]。利用基因编码的染色体来组成一个种群，该种群即表示遗传算法中需要求解的问题集。通过选择、交叉以及变异的遗传操作方法和选择适应度函数来对每个染色体进行处理，淘汰适应度值差的染色体。如此反复循环，直到达到所要求的条件。遗传算法参数关系如图4所示。

图4 遗传算法参数关系示意Fig.4 Schematic of genetic algorithm parameters

GA-BP神经网络充分利用遗传算法和神经网络的优点，在神经网络的初始权值和阈值计算阶段，利用遗传算法对其进行优化，获得更加准确的模型初值，避免发生收敛速度慢、局部最小值等问题。

GA-BP神经网络优化算法的主要流程如下：

(1)对原始数据进行编码，建立初始种群。

(2)建立适应度函数。将预测的测试产量数据Ok与实际测试产量数据Yk之间的误差平方和定义为E(i)，将E(i)的倒数设定为适应度函数f(i)，适应度越大，则预测精度越高。

(7)

(3)选择操作。首先计算每口训练井的适应度之和，定义为F，并由式(9)得到每口训练井的相对适应度pk，并以此作为该个体遗传到下一代种群中的概率。

(8)

(9)

(4)交叉操作。采用算术交叉算子，交叉操作示意如图5所示。

(5)变异操作。采用变异算子产生新个体，变异操作示意如图6所示。

(6)输出结果并设置BP网络的初始权值与阈值。

设置两种判断条件终止计算:①设定最大迭代次数，迭代到最大代数时计算自动停止；②设置误差最小值，当满足误差要求，停止计算。此时输出最优的BP网络初始权值与阈值。

综上，GA-BP神经网络算法流程图如图7所示。

图5 交叉操作示意Fig.5 Cross operation diagram

图6 变异操作示意Fig.6 Variation operation diagram

图7 GA-BP神经网络算法流程Fig.7 GA-BP neural network algorithm flow

3 页岩气产能预测模型

3.1 主控参数的选择

为了保证页岩气产能预测模型的真实有效性，样本数据来源于长宁地区已压裂井的统计数据，保证了模型的可靠性。本模型的样本库数据来自于长宁A2、A3、A4、A5、A6等11个平台的57口井数据，部分参数如表1所示。

3.2 模型初始化

常规气藏压裂后影响产能的主要参数有储层厚度、渗透率、裂缝条数、裂缝半缝长等，而由于页岩气藏基质渗透率极低，无自然产能，必须通过水力压裂才能实现商业开采，因此常规参数无法充分考虑页岩气井产量特征。

选取影响页岩气井产能的地质参数和工程参数作为模型的指标参数[24-29]，其中影响页岩气井产能的地质参数指标为TOC、含气量、有效孔隙度、脆性矿物含量、地层压力等5个参数，其中脆性矿物含量由脆性矿物指数替代，由于水平井段的钻井液密度同地层压力存在相关，地层压力可由钻井液密度替代；影响页岩气水平井体积压裂改造效果的重要工程参数为巷道位置距离优质页岩底部距离、Ⅰ类储层钻遇长度、有效改造段长度、平均分段段长、泵压、总液量、总砂量、平均单段砂量、100目粉砂总量、40/70目陶粒用量、平均停泵压力、井筒完整性等参数。

图8 GA-BP神经网络算法结构图Fig.8 GA-BP neural network algorithm structure

产能预测模型选用经典的3层神经网络模型来构建。其中17个与产能相关的地质及工程参数作为输入参数，则输入层节点个数为17；页岩气井压裂后测试产量作为输出参数，则设定输出层节点个数为1。经过多次试验，本网络的隐含层节点数确定为35，最终构建的网络拓扑结构图如图8所示。根据模型调试计算的结果和经验，本模型设定的最大训练次数为10 000次，训练要求的精度为0.000 01。综合考虑模型的精度和稳定性要求，将学习速率设定为0.05，种群规模设定为80，进化次数设定为20，交叉概率设定为0.4，变异概率设定为0.2。利用实数编码方式来编码阈值、权值，采用遗传算法优化获得个体最优解，作为BP网络的初始权值和阈值。

综上，基于MATLAB软件平台，选用经典三层BP神经网络模型，利用遗传算法对各层间权值和层内阈值进行了优化，结合长宁地区已生产井的地质、工程参数和产量数据，构建了页岩气水平井体积压裂产能预测模型。

3.3 模型参数训练

利用建立的GA-BP神经网络模型，对样本库中随机选取的54口井的数据进行训练，建立页岩气水平井体积压裂产能预测模型。留下3口井的数据不参加学习，作为模型精度检验。模型的训练结果如图9所示，54口井的预测测试产量与实测测试产量相比误差值为1.29 m3/d至3.49×102m3/d，最大相对误差在A8-4井(本井采用了不同压裂工艺)，误差为1.247%，训练精度高。

4 现场应用

为了进一步验证页岩气水平井体积压裂产量预测模型的适用性，将长宁地区B1井、B2井和B3井的地质、工程参数输入到软件中(具体参数如表2、表3所示)，开展测试产量预测，并将预测结果与现场实测数据以及多元回归法[26]进行对比，结果如表4所示。

图9 训练数据误差对比Fig.9 Training data error comparison

由表4可得，训练后的页岩气水平井体积压裂产量预测模型最大相对误差为17.57%，平均误差为8.76%；多元回归模型预测结果最大相对误差为69.752%，平均误差为56.55%。这表明，基于GA-BP神经网络建立的页岩气产量预测模型可以很好地表达测试产量与各个影响因素之间的内在规律和联系。对比多元回归模型预测产能值和GA-BP神经网络预测值，GA-BP神经网络预测值的精度明显远高于多元回归的预测值，且预测精度的误差率较小，为预测页岩气体积压裂产量提供了一个高效、可行、较精确的方法。

表1 样本数据库部分参数Table1 Some parameter of sample database

表2 压裂井的地质参数Table 2 Geological parameters of fracturing wells

表3 压裂井的工程参数Table 3 Engineering parameters of fracturing wells

表4 预测数据同实际数据对比Table 4 Comparison of forecast data with actual data

5 结论

(1)利用灰色关联度，确定了影响页岩气产能的地质因素和工程因素的排序大小。根据计算结果，TOC的影响权重最大，同时页岩气水平井体积压裂的规模和复杂程度对页岩气水平井的开发初期影响更大，而页岩气藏地质条件对页岩气水平井的开发稳产阶段影响更大。

(2)基于MATLAB软件平台，选用经典三层BP神经网络模型，利用遗传算法对各层间权值和层内阈值进行了优化，同时，根据影响页岩气产量的因素，利用现场实际数据，建立了以有机碳含量、含气量、有效孔隙度、脆性矿物含量等17种地质、工程参数作为输入层，测试产量作为输出层的GA-BP神经网络模型。

(3)以长宁地区54口实际压裂井数据作为训练学习样本，利用GA-BP神经网络模型建立了页岩气水平井产能预测模型具有较高的准确度，拟合数据最大误差仅为1.247%。利用3口实际井数据作为检验样品，结果表明最大误差为17.57%，平均误差为8.76%，该模型同多元回归法相比，具有操作灵活和预测精度高的特点，这种基于数据挖掘的分析方法为长宁地区页岩气井的产能预测提供了一种新思路，提高了产能预测效率。