基于深度学习的复杂储层流体性质测井识别
——以车排子油田某井区为例

2020-11-24 07:44蓝茜茜张逸伦康志宏
科学技术与工程 2020年29期
关键词:水层油层网络结构

蓝茜茜, 张逸伦, 康志宏*

(1.中国地质大学(北京)能源学院, 北京 100083; 2.北京大学地球与空间科学学院, 北京 100871)

储层流体性质识别是一项重要的储层表征和含油气性评价方法,对后续油田开发方案的制定与调整起到关键作用。复杂储层具有储集空间多样、岩性复杂、非均质性强等特点,由于测井资料受多种因素控制导致流体响应特征不明显,仅利用单一的测井资料或者储层参数无法准确识别储层流体性质[1]。目前以综合多种测井资料及储层参数解释为主要识别手段,常用的方法包括多参数重叠法、交会图法、经验公式法等[2-5]。近年来随着数据挖掘技术的快速发展,回归算法、聚类算法、遗传算法、人工神经网络、决策树算法、随机森林、支持向量机等技术及结合上述多种技术的综合判别方法均被用于储层流体识别中[6-13]。

在众多的机器学习算法中,BP神经网络及其改进算法由于在综合多属性数据预测中优秀的非线性映射能力,已成为最为广泛使用的储层性质识别技术,但该方法网络结构简单,只能挖掘到样本浅层的特征信息。与传统的BP神经网络相比,深度学习的网络结构更深,学习能力更强,具备处理大量样本数据、解决复杂非线性预测问题的能力,同时避免了传统BP神经网络易陷入局部极小值,梯度消失的问题[14-16]。针对目前复杂储层流体识别中常规方法存在的识别率低、严重依赖人工经验的问题,将深度学习方法引入,建立了多属性测井参数和复杂储层流体性质之间的非线性关系,并将其应用于车排子油田低渗油藏某井区,体现了深度学习在复杂储层流体识别中的优越性。

1 方法原理

深度神经网络是一种有监督式的特征学习模型,它在人工神经网络的基础上,通过增加隐含层数提高特征提取能力。与隐含层数量较少的神经网络结构相比,深度学习可以将低层特征进行组合,提取潜在的复杂高层特征信息,从而较好地解决复杂的非线性问题。

典型的深度神经网络结构由输入层、多个隐含层和输出层构成,层与层之间采用全连接方式,上一层的神经元输出即为下一层神经元的输入。训练模型包括信息前馈传递和误差反向传递两个过程。以隐含层中的一个神经元为例,前馈传递过程如图1所示。经多结点加权求和与非线性函数激活,神经元在传递过程中具备了非线性表达能力。误差反向传递过程采用小批量梯度下降法更新网络[17]。

Y、Z分别表示神经元的输入和输出值;Xi、ωi、b分别为上一层第i个神经元(共m个神经元)的输出值、连接权值和偏置项;G为非线性激活函数图1 单个神经元前馈传递过程Fig.1 Feedforward transmission process of a single neuron

1.1 样本优化——混合采样技术

深度神经网络是建立在拟均衡样本集的基础上,样本选取是否合理直接影响到深度学习的预测效果。储层流体性质识别本质上是一个多属性分类问题,对于复杂储层区块,非产层段在所有井段中往往占绝对优势,作为开发目标的产层段明显少于水层、干层等非产层段,在深度学习中极易忽视产层段带来的影响,出现误判和错判的情况。

采用混合采样技术进行样本均衡优化。该方法将上采样和下采样有机结合,在上采样过程中采用Smote算法增加少样本类别的样本数;下采样过程中采用K-means聚类算法减少多样本类别的样本数[18-19]。假定一个包含N个样本的非均衡数据集分为m类{C1,C2,…,Cm},每类中的样本数为{N1,N2,…,Nm},具体实现步骤如下。

(1)据式(1)计算每类中样本数的平均值k,以k为分界,大于k的类别为大样本类,反之则为小样本类。经混合采样后每类样本大小均为k,原始不均衡样本集将演化为均衡样本集。

(2)对于大样本类,K-means算法将样本聚为k类,仅保留距离每个聚类中心最近的一个样本,聚类后的k个样本在降采样的基础上仍保留了原始数据的全部特征。

(1)

(2)

式中:R为一个均匀分布在0~1间的随机数。

1.2 网络结构改进

1.2.1 ReLU-Softmax激活函数

神经网络中引入激活函数的目的是最大限度地拟合输入层与输出层之间复杂的非线性关系,目前Sigmod、Tanh和ReLU是常用的隐含层激活函数,如图2所示。Sigmod和Tanh函数在反向误差传播过程时,由于函数值在边界处变化缓慢,导数趋近于0,容易出现梯度消失现象从而导致模型无法收敛,且Sigmod和Tanh函数本身及其求导过程涉及指数和除法运算,计算复杂度高。ReLU是一个分段函数[式(3)],求解函数及其导数过程均较为简单,避免了梯度消失现象,计算便捷高效,故选用ReLU函数作为隐含层神经元节点的激活函数[20]。

图2 不同类型的激活函数Fig.2 Different types of activation function

对于多分类问题,在输出层后添加一个Softmax层,如式(4)所示,假定输出层有T个原始输出,该层使用Softmax函数将输出值Vi映射为0~1区间内的概率值Si,即转换为“软分类”模型。利用Softmax激活函数后,以交叉熵作为损失函数,误差反向传导过程易于实现,应用效果较好。ReLU、Softmax激活函数分别应用于隐含层和输出层,两者的有机结合起到了优化神经网络结构的作用。

(3)

(4)

1.2.2 Dropout正则化

隐含层的增加保证了训练模型较好的学习能力,但同时复杂的网络结构使得模型预测结果严重依赖于训练样本集,出现“过拟合”现象。在储层流体识别中具体表现为:预测样本集识别率显著低于训练集,模型泛化能力差,跨井位、跨工区的迁移性较差。Dropout正则化通过对网络结构进行取平均有效防止模型“过拟合”,模型训练过程中按照一定比例随机丢弃一些“神经元”(图3),每一次训练的网络结构均不同,使得网络在每次迭代过程中并不依赖于所有全连接层神经元,降低了网络结构复杂的关联性,学习到的样本特征更具鲁棒性[21]。

图3 Dropout正则化示意图Fig.3 Diagram of Dropout regularization

1.3 识别原理——组合优化策略

将深度学习应用于多分类问题时,其识别效果受多种因素影响。因此,需要提出适用于复杂储层流体性质识别问题的优化方案。针对样本数据和网络结构两方面进行优化。

利用混合采样进行样本优化后,大样本类的样本数减少,小样本类的样本数增加,原本不均衡样本集转换为均衡样本集,使得模型训练时不会过分受某一类别干扰而影响识别效果。在优化网络结构时,将ReLU激活函数、Softmax层和Dropout正则化引入,可使网络模型更好地适应多分类问题,防止出现“过拟合”现象,有效提高训练模型的稳定性。

在识别过程中,首先将优化后的样本集作为深度神经网络的数据集,经改进后的网络训练得到神经网络模型,并对储层流体性质进行识别。样本数据和网络结构优化策略的有机统一提高了本文方法的应用效果。

2 区域概况与测井响应特征

车排子油田位于准噶尔盆地西北缘,是盆地内主要的油气富集区之一。研究区储层沉积了一套以砾岩、砂砾岩为主的粗碎屑沉积,储层非均质性较强。根据部分岩心资料分析,研究区储层孔隙度分布区间为1.2%~26.7%,平均值为17.54%;绝对渗透率分布区间为0.02~802 mD,平均值为4.19 mD,为中孔低渗储层。自2016年新井投产后,该研究区部分出现高部位断块油井试油出水,同一断块不同部位试油结论差异大,因此,有效识别油层对储层精细描述和开发方案调整至关重要。

目标区测井资料包括声波时差(AC)、补偿中子(CNL)、密度(DEN)、自然伽马(GR)、井径(CAL)、自然电位(SP)、冲洗带电阻率(RXO)、浅侧向电阻率(RI)、深侧向电阻率(RT)9种,测井资料统计情况如表1所示,根据多种测录井解释方法和试油分析的联合标定结果,将研究区内12口开发井的所有层段划分为干层、水层、油层和油水同层4类。

表1 目标区测井资料统计Table 1 Logging data statistics in target area

该区块地层中钙质含量较低,水层一般为低电阻响应特征,深侧向电阻率小于浅侧向电阻率,但负差异较小,冲洗带电阻率低,自然伽马低,井径显著增大,自然电位异常幅度最大,且变化幅度剧烈,呈“齿状”,声波时差为中等值。干层的储层物性一般较差,电阻率低,深浅侧向电阻率无明显正负差异,部分干层由于含钙质导致电阻率增大,冲洗带电阻率低,自然伽马低,自然电位可能存在微小异常,井径无明显响应,声波时差低,密度高,中子低。油层电阻率明显高于水层,一般为水层的3~5倍,深浅侧向电阻率曲线基本重叠且均为高阻特征,冲洗带电阻率高,自然伽马值一般较低,自然电位异常幅度较水层小,声波时差低且无明显变化,曲线呈“箱形”,密度和中子变化平缓。油水同层的测井响应特征介于油层和水层之间,深浅侧向电阻率高于水层且低于油层,其他测井响应特征与油层基本一样。

目标区块多种测井参数与储层流体性质间无明显的线性响应特征,且参数间耦合关系复杂,单一的测井响应很难准确识别该区块的储层流体性质,依靠人工解释时,往往结合多种测井参数综合识别,但容易顾此失彼,解释结果严重依赖人工经验,准确识别还有赖于综合利用其他资料,如地震、录井资料和试油结论等。因此,可以利用深度神经网络建立测井响应特征与储层流体性质之间的非线性映射关系,准确识别储层流体性质。

3 储层流体性质识别

3.1 深度学习参数选取

由于深度学习良好的自动学习能力,将所有测井参数利用式(5)进行归一化处理后均作为神经网络模型输入参数,避免了常规训练模型中半定量化优选参数导致的误差影响,有效节省了算法用时。采用的深度神经网络结构如图4所示。经过多次重复试验,最终确定网络参数为输入层9个神经元(对应9种测井参数)、5个隐含层(神经元个数依次为20、25、30、25、15,Dropout比例为0.2)、输出层4个神经元[逻辑数组{1,0,0,0},{0,1,0,0},{0,0,1,0},{0,0,0,1}分别表示4种流体性质]和一个Softmax层。Softmax层中最大概率值对应的类别即为最终分类结果。

图4 深度神经网络结构Fig.4 The deep neural network structure

(5)

3.2 识别结果与模型验证

将12口开发井中的10口井数据作为训练样本集,其余两口作为测试样本集。图5所示分别为训练集和测试集的样本集数量分布,原始训练集储层流体中水层段占绝对优势,在1 297个样本中占比达67.85%,为高度不均衡样本集,经混合采样后达到均衡。两口井数据组成的测试数据集共包括 197个样本,其中水层样本122个,占61.9%;干层样本46个,占23.4%;油水同层和油层样本分别为18、11个,仅占9.1%、5.6%,样本不均衡程度与训练集接近,均为高度不均衡样本集。

图5 样本集数量分布Fig.5 Distribution of sample set

利用训练得到的深度神经网络模型预测储层流体性质,并对结果进行综合评价。其中,混淆矩阵是神经网络多分类器中常用的评价手段,矩阵中每行代表相应类别的实际样本数,每列代表预测样本数(表2),评价指标包括精准率(Precision),召回率(Recall),F值(F-measure)。式(6)~式(8)为第i类样本(共K类)的评价指标表达式精准率和召回率从不同维度评价多分类问题,而F值是对精准率和召回率的平均估计,是评价多分类问题的最佳参数,F值越高,代表分类结果越好。

表2 识别结果混淆矩阵Table 2 Confusion matrix of identification results

(6)

(7)

(8)

式中:Aij为实际结果为第i类、预测结果为第j类的样本数;β为调节精准率和召回率的权值常数,取1。

由混淆矩阵可知,对角位置为正确识别样本,水层、干层、油水同层和油层分别为105、35、15、8个,累计占总样本数的比例达82.7%。两个大样本类(水层和干层)的F值分别为88.6%、69.3%,两个小样本类(油水同层和油层)的F值分别为90.9%、69.6%。结果显示,本文方法在保证了整体识别率的基础上,目标流体层的识别率也达到理想预测结果。

混淆矩阵非对角位置为错误分类结果,分析可知,水层与干层之间、油层与干层之间互相误判的样本数较多,分别为24、7个,这两类误判中均包含干层,其主要原因是干层的测井响应特征不明显,导致对其他层段的识别造成干扰。进一步结合区块内开发井史得知,部分干层也出现了少量的工业油气流,推测区块内可能存在“假性”干层。同时,由于采用概率输出值的不确定性预测,对于测井响应不明显的层位,网络输出值经Softmax层得到的 4个概率间的差异可能较小,将其归入概率最大值对应的类中会造成结果的误判,可根据实际情况将样本类别进一步细分来减少错误识别样本数量。

将储层流体性质的模型预测结果与人工解释结论进行对比,如图6所示,选取的目标层段为其中一口测试井2 580~2 640 m共60 m的储层段。该段内的含油饱和度So均较高,平均值达37.2%。结合测井响应特征、储层物性特征和试油结果等,人工解释结论将目标段划分为9个流体层段。其中,油层段有4个,层厚分布不一;油水同层和水层段各有1个,均为厚层;干层有3个,均为薄层。

图6 人工解释结论与模型预测结果对比Fig.6 Comparison of artificial interpretation conclusions and model prediction results

结果显示,厚层段的预测结果与人工解释结果完全一致,包括3个油层段、1个水层段、1个油水同层段。这是由于厚层段测井曲线呈现“钟形”或“箱形”结构,响应特征变化幅度小,样本的输入测井参数在段内较为稳定,预测结果抗干扰能力强,模型对厚层段的容错率较高。

对于薄层段,仅有两个极薄的干层段被错识为油层段,主要原因是薄层段“锯齿形”或“脉冲形”的测井曲线变化幅度大,选取的测井输入参数无法较好地反映段内真实的测井响应特征。但由于局部的极薄层段在开发过程中不作为主力产层段,对整体预测结果的影响可近似忽略。在复杂储层流体精细识别中,可将模型的预测结果作为预判,在此基础上,对薄层段做进一步人工解释。

为了进一步验证混合采样技术和Dropout正则化组合策略的应用效果,在参数设置一致的前提下,以F值为综合评价指标,设置3个参照组与本文方法进行对比,各方法的识别结果如图7所示。其中,4种方法对水层的识别效果均较好,F值接近,分布为84%~90%;干层的识别情况也较为接近,与未采用两种优化策略的结果相比,本文方法的F值提高了10.2%;4种方法在油水同层和油层中的识别效果差异显著,其中,本文方法的识别效果最好。

图7 不同优化方法的识别效果(F值)对比Fig.7 Comparison of identification effects (F-measure) of different optimization methods

分析可知,若未采用混合采样技术,F值大小与各类别的样本数量明显正相关,大部分样本被归为水层和干层这两个大样本类中,导致水层和干层的识别效果较好,但油水同层和油层的识别率极差,验证了混合采样技术可显著提高不均衡样本集中小样本类的识别效果。

在未采用混合采样时,Dropout正则化对识别效果的提高不显著;采用混合采样对样本集进行均衡处理后,Dropout正则化显著提高了油水同层和油层的识别率,说明Dropout正则化在样本均衡的前提下可有效防止模型“过拟合”。综上,充分说明了样本数据选取与网络结构之间相互制衡和统一的关系,验证了基于优化组合策略的深度神经网络方法在实际应用中的优越性。

4 结论

针对常规储层流体性质识别中存在识别效果差、严重依赖人工经验的问题,以深度神经网络为基础,从样本数据和网络结构优化入手,创新性地提出一种综合混合采样技术、ReLU-Softmax激活函数、Dropout正则化的储层流体性质识别新方法,建立了储层测井参数与流体性质之间的神经网络模型,得到以下结论。

(1)优化策略的有机结合有效提高了储层流体性质的识别效果。混合采样技术使样本集均衡化,显著提高了小样本类的识别率;ReLU-Softmax激活函数使得多分类神经网络结构得以优化;Dropout正则化降低了模型对网络结构的“过拟合”。

(2)车排子油田目标井区12口井资料的识别结果显示:储层流体性质的总体识别准确率达82.7%,样本量分别仅占9.1%、5.6%的油水同层和油层的识别率均显著高于其他未优化方法结果,满足实际测井资料解释的要求。与其他未优化方法的识别效果对比,优化策略的有机结合使得本文方法的流体识别准确率大幅提高,进一步验证了本文组合优化策略在储层流体性质识别中的优越性。展示了深度学习在复杂储层流体识别中良好的应用效果。

猜你喜欢
水层油层网络结构
马唐种子萌发及幼苗建成对不同环境因子的响应
长江口邻近水域仔稚鱼分层群聚特征分析
快递网络结构研究进展
油层重力分异对泡沫驱气液比的影响
松辽盆地葡萄花油层低阻特征及成因机理研究
聚合物驱剩余油油层挖潜措施研究
基于AutoML的保护区物种识别①
巴拉素煤矿井筒水文地质条件分析
基于时效网络的空间信息网络结构脆弱性分析方法研究
基于互信息的贝叶斯网络结构学习