基于支持向量机(SVM)的不同咸化程度烃源岩总有机碳含量预测模型

2022-08-10 06:44初勇志刘成林太万雪
石油实验地质 2022年4期
关键词:烃源盆地测井

初勇志,刘成林,太万雪,阳 宏

1.中国石油大学(北京) 油气资源与探测国家重点实验室,北京 102249;2. 中国石油大学(北京) 地球科学学院,北京 102249

1 地质概况

渤海湾盆地是华北地台东部重要的含油气盆地,其已探明石油储量远大于天然气储量[10-11]。渤中凹陷是盆地中最大的富生烃凹陷,位于渤海湾盆地渤中坳陷的主体深凹部位,面积约8 660 km2,夹于石臼坨凸起、沙垒田凸起、渤南低凸起和渤东低凸起之间[12-17](图1)。该凹陷自渐新世以来成为渤海湾盆地的沉积和沉降中心,发育古近系沙河街组三段、一段和东营组三段优质烃源岩,总厚度介于500~2 500 m,有机质类型以Ⅱ1型为主,有机质丰度高,总有机碳含量普遍高于1%,大部分为超过2%的优质烃源岩[18-19]。本文选取东营组作为主要研究对象之一,该烃源岩整体盐度非常低,是典型的淡水—微咸水的沉积环境[20]。

图1 渤海湾盆地渤中凹陷构造位置及新生界地层划分据文献[11],有修改。

柴达木盆地是在前侏罗纪柴达木地块基础上发育而成,由于地理位置位于南部祁连山、东部昆仑山脉和阿尔金山之间,盆地干旱少雨,形成了以新生界为主的高原内陆咸化盆地[21-24]。狮子沟地区处于柴西地区古近系—新近系生油凹陷中(图2),该生油凹陷油气资源量远远超过东部富油气凹陷标准,有效烃源岩占同期湖盆面积的比例也超过50%,岩性以泥岩、泥灰岩为主,与淡水湖相烃源岩的明显区别在于总有机碳含量值与生烃潜量的差异性[25]。有资料显示,该区烃源岩TOC大于0.6%时即为优质烃源岩,在低熟阶段大量生烃,当Ro<0.8%时即可达到液态烃生烃高峰;其最大液态烃产率可达450~700 mg/g,是中国其他淡水湖相烃源岩的1.15~4.58倍,具有成熟门限低、生烃窗口宽、排烃时间长、烃转化率高等特点[26]。本文选取该区下干柴沟组作为另一研究对象。

图2 柴达木盆地狮子沟背斜构造位置及新生界地层分布据文献[21], 有修改。

2 测井响应特征

测井曲线可通过对有机质的敏感程度预测烃源岩总有机碳含量,研究表明,自然伽马(GR)、电阻率(RT)、声波时差(DT)、密度(DEN)等曲线均有较好的效果。通常情况下,测井异常可以反映有机质含量,异常值越大对应烃源岩总有机碳含量越高。本文选定的研究对象分别为典型的淡水湖相和咸水湖相烃源岩,渤中凹陷的烃源岩在测井响应中具有高声波时差、高电阻率、高自然伽马和低密度等特征[27],而柴西狮子沟地区则不具有常规优质烃源岩的测井特征。本文对2个地区进行测井曲线和实测总有机碳含量相关性分析(图3),选取渤海湾盆地渤中凹陷BZ13-2-4井和柴达木盆地狮子沟地区狮20井的40个测井及实测总有机碳含量数据进行对比分析。总有机碳含量实测的具体实验方法参照国家标准《沉积岩中总有机碳的测定:GB/T 19145—2003》,将新鲜岩样磨碎,经稀盐酸和去离子水反复冲洗,并在烘干箱干燥处理后,利用在CS-230碳硫分析仪中高温下燃烧岩样生成的CO2量换算成碳元素含量,以测定出有机碳含量[27]。

可以看出,在渤中凹陷,DT与总有机碳含量相关性最高,决定系数R2为0.676;其次为DEN,R2为0.654 7;RD、GR和SP与总有机碳含量的相关性较低(图3a-e)。在狮子沟地区,DT与总有机碳含量的相关性仍为最高,R2为0.493 3,其余由高到低依次为CAL、GR和RT(图3f-i)。对比两地分析可知,由于测井仪器对干酪根的敏感性差异影响着测井响应与有机质丰度的关系[28],渤中凹陷的相关性显著高于狮子沟地区,其测井参数与实测总有机碳含量的决定系数普遍高于0.3;电阻率、自然伽马测井值在渤中凹陷与总有机碳含量相关性较强,而在狮子沟地区很弱;两地的声波时差测井值均与总有机碳含量具备最高的相关性。由于有机质的高声波传播时间,DT会随总有机碳含量的增大而增大,呈正相关。

图3 渤海湾盆地渤中凹陷和柴达木盆地狮子沟地区实测总有机碳含量与测井参数相关图

3 烃源岩总有机碳含量预测模型

3.1 支持向量机理论

支持向量机在解决复杂的回归和分类问题上有着广泛的应用,其原理可理解为将线性不可分的数据扩展到多维空间中运用超平面进行划分,通过找到最小的结构化风险来增强模型泛化能力,从而实现在统计样本量较少的情况下也可以得到有效统计规律的目的[29-30],对于解决小样本、非线性的测井相关问题有着很好的应用[31-33]。

支持向量机是基于统计学习理论的一种机器学习方法,通过给定的训练样本(xi,yi)构造一个目标函数f(x),使其与y尽可能接近,其中xi为输入向量,yi为输出向量。在选取最优回归超平面的过程中需引入非线性映射φ(x):

f(x)=ωTφ(x)+b

(1)

式中:ω为权重系数;b为偏差量。

通过引入正则化常数C和松弛变量β两个参数,可以在一定程度上克服无法完成严格分类、过拟合等问题,从而提高模型泛化能力。最优回归超平面转化为二次规划问题的公式为:

(3)在沙尘回流的影响时段(4日100~5日000),PM10浓度突增,NO2 平均浓度变化与PM10 同步上升,而SO2气态污染物呈现反向下降的趋势。

(2)

式中:Q为优化目标;W为权重系数。

最后通过拉格朗日函数将其转化为对偶形式,其中核函数可以把数据映射到高维,以求取最优分割超平面,得到回归函数为:

(3)

3.2 支持向量机回归预测模型的建立

3.2.1 数据预处理

分别选用渤中凹陷BZ13-2-4、BZ13-2-5、BZ13-2-6、BZ19-6-12、BZ19-6-14、BZ19-6-15等6口井及狮子沟地区狮15、狮20、狮24、狮25、狮27等5口井各154个测井及实测总有机碳含量数据,作为模型建立样本。总有机碳含量在采集中仅能采取到毫克量级的样品,测井数据也会受到环境等因素的干扰,这导致实测值可能难以反映地下的真实水平,在进行数据预测时产生一定的误差。基于此,笔者采用人工去除异常点和滤波预处理的方法增强数据的可用性。同时,支持向量机对参数的敏感度较高,且各特征量纲不一致,因此在训练模型时将数据归一化到[0,1]区间,转换公式为:

(4)

式中:X*是经归一化计算后的测井曲线数据;X是原始测井数据;Xmax和Xmin为该测井曲线数据的极大值和极小值。

3.2.2 模型评价指标

选用决定系数(R2)、均方误差(MSE)和平均绝对误差(MAE)计算得到相关性及训练误差或测试误差,以评价模型的预测性能。R2也称为拟合优度,是相关系数的平方,用于评价拟合的好坏,R2越接近于1,则拟合回归的效果越好。均方误差是指参数估计值与参数真实值的差平方的期望值,而平均绝对误差是绝对误差的平均值,能更好地反映预测值误差的实际情况,两者的值越小,则预测模型拥有更好的精确度。指标计算公式为:

(5)

(6)

(7)

3.2.3 支持向量机模型

在进行烃源岩总有机碳含量预测时,应选择对有机质更敏感的曲线,研究显示自然伽马、电阻率、声波时差、密度、井径等曲线符合要求。在此基础上,采用XGBoost特征重要性分析结合相关性分析的方法进行降维操作,以选取得分较高的特征。前者原理为根据结构分数的增益情况计算得到作为分割点的特征,而特征的重要性即为其在所有树中出现的次数之和。因此本文选出的在渤中凹陷和狮子沟地区的特征分别为DT,DEN,RD,GR,SP和DT,CAL,GR,RT,能够全面有效反映岩性、孔隙度等烃源岩性质。在实测数据中人工划分80%的数据作为训练集,20%的数据作为测试集,即渤中凹陷测试集为BZ13-2-5井和BZ19-6-14井的30个数据,狮子沟地区测试集为狮25井的31个数据。在模型的建立过程中,本文采用交叉验证的方法,检验不同情况下的模型预测精度以确定超参数,同时试验了不同的核函数的预测效果(表1),在对比之后选择了使用线性核函数的支持向量机模型。

表1 渤海湾盆地渤中凹陷烃源岩样品不同核函数预测效果对比

4 应用效果对比分析

通过相关性分析和误差检验的方式,可以发现支持向量机烃源岩总有机碳含量预测模型在2个研究区的应用都达到了理想效果,实测与预测数据具有很好的一致性。模型在渤海湾盆地渤中凹陷的效果总体表现更好,R2达到0.95,反映总有机碳含量实测值和预测值具有高相关性(图4a);MSE和MAE分别为0.04和0.17,实测值和真实值之间误差很小,预测精度很高。模型在柴达木盆地狮子沟地区的预测准确度稍低于前者,但也具有较强的表达能力,R2为0.72,在去掉2个异常值后达到0.81,具有较高的相关性(图4b),拟合直线方程的斜率为0.84,说明拟合效果随总有机碳含量值的增加而变差;MSE和MAE分别为0.04和0.20。

图4 渤海湾盆地渤中凹陷和柴达木盆地狮子沟地区总有机碳含量实测和预测数据相关性

总体来说,模型通过大量机器学习均达到了一定的稳定性和泛化能力,可以应用至不同沉积环境的烃源岩中。同时,渤中凹陷在相关性和误差等多方面均优于狮子沟地区,尤其在渤中凹陷可以灵敏地预测出实测数据中出现的高值和低值(图5)。原因主要是渤中凹陷中测井曲线对于烃源岩有机质的敏感性更高,机器学习方法根据数据挖掘出测井曲线与总有机碳含量之间的关系,因此更高的相关性能够为模型预测提供更多的参考信息。除此之外,测井参数的有效性会极大影响模型预测结果,在沉积过程中高盐度地区会在一定程度上受到盐度变化影响,从而出现测井曲线变化异常的情况,如石盐段发育有异常高声波时差、高电阻率等,碳酸盐岩与泥岩混积段的测井曲线也易发生震荡[34]。

图5 渤海湾盆地渤中凹陷烃源岩总有机碳含量预测模型BZ13-2-5井单井对比

5 结论

(1)支持向量机烃源岩总有机碳含量预测模型在应用至典型的淡水湖相盆地和咸水湖相盆地时,可采用不同的超参数而具有很强的泛化能力,能够适应不同地区的地质特征,以实现良好的预测性能。

(2)模型在渤海湾盆地的应用效果显著高于柴达木盆地,相关性检验和误差分析等均存在明显的优劣分异,主要原因在于沉积盆地的咸化程度影响着测井曲线与烃源岩有机质丰度的相关程度,从而成为影响预测性能的主要因素。

(3)本文建立的预测模型可以为烃源岩有机质研究的外推和泛化提供一定参考,后续可以进行更大范围的模型适用性推广,同时采用更多的实测总有机碳含量数据充分训练得到效果卓越的模型。

猜你喜欢
烃源盆地测井
本期广告索引
高强度高温高压直推存储式测井系统在超深井的应用
基于谱元法的三维盆地-子盆地共振初步研究
黄河口凹陷烃源岩有机地球化学特征分析
二连盆地伊和乌苏凹陷烃源岩地球化学特征与生烃潜力
川东北地区陆相烃源岩评价
延长油田测井现状与发展前景
盆地是怎样形成的
涞源斗军湾盆地新生代地层及新构造运动
北黄海东部次盆地中新生代原型盆地分析*