基于随机森林回归的汽油研究法辛烷值预测

2020-12-02 07:17孙洪霞王维民
石油炼制与化工 2020年12期
关键词:辛烷值决策树汽油

郑 斌,孙洪霞,王维民

(1.中国石化销售股份有限公司,北京 100728;2.天睿信科技术(北京)有限公司)

辛烷值是表征汽油抗爆性能的重要指标,关系到汽车的油耗、低温启动、加速等性能[1]。对成品油销售企业而言,汽油辛烷值是采购、储运和销售过程中重要的质量控制指标。研究法辛烷值(RON)标准测试采用符合ASTM-CFR标准的辛烷值机进行,但其存在价格高、检验用量大、耗时长、操作复杂等缺点。除此之外,由于汽油辛烷值与其组分密切相关,利用汽油组分信息进行辛烷值预测的方法得到重视和发展,如拉曼光谱法[2]、近红外光谱法[3]、中红外光谱法[4-5]和气相色谱法[6-7]等。但此类方法多基于光谱、色谱等精密仪器的组分分析结果,对仪器的要求较高。成品油销售企业覆盖面广,质检室数量众多,但辛烷值机、光谱仪、色谱仪等精密仪器的配备尚不能实现质检室全覆盖,汽油辛烷值检测一直是质量管理的难点。

汽油辛烷值与其化学组成密切相关,而汽油的理化性质与化学组成也密切相关,因此可以由理化指标来计算汽油的辛烷值。戴咏川等[8]探索了汽油理化指标与辛烷值之间的联系,建立了由理化指标计算汽油辛烷值的回归方程式。计算结果显示,70%的样品RON计算误差小于1.2个单位,计算精度略显不足。近年来,随着中国石化销售企业实验室信息管理系统(LIMS)的建立,实现了质量数据的积累和共享。因此,利用数据库中海量汽油理化指标数据,探索采用机器学习算法建立汽油辛烷值预测模型实现辛烷值预测成为可能。

利用机器学习算法预测辛烷值的模型大致分为两类[9-10]:一种是线性模型预测辛烷值,如多元线性回归分析法(MLR),偏最小二乘法(PLS);另一种是非线性模型预测辛烷值,如人工神经网络算法(ANN)、支持向量机回归法(SVM)。随机森林(Random Forest)是一种广泛应用的机器学习算法,具有抗过拟合和预测精度高的特点。随机森林的运算速度快,在处理大数据时表现优异,结果对缺失数据和非平衡数据比较稳健,是取代神经网络等传统机器学习方法的新的模型[11]。应用随机森林算法进行预测在许多领域已得到应用[12-15],但应用随机森林算法预测汽油辛烷值的研究较为少见。基于这一思路,本研究以汽油常规理化指标为自变量,RON为因变量,提出基于随机森林回归算法预测汽油RON的模型,并对所用模型进行验证。

1 随机森林回归算法

随机森林是由Breiman和Cutler在2001年提出的一种基于决策树的机器学习算法[11]。随机森林可以用于分类和回归。当因变量是分类变量时,是分类,决策树使用分类树(一般使用C4.5);当因变量是连续变量时,是回归,决策树使用回归树(一般使用CART,见图1)。随机森林回归模型,是通过将若干个建立好的决策树模型所得到的结果进行综合得到一个模型,最后的预测结果由所有决策树模型的预测结果平均而得[12]。对应的算法基本步骤如下:

(1)抽样:从训练数据集S中,通过有放回的Boostrasp抽样,生成K组数据集,每组数据集分为被抽中数据与未被抽中数据(袋外数据)2种,每组数据集会通过训练产生一个决策树。

(2)生长:通过训练数据对每个决策树进行训练。在每次分节点时,从M个属性中随机选取m个特征,依据Gini指标选取最优特征进行分支充分生长,直到无法再生长为止,不进行剪枝。

(3)利用袋外数据检验模型的精度,由于袋外数据未参与建模,其能在一定程度上检验模型效果与泛化能力。通过袋外数据的预测误差,确定算法中最佳决策树数目并重新进行建模。

(4)利用确定的模型对新数据集进行预测,所有决策树预测结果的平均值即为最终的输出结果。

随机森林的每颗决策树都是对原始记录进行有放回的重抽样后生成的。每次重抽样大约13的记录没有被抽取,没有被抽取的自然形成一个对照数据集。所以随机森林不需要另外预留部分数据做交叉验证,其本身的算法类似交叉验证,而且袋外误差是对预测误差的无偏估计[11]。

图1 随机森林算法训练流程

2 基于随机森林回归的RON预测模型

2.1 数据来源

本研究用于建模和验证的数据来源于中国石化销售企业LIMS的成品油质量数据库。数据库中的样本来自于30多个省级销售公司入库的成品油检验样品,样品来源广泛,基本涵盖了国内所有调合工艺的油品。

2.2 变量参数选择

选取与汽油辛烷值具有相关性的烯烃含量、芳烃含量、氧含量、馏程(10%,50%,90%馏出温度及终馏点)和密度共8个指标为自变量,RON作为因变量。

2.3 预测模型构建

(1)数据集及预处理。以建模时间(2018年6月)为节点,抽取数据库中入库检测的92号车用汽油和95号车用汽油历史样本,选择所有建模指标(8个自变量和1个因变量)不为空的样本,利用箱线图对样本中的异常数据(超出上下四分位1.5倍四分位差)进行清洗,筛选出17 013个符合要求的样本作为建模数据集。其中,随机选取16 641个样本作为训练集用于建模,选取372个样本作为测试集用于评价模型性能。建模数据集中,国Ⅴ汽油样本和国Ⅵ汽油样本的比例约为76%∶24%,所有样本的RON结果均为采用标准试验方法使用辛烷值机检测所得。数据集中样本分布如表1所示。

表1 建模数据集样本分布

图2 模型MSE与mtry的关系

图3 模型预测误差随ntree的变化关系

(2)预测模型构建。用基于R语言的随机森林函数来构建RON预测模型。选取训练集中的92号车用汽油样本、95号车用汽油样本和全部样本,分别构建92号预测模型、95号预测模型和(92号+95号)一体预测模型。在随机森林回归模型中,随机特征数(mtry)和决策树的棵数(ntree)是决定模型预测能力的两个关键参数。在大多数情况下,随机森林模型参数的缺省设置可以给出最优或接近最优的结果[11]。对于分类问题,mtry的缺省值是自变量总数的平方根;对于回归问题,mtry的缺省值是自变量总数的13。ntree为重抽样次数,一般当ntree大于500时整体误差率趋于稳定[16]。以92号模型为例,在ntree默认为500的情况下,采用模型的均方误差(MSE)作为衡量指标,观察mtry参数设置对MSE的影响,结果见图2。由图2可以看出:在训练集上,随着mtry的增加,模型MSE逐渐变小;而在测试集上,随着mtry的增加,模型MSE先逐渐变大后减小。总体而言,mtry的变化对于模型精度的影响并不十分显著,考虑在测试集上的预测精度最优,故将mtry设置为2。在训练集上,92号模型的预测误差与ntree的关系如图3所示。由图3可以看出,模型误差随着ntree增加而降低,当ntree达到500时,模型预测误差已趋于平稳。故最终选择mtry为2、ntree为500建立3个预测模型。

2.4 模型检验与评价

在本研究中,主要采用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)对模型进行评价和检验。计算式如下:

(1)

(2)

(3)

R2用于检验回归模型对实测值的拟合程度,取值在 0~1 之间,R2越接近1,表明拟合效果越好、各自变量对因变量的解释能力越强。MAE和 RMSE 可以衡量预测值与实测值的差异,MAE 和RMSE 越接近0,模型的模拟能力越好。用R2和RMSE评价模型对训练数据集的拟合效果,用RMSE和MAE检验模型的预测能力。

3 结果与讨论

3.1 模型预测精度评价

运用得到的3个预测模型对训练集和测试集进行预测,计算预测精度,结果见表2。从表2可以看出:在训练集上,单独建模的92号预测模型和95号预测模型表现良好,其中,92号预测模型的RMSE达到0.23,95号预测模型的RMSE达到0.20,两个模型的R2均达到了0.95,具有较高的精度;而训练集上一体预测模型的表现较差,MAE和RMSE均较大,R2也相对较低。在测试集上,92号预测模型的最大绝对误差为1.53,MAE为0.44;95号预测模型的最大绝对误差为1.33,MAE为0.33,均在可接受范围之内;而一体预测模型的MAE和RMSE均更高,预测效果较差。因此,针对92号和95号汽油,单独建立预测模型更为合适。3个预测模型在训练集和测试集上的预测结果分别如图4和图5所示。

表2 模型的预测精度统计

图4 RON预测模型在训练集上的预测结果

图5 RON预测模型在测试集上的预测结果

3.2 特征变量重要性评价

随机森林回归模型可用方差增量(increase in mean squared error,IncMSE)以及节点纯度增量(increase in node purity,IncNodePurity)两个指标来定性衡量特征变量对目标变量的重要性。IncMSE为采用随机变量替换某一变量对模型预测结果的影响,若该随机变量使方差显著改变,则表示原变量相当重要;IncNodePurity则利用同质性增加原理来衡量变量的重要性[13]。IncMSE 和 IncNodePurity 的值越大,表明该特征变量的重要性越强。表3为模型变量重要性评价结果。由表3可以看出:对于92号预测模型,烯烃含量和氧含量对RON预测的贡献更大;对于95号预测模型,芳烃含量和10%馏出温度对RON预测的贡献更大。

表3 模型变量重要性评价结果

3.3 模型实际应用情况

将建立的92号预测模型和95号预测模型部署在Aster平台上,对于新进入的汽油样品,根据牌号选用相应的模型进行RON预测。2019年1月1日起,全国车用汽油标准升级为国Ⅵ标准。为了检验模型的适应性,选取了2019年6月和2020年1月检测的国Ⅵ标准92号和95号车用汽油样本,对模型预测结果进行分析,见图6和表4。由图6和表4可见,随着油品质量升级汽油调合工艺的变化,92号和95号模型的预测精度较建模初期略有下降,但下降幅度不大,平均绝对误差(|E|)依然在0.5左右,低于标准试验方法再现性0.7的要求,仍保持较高的精度。2019年6月和2020年1月的检测数据中,个别92号车用汽油样本的预测结果与实测结果误差超过2.0个单位,最大绝对误差达到3.5个单位。研究发现,这是由于个别批次92号汽油的实测RON结果超过95,在92号建模数据集中超出92号汽油RON范围的样本很少,当超出92号汽油RON要求的样本进入92号模型时,预测结果与实测结果偏差较大。从图5和图6还可以看出,92号模型的RON预测结果大部分落在92.6~93.6范围内,95号模型的RON预测结果大部分落在95.6~96.6范围内,该问题发生的原因需要进一步分析。

图6 国Ⅵ汽油的预测结果

表4 国Ⅵ汽油的预测精度

4 模型预测RON与中红外光谱检测RON结果对比

数据库中有很多汽油样品在入库检验时采用标准试验方法和中红外光谱分析仪两种方法检测了RON。因此,在数据库中抽取了自变量和因变量均不为空且含有中红外光谱检测RON结果的92号车用汽油和95号车用汽油样本500个,随机森林回归模型预测的RON结果与中红外光谱检测的RON结果如图7所示。

图7 模型预测RON与中红外光谱检测RON结果对比●—模型预测RON; ■—中红外光谱检测RON

表5 不同误差范围内的样品分布

|E|不大于0.7的要求。而中红外光谱分析仪检测结果中只有39.4%的样品|E|在0.7个单位以内。随机森林回归模型预测的精度较高,显著优于目前企业采用的中红外光谱分析检测方法。

5 结 论

(1)基于中国石化销售企业入库汽油质量数据,应用随机森林回归算法,构建92号汽油、95号汽油和一体化的RON预测模型。结果表明,单独建模的模型预测精度更高。应用92号和95号预测模型对入库汽油进行RON预测,随着油品质量升级,模型预测精度略有下降,但总体保持较高精度,可靠性和适应性较好。

(2)对比随机森林回归预测模型和中红外光谱检测方法,随机森林预测模型预测RON时84.4%的样本|E|不大于0.7,预测精度显著优于中红外光谱分析仪检测方法(39.4%的样本检测RON的|E|不大于0.7)。

(3)建模数据库的质量和代表性对于模型准确性至关重要。销售企业油品来源广泛、调合工艺复杂,随机森林回归预测模型基于销售企业的成品油质量数据库,可用于建模的样本量大、油品来源广泛、具有较好的代表性,模型具有较优的预测能力。随着油品生产工艺发生变化,对建模数据库及时进行更新和维护,更有利于保持高的预测精度。由于常规理化指标较易获取,随机森林预测模型为销售企业汽油辛烷值的质量监测提供了有益的工具。

猜你喜欢
辛烷值决策树汽油
质量比改变压缩比的辛烷值测定机
车用汽油辛烷值测定准确度相关影响因素探究
拉曼光谱结合后向间隔偏最小二乘法用于调和汽油辛烷值定量分析
决策树和随机森林方法在管理决策中的应用
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
研究法辛烷值和马达法辛烷值对直喷汽油机性能的影响
大数据是“原油”,不是“汽油”
汽油直接喷射系统
决策树在施工项目管理中的应用