基于熵权法-LGBM算法的岩爆等级预测模型研究*

2023-10-24 03:45郑龙菲周宗红罗正良
化工矿物与加工 2023年10期
关键词:权法岩爆叶子

郑龙菲,周宗红,刘 剑,罗正良,赵 亮

(1.昆明理工大学 国土资源工程学院,云南 昆明 650093;2.保山金厂河矿业有限公司,云南 保山 678300)

0 引言

岩爆具有突发性和破坏性,严重威胁深部开挖工程的安全[1]。由于岩爆发生的机制复杂、影响因素较多,亟需探索更为科学的预测理论和方法。

国内外学者通过统计学、机器学习、深度学习等方法开展了岩爆等级研究。李克刚等[2]基于改进综合赋权方法,对与岩爆相关的15个倾向性指标进行了分析。汤志立等[3]基于9种机器学习方法对岩爆进行了预测,对比分析了每种算法的预测能力。吴顺川等[4]基于PCA-PNN模型对岩爆等级进行了分类预测,通过主成分分析降维消除数据相关性的影响,提高了岩爆等级预测的精度。田睿等[5]引入深度神经网络,基于数据驱动建立岩爆预测模型,消除了人为设置超参数对预测模型的影响,提高了预测模型的准确率。虽然上述预测模型研究取得了一定成果,但都存在一些缺陷和不足:传统统计学方法数据量只有十几组或者几十组,离散性较大;深度学习方法需要大量数据支持,并且参数设置繁杂。

近年来,分类树和Bagging等分类算法因其优异的分类性能而受到了学术界的广泛关注。DONG等[6-7]分别应用RF、Bagging和Boosting集成技术对岩爆进行了预测,取得了良好的预测效果;张钧博等[8]基于XGBoost算法,引入交叉验证的思想,讨论了小样本情况下XGBoost算法预测岩爆的适用性。单一的分类方法和算法各有其优势,而将不同方法的优势进行互补,可以有效提高岩爆等级预测精度。

本文综合了模糊数学和机器学习的优势,建立熵权法优化的LGBM算法组合模型;采用熵权法处理数据,以使数据客观反映出指标对于预测模型的影响;GBDT(Gradient Boosting Decision Tree)算法是Boosting的最新成果,其引入GBDT改进的LGBM算法相较XGBoost有更高的预测准确率,且LGBM算法支持分布式计算,计算速度更快、内存占用更小[9-10]。本文以终南山隧道通风竖井为例,将LGBM算法与熵权法相结合进行岩爆等级预测,以检验熵权法优化LGBM模型的可靠性和实用性。

1 熵权法优化LGBM算法原理

1.1 熵权法

熵权法是依据指标信息熵确定各指标权重的赋权方法。利用熵权法对岩爆数据集进行预处理,可以避免人为因素造成预测结果的误差。熵权法计算原理叙述如下。

(1)参与评价的对象集为M=(M1,M2,…,Mm),指标集为D=(D1,D2,…,Dn),方案Mi对指标Di的值xij(i=1,2,…,m;j=1,2,…,n),则形成的决策矩阵为[11]

(1)

(2)为了消除指标量纲不同对方案决策带来的影响或者处理一些指标值为负的决策问题,要求对决策矩阵X进行标准化处理。

对于正向指标,归一化后的值为

(2)

对于逆向指标,归一化后的值为

(3)

(3)计算第j项指标下第i个评价对象的特征比值或贡献度

(4)

(4)计算第j项指标的熵值

(5)

(5)计算差异性系数

dj=1-ej。

(6)

(6)确定各指标的熵权

(7)

(7)得到最终样本矩阵

xf=wjvij。

(8)

1.2 LGBM算法

利用熵权法处理数据后,降低了指标数据集的混乱度,确定了各指标权重。将预处理后的数据用LGBM算法进行模型训练,建立LGBM岩爆分类模型(见图1)。

图1 LGBM模型训练流程图

LGBM算法是一个基于GBDT算法的框架、支持高效率分布式计算的分类树算法模型[12]。LGBM算法是对GBDT算法的改进,其采用比预排序方法更为有效的直方图对特征值进行优化。基本思想是将连续的浮点特征值离散成k个整数,同时构造宽度为k的直方图(见图2)。对数据进行遍历,将离散后的值作为索引,在直方图中累计统计量,最终根据直方图的离散值,遍历寻找最优的分隔点。

图2 直方图优化原理

为了提高模型的训练效率,LGBM算法摒弃了GBDT算法传统的Level-wise叶子生长策略,采用Leaf-wise叶子生长策略,其仅对同一层叶子进行分裂,故造成了一些不必要的分裂搜索。叶子生长策略对比见图3。

图3 叶子生长策略对比图

LGBM算法支持高效并行计算,特征并行计算指不同机器上不同特征集合寻找最优分割点,实现机器间同步最优分割点。

梯度提升是一种常见的机器学习算法,常用于分类和回归任务。算法的核心思想是将多个弱学习分类器组合成一个强学习分类器,以解决单一分类器无法对全体样本精确学习的问题[12-13]。

GBDT模型由k棵残差树构成,将前k棵树对样本xi的猜测结果表示为

Fk(xi)=fk(xi)+Fk-1(xi),i∈{1,2,…,N},k∈{1,2,…,k} 。

(9)

fk(xi)=γjk,j=q(k,xi) ,

(10)

式中,fk(xi)为计算任意一个样本xi送入第k棵树后的预测结果,γjk为第k棵树第j个节点的预测值,j值由q(k,xi)计算得出。

优化函数可表示为

(11)

树模型可以表示为wq(x),q∈{1,2,…,J},w表示叶子节点样本权重的向量,q表示回归树结构,J表示树中叶子个数。其中得到t棵树时,需要获得t-1棵树的全部信息。

第t棵树目标函数可表示为

(12)

式中,Ω(fk(x))为正则化项,可避免训练集过拟合。在目标函数进行优化时,LGBM对目标函数进行二阶泰勒展开,展开的目标函数可表示为

(13)

式中,gi和hi分别为损失函数一阶梯度统计量和二阶梯度统计量。

一棵树的复杂度为

近几年我国发电设备年平均利用小时逐年下降,根据国家能源局网站发布的数据,2016年火电设备平均利用小时4165 h,创1964年以来最低水平。随着火电机组年发电利用小时的逐年下降,1000 MW等级超超临界煤电机组也参与低负荷调峰运行,如2016年浙江省某发电厂两台1000 MW超超临界机组的年负荷率分别只有68.68%和61.98%。

(14)

式中,γ为叶子节点系数,λ为L2正则化系数。叶子节点数和叶子节点对应值L2范数决定决策树的复杂度。

假设Ij={i|q(xi)=j} 为划分叶子节点样本集,目标函数为

(15)

树结构q(x)每个节点最优权值为

(16)

树结构q(x)对应目标函数为

(17)

计算分裂节点收益,选择收益最大特征作为分裂特征,不断迭代,直至满足条件。假设I=IL∪IR,IL和IR分别为左分支样本集和右分支样本集,每次分裂节点的收益为

(18)

得到最终强分类器为

Fk(x)=

a0f0(x)+a1f1(x)+…

+amfm(x)+…+akfk(x)。

(19)

2 模型建立与实例分析

2.1 模型建立

熵权法利用指标的熵值所代表的信息量大小确定指标权重,但熵权法无法直接对岩爆等级进行分类;而传统的LGBM算法受到指标数值差异和量纲的影响,无法准确反映指标对预测结果的贡献度,降低了预测模型的可靠性。因此本文建立熵权法-LGBM组合预测模型,旨在提高岩爆预测的可靠性。

熵权法优化LGBM岩爆等级预测模型建立流程见图4。

图4 熵权法-LGBM组合预测模型建立流程

2.2 岩爆危险等级预测指标体系

参考已有研究[2],选取围岩洞壁最大主应力σθ、单轴抗压强度σc、抗拉强度σt、应力系数σθ/σc、脆性系数σc/σt、弹性能指数wet作为岩爆等级预测指标,并将岩爆分为4个等级:无岩爆(Ⅰ级)、轻微岩爆(Ⅱ级 )、中等岩爆(Ⅲ级)、强烈岩爆(Ⅳ级)。为了验证该模型的有效性,本文搜集了冬瓜山铜矿、金川二矿、会泽铅锌矿、挪威Sewage隧道、大相岭隧道等国内外岩爆工程实例,选取179组数据的6个指标进行实例分析,其中选取150组数据样本作为训练集,29组样本作为测试集[13-26]。部分原始指标数据集见表1。

表1 原始指标数据集

2.3 熵权法数据集处理

利用熵权法对原始数据作归一化处理,分别计算指标的熵值、差异系数、权重,确定最终样本权重,部分处理结果分别见表2、表3。

表2 熵权法权重

表3 部分数据最终样本矩阵

2.4 LGBM算法参数选取

在LGBM算法中,参数的选择将直接影响到模型预测准确率。在LGBM模型中,树模型的最大深度(max_depth)与树的叶子数量(num_leaves)是模型的核心参数,对模型性能和泛化能力有着决定性作用。一般而言,num_leaves在[0,2max_depth-1]中间取值;另外为了平衡模型误差和模型复杂度,可采用正则化参数reg_alpha和reg_lamdba。在遇到过拟合情况时,引入参数bagging_fraction进行处理。为了提高岩爆预测模型的准确率和运算效率,调用python中optgbm工具包自动优化LGBM模型参数,结果见表4。

表4 LGBM模型超参数含义及数值

2.5 岩爆等级预测结果及分析

选取29组数据作为测试集进行检验,将预测结果与传统的LGBM模型、RF模型和XGBoost模型进行对比,结果见表5。

表5 测试集各模型岩爆等级预测结果

由表5可知,RF、XGBoost、传统LGBM岩爆等级预测模型的准确率分别为75.86%、75.86%、79.31%,传统的LGBM模型预测准确率略优于其他两种模型;经熵权法优化的LGBM岩爆等级预测模型准确率为93.1%,可见优化后的岩爆等级预测模型的预测准确率明显高于其他单一模型,表明利用熵权法有效解决了各指标间因量纲不同和数值差异对模型预测准确率的影响,提升了模型岩爆等级预测的准确率。

3 工程应用

秦岭终南山公路隧道长18.02 km,通风方案采用三座竖井的纵向式通风,以此改善其运行环境和安全性。此方案通风竖井口径和埋深大,最大埋深处的最大水平主应力为21.04 MPa,属于高地应力水平,存在发生岩爆的可能[27]。

应用本文构建的熵权法优化LGBM岩爆预测模型对终南山隧道通风竖井岩爆等级进行预测,结果见表6。由表6可知,终南山隧道通风竖井会发生不同级别的岩爆,与实际情况基本相符,表明熵权法优化LGBM算法模型能够有效预测岩爆的发生。

表6 终南山隧道通风竖井岩爆预测验证

4 结论

a.对比熵权法优化LGBM模型与传统的LGBM模型,组合模型具有更高的预测准确率,表明熵权法对提高LGBM算法的预测准确率有明显效果。

b.将熵权法优化LGBM模型测试集预测结果与RF、XGBoost预测模型进行对比,发现组合模型比其他单一模型具有更高的预测准确率。

c.利用本文建立的岩爆预测模型对终南山隧道通风竖井进行岩爆等级预测,发现预测结果与现场岩爆发生情况基本一致,验证了本文所建模型的可靠性。

猜你喜欢
权法岩爆叶子
某引水隧洞深埋段花岗岩岩爆演化规律研究
基于熵权法的BDS钟差组合预测模型的建立
使用声发射测试结果预判岩爆等级
叶子
最后一片叶子(节选)
BP神经网络结合熵权法优化甘草皂苷提取工艺
基于熵权法*的广西能源安全评价
开绕一号公路隧道岩爆强度评判
引汉济渭工程秦岭隧洞岩爆数值模拟与岩爆预测研究
一见倾心的优雅——叶子