多模型融合风化基岩富水性预测

2022-06-19 22:10罗晓霞王万
关键词:随机森林

罗晓霞 王万

摘要:为解决陕北浅埋煤层开采过程中侏罗系风化基岩含水层富水性预测问题,采用方差过滤和交叉递归特征消除算法研究风化基岩含水层富水性特征。使用主要特征训练极限梯度提升树(eXtreme Gradient Boosting,XGBoost)模型构造高级特征,基于Stacking方式叠加随机森林和SoftMax,构建多模型融合的风化基岩富水性预测模型。以红柳林矿区实测水文地质数据进行分析,经过5折交叉验证,结果表明模型预测准确率提升了27.8%和13.2%,micro-auc和macro-auc分别达到了0.94和0.93。可知基于机器学习算法的特征选择代替手工筛选特征可减少人为主观性对预测模型的影响,采用XGBoost构造的高级特征可更充分挖掘原始水文地质数据中存在的富水性规律,融合模型可发挥不同基模型的优势,缓解基模型存在过拟合现象,增加模型整体的预测准确率,为矿井防治水提供依据。

关键词:矿井水害;富水性预测;多模型融合;特征构造;随机森林

中图分类号:TP 399文献标志码:A

文章编号:1672-9315(2022)03-0521-08

DOI:10.13800/j.cnki.xakjdxxb.2022.0315开放科学(资源服务)标识码(OSID):

Water-rich prediction method of weathered

bedrock based on multi-model fusion

LUO Xiaoxia,WANG Wan

(College of Computer Science and Engineering,Xian University of Science and Technology,Xian 710054,China)

Abstract:In order to solve the problem of water-rich prediction of Jurassic weathered bedrock aquifers during the mining process of shallow buried coal seams in northern Shaanxi,China,variance filtering and cross recursive feature elimination algorithms were used to obtain the main characteristics of water-richness of weathered bedrock aquifers,and the gradient boosting tree(eXtreme Gradient Boosting,XGBoost)model with the main features are used to construct advanced features,with a multi-model fusion weathered bedrock water-rich prediction model achieved by superimposing random forest and SoftMax based of the stacking method.The experimental analysis was made based on the measured hydrogeological data in Hongliulin mining area.A five-fold cross-validation showed that the prediction accuracy of the proposed model was improved by 27.8% and 13.2%,and the micro-auc and macro-auc reached 0.94 and 0.94 respectively.0.93.It can be seen that the feature selection based on machine learning algorithm can reduce the influence of human subjectivity on the prediction model,instead of manual feature selection.The advanced features constructed by XGBoost can more fully exploit the water-rich laws existing in the original hydrogeological data,and the fusion model has advantages over the base model:it can alleviate the over-fitting of the base model,increase the overall prediction accuracy of the model,and provide enough data for mine water control work.

Key words:mine water damage;water-rich prediction;multi-model fusion;feature structure;random forest

0引言

風化基岩是在风化作用条件下,物理性质和化学成分发生变化的岩石[1]。风化基岩具结构疏松、孔隙度大、层渗透性强和裂隙发育的特点[2]。和正常的岩石相比,风化岩石在颜色、结构、含水率等方面与普通岩石相比都具有较大的差异。在陕北侏罗纪煤田风化基岩大量发育,造成大量水害事故发生,侏罗系风化基岩水害具持续时间久、涌水量大和较难防治的特点,给煤矿安全生产带来了巨大的困难,因此风化基岩含水层富水性研究对煤矿安全开采具有重大意义[3-4]。传统的含水层富水性预测方法主要使用层次分析法等数学分析方法,通过构建富水性影响因素权重矩阵,结合ArcGIS等建模软件绘制富水性分区,但影响因素权重矩阵的构建主观性强,导致模型预测准确率较低。50F41E50-E541-49DA-9C77-BB6E1B4440DC

随着人工智能的不断发展,越来越多的机器学习算法和神经网络模型应用到煤矿富水性预测中,侯恩科等选择不同富水性影响特征,构建Bayes判别模型[5]、Fisher模型[6]及SVM模型[7]预测风化基岩富水性;纪卓晨等利用PCA降维得到4个主要富水性影响因素训练Logistci Regression模型[8],建立判别模型预测富水性;安孝会基于Logistics回归模型对顶板突水规则进行分析[9];董丽丽等提出基于长短时记忆网络LSTM的突水预测模型[10];周峰雷等建立BP神经网络对煤炭不同区域涌水量进行预测[11];尹会永等利用BP神经网络进行煤矿涌水早期预警[12]。

使用机器学习预测煤矿顶板风化基岩富水性是目前常用的方法,这些方法大多采用单一模型,泛化性能差,忽视了特征选择和参数组合对模型的影响。因此提出多模型融合的风化基岩富水性预测模型。

1风化基岩影响因素

1.1风化系数

风化之后的岩石内部较为疏松、渗水性增强。厚度越大的风化基岩内部储水空间也越大,富水性随之增加;风化程度越大,岩层储水体积越大,对应富水性也越强,因此综合考量风化基岩厚度和风化程度,构造风化系数S。

S=∑sihi/∑hi (1)

式中si代表岩石风化程度的强弱,根据风化程度的不同,可分为1,2,3,分别对应着弱、中、强3个风化程度等级;hi为对应风化基岩的岩层厚度,m。

1.2含水层厚度

由矿区钻孔实测数据可知含水层基岩主要构成为细、中和粗粒砂岩,厚度为3类砂岩的厚度之和。含水层厚度一定程度上反映岩层蓄水空间的大小,随着含水层厚度的增加,岩层富水性增强,发生涌(突)水的可能性也就越大。

1.3岩芯采取率

岩芯采取率是钻孔取出岩芯长度与钻孔钻入长度的比值,大小代表着基岩破坏程度。随着岩芯采取率减小,意味着基岩破坏越严重,储水面积增加,从而富水性越强。

1.4岩性组合指数

由抽水钻孔资料可知,风化基岩岩性不同,富水性不同。根据不同岩性组合,构造岩性组合指数r,数值越大,富水性越强。

r=∑rimi/∑mi(2)

式中ri为岩性类别;mi为岩石厚度,m。

1.5脆性岩厚度比

脆性岩通过岩层破裂释放岩石内部张力,裂隙的发育程度较高;塑性岩释放压力的方式通常为塑性形变,岩石破坏程度不高,因此可用脆性岩厚度与岩层总厚度的比值来表示风化程度,比值越大,富水性越强。

1.6地形地貌

矿区风沙滩起伏较小,煤层覆岩主要为砂岩,降雨补给充足,有利于水源的存储。中部地带为沟谷地带,自然降雨等水源不易流失,经地表汇入煤层上覆岩,形成强富水性。其余地带覆岩主要为黄土,且呈现沟壑状分布,降雨难以存储,较难渗入地下,不利于水源补给,富水性较差。以数值3,2,1分别对松散沙层、沟谷及黄土丘陵地貌进行量化处理。

1.7隔水层厚度

隔水层是透水性较差的岩层和土层,由致密的岩石或黏土构成,由于空隙较小,导致水源不易透过。

2预测模型构建

2.1模型结构

多模型融合的风化基岩富水性预测是利用XGBoost模型构造高级特征,然后基于Stacking方式融合随机森林和SoftMax完成对富水性类别预测。融合模型由数据处理模块、特征选择模块、特征构造模块和富水性预测模块组成(圖1)。数据处理模块对钻孔数据进行缺失值填补、归一化和富水性类别编码;特征选择模块使用方差过滤和交叉递归特征消除算法确定影响风化基岩富水性的最优特征子集;特征构造模块使用筛选的最优子集训练XGBoost[13-14]模型,利用XGBoost模型构造高级特征,基于Stacking[15]集成策略融合不同分类器对构造的高级特征进行训练。为克服传统集成模型融合时使用简单集成加权平均的缺点,富水性预测模块第1层使用随机森林分类算法和SoftMax算法相结合,分别得到模型对分类结果的预测概率,同时SoftMax算法抑制随机森林分类算法存在的过拟合问题,第2层将首层的输出作为输入,训练SoftMax多分类器,即可得到风化基岩富水性的类别。

2.1.1对输入原始数据进行处理

删除异常值,使用随机森林算法填补缺失值,并进行归一化处理,按照单位涌水量的大小将富水性分为3类,得到新的数据集D1和特征集F1。

2.1.2特征选取

使用方差过滤和交叉递归特征消除算法对特征集F1进行特征筛选,得到新的数据集D2和特征集F2。

2.1.3特征构造

利用数据集D2和特征集F2训练XGBoost模型,根据样本点在XGBoost各棵树中叶子结点的位置进行One-Hot编码构造出新的数据集D3和特征集F3。

2.1.4富水性预测

基于Stacking集成策略,利用D3和F3训练随机森林分类算法和SoftMax算法,得到对应的各个类别的预测概率值,纵向拼接不同模型的预测概率值,作为输入训练SoftMax多分类模型,得到富水性类别。

2.2特征选择模块

利用方差过滤和交叉递归特征消除算法选择影响风化基岩富水性最优特征子集。计算每个特征的方差,设定方差阈值为0,选择方差大于0的特征,得到新的特征集合y={f1,f2,…,fn},使用交叉递归特征消除算法从y筛选出特征子集y*。利用特征集合训练评估器,剔除特征重要性最低的特征,直到所需的特征数量为止。50F41E50-E541-49DA-9C77-BB6E1B4440DC

2.3特征构造模块

在风化基岩钻孔数据集样本数一定的情况下,数据集的质量和有效特征的数量对模型最终的预测结果起决定性的作用[16-17]。根据样本点在XGBoost中每棵树模型叶节点的索引位置,对位置进行编码,构造出新特征。XGBoost基于前一棵树的残差通过不断迭代构建多棵串行决策树以减小残差值,初始时根节点包含样本集所有样本点,经过决策树之后,叶子节点仅包含单一类别样本点,从根节点到叶子结点的决策过程即为寻找多个特征间隐含关系的过程,隐藏的多元高级特征即为区分各个样本点的特征。以原始风化基岩富水性数据集D为例,D={X,Y},X为样本集合,包含5个样本点X={a,b,c,d,e};Y为富水性标签集合,包含3类标签Y={0,1,2}分别代表弱富水性、中等富水性和强富水性。F代表X中每个样本的特征集,包含了7个原始特征F={f1,f2,f3,f4,f5,f6,f7}。根据XGBoost模型特征构造算法,以包含3棵决策树{t1,t2,t3}为例(图2),展示了数据集D基于构造算法生成F1的过程,其中w={w1,w2,w3,w4,w5,w6,w7}为当前分裂节点特征的特征值。

在XGBoost分裂过程中,从根节点到叶子节点不断分支的过程即为样本的分类过程,也是不同特征间组合高级特征的过程。例如t1树中(f11

3.3實验结果分析

3.3.1单模型对比

利用5折交叉验证分别训练Fisher算法、逻辑回归分类算法(LR)、卷积神经网络(CNN)、长短时记忆网络(LSTM)、支持向量机分类算法(SVM)、BP神经网络以及所提的模型进行对比,实验结果见表3、图4。

各项评估指标明显高于其他对比模型,Precison_macro提高了27.8%,证明模型在风化基岩富水性类别预测方面具有较高的稳定性和准确性,同时对比实验所需时间,虽然Fisher,LR模型5折交叉验证所需时间较短,预测准确率较低;SVM,BP神经网络算法所需时间过长,煤矿安全生产中不利于实时预测系统的构建,通过融合多种机器学习模型在风化基岩含水层富水性预测问题上是可行且具有较高准确率。

3.3.2多模型对比

富水性预测模块第1层模型的融合方式有多种,为验证所提融合模型跟其他对比模型相比的优越性,使用同一数据集分别利用XGBoost+SoftMax(XGB+S)、LightGBM+SoftMax(LGB+S)和RF进行对比实验,比较不同的模型融合在预测风化基岩富水性类别上的性能,实验结果见表4、如图5所示。

融合模型在整体预测准确率优于其他模型包括基模型在内,准确率提升了13.2%。模型第1层使用的基学习器在抑制模型过拟合的同时也会损失一定的预测准确率,第2层学习器的再次训练使得最终模型的整体预测准确性高于单一机器学习模型和其他对比模型。模型出现了过拟合的现象,首层使用的是强学习器,模型整体往减少偏差方向移动,训练集预测率很高,在测试集上预测性能较差,验证了使用SoftMax去抑制融合模型的过拟合现象是正确的。

融合模型对弱和中等富水性的预测能力较强,对强富水性的预测能力相对较弱,可能矿区内强富水性的数据量较少,经过模型融合之后,强富水性数据的特征被稀释,导致融合模型对强富水性数据特征学习能力变弱(图6)。

4结论

1)与其他组合模型对比,使用SoftMax可抑制基模型过拟合,增加对少数类样本的学习能力,泛化性较强。

2)风化基岩富水性预测是一个高维且非线性过程。利用多模型叠加预测富水性规律,预测准确率提升了27.8%。

3)利用多模型融合预测风化基岩富水性取得较好的效果,对矿井防治水具现实意义和推广价值。由于采矿地质条件复杂,采集数据困难,在建模之前需要做大量精细化的数据收集工作。

参考文献(References):

[1]杨帆.张家峁井田二盘区风化基岩水文地质特征[J].煤炭技术,2021,40(9):64-66.YANG Fan.Hydrogeological characteristics of weathered bedrock in the second area of Zhangjiamao coal mine[J].Coal Technology,2021,40(9):64-66.

[2]古瑶,王施智,耿清,等.小保当井田基岩风化带含水层富水性分析[J].陕西煤炭,2020,39(1):89-91,107.GU Yao,WANG Shizhi,GENG Qing,et al.Analysis on the water abundance of aquifer in bedrock weathered zone in Xiaobaodang minefield[J].Shaanxi Coal,2020,39(1):89-91,107.

[3]张彬,张刚,徐帅康.定边地区中侏罗统延安组辫状河沉积模式[J].西安科技大学学报,2021,41(5):845-852.ZHANG Bin,ZHANG Gang,XU Shuaikang.Braided rivers sedimentary models of Middle Jurassic Yanan Formation in Dingbian area[J].Journal of Xian University of Science and Technology,2021,41(5):845-852.

[4]占惠珠,尚慧,甘智慧.采煤沉陷区高分遥感数据融合方法[J].西安科技大学学报,2021,41(4):673-681.ZHAN Huizhu,SHANG Hui,GAN Zhihui.Fusion method of high-resolution remote sensing data in coal mining subsidence area[J].Journal of Xian University of Science and Technology,2021,41(4):673-681.

[5]侯恩科,闫鑫,郑永飞,等.Bayes判别模型在风化基岩富水性预测中的应用[J].西安科技大学学报,2019,39(6):942-949.HOU Enke,YAN Xin,ZHENG Yongfei,et al.Application of Bayes discriminant model in  prediction of water enrichment of weathered bedrock[J].Journal of Xian University of Science and Technology,2019,39(6):942-949.

[6]侯恩科,姚星,文强.柠条塔煤矿水化学特征及水源识别模型[J].西安科技大学学报,2021,41(4):624-631.HOU Enke,YAO Xing,WEN Qiang.Hydrochemical characteristics and water source identification model in Ningtiaota coal mine[J].Journal of Xian University of Science and Technology,2021,41(4):624z-631.50F41E50-E541-49DA-9C77-BB6E1B4440DC

[7]侯恩科,童仁剑,王苏健,等.陕北侏罗纪煤田风化基岩富水性Fisher模型预测方法[J].煤炭学报,2016,41(9):2312-2318.HOU Enke,TONG Renjian,WANG Sujian,et al.Prediction method for the water enrichment of weathered bedrock based on Fisher model in Northern Shaaxi Jurassic coalfield[J].Journal of China Coal Society,2016,41(9):2312-2318.

[8]纪卓辰,丁湘,侯恩科,等.纳林河二号煤矿涌水水源判别的PCA-Logistic方法[J].煤田地质与勘探,2020,48(5):97-105.JI Zhuochen,DING  Xiang,HOU Enke,et al.The PCA-Logistic method for identification  of  water burst in Nalinhe No.2 coal mine[J].Coal Geology and Prospecting,2020,48(5):97-105

[9]安孝会.基于Logistic回归分析的崔木煤矿顶板突水时间序列神经网络学习预测[D].西安:西安科技大学,2020.AN Xiaohui.Neural net time series  of water inrush forecasting based on logistic regressive[D].Xian:Xian University of Science and Technology,2020.

[10]董丽丽,费城,张翔,等.基于LSTM神经网络的煤矿突水预测[J].煤田地质与勘探,2019,47(2):137-143.DONG Lili,FEI Cheng,ZHANG Xiang,et al.Coal mine water inrush prediction based on LSTM  network[J].Coal Geology and Prospecting,2019,47(2):137-143.

[11]周峰雷,李新春,裴麗莎.基于遗传算法-BP神经网络的煤矿透水事故涌水量预测模型研究[J].煤炭技术,2015,34(11):169-170.ZHOU Fenglei,LI Xinchun,PEI Lisha.Prediction model of coal mine water inflow based on GA-BP neural network[J].Coal Technology,2015,34(11):169-170.

[12]尹会永,周鑫龙,郎宁,等.基于SSA优化的GA-BP神经网络煤层底板突水预测模型与应用[J].煤田地质与勘探,2021,49(6):175-185.YIN Huiyong,ZHOU Xinlong,LANG Ning,et al.Prediction model  of water inrush from coal  floor based on GA-BP neural network optimizied by SSA and its application[J].Coalfield Geology and Exploration,2021,49(6):175-185.

[13]钟颖,邵毅明,吴文文,等.基于XGBoost的短时交通流预测模型[J].科学技术与工程,2019,19(30):337-342.ZHONG Ying,SHAO Yiming,WU Wenwen,et al.Short-term traffic flow prediction model based on XGBoost[J].Science Technology and Engineering,2019,19(30):337-342.

[14]代业明,周琼.基于改进Bi-LSTM和XGBoost的电力负荷组合预测方法[J].上海理工大学学报,2022,44(2):138-147.DAI Yeming, ZHOU Qiong.Power load combination forecasting method based on improved Bi-LSTM and XGBoost[J].Journal of University of Shanghai for Science and Technology,2022,44(2):138-147.

[15]徐国天,沈耀童.基于XGBoost与Stacking融合模型的恶意程序多分类检测方法[J].信息网络安全,2021,21(6):52-62.XU Guotian,SHEN Yaotong.Multiple classification detection method for malware based on XGBoost and Stacking fusion model[J].Information Network Security,2021,21(6):52-62.

[16]王成,王昌琪.一种面向网络支付反欺诈的自动化特征工程方法[J].计算机学报,2020,43(10):1983-2001.WANG Cheng,WANG Changqi.An automated feature engineering method for online payment fraud detection[J].Chinese Journal of Computers,2020,43(10):1983-2001.50F41E50-E541-49DA-9C77-BB6E1B4440DC

[17]李占山,姚鑫,刘兆赓,等.基于LightGBM的特征选择算法[J].东北大学学报(自然科学版),2021,42(12):1688-1695.LI Zhanshan,YAO Xin,LIU Zhaogeng,et al.Feature selection algorithm based on LightGBM[J].Journal of Northeastern University(Natural Science Edition),2021,42(12):1688-1695.

[18]HOU S K,LIU Y R,YANG Q.Real-time prediction of rock mass classification based on TBM operation big data and stacking technique of ensemble learning[J].Journal of Rock Mechanics and Geotechnical Engineering,2022,14(1):123-143.

[19]陸万荣,许江淳,李玉惠.面向Stacking集成的改进分类算法及其应用[J].计算机应用与软件,2022,39(2):281-286.LU Wanrong,XU Jiangchun,LI Yuhui.Improved classification algorithm for stacking integration and its application[J].Computer Applications and Software,2022,39(2):281-286.

[20]ERDOGAN E G,BOZKURT K S,YAVUZ M.Grid search optimised artificial neural network for open stope stability prediction[J].International Journal of Mining,Reclamation and Environment,2021,35(8):600-617.

[21]袁颖,于少将,王晨晖,等.基于网格搜索法优化支持向量机的围岩稳定性分类模型[J].地质与勘探,2019,55(2):608-613.YUAN Ying,YU Shaojiang,WANG Chenhui,et al.Evaluation model for surrounding rock stability based on support vector machine optimized by grid search method[J].Geology and Exploration,2019,55(2):608-613.

[22]王星东,段智永,王成,等.物理模型结合SVM的格陵兰岛冰盖冻融探测[J].西安科技大学学报,2017,37(6):912-918.WANG Xingdong,DUAN Zhiyong,WANG Cheng,et al.Ice-sheet freeze-thaw detection based on physical model combined with SVM in Greenland[J].Journal of Xian University of Science and Technology,2017,37(6):912-918.

[23]王苏健,贾澎涛,金声尧.基于随机森林回归的围岩应力插值方法[J].西安科技大学学报,2021,41(2):274-281.WANG Sujian,JIA Pengtao,JIN Shengyao.An interpolation method of surrounding rock stress based on random forest regression[J].Journal of Xian University of Science and Technology,2021,41(2):274-281.

[24]ALIZADEH B,GHADERI  B A,KAMANGIR H,et al.A novel attention-based LSTM cell post-processor coupled with bayesian optimization for streamflow prediction[J].Journal of Hydrology,2021,6(1):126526-126554.

[25]刘守强,武强,曾一凡.《煤矿防治水细则》修订要点解析[J].煤炭工程,2019,51(3):1-4.LIU Shouqiang,WU Qiang,ZENG Yifan.Dissection of the main points in “detailed rules for coal mine water prevention and control” modification[J].Coal Engineering,2019,51(3):1-4.

[26]孙魁,夏玉成,李成,等.综放开采条件下煤层顶板涌(突)水危险性评价[J].西安科技大学学报,2019,39(3):452-460.SUN Kui,XIA Yucheng,LI Cheng,et al.Risk assessment of water inflow(inrush) from coal seam roof under fully mechanized caving mining[J].Journal of Xian University of Science and Technology,2019,39(3):452-460.50F41E50-E541-49DA-9C77-BB6E1B4440DC

猜你喜欢
随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
基于随机森林算法的B2B客户分级系统的设计