基于代价敏感理论的多决策树煤层底板突水预测模型

2020-12-31 01:25李彦民周晨阳李凤莲

工矿自动化 2020年12期

李彦民，周晨阳，李凤莲

(1.太原理工大学信息与计算机学院，山西晋中 030600；2.太原理工大学大数据学院，山西晋中 030600)

0 引言

在煤矿开采活动中，水害是仅次于瓦斯突出的第二大煤矿灾害[1]。我国华北煤田大多属于带压开采，由带压开采导致的煤层底板突水成为当前一种主要的突水形式。开展煤层底板突水预测研究，对降低煤矿水害事故发生、提高煤矿安全生产效率具有重要意义。

在进行煤层底板突水预测时，水害状况一般分为安全和突水2种状态，因此，煤层底板突水可被看作为二分类问题。预测结果如果将实际安全的情况误判为突水，所付出的代价是引起人们的注意，积极采取应对措施。而一旦将可能出现突水的危险情况误判为安全状态，将会直接造成煤矿企业的经济损失，甚至会有人员伤亡。在采集到的煤矿突水数据中，安全状态下的煤层水文地质信息数据远多于突水状态下的水文数据，煤矿突水数据具有非平衡数据集的特点。其中安全状态下采集的煤层水文信息数据占多数，称为多数类(或者负类)数据；突水状态下采集的水文地质信息数据占少数，称为少数类(或者正类)数据。而少数类误判所带来的损失远高于多数类误判所带来的损失。因此，如何提高突水状况时少数类数据的预测准确率是本文研究重点。

构建煤层底板突水预测模型常用的方法有基于底板突水机理的方法及基于智能信息处理的方法。基于底板突水机理的方法有尖点突变模型[2-3]、突水极限水压值法[4]、脆弱性评价模型[5]及突水系数法等。尖点突变模型主要从突变理论角度探讨煤层底板突水的机制。突水极限水压值法适合深部煤层开采的突水预测。脆弱性评价模型融合了新型煤层底板主控指标体系、GIS技术和多元信息理论，需要空间数据及属性数据等多种数据支持。突水系数法因操作简单易行而被广泛应用，并列入《煤矿防治水规定》，但在隔水层性质这一方面，该方法仅仅考虑了隔水层厚度，对于深部煤层开采时的底板突水危险性评价存在局限性和不足。

随着工业与信息化的高度融合，物联网技术开始用于煤矿生产现场突水安全监测，基于物联网采集的各种传感器数据，借助机器学习及群智能等智能信息处理方法进行煤层底板突水预测研究越来越多[6-8]。文献[8]将粒子群优化(Particle Swarm Optimization，PSO)算法用于优化支持向量机(Support Vector Machine,SVM)分类器，建立了基于PSO_SVM-Adaboost 算法的煤层底板突水预测模型。文献[9]提出了基于遗传算法的支持向量回归模型，并将其用于煤层底板突水量的预测。文献[10]采用分类回归树(Classification and Regression Tree，CART)进行煤层底板突水预测模型构建研究。文献[11]建立了基于PCA(Principal Component Analysis，主成分分析)_Fuzzy_RF(Random Forest, 随机森林) 的煤层底板突水预测模型。文献[12]建立了基于长短时记忆(Long Short Term Mermory,LSTM)神经网络的突水预测模型。因煤层底板突水数据具有非平衡特点[13]，上述预测模型用于煤层底板突水预测时，预测结果常呈现“一边倒”现象，即安全状况的预测准确率明显高于突水状况的预测准确率，使得突水预测模型的整体预测性能大大降低。

鉴此，本文提出了一种基于代价敏感理论的多决策树突水预测模型。该模型中，每个决策树选用不同的突水影响因素作为单决策树的根节点，以避免单决策树由于根节点突水影响因素选择不当所导致的预测准确率偏低的缺陷。在单决策树节点属性选择准则方面，融合了代价敏感理论，从而加重了对突水数据(少数类)误判的惩罚力度，提高了突水状况的预测准确率。实验结果表明，本文所提出的突水预测模型在真实正类率、负类率及准确率等性能方面均优于单决策树突水预测模型。

1 突水影响因素分析

煤层底板突水问题是一个复杂的非线性动力学问题，一般认为矿压、地质构造、隔水层和含水层为导致煤层底板突水的主要影响因素[14-16]。其中隔水层的完整性、厚度和含水层的富水性是导致煤层底板突水最重要的因素。

含水层的富水性主要通过单位涌水量进行评判，单位涌水量越大，含水层的富水性越强，同时煤层的突水系数越大，发生突水的概率也就越大。隔水层在底板突水时能起到抑制作用，隔水层的厚度及其所在岩层岩石的力学性质(抗压、抗拉及抗剪)决定其阻水能力。

矿井所处的地质构造是导致煤层底板突水的另一个重要因素。地质构造的类型大体分为褶皱、断层和陷落柱3种，这些地质构造为地下水提供了一定的存储空间，并为地下水的流动提供了天然通道。研究表明，断层附近易发生底板突水[17]。

另外，工作面长度、开采速度、开采厚度及开采深度等也是导致煤层底板突水的危险因素。本文结合实验工作面情况，确定了煤层底板突水影响因素主要包括含水层厚度、有效隔水层厚度、隔水层承受水压和埋深，同时也考虑了断层、陷落柱对隔水层的破坏。若有断层、陷落柱，且富水性强，发生突水的概率会极大增加。构建突水预测模型时，根据不同矿井的实际地质构造情况，可进行突水影响因素的调整。

2 基于代价敏感的多决策树突水预测模型构建

本文所用数据为煤矿水文地质数据，各数据对应的突水影响因素构成了属性信息；数据类别标签分为“突水”及“安全”2种状况，数据按照五折交叉验证方式被分为训练集和测试集。构建多决策树突水预测模型时，首先基于训练集进行代价敏感单决策树突水预测模型的构建，各个单决策树采用不同突水影响因素作为根节点属性信息，根据构建的单决策树突水预测模型得到其规则集，该规则集形成了各个单决策树突水预测模型，将所有单决策树突水预测模型规则集合并，得到多决策树突水预测模型规则集。对突水数据进行预测时，采用多决策树突水预测模型规则集得到多个预测结果，最后采用少数服从多数原则，基于投票法得到最终的预测结果。

2.1 基于代价敏感的单决策树突水预测模型构建

单决策树采用CART算法，并将Gini指标和代价敏感系数融合作为节点属性选择准则，以加重对突水危险状态的惩罚力度，提高突水状况下突水预测模型的预测准确率。

本文在构建基于代价敏感理论的单决策树突水预测模型时，分裂属性选择准则[18]AS(Attribute Selection)定义如下：

AS=(2Gini(D)-1)C(ak)

(1)

式中：Gini(D) 表示训练数据集D根据所选突水因素ak分裂后的Gini值，其值越小，突水预测结果越精确，ak隶属于属性集A={a1，a2，…，an}，A共包括n个突水影响因素；C(ak)表示突水数据集D根据某一突水因素ak分裂后得到的误分类代价。

C(ak)[18-19]计算式为

C(ak)=pPCP+pNCN

(2)

式中：pP,pN分别为在分裂节点处数据被判定为少数类和多数类的概率,P为突水状态,N为安全状态；CP和CN分别为把节点的样本判定为少数类和多数类的代价。

CP=FPCFP+TPCTP

(3)

CN=TNCTN+FNCFN

(4)

式中：FP为把实际安全数据误判为“突水”的样本数量；CFP为把实际安全数据错误预测为“突水”的代价参数；TP为把实际突水数据正确预测为“突水”的样本数量；CTP为把实际突水数据正确预测为“突水”的代价参数；TN为把实际安全数据正确地预测为“安全”的样本数量；CTN为把实际安全数据正确预测为“安全”的代价参数，本文取CTN=CTP=0；FN为把实际突水数据误判为“安全”的样本数量;CFN为把实际突水数据错误预测为“安全”的代价参数，本文取CFN>CFP。

基于代价敏感理论的单决策树突水预测模型构建流程如下：

输入：训练集中的煤矿水文地质数据D和属性集A。

输出：突水预测模型规则集。

(1) 初始化：创建根节点root；将所有属性作为候选属性A′集合。

(2) 生成节点node。

(3) 如果训练集为空，在返回节点标记为Failure。

(4) 如果D中所有样本都属于同一个类别，则以该类别标记节点node上所有的数据。

(5) 如果候选属性A′为空或者D中样本在A′上取值相同，则将节点node标记为叶节点，类别按照多数样本的类别标记，训练结束。

(6) 根据式(1)计算所有候选属性A′的AS值，将最小AS值对应的突水影响因素作为当前节点分裂属性，并将该属性从候选属性A′中去除。

(7) 对数据集中的数据依据属性进行分裂,得到子节点;若子节点中所有数据属于同一类,则该子节点变为叶节点,循环结束，否则跳至步骤(6)。

(8) 根据建立的决策树得到突水预测模型规则集。

2.2 多决策树突水预测模型构建

在单决策树突水预测模型构建过程中，传统根节点的选择采用的是信息增益最大化的方式，这种方式可能导致所选择的根节点属性并不理想，从而影响最终的突水预测结果。为了减少由于单决策树根节点属性信息选择不当造成的误判概率，本文进一步给出了采用每一个突水影响因素作为根节点建立多决策树突水预测模型的构建思路，最终的突水预测结果通过对多决策树中包含的n个单决策树结果采用投票法得到，以提高突水预测模型预测性能。

基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型构建流程如图1所示。其中的训练集为采集的煤层水文地质数据，代价敏感决策树1，2，…，n分别采用煤层水文地质数据各突水影响因素作为其根节点属性，基于代价敏感单决策树突水预测模型构建流程得到单个突水预测模型，单个模型构建完成后，可以得到n个单决策树的规则集，这些规则集合并可得到最终突水预测规则集，最后采用投票法得到最终的预测结果。

图1 基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型构建流程Fig.1 Building process of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and different root node information

基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型结构如图2所示，包括3个部分：突水影响因素分析、数据采集与整理，模型训练及性能测试。其中突水影响因素分析、数据采集与整理过程如下：先进行研究区域的突水影响因素分析，根据分析结果采集对应的煤田水文地质数据信息；接着对采集到的数据采用五折交叉验证方式进行模型构建及性能验证。模型训练过程如下：基于训练集数据，采用不同根节点代价敏感多决策树突水预测模型构建思路建立多决策树，根据建立的决策树提取建树规则，得到突水预测模型规则集。性能测试过程如下：对测试集中的数据采用规则集进行突水预测，对预测结果采用性能评价准则准确率、真实正类率及真实负类率进行性能评价。

图2 基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型结构Fig.2 Structure of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and diferent root node information

煤矿开采时，可把工作区域的数据作为输入，采用已构建的多决策树模型进行是否有突水危险的预测，根据决策树规则集预测结果，采用投票法可得到一个结果为“突水”或者“安全”的预测输出，从而为煤矿专家提供辅助决策支持。

3 实验验证

3.1 数据采集与描述

实验煤矿位于山西省吕梁山脉的西北部，属于华北煤田体系。研究区域地层结构由老至新主要包括：古生界奥陶系中统，石炭系中统、上统，二叠系下统、中统；中生界三叠系下统、中统；新生界第三系、第四系。山西组和太原组共含煤14层，其中8号、13号煤层为奥灰水带压开采区域。依据含水层介质的不同，该煤田内主要包括奥陶系岩溶水含水层，石炭系太原组砂岩裂隙含水层，二叠系下统下石盒子组与山西组砂岩裂隙含水层，第四系、上第三系松散岩类孔隙含水岩组等。8号、13号煤层的直接充水含水层为砂岩裂隙含水层，补给条件较好。

根据该煤矿某采煤工作面的现场实际观测，本文采集多种与煤层底板突水相关的数据，经过筛选整理、反复分析，最终确定影响研究工作面的煤层底板突水因素主要有奥陶岩溶水含水层厚度、煤层底板有效隔水层厚度、隔水层承受水压和埋深。由专家对确定的煤层底板突水数据进行分析并进行突水安全状态标记，获得带标签的有效数据共计95组， 13号煤层部分有效数据见表1，其中，突水状态中的“0”表示安全，“1”表示突水。由于突水情况对应的实际生产数据较难得到，经过与突水专家讨论分析，在实际数据基础上，经过理论分析得到一部分反映突水状况的理论分析数据，用于本文的仿真实验，目的是验证模型的有效性。其中安全状态时对应的一组数据的钻孔柱状图如图3所示，其孔口标高为1 064.35 m。

突水系数法是一种经典突水预测方法，因其计算简单便捷且预测准确率较高而被广泛应用。为验证本文所提出的突水预测模型的有效性，表1同时给出了突水系数法预测结果，以进行对比。

突水系数法利用隔水层厚度和隔水层承受水压来计算单位隔水层所能承受的极限水压值，计算公式为

(5)

式中：Ts为突水系数，代表单位隔水层所能承受的极限水压值,MPa/m；H为隔水层承受水压，MPa；M为隔水层厚度，m；d为煤矿开采时矿压对底板的破坏深度， m，本文根据经验取d=10 m。

表1 13号煤层底板水文地质信息数据Table 1 Hydro-geological information data of No.13 coal seam floor

图3 表1的一组数据对应的钻孔柱状图Fig.3 Borehole histogram of the data set in Table 1

预测时，定义突水系数Ts<0.06 MPa/m时为不突水，0.06 MPa/m≤Ts≤0.10 MPa/m时为临界状态，Ts>0.10 MPa/m时为突水。

由表1可知，22组数据的突水状态与根据Ts值得到的突水状态一致。

3.2 突水预测模型评价指标

对于突水预测模型的性能评价，预测准确率是最常见且较为重要的评价指标。但是，在对非平衡数据集进行分类预测时，准确率不再是最权威及全面的性能指标。为了客观地反映所构建的预测模型对非平衡数据集的预测性能，本文除采用准确率之外，还考虑了真实正类率及真实负类率2个评价指标[15]。

真实正类率RP：反映了少数类突水状况的预测结果准确率，其值越大，说明突水预测模型对突水状况的预测结果越精确。

(6)

真实负类率RN：反映了多数类安全状况的预测结果准确度，其值越大，说明突水预测模型对安全状况的预测结果越精确。

(7)

准确率Acc：是评价预测模型性能的总体指标，其值越大，说明突水预测模型总体预测性能越精确。

(8)

3.3 实验设计

为了证明本文模型的有效性，设计了如下2个实验：

(1) 在数据不平衡率(Imbalated Rate，IR，多数类样本个数/少数类样本个数)为2.8时，分析了代价因子CFP=1，CFN从1到1 000逐渐递增时，预测结果的变化情况，以说明不同代价参数对实验结果的影响。

(2) 在数据不平衡率IR从2逐渐增加时，比较基于Gini指标的CART单决策树模型预测性能与基于本文模型的预测性能，以说明本文所构建的突水预测模型的有效性。

所有结果为相同实验条件下采用五折交叉验证方法得到。

3.4 实验结果及分析

表2给出了代价因子CFP=1，CFN从1到1 000逐渐递增时，预测结果的变化情况。

图4给出了表2预测性能变化趋势对比。由图4可看出，CFN从1按照步距1增长至10时，RP一直保持较高的预测准确率，其中CFN为4时达到了最大值96.00%。当CFN大于10之后，RP总体呈现下降趋势，RN变化不显著，Acc由于RP的变化也呈现逐渐减小趋势。这表明代价敏感因子CFN取值也不能太大，否则补偿过度，反而导致预测性能下降。为此，在数据不平衡率IR为2.8时，本文最终选取CFN=10，以使3个指标都能达到较满意结果。此时正类率RP为92.67%，负类率RN为97.71%，总体预测准确率为96.51%。

表2 不同代价参数CFN的预测性能对比Table 2 Prediction performance comparison of different CFN

图4 不同代价CFN时预测性能变化趋势对比Fig.4 Prediction performance change trend comparison of different CFN

进一步将少数类样本个数逐渐减少，负类样本个数保持不变，使数据的不平衡率增大，将本文模型预测结果与基于CART算法的突水预测模型结果相比较，表3为2种模型的预测性能对比。从表3可看出，随着不平衡率IR的增加，本文算法的RP总体优于CART算法预测结果。在数据不平衡率为6时，2种算法的RP都达到了100.00%，且本文模型RN及Acc稍优于CART算法预测结果。

表3 2种模型的预测性能对比Table 3 Prediction performance comparison of two models

4 结论

(1) 构建了基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型。采用不同突水影响因素作为各个决策树的根节点属性信息，并采用基于代价敏感融合Gini指标的属性选择准则进行各单决策树煤层底板突水预测模型构建，根据建立的单决策树提取建树规则，得到单决策树突水预测模型规则集，所有单决策树规则集形成多决策树建树规则。采用多决策树突水预测模型的规则集可进行突水预测，采用投票法得到最终预测结果，对预测结果进行性能评价。

(2) 实验结果表明：采用本文构建的模型，可在保证预测准确率达到最优的同时，真实正类率及负类率也可达到较优的性能，从一定程度上解决了传统突水预测模型存在的“一边倒”现象。在数据不平衡率为2、分类错误惩罚因子取4时，模型的正类率为93.06%，负类率为97.85%，准确率为96.25%，均优于基于CART算法的突水预测模型的性能。在数据不平衡率提高到6、分类错误惩罚因子取20时，2种模型的正类率均达到100%，本文算法的负类率为99.37%，准确率为99.47%，依然优于CART突水预测模型性能。说明了本文模型的有效性。

(3) 本文模型计算复杂度偏高，下一步可在保证模型性能的前提下，研究降低模型计算复杂度的有效改进方法。