微震初至波到时自动拾取研究

2020-12-31 01:25高煜胡宾鑫朱峰张华宋广东高国防庞江波钟国栋全霓
工矿自动化 2020年12期
关键词:微震基尼系数决策树

高煜,胡宾鑫,朱峰,张华,宋广东,高国防,庞江波,钟国栋,全霓

(1.齐鲁工业大学(山东省科学院) 激光研究所, 山东 济南 250300;2.陕西高速集团白泉分公司, 陕西 西安 710065)

0 引言

随着矿山开采深度和强度的增加,岩体失稳引发的冲击地压、顶板冒落、突水、瓦斯突出等动力灾害频发,严重影响矿山安全生产。微震监测技术是一种有效的岩体稳定性监测预警手段,广泛应用于煤矿、非煤矿山、隧道、硐室、大坝、边坡、高铁路基等工程稳定性监测预警领域。该技术利用微震监测系统进行现场实时监测,结合震源定位技术确定微震事件的时空信息及能量,从而对岩体变形导致的破坏活动范围、稳定性及发展趋势等作出科学评价。微震初至波(一般为P波)是检波器最先接收到的地震波,位于环境噪声和有效信号的分界处,此处伴随能量急剧变化。准确地拾取微震初至波到时是实现震源定位的前提,是微震监测关键技术之一[1]。

传统的微震初至波到时拾取方法主要有人工拾取和自动拾取。人工拾取方法主要依靠肉眼判别微震初至波到时,效率低,耗时长。自动拾取方法根据微震波的振幅、频率等特征构造特征函数,利用数学算法检测微震初至波到时,主要有长短时窗能量比值(Short Term Average/Long Term Average,STA/LTA)法[2-4]、赤池信息准则[5]、高阶统计量方法[6]、小波变换[7-8]、神经网络法、分形分维法等[9-11]。其中STA/LTA法应用较普遍。该方法中STA为短时窗平均值,代表微震初至波到来时突变的能量;LTA为长时窗平均值,表示噪声能量。当检波器检测到微震初至波时,相应的STA/LTA明显增大,达到触发阈值时对应的时刻认为是初至波到时[12]。STA/LTA法计算简单,适合实时处理且稳定可靠,但准确性严重受制于触发阈值的设定、长短时窗大小及特征函数的选取,尤其是对低信噪比信号的拾取准确率较低。

针对上述问题,以实际煤矿岩石破裂微震监测为例,提出了一种基于随机森林的微震初至波到时自动拾取方法:首先,提取微震数据特征并标注特征样本类别;然后,构建随机森林模型以识别微震初至波;最后,将微震数据测试集样本输入随机森林模型,得到每个样本属于某一类别的概率,将概率不小于0.5的第1个数据采样点判定为微震初至波到时采样点。实验结果表明该方法的准确性优于STA/LTA法。

1 随机森林算法

随机森林是一种有监督的机器学习算法[13-15],主要思想是将多个独立的弱分类器即多棵决策树进行组合,形成一个强分类器。随机森林算法原理:首先,从训练集中有放回地随机抽取样本,生成单棵决策树,当大量决策树生成时,对其进行组合构成随机森林;然后,通过验证集进行多次验证,得到训练好的随机森林模型;最后,将测试集样本输入训练好的随机森林模型中,每一棵决策树对其进行判断和分类,分别得到一个分类结果,采用最大投票法则确定待测样本类型。

随机森林的构建过程如下。

(1) 随机且有放回地抽样。设训练集中样本数量为N,从中随机抽取1个样本并放回,重复N次,得到的N个样本组成决策树的根节点。

(2) 决策树节点分裂。为了降低每个特征之间的相关性,决策树在节点分裂时从所有特征中随机选取一部分,依次计算其基尼系数,将基尼系数较小的特征作为该节点的分裂准则,根据分裂函数将当前决策树在该节点分为左子树和右子树。不断重复上述过程,直到该节点所有样本属于同一类,停止分裂。

(3) 构建随机森林。执行步骤(1)、(2)多次后产生大量决策树,将其集成、组合构成随机森林。

2 微震初至波到时自动拾取方法

基于随机森林的微震初至波到时自动拾取方法步骤如下。

(1) 微震数据特征提取及处理。当微震事件发生时,微震记录的主要特征会发生变化,尤其是初至波到来时刻,微震波振幅和能量(振幅的平方)明显增大,相邻时刻振幅比(后一时刻振幅绝对值与前一时刻振幅绝对值的比值)相应增大,因此提取微震波振幅、能量及相邻时刻振幅比作为特征,并对每个样本进行特征类别标记。

(2) 构建微震初至波到时自动拾取随机森林模型。定义提取的微震数据特征向量总数为T,第θ(θ=1,2,…,T)个特征向量为Uθ,Uθ对应标签Lθ,微震数据特征向量与标签的集合为S={(Uθ,Lθ)}。将S随机划分为训练集H与验证集V,训练集和验证集样本个数分别为α,β,1<β<α

从训练集H中随机且有放回地抽取α次,生成α个样本。从微震数据特征中随机选取一部分,计算每个特征的基尼系数。设训练集H中有n个类别,第i(i=1,2,…,n)个类别所占比例为pi,则H对应的基尼系数为

(1)

取基尼系数较小的特征作为决策树当前节点进行分裂。当计算得到的基尼系数为最小值0,即落在叶子节点中的所有微震数据特征属于同一类别时,决策树停止分裂。设训练集H被划分为左子树集合HL和右子树集合HR,其基尼系数分别为GHL和GHR,则H的基尼系数可表示为

(2)

在决策树的每个节点上随机选取若干微震数据特征进行测试,选取基尼系数最小的特征作为最优分裂属性划分微震数据样本。

将上述过程执行γ次,生成γ棵决策树,并对其进行组合,生成随机森林模型。将验证集V输入随机森林模型中,直到输出结果满足预设精度要求,得到最优随机森林模型。在构建随机森林模型过程中,振幅、能量和相邻时刻振幅比3种特征的重要度分别为0.285 7,0.419 4,0.294 9。

(3) 预测类别。将微震测试集输入最优随机森林模型,得到每个待测样本属于某一类别的概率。微震波判定为二分类问题,判定公式为

(3)

式中:L为微震特征向量对应的标签;γ1,γ2分别为被分为正样本决策树、负样本决策树的数量。

若预测得到的概率不小于0.5,则被分为标签1是微震波,被分为标签0不是微震波,且预测概率不小于0.5的第1个采样点判定为微震初至波到时采样点。

基于随机森林的微震初至波到时自动拾取流程如图1所示。

图1 基于随机森林的微震初至波到时自动拾取流程Fig.1 Automatic picking process of microseismic first arrival based on random forest

3 实验及结果分析

3.1 实验数据

选取在煤矿井下巷道深孔中布置的微震传感器采集的微震数据来验证基于随机森林的微震初至波到时自动拾取流程方法的有效性。提取每个微震数据的振幅、能量及相邻时刻振幅比作为特征组成微震数据样本,并对每个样本进行特征类别标记。

若直接对微震初至波到时所对应的样本标记为正样本,其余标记为负样本,则会出现正负样本分布不均衡的现象,导致训练效果不理想,因此需要扩大正样本数量。本文对微震初至波到时至微震波结束时刻对应的所有样本均标记为正样本,其余均标记为负样本,形成一个微震样本数据集并存储。该数据集中样本数为8 000,将其随机划分为训练集与验证集,所含样本数分别为5 600,2 400。

测试集来源于同一煤矿井下巷道深孔中的相同微震传感器在不同时刻采集的8通道微震数据S1—S8,如图2所示。采样频率为2 kHz。S1,S2,S7,S8为低信噪比微震数据,S3—S6为高信噪比微震数据。

图2 8通道微震波形Fig.2 Eight-channel microseismic waveforms

3.2 实验设置

在Windows 10系统、基于Jupyter Notebook的Python3.7.1集成环境下,结合Scikit learn模块进行实验。设置STA/LTA法的短时窗为200 ms,长时窗为800 ms,触发阈值为2。随机森林模型主要参数为决策树的数量和最大深度,其对分类准确率的影响如图3所示。经反复调整,选取2个参数分别为137,6。此时经验证集验证,微震样本分类准确率达98.5%。

(a) 决策树数量

(b) 决策树最大深度

3.3 实验结果与分析

选取高信噪比微震数据S3和低信噪比微震数据S7作为测试数据。对S3拾取的微震初至波到时如图4所示。可看出人工拾取方法、本文方法、STA/LTA法拾取的微震初至波到时分别为2 334.6,2 330.0,2 317.7 ms。以人工拾取结果为标准,本文方法与STA/LTA法的拾取误差分别为4.6,16.9 ms。对S7拾取的微震初至波到时如图5所示。可看出人工拾取方法、本文方法、STA/LTA法拾取的微震初至波到时分别为2 318.5,2 335.0,2 344.5 ms,本文方法与STA/LTA法的拾取误差分别为16.5,26.0 ms。可见本文方法比STA/LTA法对微震初至波到时的拾取精度高。

(a) 人工拾取方法

(b) 本文方法

(c) STA/LTA法

(a) 人工拾取方法

(b) 本文方法

(c) STA/LTA法

对8个通道的微震数据分别采用人工拾取方法、STA/LTA法和本文方法拾取初至波到时,结果见表1。

表1 8通道微震初至波到时拾取结果统计Table 1 Result statistics of eight-channel microseismic first arrival picking

以人工拾取初至波到时为标准,由表1可知:本文方法和STA/LTA法对高信噪比微震数据的拾取准确率均较高;对于低信噪比微震数据,本文方法的拾取准确率较STA/LTA法高;对于8个通道的微震数据,STA/LTA法和本文方法对微震初至波到时拾取的平均误差分别为39.5,23.1 ms,本文方法整体优于STA/LTA法。

4 结语

提出了一种基于随机森林的微震初至波到时自动拾取方法,并成功应用于煤矿岩石破裂微震信号自动处理中。该方法与传统STA/LTA法相比无需设定阈值,只需提取每个微震数据的振幅、能量及相邻时刻振幅比这3个特征,并对每个样本进行特征类别标注,减少了阈值由经验判断造成的误差;该方法易于实现,无需设置特征函数与时窗长度,消除了不同时窗长度对微震初至波到时自动拾取的影响,拾取精度明显提升。

猜你喜欢
微震基尼系数决策树
浅谈KJ768煤矿微震监测系统的应用
长平煤业5302 综放工作面顶板岩层移动规律研究
一种针对不均衡数据集的SVM决策树算法
基于波形特征的露天钼矿微震事件的识别分析——以卓资山钼矿为例
决策树和随机森林方法在管理决策中的应用
基尼系数
基尼系数
基于决策树的出租车乘客出行目的识别
基于隶属度分析的回采面冲击地压微震能量阈值判定
基于肺癌CT的决策树模型在肺癌诊断中的应用