岩石岩性Mask R-CNN智能识别方法与应用研究

2022-12-13 07:26雷明锋张运波王卫东雷乃金曾灿肖勇卓黄娟龚琛杰

铁道科学与工程学报 2022年11期

雷明锋，张运波，王卫东，雷乃金，曾灿，肖勇卓，黄娟，龚琛杰

(1.中南大学土木工程学院，湖南长沙 410075；2.重载铁路工程结构教育部重点实验室，湖南长沙 410075；3.贵州贵金高速公路有限公司，贵州贵阳 550081；4.贵州路桥集团有限公司，贵州贵阳 550000；5.湖南铁院土木工程检测有限公司，湖南长沙 410075)

岩性是决定岩石强度的主要因素，对工程岩体分级(如隧道围岩分级)至关重要[1−2]。岩性判定不准确，要么导致围岩分级过于保守，增加工程投资；要么使得围岩分级过于冒进，加大施工风险[3]。岩性判定通常有手标本鉴定和岩石薄片鉴定2种方式，分别适用于常见岩石(如石灰岩)和复杂组分的岩石(如花岗岩)。岩石薄片鉴定是指在偏光显微镜下根据矿物颗粒的颜色、干涉色、突起和解理等特征对矿物颗粒准确定性，并且根据不同矿物颗粒的结构特征和含量对岩性做出判断[4−5]。传统的岩石薄片鉴定技术主要依靠专业人员镜下鉴定，各类矿物含量凭经验估计，这种方式费时费力且依赖个人经验。本世纪以来，先进信息技术取得了长足发展，数字图像技术与人工智能算法等也纷纷被引入到了岩石薄片鉴定技术中来。如，白林等[6−7]直接将岩石薄片图像以及对应的岩石类别作为数据集，采用深度学习方法划分图像类别从而实现岩性识别；胡祺[8]在此基础之上综合了单偏光、正交偏光以及两者融合的薄片图像分类结果，提高了分类精度；李娜等[9]提出了基于FeRNet的薄片图像特征提取网络结合分类模型，得到优于人工挑选的图像特征分类结果。上述方法虽然利用了薄片图像的全部信息，但需要大量的样本数据，无形当中限制了其推广应用。为此，郭超等[10−12]通过先提取薄片图像的色彩、纹理等特征，构建特征组及其对应岩石类别的数据集，再通过支持向量机、神经网络等算法训练并预测薄片图像类别。结果表明，该方法仅基于数百张样本的训练即可得到较高的识别准确率。除此之外，在根据岩石薄片矿物颗粒来识别岩性方面，也有诸多学者开展了较为丰富的研究工作[13−14]。范鹏召[15]采用无监督机器学习方法，根据岩石薄片图像的颜色、纹理特征以及像素空间位置对矿物进行聚类分割；赵启明等[16]采用SRM统计区域融合算法分割矿物颗粒，用灰度共生矩阵表征纹理，并将计算得到的共生矩阵的能量和相关性作为神经网络分类训练的样本参数，成功鉴别出石英和长石矿物。总之，将先进的信息技术引入到岩性识别领域是当前土木、地质和采矿等专业的研究热点和发展趋势。但纵观当前岩石薄片矿物颗粒检测与量化的研究成果，主要集中在图像阈值分割算法、神经网络、聚类算法等传统技术方法上，识别的准确率、智能化程度不高，特别是无法准确量化矿物成分的含量。而实际工作中，矿物成分的类别鉴定和含量分析是岩性判定的关键环节。近年来，基于深度学习的目标检测算法发展迅速[17−20]，已广泛应用于交通车辆检测[21]、土木工程结构病害检测[22−23]，甚至人体癌变细胞的医学检测[24]等领域，但鲜有应用到岩石薄片的矿物检测当中。为此，本文在对比分析当前盛行的几种目标检测算法适用性的基础上，优选Mask R-CNN深度学习算法[25]，并对该算法进行针对性改进以实现岩石薄片矿物颗粒智能检测和量化，为隧道围岩分级等工作中的岩性判定提供智能化技术途径。

1 Mask R-CNN岩性智能识别方法

Mask R-CNN为一基于局域卷积神经网络的模型，相对于目标检测网络Faster R-CNN[26]，Mask R- CNN扩展了一个mask掩码分支，可对目标进行像素级别的实例分割，从而实现目标矿物的精准检测和含量的量化统计，其检测流程如图1。

图1 Mask R-CNN目标检测与实例分割流程Fig.1 Target detection and instance segmentation process of Mask R-CNN

Mask R-CNN深度学习模型包含主干网络、区域建议网络、区域尺寸调节以及ROI(Region of In‐terest)分类4个环节，模型深度学习过程如图2。

图2 Mask R-CNN学习网络Fig.2 Learning network of Mask R-CNN

1.1 主干网络

主干网络包含Resnet101和FPN(Feature Pyra‐mid Network)。其中，Resnet101又包含Conv Block与Identity Block 2个模块，均属于残差神经网络。Conv Block用于改变图片维度大小，Identity Block用于加深网络。Resnet101提取特征图的过程如图3。

图3 Resnet101特征提取过程Fig.3 Process of Resnet101 extracting features

FPN[27]利用上一阶段Resnet101提取的C2～C5特征层，经过卷积、上采样和最大池化处理得到P2～P6等5个有效特征层，用作RPN网络的输入。

1.2 区域建议网络(Region Proposal Network)[26]

这一阶段的主要作用是训练先验框(即区域建议网络生成的检测框)的分类模型和位置调整模型。RPN生成的先验框以滑动扫描的方式遍历特征图的每一像素，接着计算先验框与真实框的交集与并集的比值IOU(Intersection Over Union)，设定IOU阈值以划分RPN训练样本的类别。

本研究设定：若IOU＞70%，先验框被标定为正样本；IOU＜30%则标定为负样本；其他先验框称为中性样本，不参与训练过程而被剔除。RPN总训练误差函数LRPN为：

其中：LRcls表示RPN阶段的二分类训练误差，Lreg表示RPN阶段的回归训练误差。表达式如下：

其中：i是先验框的索引；pi是第i先验框预测为正样本的概率，真实标签p*i为1表示先验框为正样本，为0表示先验框为负样本；ti表示包含预测框中心坐标、宽和高等4个参数的向量；ti*则表示真实框相应参数的向量；参数NRcls，Nreg表示批次数据量；λ为超参数，用于调节权重；LRcls(pi,p*i)表示二分类对数误差函数，对于回归误差Lreg(ti,t*i)，其表达式为：

其中，R为鲁棒性较好的smoothL1函数：

对于上述边界框回归，定义t与t*如下：

x，y，w，h分别表示边框的中心坐标、宽和高，x，xa，x*分别用于预测框、先验框与真实框(y，w，h同理)。

1.3 区域尺寸调节(ROI Align)

ROI为RPN输出的建议框。由于边框调整，大小不一，ROI Align用于统一边框的尺寸。

1.4 ROI分类

ROI分类是整个Mask R-CNN网络的最后一步[28]，包含：1) 预测框的多元分类；2) 预测框的位置精调；3) 生成掩码。针对单个ROI，设置误差函数LROI如下：

其中多分类误差函数Lcls为：

式中：p表示预测概率；-log(pu)为真实类别u的对数误差函数。

ROI的回归预测误差函数Lbox为：

式中：[u≥1]表示u≥1时值为1，u<1时值为0，这里λ设置为1，tu为对应类别u的偏移，v为真实边界框回归目标。

掩码层误差函数Lmask为平均二元交叉熵损失函数，针对某真实类别的ROI，Lmask只定义在该类别的掩码输出上，其他掩码输出对Lmask没有贡献。

综上，训练过程共涉及到5个误差函数，分别是RPN的分类误差和回归误差、ROI的多分类误差和回归误差、mask层的分类误差，总误差函数Lall为：

2 案例实验

2.1 实验环境

以构成组分相对复杂的花岗岩为例，基于前述Mask R-CNN方法开展验证实验。目标检测对象为花岗岩薄片图像中的黑云母、长石和石英3类矿物。运行软硬件环境为：Python 3.6，Keras 2.1.5，Cuda 10.0，Tensorflow-GPU 1.13.2，Cudnn 7.4.1.5等；AMD Ryzen Threadripper 3970X 32-Core@3.69 GHz CPU，64G DDR4 3 200 MHz，MSI RTX 3080 Ti SUPRIM X 12G GPU。

2.2 图像采集

研究实物样本为85块花岗岩薄片。直接采用相机透过显微镜目镜拍摄，照片大小为3 000×4 000 pixel，共获取了850张原始图像，典型图像如图4(a)。

2.3 创建图像数据集

样本图像经过裁剪、旋转、剔除等处理，容量扩充至2 200张，裁剪后图像如图4(b)。根据既有经验[29]，训练集、验证集、测试集的样本量按7:2:1的比例随机分配，则得到训练集图片1 540张，验证集图片440张，测试集图片220张。图5为典型的训练集标注样本。

图4 原始图像与裁剪图像Fig.4 Original image and cropped image

图5 标注样本示意图Fig.5 Schematic diagram of the labeled sample

2.4 模型训练

采用迁移学习的方法，将已训练好coco数据集的模型作为预训练模型，coco(Common objects in context)数据集是一个大型的目标检测、图像分割数据集，包含12万张自然图像，涵盖80多个目标类别(如红绿灯、小汽车、人等常见目标物)，这些类别当中虽然没有包含石英、长石和黑云母等矿物类别，但是该预训练模型已经具备了强大的特征提取能力，这有益于本文对岩石薄片矿物的识别，尤其是训练速度方面的提升。模型训练设置100个epochs，学习率为0.001。基于GPU图形处理单元，经2.5 h的训练，训练总误差Lall下降到0.125，验证总误差Lall下降到0.126，如图6，同时给出了Lall，LRcls，Lreg，Lcls，Lbox，Lmask的训练误差和验证误差曲线。从中分析可知，各误差函数均随训练次数的增加而减小，训练集与验证集差别越来越小，模型各部分收敛良好。

图6 训练集与验证集误差曲线Fig.6 Error curves of training set and validation set

2.5 模型测试

随机抽取测试集中的样本图像用于测试训练模型的识别效果，结果如图7，图8和表1。从中可见：

1) 样图中的黑云母、长石和石英3类矿物均能准确识别，且针对每个矿物颗粒生成了边界框，得到检测框位置信息，框内生成的掩码完美地贴合真实矿物颗粒的边界，如图7。

图7 部分测试集图像识别结果Fig.7 Image recognition results of part of the test set

2) Mask R-CNN根据框内的掩码计算矿物像素大小，如图8(c)，进一步统计出3种矿物的含量情况，如表1。

表1 矿物含量统计表Table 1 Statistics table of mineral content

图8 目标检测结果信息展示Fig.8 Information display of detection image

3 模型可靠性验证

为验证本文模型的可靠性，分别开展了Faster R-CNN模型以及手工标注检测结果的对比试验。评价指标采用深度学习目标检测效果评价的常用指标，即准确率P，召回率R以及平均准确率AP：

式中：TP表示预测为正类，实际上也为正类的目标数量，检测正确；FP表示预测为正类，实际上是负类的目标数量，检测出错；FN表示预测为负类，实际上是正类的目标数量，漏检；f(R)表示召回率R与准确率P的关系函数，由实验数据获得。

3.1 目标识别

1) 图9给出了Faster R-CNN与Mask R-CNN 2种方法的识别结果。从中分析可见，Mask R-CNN实例分割模型检出目标物位置后，可从像素级别进一步划分出目标的轮廓，这不仅提高了识别的准确性并为后续组分量化统计提供了直接条件。可见，相对Faster R-CNN模型，Mask R-CNN模型拓展了目标检测功能，具有优越性。

图9 Faster R-CNN与Mask R-CNN检测结果对比图Fig.9 Comparison of detection results between Faster R-CNN and Mask R-CNN

2) 进一步地，随机抽取一样本通过Mask RCNN模型识别并手工标注该样本图像进行对比实验，计算得到识别框与真实框(标注框)的IOU大小，如图10，横、纵坐标分别为真实框和识别框及其对应的类别，表格内数字表示对应横、纵坐标两框的IOU大小，设置IOU阈值为50%，即识别框与标注框的IOU≥50%时，认为识别框检测出了该标注框，若识别框与标注框类别一致，则认为识别正确，在图10中表示为蓝底，若类别不一致，则认为识别错误，在图10中表示为红底；若识别框与标注框的IOU＜50%，则认为识别框与标注框不相符，在图10中表示为白底。接着按照识别框分类的置信度由高到低排序，依次设置识别框分类的置信度为阈值计算准确率P和召回率R，绘制准确率与召回率关系如图11所示，计算阴影面积得到平均准确率AP值为0.675。

图10 识别框与标注框IOUFig.10 Intersection over union between the predicted box and the real box

图11 准确率与召回率关系Fig.11 Relationship between precision and recall

3.2 含量量化统计

表2统计给出了20张随机样本的Mask R-CNN模型识别检测和手工标注检测的矿物含量结果。表中，误差率r采用下式计算：

表2 标注测量与识别测量的含量大小对比分析Table 2 Contrast analysis table of content calculated by method of annotating and recognizing images

式中：S1，S2分别为手工标注检测和Mask R-CNN识别检测的含量值。

从中分析可知，黑云母、长石、石英检测误差率最大值分别为9%，13%，13%，如图12，3种矿物含量的检测误差率近似服从均值μ=0.3%，标准差σ=3.3%的正态分布(r～N(0.3%，3.3%2))，即在95%置信度下，识别误差率为6.9%。可见，本文所构建的Mask R-CNN智能识别与量化模型具有较高的准确性，可满足工程精度需求。

图12 识别法检测含量误差率分布直方图Fig.12 Histogram of the error rate distribution of the detection content of the recognized method

4 Mask R-CNN岩性识别模型参数讨论

式中：N表示识别样本的数量。

对图13中的数据进行了拟合，发现mAP值与IOU阈值的变化规律基本符合二次函数，左侧非常规曲线(用虚线表示)表示一般情况下不会设置IOU＜50%，否则识别结果不可靠。当IOU阈值等于58%时，mAP出现最大值0.71。由此可知，使用Mask R-CNN方法进行岩性智能识别时，IOU阈值设置在50%～70%之间为宜。

4.1 IOU阈值设置

研究过程发现，IOU阈值会影响Mask R-CNN检测的准确率和召回率，阈值设置过高，准确率提高，召回率降低；阈值设置过低，准确率降低，召回率提高。而较佳的阈值大小应同时兼顾两者，使模型的准确率和召回率均保持较高水平。图13给出了不同IOU阈值下的mAP值，即多个识别样本的检测准确率平均值：

图13 IOU阈值与mAP关系Fig.13 Relationship between IOU threshold and mAP

4.2 矿物含量计算

受采集方式的影响，单个样本往往视域狭窄，识别结果存在一定的离散性，难以反映矿物的真实含量。为此，研究过程中针对同一岩石样本，分别采集多张样本进行识别检测，并将检测结果的代数平均值与对应岩石类别自然矿物含量统计对比，结果如图14。从中分析可见，当识别样本数量的增加至3个时，识别含量代表值逼近标准花岗岩矿物含量基准线[5]，因此，实际工作中，采用Mask R-CNN方法检测矿物含量时，宜取3～5个样本为一组，并将其平均值作为识别的最终结果。

图14 矿物含量分布与图片数量关系Fig.14 Relationship between the number of pictures and the distribution of mineral content

5 结论

1) 优选Mask R-CNN模型并进行针对性改进，研究提出一种基于Mask R-CNN实例分割算法的岩石薄片矿物识别与含量量化统计方法，为诸如隧道围岩分级等工作中的岩性智能化判定提供了一种有效的技术途径。

2) 实例实验表明，Mask R-CNN模型可从像素级别划分出矿物目标轮廓并对其含量进行量化统计，在95%置信度下含量统计误差率仅为6.9%。可见，Mask R-CNN岩性智能识别模型相对于现有的Faster R-CNN模型以及手工标注检测方法，具有优越性和可靠性。

3) Mask R-CNN岩性智能识别模型参数讨论分析表明，实际工作中，采用该方法进行岩性智能识别时，IOU阈值设置在50%～70%之间；识别样本取3～5个为一组，并将其平均值作为识别的最终结果可保证智能识别结果的可靠性。