基于改进的Faster R-CNN的息肉目标检测和分类方法

2023-02-27 02:53杨昆原嘉成高聪孙宇锋路宇飞常世龙薛林雁
关键词:置信度腺瘤息肉

杨昆,原嘉成,高聪,孙宇锋,路宇飞,常世龙,薛林雁

(1.河北大学 质量技术监督学院,河北 保定 071002;2.计量仪器与系统国家地方联合工程研究中心,河北 保定 071002;3.河北省新能源汽车动力系统轻量化技术创新中心, 河北 保定 071002;4.河北远东通信系统工程有限公司,河北 石家庄 050200)

结直肠癌(CRC)是一种全球性的高发性、高死亡率的疾病,在2020年的世界卫生组织癌症报告统计中,结直肠癌在全世界的发病率排名第三,死亡率排名第二[1].大部分结直肠癌由腺瘤性息肉演变而来,这一过程被称作结直肠腺瘤-癌序列[2].结直肠息肉是隆起于结直肠黏膜表面的肿物,其病理类型包括腺瘤性息肉、增生性息肉和其他息肉[3].临床上腺瘤是结直肠癌的癌前状态,因此,早期检测并切除腺瘤是预防结直肠癌的有效手段.而针对非癌变性的增生性息肉,美国胃肠内窥镜协会[4]建议保留直肠乙状结肠的增生性息肉,无需采样和内窥镜切除.此外,研究表明对于微小的非肿瘤性病变,内镜下切除或活检会增加不必要的黏膜损伤和医疗负担[5].

目前,结直肠息肉的最佳筛查方法仍然是结肠镜检查,但是通过内窥镜成像预测息肉的类型仍然不可靠[6],Sharma等[7]通过白光成像预测息肉类型的准确率为45%,虽然作为虚拟色素内窥镜之一的窄带成像(NBI)能够有效地提高结直肠病变组织学诊断的准确性,但是仍然达不到病理诊断的标准,另一项研究中[8],12名专业的胃肠病学专家经过培训后进行评估,只有3名通过光学活检得到了满意的结果.息肉体积小,不易识别,且在人工诊断的过程中会受到多种负面因素的影响,例如医生的经验不足、疲劳、诊断时间的限制等,因此在结直肠病变的临床诊断中仍然有较高的漏诊率和误诊率.

随着深度学习的发展,人工智能(AI)在辅助诊断医学图像方面具有很高的潜力[9].在内窥镜图像下应用AI算法,可提高息肉的分类和检测精度,早期的机器学习方法通过提取息肉的颜色[10]、纹理[11]、形状[12]、局部二值模式[13]以及它们的组合特征来进行目标检测,随后,由于受到人工神经网络的启发,深度学习作为机器学习的一个子领域开始兴起,不需要人工设计提取息肉的特征提取器,可以从原始数据中自动学习获得特征.例如,Pacal等[14]采用改进的YOLO系列网络对息肉进行目标检测,在公开数据集ETIS-Larib[15]中获得了91.62%的精度.除此之外,已有利用卷积神经网络(convolutional neutral network,CNN)对息肉进行分类的研究,Komeda等[16]利用CNN分类腺瘤和非腺瘤性息肉,10次交叉验证的准确率为75.1%.在另一项研究中Byrne等[17]同样基于CNN模型,以98%的灵敏度(sensitivity)、83%的特异度(specificity)和90%的阳性预测值(PPV),高精准的区分腺瘤和增生性息肉.由于缺少具有息肉类别信息并标注的公共数据集,以上的研究在息肉的检测和分类中虽然取得了突破性的进展,但是缺少在目标检测的同时对息肉进行分类的研究.

本研究构建了从河北大学附属医院和Colonoscopic Dataset[18]采集的腺瘤和增生性息肉的数据集,使用了Faster R-CNN[19]结合了特征金字塔(feature pyramid networks,FPN)[20]作为基础网络架构,然后分别对主干网络的特征提取、目标检测框的回归和非极大抑制(non-maximum suppression,NMS)进行了改进,使特征图组间获取了不同权重的特征,丰富了特征图的信息,并且提取目标检测框的每条边的位置信息,使边界框回归更加准确,再通过改变非极大值抑制的方式,较大程度地保留了相邻息肉的目标检测框.本文提出的改进的Faster R-CNN网络有效的提升了2种类别息肉的检测精度和查全精度,提升了整体模型的检测性能.

1 实验方法

1.1 Faster R-CNN网络

Faster R-CNN是在R-CNN、Fast R-CNN基础上加以改进,替换了选择性搜索(selective search, SS)算法,引入了区域候选网络(region proposal network,RPN).RPN是一个全卷积网络,具体分为2个分支,一部分是通过SoftMax分类器来判断锚框(anchors)属于正样本或者负样本,另一部分利用边界框回归(bounding box regression)修正anchors获得精确的候选区域(region proposal).原始的Faster R-CNN在特征提取阶段运用了VGGNet[21],VGGNet会耗费更多计算资源,并且随着网络深度的增加使得参数量暴涨,导致更多的内存占用,产生梯度消失现象.在ResNet[22]提出之后,更多地研究采用了ResNet作为Faster R-CNN的backbone,并且加入了特征金字塔网络FPN,来检测不同尺度的目标,使顶层特征通过上采样与低层的特征进行融合,产生了多尺度的特征融合信息,然后分别通过主干网络与FPN中提取的原始特征图和RPN产生的候选区域后进行感兴趣区域池化(ROI Pooling)操作,再通过全连接层进行分类和边界框回归操作.

1.2 改进的 Faster R-CNN网络

图1显示了改进Faster R-CNN的腺瘤与增生性息肉的检测与分类的算法框架,本文改进的Faster R-CNN网络使用了ResNeSt[23]作为主干网络,实现了跨通道之间的信息交互,使提取到的息肉特征信息更全面.然后利用ResNeSt与FPN来提取特征,并且使用了感兴趣区域对齐(ROI Align)替换了原始的ROI Pooling,在ROI Align之后引入边缘感知特征的边界定位(side-aware boundary localization,SABL)模块[24]对预测边界框进行回归,传统的边界框回归只是关注于预测的中心点和边界框的尺寸,SABL模块的回归更关注于边界框的每条边,使边界框的每条边与目标边界对齐,更精准地检测息肉的位置信息.并且针对结肠镜下较多息肉相邻的情况,将NMS替换为Soft-NMS[25],通过降低不符合规定阈值的被检框的置信度,能较大程度地保留相邻息肉的目标检测信息.

图1 对于腺瘤与增生性息肉改进的Faster R-CNN算法框架

1.3 主干网络

原始的Faster R-CNN主干网络VGGNet逐渐被ResNet替代,从ResNet、ResNeXt[26]到ResNeSt,瓶颈模块作为卷积神经网络的基本构建模块进行了改进.ResNet瓶颈模块中的1×1卷积的作用是对通道先降维再升维,在3×3的卷积核提取特征的过程中以较低维度进行卷积运算,减少了计算量,提高了计算效率.ResNeXt模块采用了分组卷积的思想,将输入通道划分为不同组别,增加了路径数量,分别对不同的路径进行卷积核的运算,最后将输出汇总求和.

如图2中,ResNeSt基本模块架构借鉴了ResNeXt的思想,沿通道维度将输入分为K个分支,第k个分支记为Cardinalk,然后将每个Cardinal更细粒度的分为R个分组,第r个子组表示为Splitr,因此原始的输入特征图沿着通道维度共分为G=K×R组.利用分割注意力(split-attention)计算每个Split的权重,再融合后作为每个Cardinal的输出,然后将输出的特征图在通道的维度拼接到一起,最后将ResNeSt模块的原始输入特征与其融合作为输出.

图2 ResNeSt模块结构

每个分支中的分割注意力模块如图3所示,通过计算每一个分支拆分的特征图的权重,然后再进行融合.如式(1),第k个分支的组合特征由r个子组按元素求和融合得到.如式(2),融合后的特征可以通过全局平均池化实现聚合通道维度的全局上下文信息.如式(3),然后通过全连接层来自适应地计算每一个子组的权重,对通道权重向量进行修正.如式(4),最后由子组特征图与子组权重进行加权组合,由此得到每个分支的加权融合特征.

图3 分割注意力模块结构

(1)

(2)

(3)

(4)

1.4 特征金字塔

通过ResNeSt的最后一层特征进行预测并不能够提取到目标的多尺度信息,因为低层的特征语义信息较少,高层的特征语义信息较丰富,但是目标的位置信息较粗略.因此结合FPN结构来解决目标检测中多尺度变化问题,如图1所示,通过将ResNeSt不同层的特征图进行了自上而下(top-down)、横向连接(later connection)的形式的融合.首先分别建立在ResNeSt的conv2,conv3,conv4和conv5的输出上,构建了{C2、C3、C4、C5}4个尺度的特征,而4个对应融合后的特征是{P2、P3、P4、P5}.自上而下路线采用上采样(upsampling)进行,前一层的特征经过1×1的卷积核改变通道数,使前一层的特征能够与本层特征进行信息融合,因此,融合后的卷积层既得到了低层特征较高的分辨率,也具有了较高的语义信息,提高了对腺瘤性和增生性息肉的目标检测的准确性.

1.5 边缘感知特征的边界定位

边界框回归用于将附近的候选区域与目标对齐,精确的定位需要对边界框的每条边都精准地放置,然而,原始的Faster R-CNN的边界框回归方法只关注于预测中心以及尺寸,忽视了预测边界框的每条边.尤其在锚(anchor)与目标之间存在多种可能的位移时,相较于整体移动框以及修正尺寸,使框的每条边与目标边界对齐更简便.因此,本研究使用基于其周围的上下文信息分别定位的SABL模块以取代传统的边界框回归.

SABL模块的整体框架如图4所示,通过ROI Align得到的特征图通过边缘感知特征提取方法来提取具有边缘感知的特征,将目标空间分为多个桶区域(buckets),确定边框与buckets的位置关系,然后使用分桶(bucketing)边缘定位做初步的粗略估计,根据每个bucketing的置信度取平均与先前的分类得分相乘,计算得到NMS得分,再通过回归精细化偏移量得到准确的位置信息以及最终的NMS得分.

图4 SABL模块内部结构

边缘感知特征提取是通过RPN提取、ROI Align操作的特征图来提取边界框的上下左右4个位置的预测值,预测左右边界时将特征沿y轴叠加,预测上下边界时将特征沿x轴叠加,首先将特征图通过2个3×3的卷积层得到特征F,再分别通过2个1×1卷积进行自注意力信息提取,得到x、y方向上的特征映射Mx、My,分别将Mx、My作用于F,如式(5),得到x、y轴上的一维特征图Fx、Fy,经过上采样以及切割后得到Fleft、Fright、Ftop、Fdown.

(5)

得到的4个边界特征大小是1*7维,7个维度代表7个bucket,采取二分类的方式判断边界与bucket之间的位置关系,并基于bucket的中心回归边界的精细位置,最终通过调整NMS得分使回归边界框能够拥有高精确的定位、高类别的置信度.

如式(6),通过训练交叉熵损失函数(Cross_entropy loss)用于寻找bucket的位置损失Lbucketing.

(6)

其中pk表示真实值,qk表示预测值.

如式(7),并且用Smooth L1 loss计算bucket和真实边界框位置的损失Lreg.

(7)

其中x表示为真实值和预测值的差值.

1.6 改进的非极大值抑制

NMS在目标检测中来提取置信度高的目标检测框,抑制置信度较低的误检框,在对腺瘤性和增生性息肉进行模型输出目标框时,会在同一目标处出现大量重复的检测框,NMS针对重叠的候选框,若大于规定的某一阈值则删除,低于阈值的将保留,但是如果目标周围出现了大于规定阈值的同样类型的目标检测框,NMS也会将其删除,由于在结直肠中会出现多个息肉聚集的情况,本研究用Soft-NMS代替NMS,如式(8),当出现IoU大于阈值对应的检测框时,置信度分数乘上一个小于1的系数,能够通过权重来降低检测框原有的置信度,重叠区域的增大会导致置信度更快的衰减.

(8)

其中,M为当前得分的最高检测框,bi为待处理的检测框,Nt为设定的阈值,Si设定为当前处理框的预测分数.

2 实验研究

2.1 实验环境及流程

本实验通过构建腺瘤与增生性息肉的数据集,在Faster R-CNN网络下训练数据并测试,再对模型进行改进,运用评价指标来验证网络模型效果并调整到最优.所有网络模型均在Ubuntu 18.04系统下,核心配置为Inter Core i7-7800*1以及128 G的DDR4运行内存,采用GPU为Nvidia GeForce GTX 2070*1、Pytorch 1.3.1、Cuda 10.2.训练中的参数设置:批处理大小(Batchsize)设置为2,输入图片尺寸统一为1 333*800,学习率设置为0.01,权重衰减设置为0.000 1,动量设置为0.9,用随机梯度下降法(SGD)优化损失函数,共进行了20个周期(epoch)的训练.

2.2 数据收集

在目前可公开的数据集中,例如CVC-ClinicDB[27]、Kvasir-SEG[28]等,都只收集了息肉的图片或视频帧,并没有注明息肉的类型,Colonoscopic Dataset数据集虽然收集并注明了腺瘤性、增生性和锯齿状息肉的视频,但是由于病人样本数较少,会造成过拟合的现象.因此,在本研究中,第1部分数据来源于2019年6月至2020年9月,在河北大学附属医院进行的结肠镜检查的654个病人的图像和病理报告,并且挑选出其中至少含有一个息肉的图片,经过了结肠镜医师的证实,同时所有息肉的结肠镜图像均由结肠镜医师精确标注.在收集并标注的图片中,医师根据病理报告证实为腺瘤性息肉的图像有1 928张,证实为增生性息肉的图像有234张.第2部分数据来源于公开数据集Colonoscopic Dataset中60个病人的结肠镜视频,将其转化为视频帧并手动标注,其中增生性息肉图像826张,腺瘤性息肉图像40张.一共收集了腺瘤性息肉图像1 968张(64.99%),增生性息肉图像1 060张(35.01%),按照训练集∶测试集=4∶1的比例将收集的图像分为2部分:1)训练集:2 426张息肉图像,其中包括1 582张腺瘤性息肉图像和844张增生性息肉图像,通过训练集的图像拟合模型、调整参数,达到最优效果.2)测试集:602张图像,其中包括386张腺瘤性图像,216张增生性息肉图像,通过测试集的图像评估训练模型.

2.3 图像增广

图像增广技术是通过对图像进行旋转、放缩等一系列的处理后,产生了多倍与原图相似但不相同的图像.为了扩充数据集,并且使模型有泛化能力,对训练集的2 426张图片进行了图像增广处理.针对数据集的图像,制定了2种类型的增广方式,第1种:对图像进行了放缩、旋转、错切等操作,此种方式保留了图像自身的像素,只改变了图像中感兴趣区域的位置信息.第2种:对图像进行了锐化、仿射变换等一系列改变像素值的图像增强方式.采取的2种不同方式的图像增广处理使图片扩充了13倍.

3 结果及分析

3.1 评价指标

本文采用精确率(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)、平均精度的均值(mean Average Precision,mAP)对腺瘤、增生性息肉检测和分类的算法进行评价,如式(9)~(12).由P、R值得到每个类别的P-R曲线,曲线下的面积则为AP,mAP反映了在所有类别的精度表现,在目标检测中通常用mAP作为评估算法精度的最佳指标.本文通过设定不同的阈值(IoU)分别对算法的性能进行评价.其中IoU表示2个框(A、B)之间的重合度,如式(13)所示.因此mAP0.5和mAP0.75分别表示:当设定IoU为0.5和0.75时mAP的取值.

(9)

(10)

其中,TP、FP和FN分别表示正确地识别出正样本的数量、错误地识别成正样本的数量和错误地识别成负样本的数量.

(11)

(12)

(13)

3.2 测试结果

本研究将FPN结构融合到Faster R-CNN的网络作为基准(baseline),并且以ResNet50作为backbone,表1统计了改进Faster R-CNN的每个模块所产生的对mAP、mAR以及IoU取0.5时的mAP值的影响,改变了特征提取的ResNet50,替换为ResNeSt50,提升了平均精度的均值.并且用到了边缘感知的边界定位(SABL)改变了边框回归的原始方法,无论是精度与召回率都有较为明显的提升,而通过Soft-NMS更加关注息肉的召回率,虽然在IoU取0.5时比NMS低0.1%,但是提升了5.5%的平均召回率的均值,基于对息肉图像的考量,查全能够降低漏检的概率,作为医学辅助诊断的手段,更多的需起到提示医生的作用,并且在10个阈值上的平均精度均值较之前提升了1.4%.

表1 模块结构对于测试结果的影响

表2的统计结果是在IoU为0.5时,测试的图像在不同的网络模型下,腺瘤性息肉和增生性息肉的AP值,其SSD和RetinaNet为单阶段目标检测网络,Cascade R-CNN为双阶段的级联型目标检测网络模型.由表可见Faster R-CNN的AP表现结果优于其他网络,改进后的Faster R-CNN相较于之前分别提升了1.8%和2.8%,并且基于精确率与召回率绘制了每个类别的P-R曲线,如图5所示,改进后的Faster R-CNN在每个类别的P-R曲线最终都优于其他网络模型.

表2 不同类别的测试结果与其他网络比较

图5 不同网络模型对于不同类别息肉的P-R曲线

表3统计结果的mAP和mAR是在IoU为0.5~0.95的所有阈值下的结果取平均值,其中每隔0.05取一个IoU值,分别代表所有类别、阈值的平均精度的均值和平均召回率的均值,从表中可以看出,在腺瘤和增生性息肉的检测和分类中,改进的Faster R-CNN网络相较于原网络和其他网络,AP0.5、mAP0.75、mAP和mAR都有显著提升.

表3 所有类别的测试结果与其他网络比较

如图6展示了腺瘤性和增生性息肉检测和分类的结果对比,蓝色框和文字为测试结果的金标准,分别能表示出息肉的位置和息肉的类别,绿色框和文字代表检测到的增生性息肉和网络判断的类别与置信度,黄色框和文字代表检测到的腺瘤性息肉和网络判断的类别与置信度.第1组漏检的增生性息肉在改进的网络测试中提取到了更深的特征,由此检测到并准确地分类.针对第2、3组测试图像,提升了2种类型息肉的置信度,有更大的概率确认此息肉的类型,且有效提升了平均准确度的均值.

图6 改进前后的网络模型的测试结果对比

4 结论

本文针对区分腺瘤和增生性息肉的难题,对Faster R-CNN的特征提取、边界框回归和非极大值抑制分别进行了改进,提取了更深入的特征的同时获得了较高的分类置信度,并且Soft-NMS的操作相较于改进之前在保证精度的同时获得了更优的查全率.通过实验调整出最优的参数,结果显示,改进后的Faster R-CNN网络获得了86.8%的mAP0.5值,相比改进之前提升2.3%,能够更加准确地检测出息肉,同时也能获得更高的分类精度,对于AI未来的临床辅助诊断提供了一个潜在的方向.

猜你喜欢
置信度腺瘤息肉
硼铝复合材料硼含量置信度临界安全分析研究
白兆芝治疗胃息肉经验
后肾腺瘤影像及病理对照分析
你真的了解子宫内膜息肉吗
正负关联规则两级置信度阈值设置方法
姜兆俊治疗甲状腺腺瘤经验
胸腺瘤放射治疗研究进展
置信度条件下轴承寿命的可靠度分析
ER、PR、Ki-67在绝经后子宫内膜息肉中的表达
息肉样黑素瘤一例