多特征融合高通量dPCR荧光图像识别

2022-04-28 04:18孙刘杰王文举
光学精密工程 2022年8期
关键词:候选框高通量注意力

孙刘杰,刘 丽,王文举

(上海理工大学 出版印刷与艺术设计学院,上海 200093)

1 引 言

数 字PCR(Digital Polymerase Chain Reaction,d PCR)是一种高灵敏度、高准确性的核酸绝对定量技术[1-3]。因其无需任何校正就能实现对目标核酸的绝对定量,且具有建立标准曲线的独立性、高灵敏度和特异性等显著优点。该技术在食品安全[4-5]、基因表达[6-8]、生物标记物发现[9-10]和疾病诊断等领域广泛运用。在dPCR中,快速准确地识别荧光图像中的阳性点对于保证检测的准确性至关重要。

传统的PCR荧光图像分析方法主要是通过分析荧光图像的阈值关系[11-12]、目标形状[13]、像素差异[14]、梯度信息等特点来实现荧光图像分割,刘聪等[15-16]在低浓度荧光液滴图像识别中先后提出了广义帕累托分布荧光微滴分类与改进的分水岭分割算法的荧光微滴识别方法。后者是基于前者的改进,主要是利用直方图均衡化和高斯滤波等预处理方法后使用局部自适应阈值分割提取目标,降低对图像灰度信息的依赖,最后结合荧光液滴形状等特点定义微滴黏连度函数,降低了分水岭分割中的错误分割比例,实现了荧光微滴分类,但识别率还有待提高。与阈值方法相比,机器学习通过提取尺度和梯度等特征,将已提取特征及图像对应标签输入到如支持向量机、自适应增强(Adaboost)[17]等分类器中进行训练分类,实现荧光图像目标识别。Zhao等[18]提出了基于种子的聚类分割和K-means算法:首先利用融合双通道的图像得到核分割结果,接着提取三组核特征将其中五个特征经过最小冗余最大相关选择后用于随机森林分类器进行训练,最后实现了较好的荧光图像细胞分割;Gadea等[19]使用随机森林分类器将CHARM与SIFT分别提取到的神经元荧光图像特征进行分类训练,实现了高含量荧光显微图像神经元较好的检测效果,但该方法未实现计数功能。由上可知,荧光图像阳性点识别费时费力,无法完全适应大数据下的荧光图像分析任务。而基于深度学习的荧光图像分析可以进行端对端的学习,实现大数据下的高通量dPCR荧光图像处理与分析。近年来,具有层次特征学习能力的深度学习方法在生物医学图像分析方面取得了重大突破。主要是通过构建深度学习网络结构模型,学习荧光图像的鲁棒性和高层次特征表示与语义信息等,实现荧光图像细胞的识别检测。Konfhage等[20]提出一种基于特征金字塔融合的荧光图像中复杂真核细胞的检测,首先用ResNet训练细胞核特征,再与减少了层数的ResNet的Mask R-CNN[21]模型的特征金字塔连接相加融合特征,使用细胞核信息来改进细胞检测和分割,细胞核通道用于提高细胞检测和质量。

本文提出了一种多特征融合高通量d PCR荧光图像识别方法来实现高通量dPCR荧光图像阳性点识别,提高荧光图像阳性点识别率。首先通过ResNet与特征金字塔提取荧光图像特征,再通过自上而下路径结构与注意力机制实现特征再融合;接着,区域建议网络RPN(Region Proposal Network)使用自适应交并比IOU(Intersection-over-Union),计算阳性点包围框置信度,输出阳性点候选框,然后将RPN得到的候选框使用ROI Align(Region of Interest Align)重新固定尺寸后,输入至全连接层和全卷积层得到阳性点识别结果。从实验结果可知,本方法具有识别率高、可靠性强等特点,在一定程度上使用有限的标记数据就能实现对高通量d PCR荧光图像阳性点识别,识别效果较佳且时间较短。

2 高通量d PCR荧光图像获取

本文研究对象为高通量d PCR基因芯片,在激发过程中使用窄带LED作为激发光源,经过二向色镜组的激发滤光片得到荧光激发波段的激发光,并使用准直透镜使LED光尽量均匀照射在基因芯片上。激发光经过二向色镜进入荧光显微物镜照射在基因芯片上,荧光染料吸收能量后产生荧光,最后通过成像适配物镜将荧光信息在CCD相机上成像。在成像物镜与CCD之间放入一块45°转向反射镜,在多次拍摄成像过程中,通过电控装置控制基因芯片水平位移台,顺序移动基因芯片,获取完整荧光图像并进行拼接[22],成像原理如图1所示。

图1 高通量dPCR荧光图像成像原理Fig.1 Principle of high-throughput dPCR fluorescence imaging

3 高通量d PCR荧光图像识别网络

本文所提出的多特征融合高通量dPCR荧光图像识别方法(HDFINet)如图2所示。第一部分为特征融合,ResNet网络提取荧光图像特征经过金字塔进行第一次特征融合,经由引入的自上而下的融合路径,实现荧光图像下层特征更有效提取,被上层特征所利用;同时,在自上而下结构中,引入注意力机制来分配荧光图像通道与空间权重,使特征映射能够更好地响应荧光图像特征。第二部分的RPN主要实现阳性点目标搜寻,为更好搜寻目标位置,使用自适应IOU来减少丢失荧光图像阳性点信息的可能性。第三部分为识别部分,ROI Align将荧光图像候选区域中阳性点特征重新固定尺寸后,输入至全连接层和全卷积层,进行类别与回归框回归,输出阳性点识别结果,并以不同颜色掩码表示每个阳性点所包含的像素区域。

图2 多特征融合高通量dPCR荧光图像识别Fig.2 Multi-feature fusion high-throughput dPCR fluorescence image recognition

3.1 特征融合

ResNet残差网络常用于提取特征,在深度神经网络中,下层特征通过几十个网络层到达顶层。经过许多层后,网络感受野扩大,细节信息保留较少,即高通量dPCR荧光图像阳性点较为低级别的信息丢失,如对比度与亮度和阴性点相差不大的阳性点,通过对下层特征的低级别信息特征进行重提取融合,可有效将阴性点与阳性点区分开。常见的结构即为ResNet与特征金字塔(Feature Pyramid Networks,FPN)结构,本文为将荧光图像下层特征层信息融入至上层特征层中,在FPN中引入自上而下的特征融合路径,通过注意力机制对荧光图像融合后特征进行权重分配,使特征层更好地响应荧光图像特征。

3.1.1 自上而下路径结构

本文使用ResNet来获得五个特征级别的特征层Ci(i=1、2、3、4、5),残差网络获得的荧光图像特征经自下而上特征融合后得到新的特征层,即Pi(i=2、3、4、5),计算过程见公式(1):

其中Up代表大小为2的上采样,Conv代表卷积核大小为1×1卷积。

通过引入自上而下的特征融合结构,利用来自较低层的精确定位信号来缩短信息路径并增强特征金字塔,如图3中蓝色框所示。

图3 自上而下路径结构Fig.3 Up-bottom path structure

自上而下的特征融合路径从P2到P5通过卷积块后经注意力机制模块得到每个特征级别Ni(i=2、3、4、5),得到的特征映射大小与相应级别Pi(i=2、3、4、5)的大小相同,N6为N5通过最大池化后经注意力机制模块所得,具体计算见公式(2):

其中ο代表注意力模块,Conv1代表卷积核大小为1×1卷积。Conv2代表卷积核大小为3×3卷积。

3.1.2 注意力机制模块(Attention module,AM)

注意力机制广泛应用于在图像分类[23]、姿态估计[24]与图像字幕[25]等领域,使网络更关注图像中的重要信息。荧光图像中阳性点目标小而密集,易导致阳性点误识别以及未识别,因此在自上而下的特征融合路径中引入通道与空间注意力机制[26],通道注意力的作用是增大有效通道权重,抑制无效通道权重,空间注意力在空间上对特征图不同位置分配不同权重,增强特征表达能力。

特征图F∈RC*H*W通过通道注意力产生通道权重MC∈RC*1*1,通道权重与特征图F逐元素相乘,得到新特征图,由于通道注意力得到的是特征图的全局信息,为了避免特征图中局部信息损失,本文将新特征图与特征图F求和,得到保留局部信息的特征图F',特征图F'经过空间注意力得到空间权重MS∈R1*H*W,特征图F与空间权重逐元素相乘,得到特征图F'',增强荧光图像特征表达,如图4所示,⊗表示逐元素相乘,GAP表示全局平均池化(Global Average Pooling),MLP表示多层感知机(Multilayer Perceptron)。注意力模块计算见公式(3),通道注意力计算见公式(4),空间注意力计算见公式(5),σ表示softmax。

图4 注意力模块Fig.4 Attention module

3.2 荧光图像阳性点自适应IOU

如图2中RPN部分所示,RPN的主要目的是搜寻荧光图像阳性点,通过交并比IOU的置信度分数大小,判断阳性点候选框与阳性点边界框重合度,IOU值越大说明阳性点候选框与阳性点边界框重合度越高,识别分割结果越精确;但在训练过程中偏大候选框易因IOU值稍微偏小被忽略,对于高通量d PCR荧光图像阳性点识别,偏大阳性点候选框能更好地包含被识别阳性点。为了解决部分候选框过小而导致阳性点信息丢失的可能性问题,在RPN中引入惩罚系数λ重新设定IOU的大小。首先,对于高通量dPCR荧光图像阳性点识别,本文更希望候选框能够涵盖阳性点识别区域,本文将候选框相对大小在原候选框相对大小基础上扩大5%左右;扩大的新候选框尽可能将阳性点信息全面保留,从而减少阳性点丢失信息的可能性。此外,本文在传统的IOU标准定义中引入惩罚系数λ来重新定义IOU,传统的IOU标准定义为:

式(6)中S1为候选框,S2为真实值,对于区域S2-S1∩S2即未包含的阳性点区域惩罚力度和S1-S1∩S2的惩罚力度一样。当λ=0时,式(6)与式(7)相同,IOUnew计算公式定义为:

本文中λ=0.3,自适应IOU后的RPN层使得包含更多阳性点信息的候选框被保留。

3.3 荧光图像阳性点识别

RPN部分将搜寻到的荧光图像阳性点候选框经过置信度排序筛选后输入进ROI Align,ROI Align将荧光图像候选区域中阳性点特征重新固定尺寸后,输入至全连接层和全卷积层。这个过程分两步同时进行,第一个分支由一个256通道卷积层和两个1 024维全连接层组成,卷积核大小为7×7。一个全连接层用于荧光图像阳性点边界框回归,对阳性点进行定位,另一个全连接层对阳性点进行概率估计,判断目标是否属于阳性点进行分类预测。第二个分支由6个卷积层、一个2×2反卷积层和一个上采样层构成,前5个为256通道卷积层,卷积核大小为14×14,经过反卷积和上采样后得到一个28×28大小特征图。经过卷积和sigmoid函数进行输出,通过设定置信度阈值为0.5得到荧光图像阳性点分割掩码。最后将荧光图像阳性点识别结果输出。具体过程如图5所示:

图5 荧光图像阳性点识别Fig.5 Recognition of positive points in fluorescence images

4 实验与结果

本文使用已标注荧光图像数据集进行实验。GROIE[27]克服现有ROI(感兴趣区域)提取的局限性,即从FPN中只选择一个(最佳)层。提出FPN的所有层都保留有用的信息,引入非局部构建块和注意机制来改进Mask R-CNN,并在检测识别实验中取得良好结果,本文在荧光图像数据集上进行了实验,并将实验结果与本文提出的HDFINet进行了比较。VarifocalNet(VFNet)[28]引入IOU感知分类分数与变焦损失对大量候选框进行精确排序,提升密集物体识别性能;本文中的荧光图像阳性点分布密集,因此本文在VF-Net中验证了荧光图像的识别效果。YOLOv4[29]是 一个高效、强大的单阶段检测 模型。为了比较,本文在荧光图像数据集上验证了YOLOv4的效果。此外,本文进行了消融研究,选择Mask R-CNN作为消融研究的基线,以验证所提出的注意力机制和自上而下路径结构的有效性。实验结果表明,本文提出的方法性能优于Mask R-CNN、GROIE、VF-Net、YOLOv4。

4.1 实验环境

为验证文中提出的高通量d PCR荧光图像阳性点识别网络有效性,使用CCD相机拍摄高通量dPCR荧光图像,仿真实验平台为Python3.7,所使用计算机和配置环境的硬件参数为处理器Inter(R)Core(TM)i7-10700K。显卡芯片NVIDIA GeForce RTX 2070 SUPER,显卡芯片内存8 G。

4.2 数据集准备

本文根据高通量dPCR荧光图像阳性点的形状与亮度特征,使用霍夫圆检测并通过标注者二次筛选实现荧光图像阳性点的半自动标注,将标注好的图像转换为COCO注释格式。在本文实验中,选择并使用已标注高通量d PCR荧光图像数据集的6 500幅图像,从数据集中随机选择6 000幅图像作为训练图像,500幅图像作为测试图像,测试图像中共79 119个阳性点。

4.3 实验评价标准

本文用公式(8)、(9)、(10)作为评估标准。TPR(True Positive Rate)表示真阳性率,PPV(Positive Preditive Value)表示阳性预测值,TP(True Positive)表示正确识别的阳性点个数,FP(False Positive)表示误识别为阳性点的个数,FN(False Negative)表示未被识别的阳性点个数。为全面评估模型,引入综合指标F1[30]对TPR和PPV进行综合评价,用来衡量模型优劣,F1的值越大,说明模型识别能力越好。本文使用F1来评估结果。

4.4 实验结果分析

4.4.1 消融实验

本文选择Mask R-CNN作为消融研究的基线。为了公平比较,所有实验数据和参数设置保持不变。Mask R-CNN with B表示加入自上而下结构,Mask R-CNN with AM表示加入注意力机制。如表1消融实验结果所示,在Mask RCNN中加入自上而下的结构后,模型指标F1提高了0.52%。通过增加了自上而下的结构,缩短了信息路径,并通过来自较低级别的精确定位信号增强了特征金字塔。

表1 消融实验结果Tab.1 Results of ablation experiment

在Mask R-CNN中随着对FPN结构增加通道与空间方向上注意力机制后,模型指标F1提高了0.59%。主要是通道注意力与空间注意力产生具有不同权重的荧光图像注意力图,增强荧光图像阳性点处特征,并减轻荧光图像背景影响。

此外,通过对自上而下的结构增加注意力机制,即HDFINet,模型指标F1提高了0.75%。消融实验说明:引入自上而下结构与注意力机制能有效提高网络的综合指标。图6是消融实验结果图,颜色表示某一颜色区域的像素都属于某一阳性点,所有阳性点颜色都使用不一样伪彩色掩码表示。从图6可知,引入自上而下结构与注意力机制后的网络已经全部识别出阳性点,而只引入其中一种或不引入,都存在未识别出来的阳性点或误识别,图中以红框框出。

图6 消融实验结果图Fig.6 Ablation experiment results

4.4.2 对比实验

在本节中,本文将提出的方法HDFINet与Mask R-CNN、GROIE、VF-Net和YOLOv4四种方法进行了比较。表2显示了不同方法下识别结果的比较,图7为不同方法下的识别效果图,图中用红色方框将未识别以及误识别的部位框出。

表2 不同方法识别结果Tab.2 Recognition result of different methods

图7 不同方法实验结果图Fig.7 Experimental results of different methods

GROIE认为FPN的所有层都保留有用的信息,并引入了非局部构建块和注意机制,然后使用改进的Mask R-CNN网络对目标进行识别。GROIE对荧光图像阳性点的F1指标值比本文方法低2.24%,GROIE将FPN所有层的荧光图像特征信息聚合,引入了非必要的背景和无关信息,引起ROI提取效果不佳。VF-Net在COCO数据集上实现了更强的检测性能,但在荧光图像数据集上效果不佳,基于无锚的密集检测器对于荧光图像数据集中小而密集的阳性点搜寻结果较差,F1指标值比本文方法低5.26%。YOLOv4为了提升准确度,加深了网络深度,获得更大的感受野,同时引入注意力机制通过路径聚合重组特征信息,网络层数加深以及感受野的扩大使荧光图像保留的细节信息变少,且荧光图像中的阳性点目标小而密集,使得在识别阶段的效果较差且误检较高,F1指标值比本文方法低2.49%。本文提出的HDFINet网络与Mask RCNN相比,F1指标值提高0.75%。

5 结 论

本文在基于高通量dPCR荧光图像阳性点特征基础上,设计了多级特征融合结构,通过在Mask R-CNN中添加注意力机制和自上而下的结构来构建;添加注意力机制和自上而下的结构增强了荧光图像较为低级结构信息从下层到顶层的传播,并提出了一种具有较高识别率的多特征融合高通量d PCR荧光图像识别方法(HDFINet)。实验结果表明,与基线模型Mask R-CNN相比,有效提高了高通量dPCR荧光图像阳性点识别率,综合指标F1提高了0.75%。与YOLOv4、VF-Net、GROIE相比,本文方法综合指标F1最高。说明本文方法对高通量荧光图像的有效性和先进性。对其他荧光图像分析也具有一定研究参考价值。

猜你喜欢
候选框高通量注意力
让注意力“飞”回来
面向自然场景文本检测的改进NMS算法
高通量血液透析临床研究进展
基于深度学习的重叠人脸检测
Ka频段高通量卫星在铁路通信中的应用探讨
基于单帧标注的弱监督动作定位
一种针对特定目标的提议算法
“扬眼”APP:让注意力“变现”
中国通信卫星开启高通量时代
A Beautiful Way Of Looking At Things