基于SVGG16的乳腺肿块图像识别

2021-08-13 08:48盘安思徐胜舟程时宇佘逸飞

中南民族大学学报（自然科学版） 2021年4期

盘安思,徐胜舟,程时宇,佘逸飞

(中南民族大学计算机科学学院 & 湖北省制造企业智能管理工程技术研究中心，武汉 430074)

乳腺癌是女性中最常见的癌症，也是癌症死亡的主要原因[1].尽早发现并诊断对患者后期的治疗和康复具有重要意义[2].早期癌症肿块的发现是治疗过程的决定性步骤之一，在阻止甚至是控制疾病进展方面发挥着关键作用.目前乳腺癌检查技术主要包括乳腺查体、超声、X线摄片、磁共振成像(Magnetic Resonance Imaging, MRI)等.X线摄片可以发现乳腺中的簇状微钙化和肿物，是鉴别和筛查癌组织最有效和最主要的诊断工具.然而，由于乳腺X线摄片是单通道的灰度图像，往往存在对比度较低、不同组织的边界不明显、同一组织特征不明显等问题，使得早期的癌性病变在病理和颜色密度上较难被发现.在早期诊断中，需要具有丰富经验的临床医生的反复阅读并确认，加重了医生的工作量.计算机辅助诊断系统(Computer Aided Diagnosis, CAD)可以在短时间内检测到乳腺X摄片中的病变，加快对特定患者的治疗进程.

当前国内外学者针对医学影像识别(包括乳腺X线摄片)进行了广泛研究，相继提出了众多识别算法，大致可分为两类：第一类是基于传统机器学习的识别方法，第二类是基于深度学习的识别方法.传统机器学习方法在进行乳腺图像的识别时，首先需要通过人工的方式提取乳腺图像中肿块的特征，再将提取到的特征作为机器学习方法的输入.PRATIWI等[3]基于灰度共生矩阵的径向基人工网络进行乳腺肿块影像的自动分类，与人工神经网络相比，对乳腺图像中良/恶性肿块的识别准确率提高了2%.ZHANG等[4]基于单类核主成分分析方法，放大不同类别样本之间的特征差异，缩小同类样本之间的特征差异，然后对乳腺影像进行特征提取，再使用核主成分分析方法进行置信度评分和分类，该方法在包含361个乳腺影像的数据集上，准确率达到了92%.

虽然基于传统机器学习的方法对乳腺图像的识别取得了一定的成果，但它需要人工提取图像的特征，所提取特征的有效性会直接影响到识别结果.另外，乳腺X线摄片是单通道的灰度图像，对比度较低，特征的手动提取需要深厚的医学背景和丰富的临床经验，增加了对肿块进行特征提取和识别的难度.

近年来，深度学习方法在计算机视觉和模式识别等应用领域取得了很大进展，成为当前的研究热点之一.一些学者应用深度学习技术进行乳腺肿块图像的识别.孙泽宇等[5]在采样制作的切块数据集上利用迁移学习的方法，使用卷积神经网络(Convolutional Neural Network, CNN)对乳腺良性肿块、恶性肿块以及钙化病灶进行分类，达到93%的准确率.孙利雷等[6]使用不同尺寸卷积核的双路CNN模型对不同粒度的特征进行提取，并用于乳腺X线摄片良性肿块与恶性肿块的识别；ZHU等[7]基于稀疏标签分配的深度多实例网络对乳腺X线摄片切片进行是否含有恶性肿块的识别；KOOI等[8]使用自己设计的CNN模型，在乳腺X线摄片数据集上取得超过仿射医生的软组织病变分类结果.深度学习技术是一种最小化使用图像处理和手工提取特征的机器学习算法，其最重要的优点是通过自动提取图像中的低级和高级特征，并在相邻层之间对这些特征进行非线性变换，得到特征图，然后将特征图输入到分类器中，这样就可以用不同的特征图来提取图像中的形状、纹理、颜色和密度等信息.

为进一步提升对乳腺X线摄片的识别性能，本文对深度学习中的经典模型VGG16做了改进，并与其他的CNN模型进行识别性能的比较.

1 乳腺肿块图像识别算法

1.1 算法原理

从本质上来讲，利用CNN对乳腺X线摄片进行识别是一个逻辑回归的过程.在CNN中，卷积层使用多个卷积核对输入的图像进行卷积运算，得到多个特征图.将捕获到的图像特征送入分类器进行逻辑回归，最后输出两个概率值，以此判断输入的图像是否含有肿块.

通常CNN需要在大量的标注图像上进行训练以达到理想的识别效果，但标注好的乳腺X线摄片数量非常有限，而且目前国内尚无专门用于乳腺肿块图像识别的公用数据库.本文采用美国南弗洛里达大学的The Digital Database for Screening Mammography(DDSM)[9]数据集来评估乳腺肿块图像识别算法的性能.通过模板匹配算法[10]，从该数据库中获得879幅感兴趣区域(Region of Interest, ROI).由于其数量仍相对有限，因此使用相关技术对其进行数据增强.

1.2 SVGG16的肿块图像识别模型

SIMONYAN等在LeNet[11]和AlexNet[12]的基础上提出了VGGNets[13]模型，使用更多的卷积层，增加了网络的深度，同时使用更小的卷积核和更小的步长，在当年的ILSVRC竞赛中取得了巨大的成功.原始的VGG16模型结构如图1(a)所示，主要包括5个卷积层模块，2个全连接层和1个输出层.每个卷积层模块中包含2个或3个卷积层，以及1个最大池化层.在CNN模型中，大量的卷积层被叠加以优化提取到的特征，增加卷积层的个数可以提高模型的识别能力，有助于提高优化效果[14].然而，增加更多的卷积层需要更多的训练数据和更高的计算能力，这会显著增加训练的复杂度[15].网络的深度应与数据集的大小成正比，否则会造成训练的欠拟合或过拟合[16].基于以上原则，本文对VGG16模型进行改进，设计一个精简的VGG16(Simple VGG16, SVGG16)模型.模型结构如图1(b)所示，保留了VGG16的整体架构，将卷积层模块中卷积的层数设置为1，降低模型的复杂度.卷积层采用多个卷积核对输入图像进行卷积运算，分别提取图像的低级和高级特征.

(a)原始的VGG16模型

(b)SVGG16模型图1 乳腺肿块图像识别模型结构图Fig.1 The model structure diagrams of breast mass image recognition

尽管在卷积过程中使用较多的卷积核可以提取图像中更多的特征，但是有很多特征可能是冗余的[17].因此，为了降低特征的冗余性，SVGG16模型的卷积层中，卷积核的个数分别设置为32, 64, 128, 256, 512(VGG16的卷积层模块中卷积核个数分别为64, 128, 256, 512, 512).与ImageNet数据集相比，乳腺图像数据集相对很小，为抑制训练的过拟合，只保留一个全连接层，神经元个数设置为1024，并增加失活率为0.5的Dropout[18].SVGG16输入层的输入为125×125大小的单通道ROI图像，输出层的神经元个数为2，分别代表了输入图像中含有肿块和不含肿块的概率.如果含有肿块的概率大于不含肿块的概率，则认为该图像含有肿块，反之则认为该图像不含有肿块.在卷积层模块中，卷积核大小为3×3像素，步长和填充均为1，采用修正线性单元(Rectified Linear Unit, ReLU)作为卷积层和全连接层的激活函数.与原始VGG16模型相比，SVGG16使用更少的卷积层和卷积核个数.

1.3 数据增强

与其他深度学习方法类似，数据增强不仅可以有效缓解数据量不足导致的过拟合现象，同时还能有效提高模型的训练效果，尤其是对于像乳腺X线摄片训练样本数量不足的情况.本文采取的数据增强策略是先对原图像按逆时针方向每间隔30°旋转一次，得到12倍的增强数据，再对旋转图像进行水平翻转，得到原样本数24倍的增强样本.

1.4 性能评估

把不包含肿块的正常的ROI的实际标签设为阴性(Negative)，包含肿块(良性或者恶性)的ROI的实际标签设为阳性(Positive).对测试集的预测标签与实际标签进行比较可以得到混淆矩阵.真阳性(True Positive, TP)是被正确识别为阳性的ROI数量；假阴性(False Negative, FN)是实际为阳性，却被识别为阴性的ROI数量；假阳性(False Positive, FP)是实际上是阴性，却被识别为阳性的ROI数量；真阴性(True Negative, TN)是被正确识别为阴性的ROI数量.

本文使用准确度Acc、精确度Pre和敏感度Sen以及F1_score等指标来评估CNN模型对ROI的识别能力，其定义如下：

准确度Acc值越高，说明样本数据中被正确识别的比例越高；精确度Pre表示在模型识别为肿瘤的所有样本中，实际上也是肿瘤的样本数百分比；敏感度Sen表示真实情况下所有肿瘤样本中，识别正确的样本百分比.F1_score是精确度和敏感度的协调平均值.除了上述4个指标，本文还使用当前最常用的受试者操作曲线(Receiver Operating Characteristic Curve，ROC)[19]和曲线下的面积(Area Under the Curve, AUC)作为模型性能的评估标准.受试者操作曲线ROC表示真阳性率TPR和假阳性率FPR之间的关系.AUC是基于ROC曲线下的面积来度量模型的总体性能. AUC在区间[0, 1]范围取值，其值越高则说明模型的分类识别性能越高.

2 实验与分析

2.1 实验数据

本文对来自DDSM数据集的879幅乳腺X线摄片ROI进行肿块和非肿块的识别实验，其中703幅ROI用作训练样本来训练卷积神经网络模型，剩余的176幅ROI则作为测试样本，数据划分方式如表1所示.

表1 数据集划分与增强Tab.1 Dataset split and augmentation

2.2 实验结果及分析

本文模型SVGG16在Keras上实现，并采用随机梯度下降(Stochastic Gradient Descent, SGD)优化器进行训练.在训练过程中，动量值、学习率和最大迭代轮次等超参的值分别设置为0.9，0.001和60.对比模型包括AlexNet、VGGNets以及ResNet50等，保留这些对比模型的原始结构，只修改最后输出层的神经元个数并设置为2.本文使用的数据预处理方式如文献[13]，训练集中每个像素减去在整个训练集上计算的灰度均值.通过减均值操作，消除像素值之间的公共部分，以凸显个体之间的特征和差异.

各种网络模型在原始训练集和数据增强后的训练集上的实验结果分别如表2和表3所示.+aug表示进行数据增强.从表2中可以看出，在不使用数据增强的实验中，AlexNet和SVGG16的识别准确率Acc相同，都为83.52%，这个结果高于相同训练方法下VGG16的82.38%、VGG19的81.25%和ResNet50的78.40%.这是因为后三种模型更深、结构更复杂，训练数据较少导致了过拟合.

表2 原始数据实验结果Tab.2 Experimental results with original data

在进行数据增强之后，如表3所示，所有模型的实验结果都得到了提升，这验证了数据增强对提升模型训练效果的有效性.数据增强之后，SVGG16在准确率Acc、精确度Pre、敏感度Sen和F1_score等所有指标中都是最高的，分别达到了90.34%、89.87%、88.75%和0.89.因此，SVGG16的识别性能优于其他模型.

表3 数据增强实验结果Tab.3 Experimental results with data augmentation

在计算效率方面：没有使用数据增强时，训练集数据只含有703幅ROI，VGG16和SVGG16的计算效率分别为2.48 s/epoch和0.36 s/epoch；进行24倍数据增强之后，训练集的数据量达到了16872幅ROI，VGG16和SVGG16的计算效率分别为51.38 s/epoch和6.93 s/epoch.SVGG16的计算效率明显高于VGG16模型.

为进一步定量分析实验结果，图2展示了各个模型的混淆矩阵.在子图中，横轴表示乳腺X线摄片ROI实际的标签值(0表示非肿块，1表示肿块)，纵轴表示模型预测的标签值.在肿块和非肿块的识别任务中，目标是尽可能地识别出肿块，即阳性样本，同时保证较少的阴性样本被错误地识别.从图2中可知，对于阳性样本，SVGG16预测正确的个数最多，为71个，较VGG16和VGG19分别高了2个和5个.因此，SVGG16对含有肿块的阳性样本的正确识别能力要优于其他模型.

图2 各种模型的混淆矩阵Fig.2 Confusion matrices of various models

类似地，对于度量值AUC，图3中给出了SVGG16、AlexNet、VGG16以及VGG19和ResNet50的ROC曲线图.从图3中可以看出，SVGG16的ROC曲线包含住了其他对比的方法，AUC值最高，为0.95.从整体上再次证明了SVGG16模型的性能要优于另外4种已有的CNN模型.

图3 各种模型的ROC曲线图Fig.3 The ROC curves of various models

为了更深入地了解CNN模型的性能，图4展示了模型识别的ROI个例.其中第1行是被VGG16预测错误，而被SVGG16预测正确的阴性ROI；第2行是被VGG16预测错误，而被SVGG16预测正确的阳性ROI；第3行是SVGG16预测错误的阴性ROI；第4行是SVGG16预测错误的阳性ROI.对于区域呈丝状的阴性样本，如第1行的后3个ROI，VGG16误判为阳性；对于肿块区域比较弥散的阳性ROI，如第2行，SVGG16的识别能力要优于VGG16；对于如第3行的对比度较高且区域较大的阴性ROI，SVGG16容易错误地识别为阳性；对于如第4行的肿块区域较小的ROI，SVGG16的识别能力也有待提升.

图4 乳腺肿块识别个例展示Fig.4 Presentation of breast mass recognition instance

3 结语

本文基于VGG16设计了一个精简的卷积神经网络模型SVGG16，用于乳腺X摄片ROI中肿块的分类识别.首先构造一个由卷积层和池化层构成的卷积神经网络，然后对来自DDSM数据库中的703幅ROI图像进行数据增强后作为训练样本对网络模型进行训练，并使用176幅ROI图像进行测试.结果表明，本文提出的SVGG16在准确度、精确度、敏感度和F1_score等指标上分别达到了90.34%、89.87%、88.75%和0.89，对乳腺肿块图像识别的性能要明显优于其他已有的CNN模型，在临床的辅助诊断中能够实现乳腺X线摄片中肿块与非肿块的良好识别.