基于深度学习在医学图像的分类与诊断综述

2021-12-11 06:01阚明阳

新一代信息技术 2021年20期

阚明阳

(河北地质大学信息工程学院，河北石家庄 050031)

0 引言

深度学习因“整个程序都是可训练的”特性，成为现阶段使用最为广泛的模式识别方法。现在深度学习框架的三大基础结构网络为：卷积神经网络、深度置信网络、堆叠自动编码器。我们生活中常见的医学图像主要为：CT（计算机断层扫描），X光片，B超等。医学图形的获取可能涉及患者的隐私等问题，医学图像的处理涉及图像处理技术，模式识别技术，机器学习等多方面内容[1]。利用深度学习框架将这些信息有效地进行发掘，查找出其中隐藏的医学信息和规律，必然能够有效地为早期疾病的检测和治疗提供保障[2]。

图1 基于深度学习的医学图像分析流程图Fig.1 flow chart of medical image analysis based on deep learning

1 深度学习在医学图像领域主要的算法

1.1 卷积神经网络（CNN）

卷积神经网络于1998年被LeCun等人设计，并于2012年imageNet图片识别大赛中摘得桂冠，此后逐渐被人们所重视。卷积神经网络模型由输入层、卷积层、池化层、全连接层和输出层构成。目前经典的CNN网络模型包括GoogleNet、LeNet模型和VGG模型等。其中VGG模型是深层网络模型，其具有训练时间长，识别准确率高等特点。使用CNN模型训练时，通常会改进CNN网络模型，例如3D-CNN模型能够对运动物体识别，可以在空间和时间维度中进行特征的提取[3]。现代医学影像技术是利用现代高性能的成像硬件设备，对人体某个部位进行生理结构信息和病变信息的扫描[3]，在 CNN网络中的全连接层换成卷积层则变成全卷积网络（FCN），从而实现对语义级图像进行分类。

1.2 深度置信网络

深度置信网络（DBN）是由多层神经元构成的，这些神经元又分为显性神经元和隐性神经元（以下简称显元和隐元）。显元用于接受输入，隐元用于提取特征。因此隐元也有个别名，叫特征检测器，最顶上的两层间的连接是无向的，组成联合内存。较低的其他层之间有连接上下的有向连接[5]。最底层代表了数据向量，每一个神经元代表数据向量的一维。DBN的组成元件是受限玻尔兹曼机[6]。训练DBN的过程是一层一层地进行的。在每一层中，用数据向量来推断隐层，再把这一隐层当作下一层（高一层）的数据向量，当预训练完成后，网络会获得一个较好的网络初始值，但这不是最优的。再采用有标签数据去训练网络，误差自顶而下传播，一般采用梯度下降法对网络进行微调[7]。现阶段深度置信网络主要应用于图像处理方面。

2 卷积神经网络与深度置信网络的历程

1995年，卷积神经网络首次应用到医学图像的分析中。LeNet程序的面世使得卷积神经网络首次应用到现实生活中，其首要任务是手写文字的识别工作[8]。其整体评价标准与屏一胶影像完全不同[9]。近几年随着深度学习[10]的出现而形成一个新的感念，对大量的输入图像通过特定的网络结构以及训练方法学习出有意义的特征表示，而后开发的金字塔卷积神经网络（PCNN）对图像进行处理和分析。由于计算机视觉ResNet网络结构的出现，将卷积神经网络真正推入一个新台阶[11]，相关深度模型的使用取得了巨大的进步[12]。2006年Science杂志提出了深度信念网络的概念，利用贪心策略逐层训练由限制玻尔兹曼机组成的深层架构；PCD学习算法的提出促进了深度信念网络的发展[13]；卷积深度信念网络（CDBN），是一个分级生成模型，可以扩展到现实的图像大小，可以对全尺寸图像执行分层（自下而上和自顶向下）推理；稀疏深度信念网（SDBN）开发后主要用于图像处理[14]；随后，增强深层信念网络（BDBN）出现，用在统一的循环框架中迭代的执行三个训练阶段。

3 医学图像的特点

我们日常生活中常见的医学图像主要为：CT图像，磁共振影像，B超等。利用已经确诊的病例信息和当前医生的临床诊断经验以及当前患者的病例信息，能够快速的帮助医生诊断病情[15]。现代医学图像由于新技术的加入具有以下特点[16]：（1）医学影像成像质量较差[17]，在CT，MRI超声影像中，存在噪声严重，分辨率低，灰度对比度不足等。（2）医学影像数据量少[18]，在临床研究中，由于每一个病例得到的对应影像数据只有一组，因此在训练深度学习模型时的训练数据较少，在日常医疗图片的整理中发现，不同医院，科室和设备的拍摄角度和方式的不同也影响最终训练模型的效果。（3）医学影像大多数具有多种模态[19]，与自然图像的传统网络结构相比，多模态的存在需要我们在设计网络时充分考虑到各个模态影像特征的提取方法以及不同模态之间特征信息的融合方式。因此，医学图像分割任务难度远大于自然图像分割任务。

3.1 深度学习算法在医学图像领域的应用现状

由于人工分析医学图像不仅用时长，且容易受到专业医生的限制，培养一名合格的医学图像分析的专业人员需要消耗大量的时间成本。因而利用人工智能进行医学图像的识别逐渐进入人们的视野。1966年，美国学者提出了“计算机辅助诊断”的概念。1972年，由于CT图像的临床应用，开创了数字化医学影像的先河。1993年，ACR-NEMA详细规定了医学影像及其相关信息的传输标准。近年来，由于深度学习可以学习到图像中的复杂特征，其在医学图像分析中得到了广泛的应用，主要包括三方面：疾病检测、医学图像病变部位的识别与分析、医学图像建模和分析[20]。在使用深度信念网络组成过程中，利用深度生成模型来降低输入图像的维度，以实现128×128×128分辨率的3D医学图像的训练，在深度信念网络学习低维脑体积检测与人口统计学和疾病参数相关的变异模式方面有较强的优势[21]。

4 疾病检测

疾病检测是指利用深度学习技术分析人群是否患有某种疾病或患有某种疾病的程度，从而为实现疾病的治疗提供理论支持，实现早发现早治疗的理想目标。

4.1 肝病检查阶段

为提高医学图像诊断的准确性，人们现在对医学图像的质量要求越来越高，然而由于医学成像系统的不稳定等原因，导致医学图像的质量有所下降[22]。深度学习在肝癌检查方面具有十分出色的表现，美国加州湾旧金山的Enlitic公司成功研发出基于卷积神经网络的恶性肿瘤检查系统[23]。此系统通过训练大量的带有恶性肿瘤标签的 CT图像，通过图像识别技术来判断是否存在恶性肿瘤，尤其在肝癌识别率中机器识别的准确率是专业医生数倍以上。

深度信念网络，对医学图像进行自动分割，将深度学习和水平集合结合在一起，用于心脏左心室的心脏电磁共振数据的自动分割，产生一种需要较小训练集的方法，并产生了准确的分割结果。

4.2 肺部图像识别和分析

在识别肺结节病变组织方面，构建卷积神经网络，将原始的 CT肺部图像进行训练，结果可证明即便是不对图像进行预处理也可以直接识别肺结节病变位置[24]。在肺部其他病变检查方面，使用卷积神经网络训练 CT肺血管造影图像辅助肺栓塞的检查，此方法与传统方法相比具有较大优势[25]。

4.3 根据病理特征对病变图像识别

现代医学图像处理系统可以利用深度信念网络训练头骨CT图像的分类，将大脑结构和MRI图像结合来识别患者病症。经过大量实验证明，此方法可以提高HD病的识别准确率。通过深自动编码器模型来识别病理图像上的癌细胞,识别率高达90%以上。通过大量研究论文可以了解到，最近年来深度学习已经应用到医学影像分析的各个方面[26]。特别是在图像分类中深度学习技术表现突出。其中图像分类主要应用包括：显像/检测分类和病变期分类，深度学习还能自动检测图像内的异常或可疑区域，帮助医生对病变区域进行定位。图像分割通过识别目标的轮廓或内部的像素空间，从而减少图像中需要分析的领域，使深度学习相关的方法得以广泛应用。卷积神经网络成为现代医学成像分析的首选方法。过去的实践中，深度学习应用于医学图像分类的过程中面临的最大问题就是缺乏大量的训练集，而现在随着科学技术的发展，越来越多的公共数据集变得可用[27]。未来，在相对标准的卷积神经网络架构中可以看到大量的数据集，运用深度学习模型对其训练能取得优异的结果。最后，因为患者的档案多存于医院中，处于对患者隐私的保护，使得一些数据难以做到公开和获取。

5 结论

近年来，随着人工智能技术的飞速发展，运用不断深化成熟的深度学习模型对医学图像进行分割、特征提取以及分类的技术日益成熟，医学图像信息的挖掘与开发不再拘泥于简单的单一算法，而是运用卷积神经网络或结合堆叠自动编码器对大量医学图像数据集进行训练后，可实现对单一病理切片达到9成以上的识别精度。图像分割的准确性，基于CNN对肝脏肿瘤自动分割，将手工提取特征与自动学习特征的肿瘤分割统计结果进行对比，得出运用CNN自动学习的特征用于肿瘤分割效果更好、准确性更高；将深度学习模型与传统算法相比，能提高辅助判断系统的准确率，灵敏度和特异度。对医学影像中的分割通常以病灶区域和整体器官作为目标进行专业性分割，同时利用分割结果辅助临床医生进行后续的诊断与治疗。尽管深度学习在医学图像分割技术中起到举足轻重的作用，但深度学习分割网络仍然存在着以下不足之处：（1）训练时间过长。目前需要深度学习模型解决的问题日益复杂，需要模型参数增加。训练时间增长，所以改良算法，提高训练速度，减少训练时间是十分必要的[28]。（2）对无标记数据添加标签。无标记数据的迅速增加需要更新自动添加标签技术，依赖人工逐一将其打上标签已经不能适应现代信息社会的发展[29]。（3）使用深度学习算法训练医学图像时，对计算机的硬件要求较高,并要求有较多的医学图像，在训练图像数据时，耗时较长，这些都是需要今后解决的问题。