基于深度学习的DR胸片智能质控方法研究

2020-10-30 12:13王平胡博奇安东洪刘蓄蕾石张镇田中生郝富德刘景鑫

中国医疗设备 2020年10期

王平，胡博奇，安东洪，刘蓄蕾，石张镇，田中生，郝富德，刘景鑫

1. 吉林大学中日联谊医院放射科，吉林长春 130033；2. 辽宁万象联合医疗科技有限公司，辽宁沈阳 110000

引言

影像学检查是当今医学检查的重要组成部分，为临床疾病诊断、癌症的筛查、病灶的定位及定性、临床治疗方案的选择、疾病的分期及预后等提供了重要依据。医学影像诊断是指医生通过非侵入性的方式取得内部组织影像数据，再以定量和定性的形式进行疾病诊断[1]。随着X线摄影技术的发展与普及，越来越多的医疗机构引进了X线DR设备，且广泛地应用于各个医疗机构的多种业务场景。X线胸片摄影是常规体检的检查项目之一。X线摄影的简便、快捷、经济、实用的优势日渐突出，成为胸部疾病检查的优先选择。X线摄影利用人体各组织密度的不同，可观察到密度和厚度差别较小的病变。X线胸片能清晰地记录肺部的大体病变，如结核、肿块、炎症等。其中，正位胸片摄影和侧位摄影最为常见，影像数量最多。因此，正侧位胸片摄影的质量控制工作量极大。目前，正侧位胸片摄影的质量控制主要以人工判定为主，容易受到多方面因素的干扰和限制，如主观认知水平、疲劳程度、工作经验以及环境亮度等，难以满足当前的工作需求。

近年来计算机硬件性能显著提升，尤其是GPU性能不断突破，可以支撑大量数据的并行计算，提供更高的访存速度和更高的浮点运算能力。因此，云计算、大数据、机器学习、深度学习、计算机视觉等领域发展迅速，为各领域提供了解决问题的新方案。在医学影像领域中，近年来提出了很多基于深度学习的医学影像语义分析应用[2-3]，基于深度学习技术自动地提取医疗影像中的各种语义信息、综合分析提取的语义信息，最终实现目标区域的自动分割[4-5]。本文将医学业务知识与人工智能技术相结合，以医疗影像大数据为驱动，提出了一种基于深度学习的DR胸片常规摄片质量控制方法，解决了人工质控效率低、误差大等问题。

1 研究方法

本文中质控方法的医学业务规则借鉴了国内外放射科管理规范、质控标准。针对DR正、侧位胸片常规摄影，提出了总体完整、脏器完整、成像细节、位置细节四大类质控规则，涵盖了医学影像质控的主要评估标准。

本文中质控方法以深度学习为技术核心，通过对语义分析技术进行改进，构建深度学习质控模型来对医疗影像进行总体完整、脏器完整、成像细节、位置细节四大类质控规则的评判。主要创新如下：① 综合国内外质控标准，提出了人工智能可评估的DR正位胸片摄影和侧位胸片摄影的质控规则；② 首次提出了一种基于深度学习的DR正位胸片和侧位胸片摄片的质控方法。

1.1 医学业务规则

关于X射线的质量控制，国家颁布了一系列规章制度[6-9]，规定了医用X射线的卫生防护、影像质量控制规范、放射防护要求、检查操作规程等。在相关文献中，给出了主要组织器官的X射线检查操作规范、图像质控标准、影像诊断规范与质控标准[10]。此外，有文献介绍了对腹部、胸部、腰椎、颅骨、胸椎五个部位的照射方法与图像质量的研究，为X射线设备的质量控制提供了参考[11]。Hobbs[12]对欧共体指南没有进一步描述的扭曲和倾斜误差进行了研究，通过检查锁骨头与棘突的关系评估误差的影响。Grewal等[13]通过对多种因素产生的不同影响进行研究，得出综合性数字胸片图像质量评估方案。

1.2 语义分析

全卷积网络（Fully Convolutional Networks，FCN）是采用全卷积网络进行语义分析的第一种方法，虽然其网络结构较为简单，但是为语义分析提供了一种新的思路，后续提出了许多基于FCN的图像语义分析方法，这些方法在图像语义分析方面都取得了很大的进展[14]。例如，实例敏感的FCN可以利用图像的局部一致性来估计实例，通过在一组实例敏感的score map上添加一个简单的集成模块来获取相对于实例位置的像素级分类器的结果[15]。

鉴于计算机计算能力的大幅提升，语义分析模型的网络结构逐步向深度、宽度扩展。其目的是为了获取更多的语义信息、更好地拟合目标函数，提升模型的性能。深度模型的代表网络结构是VGG[16]，由牛津大学Visual Geometry Group提出的卷积神经网络模型，其变体之一的VGG-16在ILSVRC-2013竞赛中取得了top-5上92.7%的准确率。VGG-16由16个权重层组成，第一层使用了大量的小尺寸卷积核，与使用少量的大尺寸卷积核相比，模型参数更少，非线性更强，决策函数更灵敏，更易于训练。GoogLeNet的网络结构在深度和宽度两个维度上进行了扩展，在ILSVRC-2014竞赛上取得了top-5上93.3%的准确率[17]。GoogLeNet的网络结构极其复杂，共有22个权重层，并且引入了inception模块。该模型的网络结构证实了权重层可以有更多的堆叠方式，而不仅仅是标准的序列方式。继此之后，深度学习模型能够快速、准确地对图像语义进行分析，进而使其在医学影像中得到了更为广泛的应用，尤其在智能辅助诊断等方面发挥了重要作用[18-21]。

2 技术方案

在本章节，将介绍基于深度学习的DR正位胸片常规摄片和侧位胸片常规摄片质控方法的技术方案。首先，介绍如何提取医疗影像中不同维度的语义信息。其次，介绍基于深度学习的质控方法框架。

2.1 医疗影像语义信息提取

在深度学习中，使用卷积层来提取图像的语义信息。卷积层之所以能够提取语义信息，在于其包含的卷积核，卷积层的原理如图1所示。

图1 卷积层原理

图1中的卷积核尺寸为3×3，并且随机分配了一组权重。卷积核在输入图像/中间语义信息上分别沿着宽度、高度两个方向平移，在平移时与对应位置上的输入值做加权求和。平移结束时，得到的加权和组成了卷积结果，即语义信息。

为了获取更多的语义信息，可以同时使用多个卷积核如图2所示。

图2 多卷积核卷积层

图2中使用了4个3×3×3的卷积核，其中前两个3表示卷积核的高度和宽度，最后一个3表示卷积核的通道数，应与输入数据的通道数一致。按照图1所示的卷积层工作原理，得到了7×7×4的输出，其中输出数据的通道数为4，与卷积核的个数一致。

为了获取不同维度的语义信息，可以同时使用具有多个尺寸的卷积核，与图2所示的原理一致，只是各个卷积核具有不同的高度和宽度。

通过上述的卷积层，可以提取出大量的、多个维度的语义信息。虽然这些语义信息有助于模型的训练，但是降低了计算速度、增加了过拟合的风险，因此引入了池化层。池化层通常分为最大池化层、平均池化层如图3所示。

图3 最大池化层、平均池化层原理

图3中，输入图像/中间语义信息中每个底色对应一次池化操作，池化区域的宽度和高度均为2。最大池化是选择池化区域内最大的值，平均池化是计算池化区域内的平均值。池化区域也可以是其他尺寸，如3×3，5×5等。

通过池化层的处理，缩减了模型大小、提高了计算速度，以及所提取语义信息的鲁棒性。

2.2 基于深度学习的质控方法框架

基于深度学习的质控方法是以深度学习为核心，辅以特征工程和结果可视化的完整技术解决方案，其方法框架如图4所示。方法主要由三部分组成：特征工程，构建、训练深度学习质控模型，质控结果可视化。

图4 基于深度学习的DR正位胸片常规摄片质控方法

特征工程：通过值域转换将医疗影像的医学值域转换至统一的量纲；通过空间归一化来规范医疗影像的各个空间特征；通过数据增强丰富了数据集，增加了数据的多样性，提升了数据的鲁棒性。

构建、训练深度学习质控模型：基于卷积层、池化层、辅助层构建质控模型。在深度上通过多层卷积层逐层地提取语义信息，增加语义信息的数量。在宽度上采用多个不同尺寸的卷积核独立地提取语义信息，增加语义信息的维度。将最终提取的语义信息送入池化层，实现语义信息的静态分析。静态分析后的结果通过辅助层（如softmax）变换为数字化质控结果。

训练模型所使用的数据集包括以下内容：医学影像，对应的脏器、组织结构掩码。依据该数据集从语义提取、语义描述、语义匹配三个角度来训练模型，使模型能够在医学影像中分割出质控所需的脏器、组织结构，并在3.1节和3.2节给出了模型分割脏器、组织结构的示例说明。分割所需的脏器、组织结构，是为了将其语义信息传递给总体完整、脏器完整、成像细节、位置细节模块进行质控判定。

（1）语义提取。寻找易于追踪和对比的语义；语义描述：对提取的语义用张量进行描述，使其能够在其他图像中寻找到相似的语义；语义匹配：根据语义描述，在其他图像中寻找所有相同的语义区域，根据寻找结果给出最终判定。

（2）总体完整。基于各脏器、组织结构语义信息中的空间信息计算各脏器、组织结构相对于影像坐标系的位置。当各脏器、组织结构的位置在质控标准规定的合理范围内时，则总体完整这一项合格；反之，不合格。

（3）脏器完整。模型分割出的脏器与质控标准中医学影像应包含的脏器类别个数一致，并且各个脏器完整，则脏器完整这一项合格；反之，不合格。

（4）成像细节。基于各脏器、组织结构语义信息，计算各脏器、组织结构在医学影像中的灰度值分布、对比度等信息。当其符合质控标准规定的合理范围时，则成像细节这一项合格；反之，不合格。

（5）位置细节。基于各脏器、组织结构语义信息中的空间信息计算各脏器、组织结构之间的相对位置，并基于图像坐标系进行表示。当各脏器、组织结构之间的相对位置符合质控标准规定的合理范围时，则成像细节这一项合格；反之，不合格。

（6）质控结果可视化。根据质控模型返回的数字化质控结果进行可视化，提供图示说明、文字说明、统计分析。供不同机构、业务领域的用户使用。

3 深度学习质控模型结构与工作原理

质控模型通过训练，获取了一组卷积层、池化层、辅助层的参数。模型中的参数能够逐级地提取医疗影像的语义信息，并对语义信息进行静态分析和动态整合，形成张量化的语义描述。基于张量化的语义描述在医疗影像中寻找相同的语义区域，实现语义匹配。模型通过卷积层提取语义的过程是对输入影像进行编码，模型通过卷积层将提取的语义还原为影像的过程是对输入影像的语义进行解码。当解码过程的输出的尺寸与模型的输入影像的尺寸一致时，解码过程结束，并将该输出作为模型的输出。该操作的目的是为了将模型输出的语义结果与输入至模型的影像对应，便于获取模型输出的语义在影像中所对应的区域、组织、器官。本文中的DR正位胸片常规摄片质控模型和DR侧位胸片常规摄片质控模型均使用了编码过程和解码过程，其结构称为编码器—解码器结构，并且可以具有不同的深度和宽度，结构示意图如图5所示。

图5 采用编码器-解码器结构的质控模型结构

通过改变图5中编码模块或解码模块的个数来改变模型的宽度，通过改变图5中编码层或解码层的个数来改变模型的深度。在后文的质控模型统计表中，将卷积层和反卷积层统称为2D卷积层。

3.1 DR正位胸片常规摄片质控模型

DR正位胸片常规摄片质控模型采用了编码器-解码器的结构，模型的基础结构为2D卷积层、池化层、BN层、激活层等。该模型中，2D卷积层304个、池化层12个、BN层280个。

DR正位胸片常规摄片质控模型通过深度学习模型对影像中的语义进行提取、描述、匹配。基于语义的处理结果，匹配出判定各个质控指标所需的语义，通过对语义进行转化得到质控指标在影像中对应的区域，并以此得到最终的质控判定结果。以DR正位胸片常规摄片肺部相关的质控指标为例，图6给出了深度学习质控模型的输入数据，肺部语义信息提取、描述、匹配的中间过程的可视化结果，显式地说明了DR正位胸片常规摄片质控模型的工作原理。

3.2 DR侧位胸片常规摄片质控模型

DR侧位胸片常规摄片质控模型同样采用了编码器-解码器的结构，模型的基础结构为2D卷积层、池化层、BN层、激活层等。但是，由于侧位胸片常规摄片的质控需求相对于正位胸片常规摄片的质控需求较少，所以模型中的基础结构也较少。该模型中：2D卷积层231个、池化层8个、BN层数目176个。

DR侧位胸片常规摄片质控模型的工作原理与DR正位胸片常规摄片质控模型的工作原理一致，同样包含语义提取、语义描述、语义匹配。并且基于语义处理结果进行质控指标判定。以DR侧位胸片常规摄片肺部相关的质控指标为例，图7给出了深度学习质控模型的输入数据，肺部语义信息提取、描述、匹配的中间过程的可视化结果，显式地说明了DR侧位胸片常规摄片质控模型的工作原理。

通过正位胸片和侧位胸片的肺部语义信息提取、描述、匹配可视化结果可以看出在模型最后的若干卷积层中，利用语义提取、语义描述、语义匹配的结果，以及对应质控规则的标记，学习如何给出最终的质控评定结果。

4 实验及结果

4.1 数据与模型

实验使用了去隐私的真实医疗DR正位胸片DICOM数据和DR侧位胸片DICOM数据，各7000例。分别将两种数据中的5000例作为训练数据使用，余下2000例作为测试数据使用。

图6 肺部语义信息提取、描述、匹配可视化结果

图7 侧位胸片肺部语义信息提取、描述、匹配可视化结果

本文实验中针对DR正位胸片和DR侧位胸片分别设计了六种网络结构，通过卷积层、池化层、辅助层的多样化组合，构建了不同深度和宽度的网络结构，分别为：ChestPAQC_10_1、ChestPAQC_10_3、ChestPAQC_15_1、ChestPAQC_15_3、ChestPAQC_20_1、ChestPAQC_20_3；C h e s t 2 Vi e w Q C_8_1、C h e s t 2 Vi e w Q C_8_3、Chest2ViewQC_12_1、Chest2ViewQC_12_3、Chest2ViewQC_15_1、Chest2ViewQC_15_3。名字中ChestPAQC表示DR正位胸片质控模型，Chest2ViewQC表示DR侧位胸片质控模型，第一个数字表示深度、第二个数字表示宽度。在各自的数据集上对上述两组模型进行训练、测试，根据准确率、计算耗时对各个模型进行性能评估。

4.2 结果统计与分析

表1和表2分别给出了上述两组模型的消融实验结果，列出了两组模型内，每个模型的平均准确率和平均质控时间。

从表1和表2可以得出，模型深度一致时，增加模型的宽度可以提升模型的准确率；模型宽度一致时，增加模型的深度可以提升模型的准确率。随着模型深度、宽度的增加，模型的计算时间也随之增加。实际应用时，可以根据具体业务需求，权衡准确率和质控时间的重要性，构建符合业务需求的模型。

4.3 人工质控

人工质控完全基于医师的业务知识和经验进行质控，项目如下：

（1）总体完整。医师观察医学影像中的各脏器、组织结构，根据业务知识和经验判断总体完整这一项是否合格。

（2）脏器完整。医师观察医学影像中各脏器的类别和个数，根据业务知识和经验判断脏器完整这一项是否合格。

（3）成像细节。医师观察医学影像中的各脏器、组织结构，根据业务知识和经验判断成像细节这一项是否合格。

（4）位置细节。医师观察医学影像中的各脏器、组织结构，根据业务知识和经验判断位置细节这一项是否合格。

医师将上述结果录入质控系统，至此，完成1例医学影像的质控工作，其平均质控时间为10 min，表1～2中所列出的模型的平均质控时间最长为83 ms，远小于人工质控的平均质控时间。

通过对比本文提出的质控方法和人工质控方法，可以明显地发现人工质控方法存在大量的人工操作，这大大降低了质控效率。并且，各医师之间的业务知识和经验具有差异性，导致了质控结果具有主观偏差，降低了质控结果的可信度。

表1 DR正位胸片质控模型平均准确率、平均质控时间

表2 DR侧位胸片质控模型平均准确率、平均质控时间

本文提出的质控方法无需人工参与，大大提高了质控效率。并且，通过算法量化各个质控标准，去除主观偏差，提升了质控结果的可信度。

本文质控方法在DR正位胸片测试集和DR侧位胸片测试集上的质控结果如表3～4所示。表中给出了智能质控模型在测试集上的总体完整、脏器完整、成像细节、位置细节质控规则的不合格率，其不合格率与人工质控结果的平均差异为1.25%，在合理范围内，符合各医疗机构在日常诊疗工作中出现的影像不合格率。

5 结论

在本文中，提出了一种基于深度学习的DR正位胸片摄影和DR侧位胸片摄影质控方法。该方法根据医学影像质控规范，通过深度学习技术构建质控模型，利用大量医学影像数据训练得到了高性能的质控模型，辅以结果可视化技术提供了总体完整、脏器完整、成像细节、位置细节四大类可视化质控结果。该方法提升了质控工作的速率和准确率，释放了质控工作占用的卫生资源，从而减轻影像诊断工作者的工作负担，使卫生资源得到更合理地利用。