深度学习在影像中的算法研究

2021-08-09 11:50肖行

智能计算机与应用 2021年3期

肖行

摘要：深度学习技术的运用正日趋广泛，深度学习自身的高效性和智能性受到研究者的青睐。通过对深度学习影像分类的剖析，进一步探究深度学习在影像识别方向的应用，介绍了主要用于影像分类识别的基于深度学习的医疗影像检测算法，可作为开展深度学习技术运用于医学影像检测研究工作的有益参考。

关键词：深度学习; 影像分类; 影像识别

文章编号： 2095-2163（2021）03-0215-03 中图分类号： TP391.41 文献标志码：A

【Abstract】The use of deep learning technology is becoming more widespread， and the efficiency and intelligence of deep learning itself are favored by researchers.Through the analysis of deep learning image classification， the paper further explores the application of deep learning in the direction of image recognition， introduces the medical image detection algorithm based on deep learning， which is mainly used for image classification and recognition. The fruits could be used as a beneficial reference for the application of deep learning technology to medical imaging detection research work.

【Key words】 deep learning; image classification; image recognition

0 引言

在复杂的背景中，一幅图像会具有许多对象。如何识别这些对象，辨识其中的主要对象，并理解主对象与其他对象之间的关系已然成为目前的研究热点。对象识别有多种方法，但大部分都不能标记图像的主要对象。研究可知，可以运用改进的RCNN[1]网络来检测和识别图像中的多个对象，由此即提出了增强型的目标评分系统来标记图像的主要对象。实验结果表明，该算法不仅保持了RCNN的优越性，而且能检测到图像的主要对象。

近年来，基于计算机的图像识别技术获得迅猛的发展。与之相适应，在医学领域就已对人工神经网络的影像学识别展开大量研究。例如，在糖尿病视网膜病变的诊断中，有较高的诊断预测能力。在乳腺癌的诊断中，在乳腺癌中淋巴结转移的病理诊断中，在胸部X射线的分类中，在食管胃十二指肠镜检查中分类等[2]，均取得了可观成果。需要指出的是，尽管人工智能技术被应用于预测manikins的气道图像的glottic开放，但在临床实践中获得的患者的喉部图像的语言开放或语言位置的研究却仍不多见。

气管插管是一项重要的医疗程序，在自发性呼吸、气道维护上存在困难，究其原因就是麻醉、全身麻醉和心肺问题。气管插管是一种生命保存的程序，可在心脏、呼吸阻塞等情况下进行，具体来说就是当病患处于高危的呼吸、缺氧、通风不足、气道阻塞的情况下。glottis是2个声带间的一个开口。在执行插管时，应将塑料插管插入气管中。然而，气管导管有时插入不适当的结构，如食道，而不是glottis。如果气管插管插入结构出现错误，就会导致严重的并发症，如低氧血症和心脏骤停[3]。因此，在插管时准确地识别glottis的位置是非常重要的。

视频喉镜是一种将相机插入刀片的较为尖端的技术方法。视频喉镜可提高glottic的视觉化，减少食管插管突发事件的发生概率。关于视频喉镜检查是否会增加第一次尝试成功率，不同的研究结果仍存在差异。当前的一项研究中显示，在视频喉镜检查时，使用前医院插管的成功率较低。此外，即使在视频喉镜检查时，食管插管也会发生。单食管插管增加了脱气、吸气和心脏骤停的风险。

1 ANNs的深度学习算法与反向传播的区别

在使用ANNs的临床实践中，尝试探究了在此应用中去获得气道图像的理论位置的预测模型。一个模仿动物神经元结构的ANN可应用于实现类似于大脑的功能。动物的实际学习过程永远不会是非自然的数学理论，即如在反向传播方法中一样，也会有类似基于trial-and-error过程的生物进化的技术内容。因此，在本次研究中开发并应用了基于蒙特卡罗模拟的ANNs的一种新的深度学习算法。ANN包含了成千上万个或更多的未知变量、权重因子和偏置值。这个新的深度学习算法是应用蒙特卡罗模拟的优化过程，用来确定权重因子和偏差值，使学习数据的平均训练误差最小化[4]。

对于反向传播方法，采用梯度下降方法，通过多次使用全部或部分学习数据来确定结果数值，直到根据给定的学习速率训练误差达到最小为止。在此条件下，节点的偏压值作为节点的附加权重因子，将其输入值设定为1.0，而并不考虑偏差值是否为负的变化机制。本次研究的新算法具有与反向传播方法完全不同的结构。在新的深度学习算法的情况下，当前ANN的所有学习数据的平均训练误差都是在训练误差达到最小的情况下反复计算的结果，而随机选择的权重因子和ANN的偏差值正在根据给定范围内随机选择的delts值进行调整。当然，该算法无需计算训练错误的梯度，或者在训练阶段使用所有或一部分学习数据的权重因素和偏差值来做调整，按小随机量调整一个ANN的权重因子和偏压值，而不是通过计算密集型梯度下降法分别应用于所有權重因子，是与反向传播方法中在训练期间的主要差异。因此，该算法简单而高效，对计算资源的要求也不高。

2 算法原理与实现

ANN是一个连接的简单计算元素集，称为节点。通常，是一个多层的组织。总地来说，可分为：一个输入层、多个隐藏层和一个输出层。对于深度学习方法而言，就代表着有些ANNs可能还会包括数百个或更多的隐藏层。输入层中的每个节点，即输入节点，将接收来自外部的输入，并将其传送给第一个隐藏层的所有节点。在本次研究中，考虑到气道图像大小和纵横比的不同，先把图像转换成正方形，再将其分辨率降到100 × 100、70 × 70、50 × 50、45 × 45、40 × 40、35 × 35、30 × 30和 25 × 25像素，并且每組应用于ANN模型的输入结构。ANN的输入节点的数量就等于原始气道图像减少分辨率后的总数。每个输入节点的输入值是相应的像素值，即减少分辨率的气道图像。可以通过计算来获得黑白彩色转换过程中的像素值，此处会用到的数学公式可写为：

在此基础上，将该值除以最大值255，即将其转换为0～1.0之间的值。相同的过程应用于标记气道的图像，以获得像素值，再将图像分为7个横截面和7个垂直截面。该分区共生成了49个具有标记气道图像的单元格。这些图像被分为49个单元格，用来预测在气道图像中49个glottic的位置。

3 实验结果

通过将训练集和测试集划分为2种类型的视图：好视图和差视图，以预测选择模型的气道位置的训练和测试精度，实验结果见表1。

表1中，准确预测率表示被预测的位置与glottis重叠;相邻预测率表示8个相邻的相等大小的正方形，被预测的位置与glottis重叠;不准确预测率表示被预测的位置与glottis不相邻。

对于训练集，好视图图像数量是813，占81.3%;差视图的图像数量是187，占18.7%。对于测试集，好视图的图像数量为168，占84.0%;差视图的图像数量为32，占16.0%。对于好视图而言，仿真得到的测试集的精确预测率为83.3%，测试集的预测率为78.6%。对于差视图来说，测试集的准确预测率为55.6%，测试集的准确预测率为53.1%。

4 结束语

提出了一种新的基于人工神经网络（ANNs）的深度学习算法。该方法与反向传播方法完全不同。研究中随机选择一个ANN的权重因子和偏置值，并在训练期间通过小随机数来调整相应数值，不需要计算训练误差的梯度来调整权重因子。该算法应用于通过视频气道装置获得的气道图像中glottis的位置。在1 200个气道图像中，使用GlideScope R和纤维镜检查。对于随机选取的1 000个训练集数据，利用上述算法训练了84个ANN模型。寻求一个ANN模型，通过减少输入图像分辨率，将所有训练设置的平均训练误差最小化。随着分辨率的降低，平均训练误差降低到30×30像素的最低水平。最终，研究得到9-98-49 ANN有着最低训练误差，将其作为glottis位置的预测模型，得到了最高的学习速率。选定预测模型应用于剩余200个测试集数据，以获取测试精度，仿真后得到的准确预测和相邻预测率分别为74.5%和21.5%。将输入图像分辨率降低到适当水平，能更好地预测气道图像中的glottis位置。本文研发的ANN模型可以帮助临床医生通过显示glottis的预测位置来进行插管。

参考文献

[1]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus， OH， USA：IEEE，2014：580-587.

[2] 段琳琳. 基于深度学习的遥感影像分类研究[D]. 开封：河南大学，2018.

[3] 左艳，黄钢，聂生东. 深度学习在医学影像智能处理中的应用与挑战[J]. 中国图象图形学报，2021，26（2）：305-315.

[4] 张卡，宿东，王蓬勃，等. 深度学习技术在影像密集匹配方面的进展与应用[J]. 科学技术与工程，2020，20（30）：12268-12278.