深度学习在目标视觉检测中的应用

2022-06-11 06:53于乐

今日自动化 2022年4期

于乐

[摘要]在科技不断创新和广泛应用的新时代，计算机视觉技术是整个科技领域的热点研究课题。在计算机视觉领域中，目标视觉检测属于重要任务之一，如今各种电子设备都在人们工作生活中得到实际应用，图像数据的产生量也海量增加，由于图像识别的精确性对多个方面都有重大影响，在这样的情况下，如何进一步提升图像中目标识别的精确性成为相关研究人员考虑的重要问题。文章主要探讨传统目标检测技术和基于深度学习的目标检测技术，并以实际应用案例为参考，分析深度学习在目标视觉检测中的应用系统，以供参考。

[关键词]深度学习;目标视觉检测;技术应用

[中图分类号]TP18 [文献标志码]A [文章编号]2095–6487（2022）04–0–03

Application of Deep Learning in Object Visual Detection

Yu Le

[Abstract]In the new era of continuous innovation and widely application， computer vision technology can be said to be the whole field of science and technology， computer vision technology can also be said to be cutting-edge technology， and computer vision， target vision detection is one of the important tasks， nowadays， all kinds of electronic devices are actually used in people's work life， image data production， because the mass of the accuracy of image recognition has a significant impact on many aspects， in this case， how to further improve the accuracy of target recognition in the image has become an important issue for relevant researchers.The following mainly discusses the traditional object detection technology and the object detection technology based on deep learning， and analyzes the practical application case for the application system of deep learning in object visual detection for reference.

[Keywords]deep learning; target visual detection; technology application

在这个信息技术突飞猛进的时代，人们已经被各类电子设备所包围，从人人离不开的手机到商场车站的刷脸测温设备，可以说电子设备已经成了人类社会必不可少的重要工具。其解放了人力，同时也能更加准确高效地完成人力难以完成的工作。而这其中发挥重要作用的就是目标视觉检测技术，有了这项技术，摄像头才能够在基础的记录影像语音的功能上具备识别人像，并进一步分析的能力。目标视觉检测技术应用广泛，作为一项基础技术，应用于航拍、卫星、监控等领域，具有广阔的发展前景，也是业内人士重点研究的课题，许多专家学者都在探索深度学习对目标视觉检测技术的革新发展，这也是本文的研究中心。

1 传统目标检测技术

以前在进行目标检测时，往往会通过4个步骤执行：①做好图像的预处理;②选择图像候选区域;③及时提取区域特征;④做分类器的分类管理工作。每一个步骤都要逐一进行，并且有很多注意事项。传统目标检测技术流程如图1所示。

（1）图像预处理。实际工作时，图像的好坏往往会直接影响整个识别计算的精度，所以在传统目标检测中，图像是非常重要的一部分内容。相关的工作人员需要及时提取相应的特征，从实际情况出发，做深入的处理工作，如常见的降噪处理、平滑操作等等。这些处理内容都是需要完成的工作，这样才能更全面地去除与检测无关的信息，让图像能够有更多真实有用的信息。预处理工作可以简化输入数据，让后续的处理能够更高效、更有針对性。

（2）区域的选择。要想让任务更好地完成，就一定要事先划分区域，让图像可以在对应的区域完成工作，做好分类和识别。以前目标检测技术通常会通过滑动窗口选择区域，而实际工作时，目标尺寸大小有非常明显的差异性，往往无法明确目标大小，必须要从实际情况出发做出取舍。而且不同尺寸大小窗口的图像内容，都要做图像的滑动选择，才能确定所需要的候选区域。实际工作时滑动窗口选区会增加后续计算量，导致计算冗余以及重复，并带来一系列的后续问题，让工作量大大增加。

（3）特征提取。作为目标检测的几个环节中最重要的一环，特征提取会直接影响分类结果。在展开工作时，相关单位要结合特征形状、特征区域以及纹理特征等一系列内容，做好识别的调整，了解不同特征的特性，并把特征提取下来，在特定场合下识别使用相应特征信息，让目标的形态、背景等内容可以识别出来。实际工作中，目标视觉检测往往会面临到很多复杂的场景，而这些场景往往意味着特征的多样性和多元化，在提取时会更加复杂。而系统无法准确识别时就需要人工决定，所以某种程度上来说，特征识别提取还是依赖相关研究人员的人工操作，在通用性上受到了很大的限制。38A7110E-08E5-4A40-A371-471E19CF5E16

（4）分类器分类。以前传统分类是需要把相应的特征归入SVM以及Adaboost上。

2 目标检测技术

在机器学习时，深度学习是非常重要的内容，也是人工神经网络研究的深入方向。它需要能够准确建立一些模型，模拟人的大脑，然后从实际情况出发，做好自主分析，根据神经网络的情况进行研究。深度学习包含的内容有很多，如卷积神经网络、深度信念网络等，都是要涉及的神经网络算法类型。应用时，不同的区域会用到不同的网络模型，并达到需要的效果。图像的检测要依靠CNN进行特征提取，得到相应的图像特征后，再做分类和定位。卷积神经网络是整个目标学习的基础，其应用是让系统深度学习的基石。

2.1 卷积神经网络

通常卷积神经网络都会用在检测中，并且检测的效果比较好。实际应用时特征表达能力越强，相应的目标检测任务就可以更好地达成。适当增加网络深度，可以让深层次语义信息更加丰富清晰，更多层次的表达目标的情况。深度神经网络会因为这一系列的改动而有效提取到对应的特征信息，更顺利地达成目标工作内容。与传统的深度神经网络相比，卷积神经网络能更好地处理一系列参数，让模型参数量得到更好的优化，也让传统深度神经网络存在的模型管理问题进一步缓解。从实际设计应用中可以看出，卷积神经网络包括卷积层、激励层、全连接层以及池化层。它能够做好局部连接，并且还可以共享权值。卷积层运行原理如图2所示。

（1）局部连接。实际应用中，局部连接发挥着非常重要的作用。它是稀疏连接，也是局部感受野，能够在一定区域内显示特征，但是如果距离比较远，可以得到的特征相关性就比较弱。人脑想获得目标信息时，依靠的不是每一个视觉神经元，而是神经元的局部特定地区去感知。在进行计算统计时，很多神经元处理信息都涉及了局部特征信息。传统的人工神经网络的神经元感受图像在一个特定的区域，而在优化之后，计算量会大减少，计算的复杂度也会相应减弱。

（2）权值共享。在进行设计计算时，相关的工作人员需要明确卷积神经网络显示的特点。它能够在图像上不断滑动，服务对象不同时，可以通过相同数值的滤波器获取准确的特征。从实际应用中可以看出权值共享包含了很多方面的内容，它们能够减少计算量，降低程序的冗杂性，还可以根据图像的不同特征进行调整。

2.2 目标检测算法

2.2.1 RCNN

随着时间的推移，越来越多网络分类投入实际使用中。相关研究人员不断深入研究，与人工提取特征相比，深度神经网络更具备鲁棒性，投入实际使用时，其稳定性更高，误差更小。相关的研究人员开始不断尝试，将目标检测任务与深度神经网络结合在一起，进行目标特征提取。第一个使用卷积神经网络提取特征的是RCNN，它通过4个步骤来完成相应的工作：选择区域、通过卷积神经网络提取特征、做好SVM分类，回归候选框。

2.2.2 FastRCNN

实际使用时，RCNN比传统方式有了很大的提升。它解决了传统目标检测存在的很多问题，做了更深入的优化。然而，RCNN也存在没有解决的疑难，如在提取2 000个候选框后，要把相应的候选方送入CNN做更进一步的特征。但是2 000个候选区域存在着重叠，所以计算时也会重复计算。要想做候选区域的更进一步的处理，就一定要先统一尺寸，规范输入神经网络并提取特征，相对来说还是有些复杂。使用crop/Wrap处理图片之后，一些区域存在着遗失的情况，于是图像也就失真了。为了处理RCNN的这一系列问题，相关研究人员做了深入的探讨。2015年，研究人员将RCNN网络结构模型与sppnet结合在一起，做出了综合的调整和改进，并给出了fastRCNN结构模型。它给出了roiPooling来进行工作，不同大小特征都可以在该工具的处理中确定下来。实际应用中，整机操作可以对上整张图像，减少了重复计算，整体工作效率大大增加。

3 目标视觉检测的案例分析

3.1 系统使用工具介绍

本文以车辆目标检测的设计为例进行分析。该案例会使用的工具包括了Pycharm、Qt Designer、PYUIC、PyRcc。先通过Pyqt5工具包、pipinstallpyqt5命令、pipinstallpyqt5-tools等内容来进行安装，然后配置QtDesigner、PyUIC、PyRcc，制作UI界面，通过Button、Label等控件实现可视化。用户不用自行编写程序，设计界面的方式更直接，程序开发也更加方便。在查看预览图时，可以直接使用Ctrl+R快捷键。QtDesigner可以把UI文件格式转换为python。每一次对UI文件的改动，都需要将UI文件重新转换成python文件。

3.2 系统功能组成

在实际使用时，案例中的系统有4个主要的功能模块：视频检测结果展示模块、模块加载检测模块、图片/视频流加载模块以及图片检测结果展示模块。不同模块都有不同的针对事项，在进行加载检测时，要注意每个模块的功能分区，结合模块的功能要求进行优化和细化，在图片视频流加载模块中，需要让系统自主选择，根据图片或视频文件的情况来确定好路径选择和展示功能，并做好相应的加载，让模型加载检测模块可以接收到相应的文件和信息。而模型加载和检测模块则要在YOLOv3基础上做更进一步修正，根据车辆检测的侧重点以及其算法的权重做深入的文件配置，并实现图片以及视频的一系列检测功能，完成对应的车辆检测任务。图片检测结果展示模块则是把前面几个模块处理后得到的检测结果显示出来，方便使用者在系统界面上了解检测到的信息可。以下拉框查看不同检测内容的细节，根据车辆类别以及检测目标位置的信息获取相应的内容，让工作人员更方便地分析检测结果。视频检测信息显示模块则是实时展示在左上角的位置，显现处理情况，方便实时查看。

3.3 系统主要功能

3.3.1 图片车辆检测

在进行汽车检测时，图片车辆检测功能是非常重要的一部分内容，相关的工作人员需要从实际情况出发，做好工作的优化，根据现场的状况进行调整，合理选择相应的文件信息。调用图片做识别，让车辆检测更加方便，可以对比不同类型车辆的情况，做预测框的标记，然后显示相应的检测信息。可以每检测到一个目标就做一次对应的矩形框标记，再在下拉列表里找到显示的具体情況和信息内容，做更进一步的探讨。

3.3.2 视频车辆检测

工作人员在点击了视频车辆检测按钮后，就可以及时跳转并打开相应的文件界面。在此过程中需要合理的调度视频文件，根据视频检测模块完成视频车辆检测功能，显示检测结果，展示检测实时帧率，方便处理期间进行更深入的识别和优化。

4 结束语

相对于传统的目标视觉检测技术，深度学习具有更大的优势，能够精准高效地对图像进行处理和选择，不容易受到光线、背景等因素的干扰，是未来的主要发展方向，能够使技术更好地为人类服务。但是目前关于深度学习的研究还不够充分，没有一个较为完善的理论体系的支撑，势必会对技术的应用造成阻碍，因而应当不断完善理论，充实数据，并且在应用实践中发现问题进而改进，激发深度学习的优势，促使目标视觉检测技术更好地发展。

参考文献

[1] 张慧，王坤峰，王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报，2017，43（8）：17.

[2] 杜光景，谢俊，张玉彬，等.用于稳态视觉诱发电位脑机接口目标识别的深度学习方法[J].西安交通大学学报，2019，53（11）：7.

[3] 秦龙.基于深度学习的交通场景视觉显著性区域目标检测[D].成都：电子科技大学，2020.

[4] 刘桂雄，刘思洋，吴俊芳，等.基于深度学习的机器视觉目标检测算法及在票据检测中应用[J].中国测试，2019，45（5）：9.38A7110E-08E5-4A40-A371-471E19CF5E16