机器学习在计算机视觉处理中的应用策略

2021-01-12 11:15王铁胜

科技资讯 2021年32期

王铁胜

摘要：在当今社会的经济发展中，伴随着机器学习算法的应用与发展，以此为基础的计算机视觉处理技术也开始成为了人工智能领域中的一种关键技术形式。将机器学习算法合理应用到计算机视觉处理中，便可让计算机视觉处理更加贴合于人类的思维方式，以此来满足实际的视觉处理需求。为实现机器学习算法在计算机视觉处理中的良好应用，该文特对其应用进行分析，并通过实际的应用案例来分析其应用策略。

关键词：计算机视觉处理机器学习应用策略

中图分类号：TP391 文献标识码：A

Abstract： In the economic development of today's society， along with the application and development of machine learning algorithms， computer vision processing technology based on this has also begun to become a key form of technology in the field of artificial intelligence. The reasonable application of machine learning algorithms to computer vision processing can make computer vision processing more suitable for human thinking， so as to meet actual vision processing needs. In order to realize the good application of machine learning algorithm in computer vision processing， this article analyzes its application and analyzes its application strategy through actual application cases.

Key Words： Computer; Vision processing; Machine learning; Application strategy

所謂计算机视觉处理，就是以计算机算法为基础的图像内容自动识别技术，这一技术起源于20世纪60年代左右，是人工智能与认知神经学的结合产物。在当今，随着社会的发展与科技的进步，图像识别技术也得到了良好发展。尤其是自机器学习技术应用以来，计算机视觉处理技术的应用及其发展更是上升到了一个全新的高度。因此，在计算机视觉处理技术的具体应用中，技术人员一定要注重机器学习算法的科学应用，以此来达到良好的视觉处理效果。

1 计算机视觉处理中机械学习的主要应用

1.1图像检测技术的应用

所谓图像检测技术，就是在进行图像分类过程中，通过矩形框将检测对象包围起来。自2014年以来，很多机器学习框架都开始被应用到了计算机视觉处理中的图像检测中，比如R-CNN框架、Fast R -CNN 框架、Faster R-CNN框架、YOLO框架以及SSD框架等[1]。在上述机器学习图像检测框架中，YOLO框架具有最高的检测速度，经实践研究发现，其检测速度可以达到155帧/s，但是其检测精度却最低，只有52.7;Faster R-CNN框架虽然具有最高的检测精度，但是其检测速度非常慢。相比较其他检测框架而言，SSD框架在检测精度和检测速度方面都更具优势。因此在具体的计算机视觉处理中，可将SSD框架作为其图像检测框架。

1.2随机森林分类模型的应用

在对照片进行处理的过程中，计算机可借助于相应的算法对语义图形进行分割，同时也会对其中的各种主要元素进行合理区分。为达到这一目标，就需要一个足够强大的构建块，也就是通过训练分类器来实现各种分类图像中像素分布情况的预测。这一任务就使得机器学习在计算方面面临着很多问题，尤其是在像素量很大的计算机中，其图像分类任务甚至需要一百万次以上的培训与测试[2]。针对这样的情况，就需要借助于机器学习算法中的随机森林分类模型来实现。具体应用中，可按照随机的方式来进行像素森林构造，在完成了森林构造之后，每当输入一个新的样本，森林中的各个决策树便会分别对其进行判断;在明确新样本所述类别之后，便可对其应用的样本进行科学预测。借助于这一技术，可在不需要特征选择的情况下实现高维数据的大量处理，进而达到良好的降维效果。在完成了训练之后，该模型便可准确判断出各种类型中的重要像素。另外，该模型也具有很快的训练速度，且能够在训练过程中实现各种特征之间的影响作用检测。

1.3仿生学方法和工程方法的应用

在计算机视觉处理技术的应用中，机器学习算法的主要作用是对人类的学习行为进行模拟，以此来实现新知识和新技能的获取，然后对已有的知识结构重新进行总结，进而实现计算机视觉处理绩效的不断提升。在机器学习和计算机视觉的结合中，人工智能是其核心部分，同时也是实现计算机视觉处理智能化的一个根本途径。具体结合中，为了让计算机视觉处理的各项功能得以良好实现，可将机器学习中的仿生学方法以及工程方法应用其中。通过仿生学方法的应用，可实现人类视觉系统和人类学习能力的良好模拟。但是因为人类视觉系统不能直接测量某一个输入的输出，加之人类的视觉系统属于多种功能系统的组合，即使是在获得到了输入和输出对的情况下，也难以确定其视觉刺激仅仅是对当前的输入所产生的响应[3]。而通过工程方法的应用，便可让计算机视觉系统可以及时对当前的输出做出相应的刺激响应，以此来达到良好的视觉处理效果。

2 計算机视觉处理中的机器学习应用策略分析

为实现机器学习算法在计算机视觉处理中的良好应用，该文特以某艺术风格迁移网站为例，对计算机视觉处理中的机器学习算法应用策略进行分析。在该网站中，主要的视觉处理目的是将给定的内容按照特定的某种图像风格进行转化，进而形成特定风格形式的混合图像。在通过多次的网络运算之后，可以让给定的图像完全转变成特定的某种图像风格，达到人眼难以分辨的效果。以下是对这一过程的具体实现所进行的分析。

2.1艺术风格迁移与机器学习算法引入

所谓艺术风格迁移，就是从一幅既有的图像中进行风格提取，比如在梵高的《夜空》中进行风格提取，再将另一幅其他内容、其他风格的图像导入，比如一个城市的建筑群;然后让系统按照《夜空》的风格再画一遍城市建筑群[4]。虽然人类都能够轻松识别图像中的风格特征，但是对于计算机而言，如何将一个图像的风格转换成另一个图像的风格是一个相等复杂抽象的问题。传统的图像艺术风格迁移方法在视觉效果上难以达到符合实际应用的要求。为达到这一效果，在通过计算机进行视觉处理的过程中，便可引入机器学习算法。而在该艺术迁移网站中，便将VGG19机器学习算法引入进来。

2.2图像内容的定义

在将一幅图像P导入到VGG（卷积层）机器学习网络之后，会在网络第一层获得到一系列的向量，并在后续的每个网络层中获得中间向量，其中的各个像素都是由红绿蓝这三个值组成，代表着图像特征。因为VGG19属于一个完成了一系列模拟人类视觉系统训练的机器学习网络，其中的参数已经被确定，因此通过参数计算所获得到的中间向量便可用来代表这个图像。在这样的情况下，就可以对某一个卷积层内的featuer map（特征图）定义为这个图像的内容[5]。

2.3内容重构

在给定了一幅图片和完成模拟人类视觉系统训练的VGG19之后，便可在每一个卷积层内实现若干个feature map的获取，每一层的滤波器个数将会对feature map的获取个数起到决定性作用。对每一个feature map做向量化处理，便可获得到大小一定的向量，在相应的矩阵中对每一层内的向量进行存储，其中的元素所表示的是在第I层中第i个滤波器j位置处的激活响应[6]。如果指定了某一层I具体特征，希望可以生成一幅新的图片X，让这幅新的图片在保留原来内容的基础上具备I的特征，便可按照以下公式对其损失函数Lcontent进行定义：

这里的“内容”指的是某个卷积层内的全部feature map，将其与同一卷积层内新图像中的全部feature map比较，然后做平方差求和处理。但是在具体的计算机视觉处理中，也可以将某一层中的一个feature map用作图像内容，但是相比较将所有feature map用作内容而言，其计算量会减少，模拟人类视觉系统训练速度会更快，但是精准度也会降低，内容保真度也无法保障。

2.4图像风格的定义

相比较图像内容的定义而言，图像风格的定义具有更高的难度。风格定义中，并不可随意将某一层内的某一个feature map选作风格层，而是需要将一层内的全部feature map拿来两两作内积，然后求出一个Gram矩阵，其中主要包括图片颜色信息以及纹理信息，该矩阵也就是图像的风格。以下是图像风格的定义公式：

式中，所代表的是第I层内feature map中的i与j的内积，k所代表的是feature map内与之对应的元素，在某一层内，feature map中的i与j的内积所代表的启示就是这个Gram矩阵内第i行第j列上的元素值[7]。在这样的情况下，每一层中的风格损失函数可按照以下公式来进行定义：

式中，所代表的是这一层中的feature map总数，所代表的是各个feature map的具体尺寸。该定义仅仅是针对某一层进行的风格定义，在具体的计算机视觉处理中，为达到更好的处理效果，就需要对其中的每一个卷积层进行风格定义，以此来实现其风格损失函数的科学计算。以下是经机器学习算法进一步运算得出的风格损失函数：

式中，所代表的是各个层中对应风格的权重，处理中，其具体数值应按照实际情况来确定，也可以将每一层中的数值设置为相等的数值，使其最终的和等于1。

根据上述计算，便可进一步定义出最终的损失函数：

式中，所代表的是各个层中对应的内容损失权重; 所代表的是各个层中的风格损失权重，两者加和是1。如果需要在最终合成的图形中突出内容，则可以为赋予更大的权值;如果需要在最终合成的图像中突出风格，则可以为赋予更大的权值。

2.5合成图像的生成

在导入了一幅风格图像和一幅内容图像之后，便可通过完成训练的VGG机器学习网络来进行内容和风格的提取，然后通过上述机器学习运算来实现最终的合成，进而达到良好的艺术风格迁移效果[8]。

3结语

综上所述，在计算机视觉处理技术的具体应用中，机器学习算法具有非常好的应用优势。早期计算机视觉问题的一种解决途径是通过一些数学建模，数学分析的方法来做，但是随着近几年来机器学习领域的快速发展，计算机视觉结合机器学习开始得到研究人员更广泛的关注，并实现计算机视觉领域了较大的飞跃。因此，技术人员一定要对机器学习算法加以深入研究，并根据实际情况、结合具体应用需求，使其在计算机视觉处理中得以合理应用。这样才可以让计算机视觉处理朝着更加智能化的方向发展。

参考文献

[1] 刘迪，贾金露，赵玉卿等. 基于深度学习的图像去噪方法研究综述[J]. 计算机工程与应用， 2021， 57（7）：1-13.

[2] 杨弋鋆，邵文泽，王力谦，等.面向智能驾驶视觉感知的对抗样本攻击与防御方法综述[J].南京信息工程大学学报，2019，11（6）：651-659.

[3] 贺辉，陈思佳，黄静.一种改善光照对深度人脸识别影响的方法[J].计算机技术与发展，2019，29（4）：38-41.

[4] 徐泉新思科技全新嵌入式视觉处理器为人工智能芯片提供领先性能[J].计算机与网络，2019，45（21）：74.

[5] 王一丁，赵晨爽.优化视觉聚焦点的手背静脉识别方法[J].计算机测量与控制，2019，27（7）：200-204.

[6] 李章维，胡安顺，王晓飞.基于视觉的目标检测方法综述[J].计算机工程与应用， 2020，56（8）：1-9.

[7] 于淼淼，郑元林，廖开阳，等.基于视觉感知高度相关的图像质量评价[J].西安理工大学学报，2019，35（2）：224-233.

[8] 刘佳洛，姚奕，黄松，等. 机器学习图像分类程序的蜕变测试框架[J].计算机工程与应用， 2020， 56（17）：69-77.