基于全卷积神经网络的计算机视觉目标检测算法*

2021-09-28 00:50蒋燕翔

沈阳工业大学学报 2021年5期

蒋燕翔

(1.海南大学信息与通信工程学院，海口 570228；2.海南外国语职业学院公共教学部，海南文昌 571300)

计算机视觉也称机器视觉，是一种用摄像机模拟人眼来获取物体图像，用计算机模拟人体大脑，对图像进行理解和识别，从而完成分析图像和目标检测的技术[1].从最初20世纪50年代的统计模式识别发展到现在，计算机视觉技术得到了迅猛发展，构成了图像分割、图像增强、图像平滑、图像编码、边缘锐化以及目标检测等关键领域.其中，对前几个领域的研究已经相对成熟，但是对最后一项目标检测还没有较为完善的检测算法，因此，计算机视觉目标检测已经成为相关学者的重点研究对象.

栗科峰等[2]提出了基于支持向量机的视觉图像目标检测方法.通过建立分类超平面，并以距离作为相似性度量手段来完成对未知目标的分类识别，该算法多应用在静态图像的目标检测当中.陈艳浩[3]提出了基于背景减法的视觉图像目标检测方法，利用色度信息及局部邻域交叉熵信息去除阴影，从而实现运动目标检测.该检测算法与基于支持向量机的视觉图像目标检测算法正好相反，多应用在动态目标检测当中.上述两种算法均具有一定局限性，应用范围受限.李战明等[4]提出了基于高斯混合模型的视觉图像目标检测方法，该方法是一种较为新型的检测算法，虽然不再受图像动静态模式的影响，但是会受到图像背景因素的干扰，目标检测效果同样没有达到期望标准.

针对上述方法存在的问题，本文在全卷积神经网络的基础上研究出一种新的计算机视觉目标检测算法.该算法分为图像处理和目标识别两部分，采用Fβ分数测定算法检测性能，经仿真测试得出，基于全卷积神经网络的计算机视觉目标检测算法的检测效果要优于基于支持向量机、背景减法以及高斯混合模型三种视觉图像目标检测算法的检测效果，说明本文检测算法的性能更高，更能保证目标检测的准确性[5].

1 计算机视觉图像预处理

计算机视觉技术在目标检测领域有着广泛的应用，如缺陷检测、人脸检测、危险区域检测、医疗病理检测和车辆目标检测等.在进行计算机视觉目标检测过程中，图像预处理是一项重要工作，其主要包括图像转换、图像平滑及图像增强.经过上述处理输出的图像质量得到了极大提高，方便后期利用计算机识别图像目标信息[6].在此基础上采用迭代阈值图像分割法截取目标图像，基于HOG特征抽取目标图像特征，使其不受图像状态影响，得到准确的图像特征.

1.1 图像转换处理

计算机视觉技术处理的图像必须是数字图像，其他格式的图像并不适配，因此需要将摄像机采集到的模拟图像转换为数字图像，即进行图像数字化.图像数字化实现过程主要分为三个步骤：采样、量化以及编码.其中，采样是指按照固定的时间或空间间隔，将模拟图像离散化；量化是指将图像离散点约束到一个固定数值范围内，即实现离散点等级有限化；编码是将量化后的图像离散点转换成用二进制数码0/1表示的形式，达到压缩信息量的目的[7].

1.2 图像平滑处理

摄像机采集图像过程中，由于受到成像设备和环境的影响，实际呈现出来的图像会存在失真现象，导致图像质量下降，这对于后期有用信息造成了严重干扰，因此必须平滑数字图像，去除其中的噪声，恢复原始图像.目前针对数字图像平滑，主要有均值滤波法、中值滤波法、低通滤波法等几种.均值滤波法是将某像素邻域内各点的灰度平均值来代替该像素原来的灰度级，计算公式为

(1)

中值滤波法使用图像中某一像素的相邻像素灰度中值来代替像素值，计算公式为

V=median{a1，a2，…，an}

(2)

式中，a1，a2，…，an为邻域中各点的灰度值.

低通滤波法设定一个截止频率点，过滤出所有低于该数字图像信号频率的值，并全部赋值为0，用来消除高频噪声；而高通滤波则过滤出所有高于该数字图像信号频率的值，用来消除低频噪声，计算公式分别为

(3)

(4)

式中：d(u，v)为点(u，v)到频率平面原点的距离；c为截止频率点.

针对图像的不同噪声特征，使用不同的滤波方式进行图像平滑处理.在计算机视觉目标检测过程中，使用低通滤波和高通滤波分别滤除图像的低频噪声及高频噪声.数字图像平滑处理后，会对图像本身的细节，如边界轮廓、线条等造成模糊，弱化图像目标信息，因此，在图像平滑后，还需要进行图像增强处理.

1.3 图像增强处理

图像增强处理能够增强图像对比度，突出图像中的重要细节，目前对于图像增强，主要包括两项内容：直方图均衡化，重点突出图像中目标物体信息；边缘锐化，重点突出图像边缘轮廓信息[8].

直方图均衡化是指将原图像通过某种变换，得到一幅灰度直方图为均匀分布的新图像的方法.暗图像直方图的分量集中在灰度较低的一端，而亮图像直方图分量偏向于灰度较高的一端.根据输入图像的直方图信息得到一个变换函数，采用变换函数完成图像灰度值均匀分布，使图像具有较高的对比度及较大的灰度动态范围，该过程即为直方图均衡化.

设r为图像灰度，取值范围为[0，L-1]，0为灰色，L-1为白色.T(r)为图像灰度值变换函数，计算公式为

(5)

式中，i为单位图像灰度值.通过该变换函数完成直方图均衡化处理.

边缘锐化是指增强数字图像的边缘信息，形成完整的物体边界，以达到目标从图像背景分离的目的.目前数字图像边缘锐化一般有三种方法：微分运算法、梯度锐化法以及边缘检测法.本文采用梯度锐化法[9]，使噪声得到增强，实现步骤如下：1)获得原图像的首地址及图像的宽和高；2)开辟一块内存缓冲区，依据图像噪声平均值，将其梯度初始化为255；3)计算图像的像素梯度，将结果保存在内存缓冲中；4)比较像素梯度是否大于30，大于则将梯度值增加100，小于则将该像素点的灰度值恢复，如果梯度加100大于255，将其设置为255；5)将内存中的数据复制到图像数据区.

1.4 目标图像截取及特征抽取

图像增强之后进行目标图像截取任务，即将图像中目标物体与背景分割开来.目前，对于目标图像截取工作，最常用的方法为阈值法，它属于基于区域的图像分割技术的一种，基本原理是通过比较图像像素点与设定特征阈值之间的差异，将图像像素点分为若干类别[10].在阈值法下又分为固定阈值分割法、直方图双峰法、半阈值分割法以及迭代阈值图像分割法.本文选择迭代阈值图像分割法，具体操作过程如下：

1)找出数字图像中像素点的最大灰度值和最小灰度值，分别记为Xmax和Xmin；

2)令初始阈值T0=(Xmax+Xmin)/2；

3)根据初始阈值将图像目标和背景两个部分分开，并分别计算出目标图像和背景图像的平均灰度值ZO和ZB，即将小于T0的图像所有灰度的均值记为ZO，将大于T0的图像所有灰度的均值记为ZB；

4)更新阈值，求出新的阈值TK+1=(ZO+ZB)/2；

5)若TK=TK+1，所得即为阈值，否则回到步骤2)；

6)迭代计算结束.

HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，最大特点是检测不受图像状态(动静态)的影响，可以通过梯度或边缘的方向密度分布来描述目标物体的特征[11].本文基于HOG特征的图像特征抽取具体流程如下：

1)标准化图像gamma空间和颜色空间；

2)计算标准化后的目标图像中每个像素的梯度；

3)将图像分割成大小相同的小细胞单元cells；

4)构建每个细胞单元梯度方向直方图，形成若干个“单元格cell”；

5)将小的细胞单元格cell连接在一起，组合成大的块；

6)收集HOG特征，完成目标图像特征抽取.

通过上述步骤完成目标图像特征抽取，至此完成了图像预处理.

2 全卷积神经网络下的图像目标检测

计算机视觉图像目标识别过程实际上是一个标记过程，即通过识别算法从已经处理好的图像中检测或分类出目标物体，并赋予特定的标记，这是计算机视觉技术中最关键的步骤.目前计算机视觉图像目别识别算法主要有支持向量机、背景减法以及高斯混合模型三种方法，但是这三种方法的实际应用效果并不好，因此本文采用全卷积神经网络来进行目标识别[12].

卷积神经网络是由数据输入层、卷积计算层、激励层、池化层、全连接层5个层次组成.这种神经网络无需手动选取特征，训练好权重，即可得到特征，分类效果较好[13].但是对于不同的任务需要单独训练，全连接模式过于冗余且低效，实现过程比较复杂，训练所需时间比较久.针对卷积神经网络存在的缺点，本文提出了全卷积神经网络的方法，其只包含了卷积化层和池化层，操作过程简便，且不易过分拟合.基于全卷积神经网络进行视觉图像目标识别的具体过程[14]如下：

1)训练过程.

① 选出全卷积神经网络所需要的训练样本.

② 对全卷积神经网络进行初始化，并设置初始学习率参数为0.01，当训练样本的误差值小于0.1时，将学习率参数调整为0.001，以便更精准地控制训练误差值.

③ 将训练样本输入到全卷积神经网络当中，进行全卷积神经网络训练.

④ 根据网络输出、输入的目标，得出全卷积神经网络当前的误差值.

⑤ 将上述得到的误差值反向传播到卷积神经网络当中，并以此调整卷积神经网络权值，使误差值不断减小.

⑥ 通过迭代得出神经网络误差平均值，设定误差阈值为0.01，判断当前误差值是否小于设定的误差阈值.如果当前误差值小于设定的误差阈值，则继续进行下一步；否则回到步骤③.

⑦ 全卷积神经网络训练结束.

2)测试过程.

① 将测试图像样本输入到训练好的全卷积神经网络；

② 输入提取出来的目标图像特征，即HOG特征；

③ 根据HOG特征得到计算机视觉目标；

④ 计算机视觉图像目标识别结束.

3 仿真实例测试

为验证本文提出的基于全卷积神经网络的计算机视觉目标检测算法的有效性，设计仿真实验，并与文献[2]、文献[3]、文献[4]方法进行对比.

3.1 实验环境与模型参数

采用MATLAB仿真软件作为实验平台，设置实验环境、模型参数以及实验对象参数，测试实验所采用的图像集来自Visual Genome数据集.图像样本总数为108 249个，选取其中1 000张静态图像及1 000张动态图像作为实验测试对象.实验环境参数、模型参数以及实验对象参数设置情况如表1所示.

表1 实验参数设置Tab.1 Experimental parameter settings

3.2 评测指标

Fβ分数是图像目标检测精确度评测的一个指标，其将准确率和召回率这两个分值合并为一个分值，即看作是准确率和召回率的一种加权平均，最大值为1，最小值为0，因此越接近1，准确率越高，其计算公式为

(6)

式中：β为召回率权重，是准确率权重的倍数；a为准确率；b为召回率.

3.3 测试结果

采用本文方法和文献[2]、文献[3]以及文献[4]方法对图像集进行目标检测，得到静态图像在β=0.5、1、2时的Fβ分数，如图1所示.

由图1可知，文献[3]方法在静态图像检测中的Fβ分数最小，且无论β取值0.5、1、2，本文方法的Fβ分数均大于对比方法.在此基础上测试动态图像在β=1时的Fβ分数，对比结果如图2所示.

图2 动态图像Fβ分数对比图Fig.2 Fβ score comparison for dynamic images

由图2可知，本文方法在动态图像的视觉目标检测中，Fβ分数均大于对比方法.由上述结果可知，利用本文方法进行1 000张静态图像及1 000张动态图像样本的目标检测，最终得到的Fβ分数均高于其余三种目标检测算法的结果，说明本文方法检测准确率更高，检测性能更好.对几种方法的检测时间进行对比，结果如图3所示.

图3 检测耗时对比Fig.3 Detection time comparison

由图3可知，在2 000个样本的视觉目标检测过程中，本文方法的检测耗时仅为100 s，远远小于对比方法.由于全卷积神经网络只包含卷积化层和池化层，在训练过程中减少了复杂步骤，能够较为直接地得出目标识别结果，因此，本文方法的检测耗时较短，检测效率较高.

4 结论

计算机视觉技术在当今生产、生活等多个领域起到了关键作用，本文提出了基于全卷积神经网络的计算机视觉目标检测算法对图像进行预处理，并通过全卷积神经网络训练实现目标检测.通过对比测试得出，本文方法图像目标检测的Fβ分数更高，更接近1，说明本文方法对图像目标检测的精确度更高，检测性能更优越，实验证明本文方法的检测耗时较短，检测效率较高.