基于融合特征的自适应阈值镜头边界检测算法

2020-04-24 03:07李秋玲邵宝民

计算机工程与设计 2020年3期

李秋玲，赵磊，邵宝民，王雷，姜雪

(山东理工大学计算机科学与技术学院，山东淄博 255049)

0 引言

视频边界检测[1]是处理和管理视频的第一步，寻找一种准确高效的视频边界检测算法越发受到人们的关注[2]。传统的镜头边界检测算法，如帧差法，虽然比较简单直观，但其计算量大且对光照运动等干扰不敏感[3]；基于聚类的检测算法虽然不需要人为设置阈值，但却要人为设置聚类的数目[4,5]；基于双阈值的检测算法当渐变镜头溶解过程过于平缓时其难以检测到溶解镜头的起始帧[6]。近来也有学者提出了一些新的思路，如基于时空卷积神经网络的镜头边界检测算法用包含超过350万帧的镜头的过渡数据集训练CNN网络模型，但该方法目前还缺乏普适性[7]。颜色直方图特征可以描述图像中颜色的全局分布，适合用于描述不需要考虑局部空间和位置的图像[8]，其不足之处在于忽视了图像中物体的形状和边缘。HOG特征在行人检测中是一种成功的边缘特征提取方法[9],其主要描述的是目标的边缘特征，但是却忽略了图像的整体颜色特征[10]。目前镜头边界检测算法中人工确定阈值存在不确定性及不稳定性问题，自适应阈值是视频镜头边界检测算法今后发展的一个趋势。因此本文提出了融合RGB颜色直方图特征与HOG特征的自适应阈值镜头边界检测算法。本文通过实验对效果进行了验证，为镜头边界检测算法的研究开拓了思路。

1 特征提取

1.1 RGB颜色直方图特征

在视频镜头边界检测领域，颜色直方图特征仍然是一个流行且有效的特征[11]，因为它对描述目标形变和旋转具有一定的鲁棒性[12]。我们将R、G、B这3个颜色通道作为特征向量，并且每个颜色通道中使用8个bin进行量化，得到每个通道的8维直方图特征，将3个通道量化后的小区间拉成一行后便可以使用512维的特征向量描述每一帧，我们用以下公式表示第n帧的颜色直方图

R(n,i),0≤i≤M-1

(1)

其中，n和i分别表示视频序列中的帧号和直方图中的bin数，且M=512。

1.2 改进的HOG特征

HOG表示边缘梯度的结构特征[13]，且该特征可以抵消光照变化带来的影响也使得图像局部像素点之间的关系可以很好地表征。HOG方向梯度直方图利用x方向的梯度模板[-1,0,1]和[-1,0,1]T遍历整幅图像，遍历之后的每个点都具有x方向和y方向两个分梯度值，图像中像素点 (x,y) 的梯度为

Gx(x,y)=H(x+1,y)-H(x-1,y)Gy(x,y)=H(x,y+1)-H(x,y-1)

(2)

式中：Gx(x,y)、Gy(x,y)、H(x,y) 中分别表示输入图像中像素点 (x,y) 处的水平方向梯度，垂直方向梯度和像素值。像素点 (x,y) 处的梯度幅值和梯度方向分别为

(3)

(4)

将每张图片分成小的连接区域称为cell，取每个cell的大小为8×8并且cell与cell之间没有重叠部分，选用方向为0°到180°的无符号梯度，平均分成9个方向，并且每一个block中包含2×2个cell。由于HOG特征的维数较多，通过多次实验的比较我们将原图片归一化为32×64大小，使其在较少维度下表现出较好的性能。对三通道分别提取HOG特征，将每个cell特征数据进行量化得到单个cell的9维特征，因此每个通道中可以提取到756维特征。将全部的84个cell中9个方向每个方向的个数进行统计得到每个通道的9维直方图特征。

1.3 CNN提取帧特征

本文中采用自己训练的曾用于Caltech256数据集进行图像分类的一个多层卷积神经网络来提取帧特征，在Caltech256中选取backpack、bear、binoculars、bonsai、butterfly这5个语义类，每类100幅共500幅图像，选取400张图像作为训练集进行训练，100张图片进行测试。该网络在此数据集上用于图像分类的平均查准率和查全率均在90%以上。去掉网络最后的损失函数层，把网络当作一个特征提取器来提取图像的深度特征。网络包含五层权重，两个卷积层后面分别对应一个最大池化层，最后是一个全连接层输出特征向量，网络结构如下。

C1层：输入图片是32×64，在C1层由20个5×5的卷积核进行卷积，得到20幅28×60的特征图。S1层：采用最大池化进行下采样，并且采用pooling窗口为2×2，步长为2×2,得到20个14×30的特征图。C2层：输入图像是20个14×30的特征图，C2层采用40个4×4的卷积核进行卷积，得到40个11×27的特征图，最后用Relu激活。S2层：采用最大池化进行下采样，并且采用pooling窗口为2×2，步长为2×2,得到20个6×14的特征图。F1层：全连接层，将图像展开转换为长度为400维的特征向量。

2 融合特征自适应阈值算法

本文将RGB颜色直方图提取的特征中每个通道的8个bin与HOG特征提取的每个通道的9个方向进行平均权重合并得到每个通道的融合特征，将R、G、B这3个通道的特征组成了一张图片融合之后的直方图特征并记为H(n)，其中n指的是图片的帧号。融合特征自适应算法流程如图1所示。

图1 融合特征自适应阈值多步比较镜头边界检测流程

2.1 融合特征多步比较镜头边界检测算法

在基于融合特征的多步比较镜头边界检测算法中首先设置一个步长l, 其中l指的是两个帧之间的距离。分别比较n-l与n+1+l两帧之间的颜色直方图差异，当l等于0的时候表示的是相邻两帧之间的差异。两个帧在多步之间的距离图[14]为

(5)

其中，sigma(n,l) 表示的是h(n-l,i) 与h(n+1+l,i) 两帧之间的直方图差异，W和H代表帧的宽和高。多步比较算法通过计算多个步骤的帧之间的差异，生成一个模式距离图，通过分析它们在距离图中的模式来检测它们的变化。图2和图3分别展示了突变模式距离图和渐变模式距离图。

图2 突变模式距离

图3 渐变模式距离

为了限制物体运动或摄像机运动引起的差异，从距离图sigma(n,l) 中删除了时间上的局部均值，定义了sigma(n,l) 的时间局部均值

(6)

其中，L是sigma(k,l) 中使用的最大步长。在被mu(n,L) 减去后，一个新的特征定义如下

eta(n,l,L)=sigma(n,l)-mu(n,L)

(7)

根据式(7)定义以下公式来表示所有可能的步长之和

(8)

在此基础上设置零交叉检测，如果检测到起点eta(Kstart(L)-1,L)<0∪eta(Kstart(L)+1,L)>0，并且检测到终点eta(Kend(L)-1,L)>0∪eta(Kend(L)+1,L)<0时，则将帧号K被声明为潜在峰值的起始点。将每个潜在峰区的帧数的最大值定义如下

phi(Kmax(L,i),L)=Max(phi(Kstart(L,i),L),…,phi(Kend(L,i),L))

(9)

其中，L是最大步长，Kstart(L,i) 和Kend(L,i) 分别表示起始点的帧数和第i个潜在峰值区域的端点，Kmax(l,i) 是phi(n,L) 在潜在最大峰值区域的最大值的帧号。

融合特征多步比较镜头边界检测算法步骤如下：

(1)分别提取RGB颜色直方图特征和HOG特征并进行平均权重合并得到每张视频帧的融合特征；

(2)计算设定步长L之间的直方图差值，根据定义的公式计算每一帧所有可能的步长之和phi；

(3)对突变和渐变分别设置不同的步长L，分别根据公式phi和eta来判断突变镜头和渐变镜头。

2.2 突变检测

当比较步长较小时，逐步过渡过程中帧间的差异并不明显，因此将突变检测模块的最大步长L设置为4。我们通过Kmax(4,i) 来检测突变，并提出自适应阈值的方法,相邻帧的直方图特征两两做差，记为dif={m1,m2,m3…mn},m1指的是第一帧与第二帧之间的特征差值，计算特征差值的均值和标准差

(10)

(11)

Q=αμ+σ

(12)

J=βμ+σ

(13)

其中，Q指突变镜头的阈值，J指渐变镜头的阈值，α和β是阈值因子，经实验可得α在-1.6到-1.8，β=-1.5到 -1.8 之间效果较为理想，本文中的实验就是在此范围内进行的。如果

phi(Kmax(4,i),4)>Q∪eta(Kmax(4,i),0,4)≥2

(14)

那么我们就将Kmax(4,i) 保留为一个突变。

2.3 渐变检测

在镜头边界检测中，渐变检测相对于突变检测来说更加困难，因为渐变镜头的类型多样，相邻帧之间的变化很小，目前用的较多的方法如设置双阈值，通过低阈值来检测渐变镜头时很容易出现错检和漏检的情况，因为传统的思路大多考虑相邻帧之间的差异，而渐变镜头，特别是渐变过程很平缓的渐变镜头在此时就很难检测出来。因此本文设置一个步长L，通过计算多个步骤的帧之间的差异来进行检测。通过将渐变检测模块的最大步长L设置为10，同突变镜头检测一样，渐变镜头使用Kmax(10,i) 来进行检测，在阈值方面我们仍然使用自适应阈值算法。如果

phi(Kmax(10,i),10)>J∪eta(Kmax(10,i),0,10)<2

(15)

那么从Kstart(10,i) 到Kend(10,i) 被称为一个渐变。

3 实验结果分析及评价对比

3.1 数据集的选取及其评价准则

本文在RAI数据集、Open-Source Video数据集、以及100段新闻联播的新闻片段上做了测试。由于篇幅限制抽取了RAI数据集中的记录、访谈视频， Open-Source Video数据集中的电影视频和新闻联播中的一段新闻视频作为研究案例。该测试数据集总共31 800帧，镜头总数为294个，其中突变镜头221个，渐变镜头73个。

本文对数据集检测结果的评价准则选用的是查准率、查全率以及查准率和查全率的综合标准F1，公式[15]如下所示

(16)

(17)

(18)

其中，Rp指查准率，Rr指查全率，F1指查准率和查全率的综合指标，Nc指正确检测出的镜头个数，Nf指检测错误的镜头的个数，Nl指漏检的镜头个数。

3.2 实验结果

图4是融合特征自适应阈值算法下系统检测的结果，图5展示了第716帧与第717帧之间发生的突变，图6展示了第506帧到523帧之间发生的渐变。

图4 融合特征自适应阈值算法系统检测结果

图5 突变帧展示

图6 渐变帧展示

由图6可以看出第506帧到第523帧之间发生的渐变非常平缓，但在系统检测的结果中没有发生漏检，融合特征自适应阈值算法改进了目前大多数算法中在检测渐变镜头时视频帧出现形状、颜色单一且变化平缓时容易出现漏检和错检的情况，并且融合特征自适应阈值算法对突变镜头也有很好的检测效果。

3.3 实验结果分析及评价对比

3.3.1 实验结果对比

为了验证融合特征的多步比较镜头边界检测算法切实弥补了只提取颜色特征、边缘形状特征和仅使用CNN提取帧特征的算法中出现的错检和漏检情况，我们将融合特征算法与只提取RGB颜色直方图特征、HOG特征及CNN提取帧特征的多步比较镜头边界检测算法作比较，比较结果见表1，其中，FUS指的是融合特征的多步比较镜头边界检测算法，RGB、HOG、CNN分别指只提取单一特征的多步比较镜头边界检测算法。

表1 融合特征算法与单一特征算法结果比较

将表1中4种方法对渐变镜头的检测结果做成图7所示条形图。

图7 4种方法下渐变镜头检测结果对比

本文采用计算相邻帧间差值的均值和标准差的方法自适应设定阈值，自适应阈值的使用提高了算法性能，减少了人工确定最佳阈值的工作量和不确定性。为了验证自适应阈值切实提高了算法性能，减少了人工确定阈值的不确定性、不稳定性，我们将融合特征的自适应阈值多步比较镜头边界检测算法同融合特征多步比较镜头边界检测算法作对比。文献[16]提出基于遗传算法与模糊逻辑方法的镜头边界检测算法，文献[17]提出利用视频相邻帧的视觉相似性检测突变和渐变的方法。为了验证本文算法的有效性，我们又将本文提出的融合特征自适应阈值算法与文献[16]和文献[17]分别做了对比。比较结果见表2，其中ADA和FUS指的是本文提出的融合特征的自适应阈值多步比较镜头边界检测算法和融合特征多步比较镜头边界检测算法。

表2 本文算法及与其它文献算法对比结果

将表2中4种方法对镜头边界检测的检测结果做成图8所示条形图。

图8 本文算法及与其它文献算法镜头检测结果对比

3.3.2 实验结果分析

由表1可知，融合特征算法在查准率和查全率上都要优于基于RGB颜色直方图特征的多步比较镜头边界检测算法和基于HOG特征的多步比较镜头边界检测算法，由此验证了融合特征的多步比较镜头边界检测算法弥补了只提取颜色特征或边缘形状特征的算法中出现的错检和漏检，特别是对于渐变镜头的错检和漏检情况。CNN提取帧特征的多步比较镜头边界检测算法对突变镜头检测比较敏感，但是对渐变镜头的检测效果远不如融合特征算法。且由图7可以看出，融合特征算法对渐变镜头的检测效果相比于其它3种方法都得到了较好的提升。

由表2可知，基于融合特征的自适应阈值多步比较镜头边界检测算法对突变镜头的检测和渐变镜头的检测结果都优于基于融合特征的多步比较镜头边界检测算法，且在算法执行过程中自适应阈值的使用能更快的确定最佳阈值，取得最佳效果，因此自适应阈值的使用切实减少了人工确定阈值的不确定性、不稳定性。本文提出的算法相比于文献[16]和文献[17]都得到了较好的提高，验证了本文算法较好的弥补了目前镜头边界检测算法易出现的错检和漏检情况，且本文算法对不同类型的视频检测具有较好的普适性。

3.3.3 算法评价

从实验结果来看，本文提出的融合RGB颜色直方图特征与HOG特征的多步比较自适应阈值镜头边界检测算法在查准率和查全率上都要优于单一特征的多步比较镜头边界检测算法和其它文献的算法，且融合算法中自适应阈值的使用大幅度减少了人工需多次实验来确定最佳阈值的工作量和不确定性。本文的多步比较算法打破了常规算法中度量相邻帧间差值的思路，不仅可以很好检测出突变镜头，且对于目前大多数算法中难以检测的颜色单一且变化平缓的渐变镜头也表现出了较好的检测效果。在单一特征算法中基于CNN提取帧特征的镜头边界检测算法对突变镜头的检测效果略高于本文算法，但其对渐变镜头的检测不敏感，并且该特征提取方法用于提取特征的神经网络需要前期训练，训练次数过少会使得网络提取不到更深层次的特征，训练次数过多就会提高时间复杂度。因此，综合来看，本文提出的融合RGB颜色直方图特征与HOG特征的多步比较自适应阈值镜头边界检测算法切实解决和提高了其它镜头边界检测算法易造成错检漏检、人工确定阈值具有不稳定性及渐变镜头相邻帧之间特征变化较小难以检测到的情况。

4 结束语

本文提出了一种融合RGB颜色直方图特征与HOG特征的多步比较自适应阈值镜头边界检测算法，并用一个多层网络来提取帧特征，最后用融合算法与单一特征多步比较镜头边界检测算法和其它文献算法作比较，通过对比发现，本文提出的融合特征算法在保证普适性的基础上对镜头边界检测算法进行了提高和优化，自适应阈值的使用切实减少了人工确定阈值的不确定性和不稳定性且本文的多步比较算法对目前大多数算法无法解决的渐变过程很平缓的渐变镜头的检测具有较好的效果。通过分析可知融合算法中引起错检和漏检镜头的一个原因是没有充分考虑镜头运动带来的影响，研究更复杂的度量和运动估计将是下一步的研究重点。