基于改进目标检测算法的视频台标识别

2022-09-06 13:17袁三男刘志超
计算机应用与软件 2022年8期
关键词:识别率特征提取样本

孙 哲 袁三男 刘志超

(上海电力大学电子与信息工程学院 上海 200120)

0 引 言

台标是现在互联网视频和电视台视频声明版权的重要标志,智能地对台标进行检测识别具有重大意义。首先,在视频安全监测领域,台标检测技术可以用于保护出品方的商业利益,又可核实确定发布方,过滤非法途径来源的视频。其次,通过检测视频节目中的台标可以定位到具体的节目,进而提供精确的视频搜索,提高观赏性[1]。此外,也能借助对台标的识别来统计电视台的收视率,或对用户的收视行为进行分析[2],对媒体视频节目具有指导意义。

台标检测与识别的方法有很多,如文献[3]利用多帧视频画面像素值做差,从而分割出台标。这种算法原理简单易实现,但要求台标空间位置不变及色彩饱和度不受背景干扰,因而适用范围窄、实用性低。文献[4]提出模板匹配识别算法。它可以解决新型台标样本位置多样性的问题,但是需要建立模板库,匹配过程计算复杂。文献[5-6]是通过对比分析台标特征进行识别,如颜色直方图、空间直方图、SURF算法等。这种算法降低了计算量,但由于台标背景复杂多样,使得特征提取困难,半透明台标尤为显著。文献[7-8]提出基于支持向量机(SVM)的分类识别方法,该方法应用广泛,特异性和针对性强,但对大规模训练样本难以实施且它在解决多分类问题时存在困难。可以看出早期传统的台标识别方法都无法很好地对半透明台标进行分类,识别时也多是局限在视频帧左上角。

近些年得益于机器视觉和深度学习的蓬勃发展,使得基于卷积神经网络的特征提取算法在台标检测与识别领域得到较好的应用。文献[2]使用一个递进卷积层的卷积神经网络实现了台标的识别。文献[9]探讨了目标检测与弱监督学习在台标监测方面的应用。这些网络模型虽然可以较好地区分台标类别,但并未显著改善传统方法无法适应新型台标的半透明特性、位置多样特性以及缩放特性而存在的特征提取困难且识别率及实用性低的问题。

本文针对以上算法所存在的弊端,提出一种基于Faster RCNN[10]和VAE[11](Variational Auto-encoder)结合的台标检测与识别的方法。通过构建多层语义特征融合的FPN[12](Feature Pyramid Networks)神经网络提取台标特征,以目标检测算法Faster RCNN为主网络构建检测分类模型,再利用VAE编码提高识别检测精度,从而实现台标的检测与识别。

1 算法原理分析及算法优化

视频台标检测识别技术中最核心的两个问题为台标定位与台标识别。其中台标定位的目的是从输入的视频或整幅图片中定位出台标所在位置并丢弃无关元素;台标识别就是在检测出的定位区域上提取信息并识别分类。目前基于深度学习的目标检测算法能较好解决这两个问题,根据方法不同分为基于候选区域思想的算法,如RCNN[13]、Faster RCNN[14]、SPPNet[15]等;基于回归思想的算法,如YOLO、SSD[16]、YOLOv2等。其中Faster RCNN网络的训练测试简便,且目标检测效果较好。故本文选择此算法为主网络,对特征提取部分及分类部分加以改进。

1.1 目标检测算法Faster RCNN

Faster RCNN算法首先对输入样本提取特征图送入候选框生成网络(RPN)。RPN网络在提取的特征图上为每个特征点配备初始检测框;接着使用Softmax分类器判断出存在目标的积极检测框作为候选区域;再设计多任务损失函数(式(1)),利用范围框回归器修正候选区域的位置[18]获得精确的预测窗口。

(1)

式中:pi是第i个检测框是否为某目标的可能性;向量ti表示对预测窗口进行校准的四个参数化坐标;Lcls是分类损失;Lreg是回归损失。

再由ROI[14]池化层提取proposal feature maps后送入分类回归网络。分类回归网络通过全连接层将proposal特征分为两条线路:其一用于计算出目标类别,其二再次进行边界框回归获得最终的精确检测窗口。

1.2 FPN特征提取网络

如图1所示,FPN算法采用构建多层特征金字塔并在不同层融合的方式提取图像特征。其结构主要分为三个部分:自底向上的线路(bottom-up)、自顶向下的线路(top-down)和横向连接。

图1 FPN结构图

自底向上的线路是通过CNN[17]的前向卷积和池化(下采样)过程形成一系列原始特征图。这些原始特征图根据尺度的变化形成塔层(stage)。其反向线路通过上采样进行,目的是将上一层特征图扩大为和下一层特征图具有相同大小的尺寸,进而向下融合。横向连接则是将以上两条线路中生成的大小相同的特征图进行叠加融合。

1.3 变分自编码器VAE

VAE是一个变分自编码器,其学习框架如图2所示。

图2 VAE学习构架图

VAE首先通过编码(Encoder)网络,对输入的真实样本集X进行编码,将样本X的特征因素映射到低维空间,并使其服从分布函数qθ(Z|X),这个低维度因素称为隐形参数Z(式(2));再由解码(Decoder)网络学习分布p(Z),生成集合X*与真实样本集X的分布pφ(x|z)无限接近,以此来完成将Z映射回真实样本集X的过程,通过训练从而实现最优的数据重构。VAE基于此构造如式(3)所示的损失函数。

Z=m+eσ×e

(2)

Li(θ,φ)=-EZ~qθ(Z|Xi)[log(pφ(Xi|Z))]+

KL(qθ(Z|Xi)|p(Z))

(3)

式中:m、σ维度相同,为编码器的输出向量;e是符合高斯分布的随机噪声;KL是正则项[11],Encoder网络中的参数为θ,Decoder网络中的参数为φ。

1.4 算法的融合及改进

视频台标识别具有显著的特点:多个台标的背景可能完全相同(不同网络电视台播放同一视频时),一个台标的背景也会千差万别,尤其是半透明台标受背景颜色影响较大,这就需要降低视频画面(背景)特征、台标共性特征和个性特征之间的相互影响。由前文可知RPN网络主要在复杂背景中定位出目标所在位置,所需特征为台标共性特征即所有台标共有而视频画面没有的特征;分类网络主要对不同目标进行分类,所需特征为台标个性特征即各类台标之间的差异特征。而传统Faster RCNN只使用一个特征提取器为RPN网络和分类回归网络提供特征图,并未降低这种相互影响,导致台标的识别率不高。如图3所示,本文改进的Faster RCNN网络为RPN网络和分类网络设置了相对独立的特征提取器。

图3 VAE学习构架图

使RPN网络学习的特征由多层语义特征融合的FPN网络提取,可以解决RCNN系列只利用顶层特征不能完整反映相似台标的小差别信息和动态台标的精确位置信息的问题,提高了台标召回率;单独为分类网络设置一个独立的特征提取网络,虽然改进了网络的运算性能、提高了识别率,但也增加了训练复杂度、降低了网络效率。所以本文使分类网络学习的特征由FPN的前向网络提取,这样既充分利用FPN网络的顶层丰富的语义信息提高台标分类的准确率,又无须多增加特征提取网络。

此外本文在Faster RCNN的分类网络中添加VAE网络对proposal feature maps进行编解码,生成隐形参量Z。这样做是由于FPN网络所提取的特征图中含有较完善的特征信息,在台标类别较多且台标相似度较高(中央系列)的情况下,这些大量精细的相似信息反而会影响分类网络的判断识别。而VAE网络仅由低维度的参数Z就可重构输入样本X,可将Z认为是决定X最后成型的各个重要因素,这样通过获取Z就满足了对proposal feature maps中大量干扰特征的排除,从而保留台标分类的决定性特征因素,较好地提高识别率。

2 Faster RCNN-VAE台标检测与识别模型

2.1 Faster RCNN-VAE网络结构

本文将Faster RCNN与VAE联合使用,设计了独特的FPN,通过自主学习有效区分背景和台标。所添加的VAE网络可以实现台标更精确的识别。

本文设计的网络结构如图4所示。由于输入样本的大小会影响定位准确率,因此对样本图片进行了归一化处理,通过预训练将达到最优准确率时的输入样本(1 280×720)大小设为固定大小224×224,即C0层的大小。为了解决增加深度带来的副作用(梯度弥散或梯度爆炸的退化问题),前向网络使用了5个stage的ResNet[19]网络,卷积核为3×3,每5层进行一次下采样处理,使下一个stage的特征图大小为上一层的1/2,C1、C2、C3、C4对应的支路就是bottom-up网络;然后对C4进行1×1的卷积得到P4,改通道数为512,使之和P3的通道数相同,再对P4采用内插值法插入邻近像素值将其扩大2倍后与C3层融合得到P3,在融合之后添加3×3的卷积核对融合结果进行卷积,同理运算得到P2、P1。层P1、P2、P3、P4对应的支路就是按上文中所提及的上采样和横向链接融合的方式所构建的top-down网络,是FPN的核心部分。此外增加对C5层3×3卷积后进行步长为2的最大池化运算来搭建P5层且将P5层直接作为分类网络的输入特征图,使得特征提取过程相对独立且增加语义信息,从而获得更好的准确率。所有特征图中固定特征维度(通道数)设置为512。将P1-P4层作为输入分别进入Faster RCNN的PRN网络及后续POI层,FC层的参数对于每一层的ROI参数共享。

图4 Faster RCNN-VAE网络结构图

本文使用全连接层构建了VAE网络,VAE模型层数的选择如下:编码器网络为三层全连接,输出的通道数分别为512、96、25;解码器网络为三层全连接,输出的通道数分别为25、96、512。

全链接网络使用多分类函数Softmax作为激活函数。其输出层通过激活函数得到此目标对应的每个类别的概率值,所有类别的概率值总和为1。设定阈值r,当输出类别对应的输出值大于r时即该样本为某类别的概率值大于r,则标注该类别为识别结果。

(4)

式(4)表示隐形特征参数z属于第j个类别的概率,共有k个类别。该函数的值域是[0,1]。

2.2 台标检测与识别的算法流程

1) 构建Faster RCNN神经网络,改进FPN作为特征提取器,预训练使用ResNet网络,输入训练集,训练该网络模型;

2) 搭建VAE网络结构,以proposal feature maps作为输入,训练该网络模型;

3) 构建全连接层,以VAE网络中的隐形参数Z作为全连接层的输入进行分类回归,训练该网络模型;

4) 在已训练好的Faster RCNN-VAE网络模型中输入的测试样本数据,进行测试。

3 实验验证与算例分析

3.1 数据库

本文自建了台标数据库,所采用的原始图像数据来源于42个卫星卫视及网络卫视的视频,包括中央1-15、北京、天津、东方等多个卫星卫视和网络卫视。将视频按帧截取转化为原始数据库,并对其作如下预处理:

预处理1:运行图像标记工具labeling对14 000幅样本图片写标签,即在样本图片上框出台标所在区域并标明该台标类别,生成与图像对应的xml文件。

预处理2:针对相似度较高的台标(中央1-15)识别率通常略低的问题,将中央系列的细微差别处单独作标记框记为数字标签(1-15),整体的中央台台标作为另一标记框记为标签CCTV。

预处理3:按照Pascal voc2007的数据格式将原始数据库制作为标准数据库。把数据划分为两部分,每个类别的70%作为训练和验证集,30%作为测试集。

人工标记可能存在极少数误差,它较于大量样本来说对网络学习产生的影响可以忽略不计。原始图像标注和生成的标注文件结果如图5所示。

图5 原始图像的标注和生成的标注文件

3.2 网络参数的选取

本文实验使用Python3.7作为编程语言,操作系统为Ubuntu16.04,驱动为cuda10.0,实验平台为pytorch1.0+pycharm,GPU为RTX2080Ti。

首先,按如下方式初始化网络参数:编译模型时,优化函数为“adam[20]”、“sgd”。将学习率定为0.001,算法批尺寸batchsize的大小设为1,模型训练时迭代100次。

预处理2中对特殊数据(中央1-15)的处理在实际识别时可能存在如下现象:若视频帧画面中除中央台台标外其余部分包含数字,此时候选框较多且杂乱。为此本文通过设定模型产生的CCTV目标窗口和数字标记窗口的交叠率t判定最终的检测窗口,即CCTV检测窗口CCTV TW(CCTV Testing window)和数字检测窗口Number TW(Number Testing window)的交集比上CCTV检测窗口和数字检测窗口差集。

(5)

设定t为0.15,即t大于等于0.15时认为检测到了最终窗口。

通过预训练根据准确率设定阈值r,当选取r为0.8时识别率达到约94%。

3.3 实验结果及分析

为了证明在台标检测与识别中使用的Faster RCNN-VAE架构的有效性,将此网络与其他两种方法进行了比较:(1) 传统Faster RCNN方法将RPN与VGG16相结合,不使用改进的FPN作为特征提取网络;(2) 传统FPN方法使用FPN作为Faster RCNN算法中的特征提取网络,但不做改进且不添加VAE层。这三种方法都采用相同的超参数,分别对传统Faster RCNN模型、传统FPN模型、Faster RCNN-VAE网络模型进行训练验证。采用的评价指标为准确率和召回率。

Ppre=TP/(TP+FP)

(6)

Prcc=TP/(TP+FP+FN)

(7)

式中:TP为识别正确的样本数;FP为识别错误的样本数;FN为未检测出目标的样本数。准确率即检测为正例的样本中真正为正例样本的比例。召回率是每个类别的正确检测样本数和总测试样本数的比值。

通过对测试结果的统计,得到了三种网络对视频台标检测的召回率和准确率,表1、表2、表3所示为选取了10个类的检测统计结果。

表1 传统Faster RCNN的检测结果

表2 传统FPN的检测结果

表3 Faster RCNN—VAE的检测结果

实验表明,对此10个类的台标来说,普通的Faster RCNN网络对不透明台标的召回率(识别率)能达到92.40%,但总的召回率仅有87.50%,说明它对半透明台标的识别情况较差仅有82.60%;其准确率总体能达到93.28%。加入FPN特征提取器后的网络对台标的识别的召回率总体能达到89.40%,提升了1.9百分点;准确率总体能达到94.01%,仅提升了0.7百分点。这证明加入FPN使得样本中的目标更好地被召回但对召回目标分类识别的准确率并没有得到较好的改善。采用Faster RCNN-VAE网络召回率提升为92.20%,再次提升了2.8百分点;准确率达到96.65%,再次提升了2.6百分点,其中对半透明台标的识别率提升显著,达到了87.80%。证明本文设计的Faster RCNN-VAE网络既使得样本中的目标更好地被召回,也对召回目标分类识别的准确率有所提高,尤其是半透明台标的识别率。但由于增加了VAE模块,平均每帧图片的识别时间延长至141.7 ms。

由于样本类别较多,本实验仅选取了十个类的样本检测统计结果进行对比分析,而本文设计的Faster RCNN-VAE网络对大量(42个)分类的台标测试结果更优。如图6所示,Faster RCNN-VAE网络的整体识别率达到了94.03%。

图6 Faster RCNN-VAE模型精度随迭代次数的变化

4 结 语

本文将目标检测算法应用于台标识别任务,并提出了一种将改进的FPN作为特征提取网络,以目标检测算法Faster RCNN为主网络对其进行检测和分类,并添加VAE来提高台标的识别率。通过大量的样本训练,台标检测的识别率达到94.03%。与传统卷积神经网络相比,解决了传统台标检测无法对台标的位移、倾斜的改变做出正确识别的难题;Faster RCNN算法中的RPN网络更是能通过对样本图片全图检测来确定出台标的位置,解决了台标的位置不再单一固定于左上角的难题。与传统的目标检测算法相比,台标分类的准确率有所提高,对于受背景颜色影响显著的半透明台标的识别率提升尤为明显。尽管只使用了粗略调整的模型参数,在相同数据集上的实验结果证明,本研究所提出的方法优于传统方法的性能。该结果证明了Faster RCNN-VAE方法可以高效地检测识别台标。本研究方法也为其他动态、透明图像的检测及分类问题提供了新的思路。

猜你喜欢
识别率特征提取样本
同步定位与建图特征提取和匹配算法研究
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
档案数字化过程中OCR技术的应用分析
随机微分方程的样本Lyapunov二次型估计
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
基于支持向量机的测厚仪CS值电压漂移故障判定及处理