基于内容的电视广告段落检测系统*

2010-06-07 02:04菲,史
电视技术 2010年9期
关键词:字幕段落阈值

葛 菲,史 萍

(中国传媒大学 信息工程学院,北京 100024)

1 引言

对于电视节目中的广告,商家需要知道其投放的广告是否正常播放,而国家为了严格控制广告的播放时间需要知道广告在一天中所占比例,普通电视观众为了观看或收藏完整的节目视频,希望将其中的广告部分去除。因此,对电视节目的广告进行自动检测成为不同用户的共同追求。笔者在分析广告特有的视频特征的基础上,提出了一种以镜头为检测单位,利用统计分析的方法实现广告视频段落自动分割的方法。实验证明,该算法有较高的正确率。

2 系统设计

2.1 系统构成

广告视频有区别于其他类型视频的特征,如声画合一,图像颜色鲜艳,镜头切换快,运动较多,对象繁杂,关键帧极难抽取,广告段与电视节目之间音频变化较大等。为将广告片段从视频节目中分离出来,可以检测广告片段中特有的特征,也可综合利用切变检测、静止场景检测、相似帧检测、黑屏检测和文字检测等将广告片段与正常节目区分开来。依据广告特有的视频特征,本系统分为以下几个模块实现广告段落的分割,如图1所示。

2.2 镜头分割

面对数据量巨大的广告视频,准确的镜头边界检测算法至关重要。目前已有的镜头边界检测算法有:直方图特征值法、边缘(轮廓)特征值法、运动特征值法等[1]。Yu等人采用信息熵确定帧间直方图差的自适应阈值,对候选的渐变采用了熵阈值法来检测分析[2]。但是针对广告视频的镜头边界检测来说其难点主要有以下几方面:首先,与其他视频相比,广告段落镜头切换节奏快,而且涵盖淡入淡出、切变等方式;其次,视频中包含了大量的闪光处理,特别在广告拍摄中更是常用的手法。按照一般的检测算法,闪光出现时都会被认为是切变。对此,Zhang Dong等人提出通过建立切变模型和闪光模型来进行识别[3],如图2所示。

由图2可以看出,切变模型和闪光模型的视频帧特征值都出现了较大的变化,但不同的是切变模型变化后视频帧特征值稳定在另一个水平上,而闪光模型变化后,视频帧特征值经过一帧或几帧之后又回到原来的水平。本文以帧间直方图差和帧间直方图平均强度差为特征,采用双阈值帧间差检测算法进行镜头边界检测。双阈值检测算法流程如图3所示。

定义抽取的特征为:

为了进一步讨论如何判定该帧是切变模型还是闪光模型,定义参数如下:H1为当前帧和前一帧之间的强度差;H2为当前帧的后续n帧和前n帧之间的强度差,取 n=3~5。

在理想的模型下,很容易看出R=H2/H1在闪光模型中等于0,对应切变模型中的为1。因为具体的视频与理想模型之间的差异,引入阈值T1=0.5。

为实现自适应阈值,本系统使用仅包含部分帧的基于时间轴的滑动窗W1来决定阈值的选取。考虑到在广告中一个镜头可能持续不到1 s,以及闪光的持续实际上一般不会超过10帧,定义滑动窗口大小n=11,此处的帧为偶数帧或奇数帧,Tb与Ts的选取建立在对滑动窗口内帧间差的归一化,可将帧间直方图差的噪声看成是高斯分布噪声,那么令σ为帧与帧间差序列的标准方差,μ为差序列的均值。由高斯分布的特性可知:Tb=μ+ασ。 由实验结果得知,当 α=5时,非镜头帧间差落在[0,μ+ασ]范围外的概率为0。所以,计算Tb时的 α=3~5,计算 Ts时的 α=2~3。

2.3 字幕检测

一般的电视节目大致是由一系列的正片、片头、片尾和广告简单连接而成,而且部分广告段落是与片头和片尾紧密相连的,片头片尾部分包含大量的字幕信息,因此可以利用字幕特性确定片头和片尾片段。此外,在电视剧、新闻、综艺等节目播出时,在屏幕的左下角或右下角都会出现标志该节目名称的字幕区域。因此,字幕段落的出现往往表示一个广告段落的结束和新的电视节目的开始,或者一个电视节目的结束和新的广告段落的开始,它可以作为广告段落分割的边界。

本文选择经Sobel边缘检测[4]图像的总边缘像素点作为字幕检测的特征值,具体实现流程如图4所示。

其中

判决条件如下:

式中:Gx′和 Gx′′分别为 Z2和 Z8在水平方向的一阶偏导,Gy′和 Gy′′分别为Z4和Z8在垂直方向的一阶偏导。 满足式(5)和式(6)或式(5)和式(7),则当前像素点属于水平边缘部分或者垂直边缘部分,即该像素点属于边缘像素点。最后对属于边缘部分的像素点进行统计累加,得到值A,即为字幕特征值。

对于片头片尾字幕片段的检测来说,主要有以下几方面难点:首先广告中纹理条纹较多造成图像边缘点增加;其次,广告片段中也可能出现字幕片段。经过试验观察,字幕占据的区域文字排列较紧密。根据这一特性,可用字幕的块密度[5]来判定该帧是否为字幕帧,这样可避免因不必要的纹理及条纹而造成图像边缘点的增加。另外广告中字幕片段持续时间远小于电视剧中字幕片段的持续时间,因此可设定一个持续帧数阈值Fth来判断是否为电视剧中的字幕片段。

对于特定区域节目标志的字幕检测来说,由于一般节目都附带当前正在播出节目的节目标志,而这些节目标志往往放置在电视节目的左下角或右下角,所以这里对这2个敏感区域进行研究。如图5所示,以352×288的视频图像为例,将左下角和右下角区域设为敏感区域,并根据统计经验设定该区域的宽高值,单位为像素。

根据上述片头片尾字幕检测的算法,分别计算两区域的字幕像素数。由于节目标志仅为左下角或右下角中的一侧,所以将检测出的字幕像素数多的一侧作为节目标志出现区域。对分解出的镜头进行分析,当镜头中的每一帧的字幕像素数大于某一阈值th1时,判定该帧为字幕帧,当字幕帧比率Ratio超过另一个阈值th2时,则判定该镜头为字幕镜头,进而判定该镜头为非广告镜头。

其中,Ratio=镜头中字幕帧数/整个镜头总帧数。

2.4 音频特征提取

与视频特征类似,音频特征[6]的提取用于表征音频信息。音频信号具有短时性,即在一段短时间隔里音频信号可以保持相对稳定的特征。实验证明,广告视频段落的短时能量均值要比其他视频的短时能量均值要高,所以短时能量均值也成为广告视频段落分割的一个重要特征。

2.5 广告段落的检测

笔者介绍的视频广告段落的检测方法以“判断-统计-分组-修正”这4个步骤为核心,如图6所示。“判断”就是要判断是否符合一定的判决条件;“统计”就是统计有多少镜头满足条件;“分组”就是将相同条件的镜头分成一组进而实现镜头的分类,最终分为字幕镜头(即非广告镜头)、非字幕的广告镜头和非字幕的非广告镜头;“修正”就是将不满足条件的镜头进行修正。

现有的广告视频检测方法,一般是从广告具有的图像特征来进行识别。这种方法因为仅仅利用了图像特征,因此存在检测错误或检测不全的问题。针对现有技术的不足,笔者提出了同时利用广告视频具有的图像和音频特征综合进行检测的方法。首先标志镜头类型,由分割出的镜头强度来初步判断是否为广告镜头,当镜头帧数小于某个阈值时,则初步判断其为广告镜头,反之为非广告镜头。针对非广告中字幕镜头、广告中非字幕镜头和非广告镜头这三种情况,对其做如下的判决与修正(见表1),进而检测出广告段落。

表1 电视广告段落分割算法中的判决/修正表

试验发现,这种统计分析的方法仍然存在问题,其中的某些广告段落可能因为阈值选择而出现一个段落被分割成多个广告片段的情况。同时发现一普遍规律:每次插播的广告时间一般不超过5 min。为了弥补上述问题,可以将标记为广告的广告段落从头到尾搜索一遍,从第一个广告段落的起始时间算起,将后续段落与第一个广告段落的时间差小于5 min的段落合并为一个广告段落,而超过5 min的段落作为下一广告段落的起始点。

3 试验结果及分析

3.1 广告段落检测试验结果

对中央电视台播出的部分节目进行试验,经过计算统计,电视广告部分被正确地检测出来,检测结果如表2所示。

表2 中央台某播出视频节目广告段落检测结果

3.2 试验结果分析

从试验数据可以看出广告段落检测存在漏检和误检的情况,原因如下:

1)阈值的选取是广告段落检测算法的关键。本文选取的阈值是经过对大量视频节目特征进行分析统计得到的值,虽然在大部分情况下能够正确检测,但仍会出现漏检和误检的情况,因此对阈值的选择还需要进一步优化。

2)广告段落检测算法是在提取节目视频的音视频特征基础上进行的,通过镜头边界检测得到镜头强度,通过字幕检测得到视频的字幕特征,通过比较平均短时能量均值,来区分广告和一般视频。由于电视广告视频图像复杂多变,目前还做不到完全准确,所以广告段落检测时存在误检和漏检的情况。

4 小结

笔者提出了基于内容的电视广告段落分割算法,首先对视频节目进行音频和视频特征分析,提取视音频特征作为广告段落分割算法的分析特征,最终根据统计分析的方法,利用“判断-统计-分组-修正”的核心思想,最终分割出广告段落。后续将对阈值的选取及特征提取的精准度等进行优化,以达到更好的实用效果。

[1]XIN Ru,ZHANG Xiaotong,LI Hanzhang,et al.An area optimized directdigitalfrequency synthesizerbased on improved hybrid CORDIC algorithm[C]//IEEE 3rd International Workshop on Signal Design and Its Application in Communication.[S.l.]:IEEE Press,2007:243-246.

[2]VOLDER J E.The CORDIC trigonometric computing technique[J].IEEE Trans.Electronic Computer,1959,8(3):330-334.

[3]WANG S,PIURI V,WARTZLANDER E E.Hybrid CORDIC algorithms[J].IEEE Trans.Computer,1997,46(11):1202-1207.

[4]WANG Han,ZHENG Yousi,LIN Xiaokang.A parallel double-step CORDIC algorithm for digital down converter[C]//Proc.the 2009 Seventh Communication Networks and Services Research Conference.Washington DC,USA:IEEE Press,2009:257-261.

[5]吴芝路,杨水旺,任广辉.基于MVR CORDIC算法的DDC设计与实现[J].电视技术,2007,31(1):27-30.

猜你喜欢
字幕段落阈值
【短文篇】
心理小测试
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
夏天,爱情的第四段落
比值遥感蚀变信息提取及阈值确定(插图)
一种基于单片机16×32点阵动态字幕的设计
室内表面平均氡析出率阈值探讨
弄清段落关系 按图索骥读文
整合适应选择度下的动画电影字幕翻译——以《冰河世纪》的字幕汉译为例