基于图像熵的全局和局部混合方法的关键帧提取

2018-03-10 07:45王疏华巨志勇彭彦妮

软件导刊 2018年2期

王疏华+巨志勇+彭彦妮

摘要：为了能快速识别视频内容并解决现有视频识别中关键帧冗余问题，提出了一种利用熵值进行关键帧提取的新方法。该方法先利用全局图像熵值对镜头进行分类，从每个类中选择具有代表性的关键帧，然后再使用图像局部特征的熵值剔除已选择的冗余帧。对几个不同类别视频的关键帧提取实验显示，提出的算法在关键帧准确率、冗余帧等指标上有很大改善，很大程度上解决了提出的问题。该算法能以更快的方式处理大量的视频数据，使电脑能自动提取视频关键帧，从而识别视频内容。

关键词：关键帧提取；全局图像熵；局部图像熵

DOIDOI：10.11907/rjdk.172485

中图分类号：TP317.4

文献标识码：A 文章编号：1672-7800（2018）002-0213-03

0 引言

随着视频采集和制作设备的普及，视频出现了爆炸式增长，急需一种方法对视频内容进行分析、分类，使视频搜索和检索过程更快。当前视频图像处理研究集中在视频内容管理的自动化方面，以克服需要人参与的人机交互系统的缺陷。

视频分割和关键帧提取是视频分析和内容视频检索的基础。关键帧提取是视频分析和管理的重要组成部分，为视频索引、浏览和检索提供合适的视频摘要。关键帧的使用减少了视频索引所需的数据量，为处理视频内容提供了支撑。

视频可以定义为数据的可视化表示。原始视频是由多个场景按顺序组成，场景又由多个镜头按顺序组成，镜头又是一张张的帧按顺序排列表示。现在大多数的研究工作都利用了这个视频结构来进行镜头分割和关键帧提取[1]。关键帧是可以代表镜头突出内容和信息的一帧。提取的关键帧必须涵盖视频的特征，通过所有按顺序提取的关键帧能够反应视频的内容轨迹。对于关键帧的选择，有许多针对特殊应用场景的方法[2]。在检索视频的应用中，先将视频按顺序细分为一组较短的片段，每个片段包含相似的内容[3]。然后利用这些片段中具有代表性的关键帧来表示这些片段，这大大减少了搜索的数据量[4]。然而，按此方法选取的关键帧并不能完全描述片段内对象的动作和运动。按照场景选择关键帧可捕捉到大部分内容的变化，同时排除多余的帧，但它的结果可能不是场景中所有帧的最佳匹配[5]。

1 相关理论

关键帧选择的基本规则是，关键帧选择宁可多选也不能漏掉重要信息帧。因此，在确定关键帧时，有必要丢弃已经选择的重复或冗余的信息帧[6]。目前的分割和关键帧提取算法可以分类为基于时间的分割，也称为基于镜头的分割和基于对象的分割。

1.1 基于镜头的视频分割

基于镜头的视频分割可以看作是一个数据信息提取的过程，通常涉及到时间分割和关键帧提取[7]。时间分割利用一个或多个明显的特征帧，例如颜色布局、图像熵值[8]等，将一个视频序列分类为一组视频序列。它通常被建模成典型的类别进行处理。将一个视频分为多个类别，并选择类别中心作为关键帧。还有使用k-means方法[2]提取每个镜头的关键帧。在文献[9]中，使用高斯混合模型（GMM）用于模拟RGB颜色空间中颜色直方图的时变变化，根据其特征，将照片中的帧分为几个类别。对于每个类别，最接近类别图心的一帧被选择为一个关键帧，类别的数量可以由贝叶斯信息标准确定。这种方法的主要缺点是无法自动确定类别的数量，因此无法自动调整类别到视频内容。

1.2 基于对象的视频分割

基于对象的视频分割通常依赖于应用程序，将一个视频分解成对象和背景。与基于镜頭的视频分割不同，基于对象的视频分割有一个帧作为基本单元，可以在更高语义级别上表示出原始视频的对象。

基于对象的视频分割将一个视频序列分为几个对象，每个对象都看作视频中一个模式，由时间或空间表示。基于对象的视频分割方法分为3种：空间优先级分割、时间优先级分割、空间和时间分割。由于人类视觉的本质是在空间和时间域上共同识别出显著的视频结构，所以目前的研究热点集中在空间和时间结合的视频分割上[10]。因此，空间和时间的像素化特征被提取出来，为对象分割构造一个多维特征空间[11]。与利用帧的特征提取关键帧相比，利用颜色直方图提取关键帧的方法通常计算量更大[12]。

2 混合方法关键帧提取

本文提出的方法是基于全局的图像熵值，将帧进行分类，并从每个类中选择一个帧作为具有代表性的关键帧。然后利用局部图像熵值，消除已选择的冗余帧。系统模型如图1所示，它由3部分组成：①将视频分割成镜头；②基于熵值的关键帧提取；③在提取的帧中剔除类似的关键帧。

2.1 视频分割成镜头

将视频分割为镜头是基于对镜头边界的检测，而对镜头边界检测又基于快速变换切口检测。切割是在一个镜头和下面一个镜头之间的快速过渡，通常对应于两个连续图像的颜色和亮度的突然变化。原理是，一个镜头中的两个连续帧，其背景和对象内容不会发生显著变化，它们的整体颜色和亮度分布不太一样。如果有一个场景，在背景颜色和照明颜色发生戏剧性变化时，会对图像的颜色等级产生影响，这意味着照片的对象和背景的变化。

基于切口检测可以将视频切割成镜头，而切口检修又可以采用直方图差异、模板匹配、边缘变化比等多种方法来实现。利用模板匹配算法对视频进行分段，在此方法中，对两个连续帧进行像素比对，计算两个帧之间的相互关系因子，如果相互关系因子小于临界值，则视频中有一个切割的片段，视频被分割为镜头。

2.2 基于图像熵值的关键帧提取

本文提出一种基于图像熵值的关键帧提取方法。算法将帧分成不同类别，每个类别包含一组相似的对象和背景。在这个算法中，帧的内容特性的熵值作为一个全局特性。每个类别的中心帧被选为其中一个镜头的关键帧。少于二十帧的类别将被忽略，以避免冗余帧。

熵值：从视频序列中考虑一个典型的帧，其中灰色的数量被量化为256。hf（k）表示f帧灰度值为k的灰度直方图的值，按此方法可以将图像的量化水平表示，其中0

某帧的图像熵可以定义为出现的灰度值概率和其概率的逆概率对数的乘积的总和

为了增加类别之间熵值的距离，根据不同的熵值可以更明显地将每个帧进行分类，将得到的熵值进行三次方，

定义为改变后的熵值

Enmf是根据帧f对应的熵值Ennf改变后的熵值。算法（1）的关键帧提取通过计算每一帧修改后的熵值进行分类。新的熵值会改变原有的分类，形成新的分类。

2.3 剔除相似的关键帧

通过实验观察到，很多时候经过关键帧提取后，会得到一些物体和背景重复不同的视频片段，例如新闻读者讲述新闻故事，这会导致一个或多个冗余关键帧。为了消除这些冗余的关键帧，将执行一个过滤步骤，将其中的每个关键帧与其它剩余的关键帧进行比较，查找相同或相似的帧。为了找到两个相似的关键帧，应用局部熵技术。

在局部熵技术中，每个帧被划分为64个单独的部分，计算每个独立部分的熵值，熵被用作局部特征去除冗余帧。通过这种方法，两帧之间的变化可以是与整个帧的图像熵相比较得出，也可以是在局部进行对应比较得出，从而得到更精确的关键帧。

为了衡量两个帧的不同之处，要计算两帧不同部分的熵值标准偏离。如果标准偏离数值接近零，则这两帧会被看作相似，这里的第二帧会被当作相同帧去除。

两帧M和N都被分成等分的64份，对每一部分进行熵值计算，每个局部的熵值计算也是使用公式（1）。

帧M和N的每个部分（s1，s2、s3…s64）之间的熵值计算如下：

标准的熵值偏离程度代表两帧非相关性，计算如下：

3 实验结果

将该算法在opencv工作空间中与熵差算法[3]进行比较，熵差算法又与5种不同的关键帧提取技术进行关键帧提取比较，如pair-wise像素（P）、x2测试（X T）、似然比（L）、直方图比较（H C）和连续的帧差（Cf），实验结果见文献[3]。本文实验视频流是AVI格式，帧速率从23帧/秒变化到30帧帧/秒。为了验证算法的有效性，使用来自新闻和电影的测试视频。视频片段包括行动（《指环王》，《星际迷航》）、对话（新闻视频）插入图形（新闻视频），视频剪辑长度从1分钟到4分钟不等。测试的所有视频片段都进行了手动的关键帧提取。以这些手动提取的关键帧作为标准，将两种不同的算法进行比较，看提取的百分比精度。表1显示了不同算法从视频序列中提取出来的关键帧数目，图2显示了不同算法偏离标准的偏差折线，表2显示偏离帧数，可以看出本文提出的算法得到的冗余帧数和熵差算法相对来说比较低，而且能够检测到瞬态变化的存在。在视频中插入的图形显示了算法是在关键帧中显示的低冗余帧，识别比其它视频序列要高。

4 结语

本文提出了一种新的自动关键帧提取方法。该算法对图像背景和对象可区分时或镜头间变化很明显时表现很好，当视频序列包含的內容是持续变化或者有插入图形时，表现有待提高。本文提出的算法优势在于关键帧提取过程中数据信息丢失很少（缺少帧的数量），以及高的紧密性（识别的关键帧数/视频中出现的总帧数），这是关键帧提取的两大原则，所以本文提出的算法能很好的解决大部分视频的关键帧提取问题。

参考文献：

[1] GUOZHU LIU， JUNMING ZHAO. Key frame extraction from MPEG video stream， information processing （ISIP）[J]. Third International Symposium，2010（10）：423-427.

[2] DAMIAN BORTH， ADRIAN ULGES， CHRISTIAN SCHULZE， et al. Breuel， keyframe extraction for video tagging and summarization[C]. Proceedings of Informatiktage，2008.

[3] MARKOS MENTZELOPOULOS， ALEXANDRA PSARROU. Key-frame extraction algorithm using entropy difference[C]. Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval，2004.

[4] T LIU， H J ZHANG， F QI. A novel video key-frame-extraction algorithm based on perceived motion energy model[C]. IEEE Trans. Circuits Syst. Video Technol，2003：1006-1013.

[5] R HAMMOUD， R MOHR. Probabilistic framework of selecting effective key frames for video browsing and indexing[C]. In International workshop on Real-Time Image Sequence Analysis，2000.

[6] XIAOMU SONG， GUOLIANG FAN. Joint key-frame extraction and object-based video segmentation[C]. Wacv-motion， IEEE Workshop on Motion and Video Computing （WACV/MOTION' 05），2005.

[7] 朱映映，周洞汝.一种基于视频聚类的关键帧提取方法[J].计算机工程，2004（4）：12-121.

[8] 王方石，须德，吴伟鑫.基于自适应阈值的自动提取关键帧的聚类算法[J].计算机研究与发展，2005（10）：109-114.

[9] 印勇，蒋海娜.优化初始聚类中心的关键帧提取[J].计算机工程与应用，2007（21）：165-167.

[10] 孙淑敏，张建明，孙春梅.基于改进K-means算法的关键帧提取[J].计算机工程，2012（23）：169-172.

[11] 周祥东，李国辉，涂丹，等.一种新的视频镜头分割算法[J].计算机工程与科学，2004，25（6）：5-8.

[12] LO C， WANG S J. A histogram-based moment-preserving clustering algorithm for video segmentation[M]. Pattern recognition，2008.endprint

软件导刊2018年2期

软件导刊的其它文章: 语音识别在旅游领域问句识别中的应用; 改进的PCA人脸识别算法研究; 数据仓库下基于学习的并行实体解析算法研究; 基于混沌时间序列的模糊神经网络预测研究; 基于Kinect传感器和HOG特征的静态手势识别; 基于用户模糊聚类的个性化推荐研究