对比内嵌字幕进行视频去重

2015-04-10 18:25蒋宗礼袁圆

计算技术与自动化 2015年1期

蒋宗礼　袁圆

摘要：现有的视频去重技术多样，但字幕这一与视频内容能高度匹配的重要信息并未被考虑到其中。提出一种针对含内嵌字幕视频进行去重的方法，并在三大视频网页中得到了该方法的再去重效果。首先将相应网页视频中的字幕经过OTC处理将其文档化，再规范文档，最后设定一个界值，对网页进行去重筛选。类比于网页文本的去重方法，基于文本内容的去重工作可以大大改善去重的效果，考虑到视频中人物对话内容的唯一性，我们可以根据视频字幕内容来进行去重，从而得到更为精准的视频去重结果。

关键词：网页视频；内嵌字幕；去重；LCS

中图分类号：TP391 文献标识码：A

Abstract：Even there are many ways to remove duplicate web videos， the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos， and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again，and set an boundary value through experiment， so that the duplicate web video can be filtrated. simihar to the duplicate removing method， in web page next this method can greatly improve the effect of duplicate removing，Considering the uniqueness of dialogue contents in the video，we can use the contents of the video subtitles to do duplicate removing，and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles， which is belong to webbased content to the duplicate removing study， used to remove the duplicate web video pages and improve the user experience.

Key words：web video； embedded subtitles； remove duplicate； LCS

1 引言

在互联网中，网页内容的大量重复，对搜索引擎来说，这些重复使得用户体验太差，因此，需要“去重”[1]。

在以UGC（User Generated Content）业务为主的视频网站中，每天都有大量的视频被上传[2]。用户上传的视频有数量大、重复视频多的特点，特别是一些热点视频会同时有多个用户上传。这样会导致搜索或者推荐结果中出现大量重复视频。如何识别出这些相同内容的视频，为用户提供更好的搜索和推荐体验，是一个需要解决的问题。现在识别相同视频的方法很多，通常的方法有：视频文件md5值去重，每个视频文件里都保存有一个md5值，可以认为是这个视频文件的基因；根据视频的文本信息（指生成标题、描述和标签等）进行去重，用户在上传视频时会生成标题、描述和标签等文本信息，根据这些文本信息进行相同视频的去重；根据视频时长进行分类，在进行相同视频的去重的算法中可以先根据视频时长对全量视频进行分类，然后根据视频文本信息计算文本距离，在每个分类中应用视频文本信息距离进行迭代就成为可能；根据图像或者视频内容进行去重（关键帧的图像匹配），根据文本信息进行去重的劣势是过度依靠文本信息，而视频内容毕竟不能完全用文本来衡量。[3]如果一个视频的文本信息过少的话，去重的结果是不可靠的，所以根本的解决问题的方法是依赖视频内容进行去重，视频本质上是一帧一帧的图像组成的，所以可以把这个问题简化为关键帧的图像匹配问题，著名UGC视频网站Youtube就是采用了这种方法进行视频去重。或者干脆简化一点，根据视频的缩略图进行图像匹配估计也会达到很好的效果[4]。

本文研究的对象是含有内嵌字幕的视频，具有内嵌字幕文本信息这一重要因素，与视频内容具有高度匹配性，于是提出了一种基于内嵌字幕的视频去重途径，属于文本信息去重法。分别依据生成的标题、生成的标签、描述，内嵌字幕，对已有的搜索视频结果进行再次去重，观察其再去重率效果。

2 去重标准设定

同一段视频的字幕是根据视频内容而来，具有相同内容视频的内嵌字幕，从理论上来说应该完全一致，即去重标准应定为100%。但是，由于提取内嵌字幕时采用的是光学OTC的方法，在不同视频分辨率的时候提取出来的内嵌字幕有所偏差，即使是两个相同内容的视频，提取出来的字幕也会不同，于是需要允许一定的偏差。

由图可看出，基于内嵌字幕的再去重明显优于基于文件标题特征进行再去重的方法，这是因为每一个视频的内嵌字幕都具有唯一性，而视频的标题、标签、描述是在视频上传时用户可以随意赋予的，故而并不一定与视频内容相符。

5 结束语

本文针对含有内嵌字幕的视频，提出一种基于内嵌字幕内容的去重算法。实验表明，该方法去重较基于文件标题特征的方法效果更佳。通过提取视频网页的内嵌字幕，在去重过程中加入适用于本研究的动态LCS算法，由实验结果可知，依据内嵌字幕对网络视频去重确实较为精准，从而可大量节约结点存储资源，采用此方法进行视频去重具有很大的现实意义。然而，本文并未对如何使大量人工标注过程实现自动化进行研究讨论，可在今后的研究工作中进一步研究实现。参考文献

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R]. 2008年1月. 39-40页.

[2] Ming Zhao；Yagnik，J.；Adam，H.；Bau，D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition， 2008. FG '08[J].8th IEEE International Conference on DOI：10.1109/AFGR.2008.4813381. Publication Year： 2008， Page（s）： 1-7.

[3] Xiao Wu；ChongWah Ngo；Hauptmann，A.G.；HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume：11，Issue： 2 DOI：10.1109/TMM.2008.2009673. Publication Year： 2009， Page（s）： 196-207.

[4] Chengde Zhang；Xiao Wu；MeiLing Shyu；Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration （IRI）[J].2013 IEEE 14th International Conference on DOI：10.1109/IRI.2013.6642526. Publication Year： 2013， Page（s）： 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比较[J].电子科技， 2011，24（3）：101-103.

[6] 盛骤，谢式千，潘承毅.概率论与数理统计[M].北京：高等教育出版社.2001年12月第3版：294-312.

[7] 王晓东. 计算机算法设计与分析[M]. 北京：电子工业出版社， 2001.

[8] Rubi， R.D.；Arockiam， L. Positional_LCS： A position based algorithm to find Longest Common Subsequence （LCS） in Sequence Database （SDB）. Computational Intelligence & Computing Research （ICCIC）[J].2012 IEEE International Conference on DOI： 10.1109/ICCIC.2012.6510271. Publication Year： 2012， Page（s）：1-4.

[9] Wei Liu， Ling Chen， Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07： Proceedings of the 2nd international conference on Scalable information systems[J].Publisher：ICST （Institute for Computer Sciences， Social-Informatics and Telecommunications Engineering）. June 2007.

[10]Heba AlShaek Salem， Maryam Nuser， Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12： Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher： ACM. April 2012.

[11]申晓. 如何编程实现快速LCS算法[J].电脑编程技巧与维护，2012，（11）：91-92.

[12]胡婕，业宁，罗晓波，等. 多序列的近似LCS改进算法[J].计算机工程，2011，37（2）：166-168.

[13]Jeffrey E.F. 精通正则表达式，余晟，译[M]. 北京：电子工业出版社，2007.

[14]郭牧怡，刘萍，谭健龙，等. 基于文件标题特征的网络视频去重研究[J]. 计算机工程，2010，36（9）：227-229.

计算技术与自动化2015年1期

计算技术与自动化的其它文章: 基于椭圆盘极点配置的执行器冗余度分析; 飞机颤振模态参数辨识试验的快速滤波算法; 基于时频域指标的控制系统演化校正; 执行器饱和的线性连续系统的镇定; 基于RBF神经网络的钢构件质量追溯系统研究; PMU最优配置及其在舰船电力系统中应用研究