基于剪切系数的视频指纹内容拷贝检测

2019-09-12 11:54苏志贤

山东农业大学学报（自然科学版） 2019年4期

苏志贤

基于剪切系数的视频指纹内容拷贝检测

苏志贤

浙江安防职业技术学院, 浙江温州 325200

拷贝检测技术广泛应用于版权控制中，用于保护未经授权使用数字视频，关键在于如何提取可靠的视频指纹。本文提出一种基于剪切系数的视频指纹内容拷贝检测算法，利用TREC VID2018和Inria Copy Days数据集的相关数据，进行视频图像攻击实验，并与其它经典算法进行比较。实验结果表明：本文算法对大多数攻击都具有鲁棒性。其F1平均得分约为0.99分，假阳性率低于0.01%，定位准确率97%。

视频指纹; 剪切系数; 剪切波

在互联网时代，成千上万的视频被上传到网络，这些视频中有不少是非法复制或篡改现有媒体的版本。这种广泛存在的视频版权侵权使得网络视频版权管理成为一个复杂的过程，同时也要求开发快速、准确的拷贝检测算法。由于视频是最复杂的数字媒体类型，迄今为止它在版权管理方面受到的关注最少。视频复制检测任务是确定一组视频中是否有重复，但是查询视频可能会失真，例如亮度变化、文本插入、压缩和裁剪等[1]。数字视频内容在不同媒体上的传播越来越多，使得在大型视频数据库中搜索副本成为一个新的问题。因为视频有不同的格式，所以基于视频内容的拷贝检测过程比基于名称、描述或二进制更有效。视频指纹识别已被提出用于此目的。视频指纹是从视频派生出来的基于内容的签名，可以专门用来表示某一个视频[2]。人们要在视频数据库中查找视频的副本，可以在相应的指纹数据库中搜索其指纹并进行匹配。两个指纹的紧密性代表了相应视频之间的相似性，但是两个感知上不同的视频应该有不同的指纹[3]。传统的视频指纹提取算法都是基于DCT技术，本文尝试使用高级剪切变换来生成视频指纹。另外，Keith基于剪切波域中的统计特征，提出一种通用的无参考图像质量评估模型，它是基于自然场景统计和基于训练的方法的结合，可以估计各种各样的图像失真[4]。本文试图利用该模型的粗尺度，设计一种鲁棒变换不变的视频指纹剪切系数，用于基于内容的视频拷贝检测应用。

1 基于剪切系数的视频指纹分析

1.1 剪切波变换

Amerini在研究中发现，如果自然图像被一些常见的畸变所扭曲，粗尺度中的线性关系将被保留，但细尺度中的线性关系会受到干扰，特别是细尺度中的线性关系[5]。剪切波变换是一种多尺度、多维的小波变换，能够处理不同尺度上的方向性信息。将具有复合扩张的仿射系统定义为：

其中M通过以下公式计算：

上式中A为各向异性膨胀矩阵，B为剪切矩阵。剪切波变换的框架是各向异性的，在不同的尺度、位置和方向上定义了分析函数，因此与传统的小波变换相比，剪切波能够更有效地检测方向信息。如果信号可以用个最大系数的部分和进行重建，剪切波变换的近似特性如下：

傅立叶变换如下：

本文提出一种基于粗尺度的剪切系数指纹设计方法，用于视频指纹内容拷贝检测。所提出的基于检测系数的视频指纹定义为使用6个方向的4阶剪切波变换。剪切波变换可以看成一个分解工具，同时考虑尺度和方向信息。首先，在输入图像中适用双通道非子采样分解，将输入图像递归分解为低通图像和高通图像。其次，在每一尺度的分解中，利用快速傅立叶变换算法，通过二维傅立叶变换将高通图像变换成频域，然后在频域上应用6个方向的笛卡尔网格生成6个方向的子带。最后，利用剪切系数揭示输入图像的多尺度和多方向信息。

1.2 视频指纹剪切系数的鲁棒性

对于健壮的视频指纹，信号的低频信息对许多失真如噪声破坏等具有鲁棒性。因此，粗尺度下的剪切系数更可取，因为这种剪切系数对不同类型的扭曲和变换具有较强的鲁棒性，同时对感知不同图像保持较高的分辨力。为证明剪切区高尺度系数的性质，采用子带系数振幅归一化进行评价，定义为：

其中SHf(,,)是剪切系数，,,分别是比例、方向和时间参数。

从Trec vid 2018和Inria Copy Days数据集中随机选择366个视频帧，生成一个数据集。视频拷贝检测中常见的五种失真类型分别是亮度变化（LC）、jpeg、jpeg200（jp2）、盐和胡椒噪声（PN）、高斯噪声（GN），相应的剪切器记为S1-S5。在这五种变形中，S3至S4中的分段谱相关函数算法受到畸变的严重影响，而S2与分段谱相关函数算法的鲁棒性在所有类型的畸变上几乎相同。因此，利用S2的方向信息构造相对稳健的指纹是可行的。

1.3 基于剪切波的指纹结构

相关理论表明，剪切器S1对非定向空间信息和S2对定向信息具有良好的鲁棒性[6]。本文提出利用S1和S2对视频图像进行鲁棒视频指纹生成。该指纹算法的输入图像是一个预先处理过的灰度图像，可重新缩放到的×大小。将S1图像（1×1）进一步向下采样以生成S1哈希，然后将另外的图像（2×2）也生成不同方向哈希。根据差分编码规则，当前像素值大于或等于之前的像素值，则指定位“1”，否则指定位“0”。因此，S1散列的位长度为（1×1-1）位，方向散列的长度为（2×2-1）位。

在通常情况下，二进制散列可以唯一地表示成2项，其中是散列的长度。如果散列的长度太短，则假阳性率将很高。为所提出的基于剪切系数的视频指纹选择合适的参数，本文对具有不同散列长度的假阳性率进行实验。在参数选择中，发现S1的散列长度应该大于31位，以实现相对较低的假阳性率，而S2图像的最小散列长度为7位。在此基础上，选择=128作为输入图像块大小，1=7作为S1的采样块大小，2=3作为下采样方向S2图像块大小，生成所提出的基于剪切系数的视频指纹。因此，S1散列为48位，各方向散列为8位，总位长为96位。

2 实验结果与分析

2.1 基于剪切系数的视频指纹统计评价

一般来说，一个合格的视频指纹应能在不同类型的失真下，对感知相似的视频片段进行有效的识别。归一化汉明距离（NHD）是测量不同指纹之间相似性的一种著名度量，它等于两个指纹之间的不同比特数，对长度进行归一化[7]。因此，采用NHD对Trec vid 2018和Inria Copy Days数据集的单个图像或视频帧上的基于剪切系数的视频指纹鲁棒性进行评估。评估数据集是通过从122个视频中随机选择3帧来创建的，总共有366帧来自Trecvid2018数据集，143幅来自Inria Copy Days数据集。为了测试其鲁棒性，常用的失真类型被应用到这些选定的帧上。对于亮度失真，使用亮度变化、盐和胡椒噪声、高斯噪声、文本插入和jpeg压缩。为了实现一个全面的评估，一些失真被结合在一起，创造更具挑战性的攻击。组合1失真强调亮度攻击，其中结合亮度变化、盐和胡椒噪声、高斯噪声、jpeg压缩和文本插入的失真。组合2变形强调几何攻击，结合了字母框和旋转的变形。在这些畸变情况下，共有509张原始图像和4581张畸变图像作为测试图像。

在本实验中，使用300个图像进行评估，这些图像是从Inria Copy Days数据集中选择的。利用NHD方法计算每帧图像与其畸变图像的相似性。为了说明数据集中测试帧相似度的统计分布，计算了TPR和FPR，以验证其性能。两个NHD阈值被用来定义匹配，这意味着如果NHD小于NHD阈值（THR1=0.1和THR2=0.2），图像被认为是知觉相似的。这两个阈值分别为0.1和0.2，常用于多媒体拷贝检测系统。如阈值=0.1，基于剪切系数的视频指纹对大多数亮度畸变具有鲁棒性。但是所有四种评估算法都不能在使用0.1阈值的信盒和旋转类型的失真中表现良好。主要原因是0.1的阈值对于使用NHD进行相似性比较过于严格。对于一个实际系统，阈值0.2可以实现更高的TPR性能，这是因为四种算法都得到了改进，特别是在畸变的几何类型上。此外，在TPR性能方面，基于剪切系数的视频指纹在大多数类型的失真上表现突出。此外，指纹识别性能也是视频指纹识别算法的一个关键特性，良好的指纹识别应保证尽量低的指纹识别特性。从FPR结果来看，包括基于剪切系数的视频指纹在内的大多数测试算法都可以实现低的FPR，具有良好的识别性能。实验结果表明，与三种比较的指纹算法相比，该算法具有较高的鲁棒性和较好的性能。

3.2 基于TIRI的CBCD系统评估

本实验使用Trec vid 2018数据集评估基于剪切系数的视频指纹内容拷贝检测算法的性能。为了进行性能比较，我们还实现了基于TIRI系统评估的三个著名视频指纹。这些系统被命名为TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI。此外，在这些系统实现中采用常用预处理过程，包括下采样灰度输入视频的归纳和TIRIS的生成。其中，采用4帧/秒的降采样帧大小和帧速率生成预处理的输入视频，并用于生成TIRIS。在本实验中，从Trec vid 2018数据集中选择了122个视频作为参考视频，用于生成带有拷贝问题的查询。然后，使用另外122个视频作为非引用来形成查询，没有复制问题。在评估中，从每个参考和非参考视频集中随机抽取查询，长度为15 s。此外，对这些查询实施了8种类型的攻击，其中976个查询被复制，976个查询没有被复制。变形的8种类型是几何攻击，包括字母框和旋转、亮度攻击、亮度变化、盐和胡椒噪声、高斯噪声、文本插入以及时间攻击。在搜索数据库之前，使用相同的指纹算法预先生成指纹参考数据库。阈值0.2用于基于NHD的相似性匹配，这在CBCD系统的大多数实现中都是常用的。对于一个健壮的CBCD系统，它应该实现精确性（辨别性）和召回（健壮性）之间的平衡。为了评估提议的TIRI-SBVF、TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OIS的性能，本文采用分数（F）作为综合指标，定义为：

4 结论

本文提出了一种基于剪切系数的视频指纹内容拷贝检测算法，将时间信息中的代表性图像作为视频指纹。基于剪切波变换的多尺度、多方向分解特性，设计了基于剪切系数的视频指纹。针对具有四尺度剪切变换的S1和S2的不同类型失真具有很强的鲁棒性，对这些剪切图像的下采样图像采用1位差分编码构造了基于剪切系数的视频指纹。在基于归一化汉明距离的统计评估中，与已知的TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI三种指纹算法相比，该算法具有较高的鲁棒性。此外，通过与基于另外3种拷贝检测系统的比较，对视频检测和定位性能进行评估。实验结果表明，基于剪切系数的视频指纹是一种鲁棒的视频指纹，具有较强的识别能力和对多种视频拷贝攻击的鲁棒性。本文算法能达到约0.99的1平均得分，假阳性率＜0.01%，平均定位精度约97%。

[1] Ashok Kumar R, Kaliyaperumal G.Optimal fingerprint scheme for video on demand using block designs[J]. Multimedia tools and applications,2012,61(2):389-418

[2] Kim S, Lee SH, Ro YM. Rotation and flipping robust region binary patterns for video copy detection[J]. Journal of visual communication & image representation, 2014,25(2):373-383

[3] Zahedi M, Ghadi OR. Combining Gabor filter and FFT for fingerprint enhancement based on a regional adaption method and automatic segmentation[J]. Signal, image and video processing, 2015,9(2):267-275

[4] Yuan F,. Po LM, Liu MY,. Shearlet Based Video Fingerprint for Content-Based Copy Detection[J]. Journal of Signal and Information Processing, 2016,7(2):84-97

[5] Amerini I, Caldelli R, Del Mastio A,. Dealing with video source identification in social networks[J]. Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing, 2017,57(4):1-7

[6] Li YM, Po LM, Xu XY,.No-Reference Image Quality Assessment with Shearlet Transform and Deep Neural Networks[J]. Neurocomputing, 2015,154(12):94-109

[7] Guzamn J, Feregrino C, Morales-Sandoval M,.A robust and low-cost video fingerprint extraction method for copy detection[J]. Multimedia tools and applications, 2017,76(22):24143-24163

Detection for Video Fingerprint Content Copy Based on Cut Coefficient

SU Zhi-xian

325016,

Copy detection technology is widely used in copyright control to protect unauthorized use of digital video, the key is how to extract reliable video fingerprints. In this paper, a video fingerprint content copy detection algorithm based on shear coefficient is proposed. Video image attack experiments are carried out using TREC VID2018 and Inria Copy Days data sets, and compared with other classical algorithms. The experimental results show that the proposed algorithm is robust to most attacks. The average score of F1 was about 0.99, the false positive rate was less than 0.01%, and the accuracy of location was 97%.

Video fingerprint; shear coefficient; shear wave

TP391

1000-2324(2019)04-0630-04

2018-06-12

2018-07-25

浙江省教育厅一般科研项目:“城市视频监控”智慧运维管理平台构建研究(Y201839383)

苏志贤(1988-),男,硕士,讲师,主要研究方向为智能视频监控技术的应用. E-mail:297004967@qq.com