基于空间转换网络的视频盲水印方法

2020-11-13 08:57李叶凡

图学学报 2020年5期

胡海，李叶凡，王晗，邹玲

(1. 武警部队参谋部作战勤务保障大队，北京 100089；2. 北京林业大学信息学院，北京 100083；3. 北京电影学院数字媒体学院，北京 100088)

随着互联网和自媒体技术的发展，图像、视频等多媒体数据急剧膨胀给人们的工作和生活带了极大的便利。人们可以通过网络发布、共享、传播自己或他人的多媒体数据及信息，并进行网络贸易。于此同时，对多媒体数据的随意存储、复制以及修改他人原始作品等不法行为将严重侵害作者的著作权，给版权所有者带来巨大的损失，也给信息安全造成强烈的冲击。因此，如何有效地保护多媒体作品的版权、真实性和完整性，以及用户的隐私、产权和财产安全已成为当今互联网视频时代的重要问题。

数字水印技术[1-2](digital watermarking)通过将特定数据嵌入到图像、视频等数字媒体中以建立版权人对产品的所有权[3-4]。随着自媒体和影视行业的迅猛发展，视频水印作为数字产品版权保护技术的市场需求更为迫切。相对于图像数字水印，视频数字水印技术研究相对滞后，其主要原因是视频本身具有不同于静止图像的诸多特性，例如时间冗余、运动区域与非运动区域分布不均衡等。同时现有的标准视频编码格式又造成了已有水印技术引入上的局限性。特别地，对于视频产权作品的窃取时使用的存储、复制、录屏等多种手段产生的压缩、缩放、裁剪等攻击形式对视频水印嵌入和提取提出了一些区别于静止图像水印的独特要求。传统的视频水印算法对于数据压缩、加噪等信号处理攻击具有较好的鲁棒性，而对于经过缩放、裁剪等微小的几何攻击抵抗能力较差。目前大部分水印算法无法检测到经过录屏后视频中所包含的水印信息。在抵抗压缩、滤波和噪声干扰等信号处理攻击的同时能抵抗几何形变的可追踪水印技术，是目前视频水印技术中的关键问题。

相比于静止图像，在视频中嵌入水印对于算法的实时性和可靠性提出了更高的要求。由于视频是大量图像组成的序列，在存储和传输过程中通常需要对其进行压缩。在视频水印嵌入的过程中，需要考虑数据对于压缩编码的要求。同时由于包含大量图像序列数据，传统的需要原始宿主信号的非盲水印算法也不能适应视频水印的嵌入和提取，因此，视频盲水印技术是研究的重点。

基于以上分析，本文提出基于空间变换网络的自适应视频水印方法。通过注意力机制获取视频中显著区域，并针对离散余弦变换(discrete cosine transform, DCT)域的自适应视频水印嵌入方案。通过对变换后的子块提取中频系数后嵌入水印，可以在保证水印鲁棒性的前提下极大程度地保护水印的不可见性。在提取水印的过程中，通过习得的空间变换系数对待检测的含水印视频进行矫正，从而获取原始视频中水印嵌入位置以此对抗几何攻击，又保证了视频水印所必要的盲检测特性，保持了水印对于信号处理攻击的鲁棒性。

1 相关工作

目前对于视频的攻击主要分为信号处理攻击、几何攻击和时域去同步攻击。信号处理攻击通过改变包含水印的视频帧中像素值以降低水印能量从而影响视频水印的提取。针对信号处理攻击，使用DCT的方法将图像信号转换为频域分量，进而从频域中将水印嵌入DCT系数[5]。基于DCT域的水印方法主要包含全局和局部DCT 2类。在全局DCT方法中，对于整幅视频帧进行DCT以获取视频帧的频域能量系数。而局部DCT方法中，视频帧被划分为不重叠的块，在每一个块上进行DCT。基于DCT域的视频水印嵌入方法[6-9]对于低通噪声、模糊、锐化等信号攻击具有较强的抗攻击能力。但传统的DCT方法(给出实验比较方法)计算开销较大且对于剪切旋转等几何攻击抵抗能力有限。文献[6]和[9]通过在DCT低频系数中嵌入水印来抵抗图像因尺度缩小而带来的攻击。这是由于对空域中视频帧尺度的缩小近似于DCT域中高频分量的消除。但随着低频分量的改变，将会引起视频视觉质量的降低，因此，这些方法并不能保证视频的原始质量。基于低频DCT系数嵌入水印的方法[8]使用U通道中的DCT系数进行水印嵌入。该方法并未使用DC分量作为水印嵌入区域，这是由于对于该分量的任何改变都易引起肉眼可见的频闪。然后临近该分量的其他系数通常也具有较大数值，任何针对该分量的修改也将带来频闪效应，因此该方法无法生成人眼视觉系统(human visual system, HVS)不可见的视频水印。文献[10]将水印嵌入DCT后，Y通道的低频部分已获得对于几何攻击鲁棒的水印。

以上方法对于信号处理攻击具有较强的鲁棒性，但对于旋转、裁剪等几何攻击如何获得鲁棒的数字水印，仍然是一个开放性的问题。文献[11-13]利用图像中的几何不变特征点检测的方式进行水印的嵌入和提取。然而，由几何变换导致错误的特征点检测将会影响整个水印提取的效果[14]。特别是尺度和局部缩放变换会严重影响到局部特征检测算子的检测效果。另外，对于一组图像的显著点检测也很难保持一致，因此，基于特征匹配的水印方法主要应用于图像的数字水印中。文献[13, 15]在水印嵌入的过程中同时向图像嵌入一个不包含任何信息的模板，该模板在提取水印前通过检测其变换参数来矫正图像。但此类方法中的模板很容易被攻击者发现并篡改。不同于上述方法，本文通过模型对检测图像中的关键区域进行校正，以此保证在几何攻击下对视频嵌入水印的正确提取。

2 基于空间转换网络的视频盲水印

由于传统方法无法很好地解决几何攻击，因此本文考虑在图像中找到某个关键区域，能够对经过缩放及裁剪等操作的图片得到与未经变换前相同的检测结果。并考虑使用空间转换网络(spatial transformer networks, STN)来获取待加水印视频帧中的显著区域，以此来增强嵌入水印的几何不变性，从而抵抗几何攻击。

2.1 基于空间转换网络的显著区域检测

STN[16]是一种关注空间变换可区分性的推广形式。其提出的空间网络变换层，具有平移不变性、旋转不变性及缩放不变性等强大的性能。针对水印攻击时的几何攻击中的旋转、缩放以及裁剪等问题，STN可以用来转换输入的图片数据，以此为后续水印嵌入和提取具有几何不变性的图像块区域。本文将Spatial Transformer模块嵌入主流图像分类网络(fully-connected convolutional networks, FCN)[17]，嵌入位置为图片输入层与后续分类层之间。通过对待嵌入水印视频帧在空间域进行转换，从而确定该帧的显著区域[18]以及空间变换系数估计。在提取阶段，对于待提取水印视频通过空间变换系数进行空间矫正，以解决几何攻击带来的水印提取过程中的匹配问题。本文实验中将显著区域定义为32×32的图像块D，以方便后续基于块的水印嵌入以及提取操作。

2.2 自适应水印算法

水印嵌入算法流程如图1所示。

根据3.1节中所确定的视频水印插入位置，DCT将视频帧信号转换为基频分量，由于其良好的能量压缩能力，被用于主流的图像和视频压缩方法中[19]，如JPEG，MPEG和H.26x。尽管有离散傅里叶变换可以提高运算速度，但其变换过程中需要进行复数运算，这在图像编码、特别是在实时处理中非常不便。这使得离散傅里叶变换在实际的图像通信系统中很少使用，但其具有理论的指导意义。根据离散傅里叶变换的性质，实偶函数的傅里叶变换只含实余弦项，因此本文考虑使用其中的实数域的变换——DCT。不同于传统的基于DCT视频水印方法将视频帧划分为非覆盖的相等图像块后在每一个图像块上使用DCT，本文基于注意力机制，通过找到图像中的关键区域作为水印嵌入区域。将该区域划分为8×8非覆盖图像块，并进行二维DCT，即

其中，m,n=0,1,···,N-1。

其中，N=8，且

图1 水印嵌入算法流程Fig. 1 Diagram of digital video watermarking

通过DCT后的频域系数被分为3个不同的频段，本文使用中频段进行水印嵌入。其嵌入点一方面可尽可能地减少嵌入信息对主观视觉的影响；另一方面，相对于高频段系数，中频部分可更好抵抗压缩或噪声攻击对水印产生的损失。在本文中，嵌入视频中的水印为字符串序列。在嵌入前，将字符串转换为二进制序列，嵌入水印后载体数据DCT域采样点的值为

其中，λ为自适应特征掩膜系数，是原始载体数据DCT域某点的值；α为嵌入强度，是直接影响数字水印不可见性和鲁棒性很关键的一个因素：如果嵌入强度越大，数字水印的鲁棒性就越强，但会降低水印的不可见性；如果降低嵌入强度，数字水印的不可见性将会相应提高，而水印的鲁棒性会随之受到影响。为了实现不依赖于宿主信号的盲水印要求，本文设置密钥K，即

其中，d为二进制数字水印的信息值。通过比对DCT域某点λ′值和密钥K的相似度来提取水印，若与K1相似度更大时对应的水印信息值为0，与K2相似度更大时对应的水印信息值为1。通过相似性比对，本文方法摆脱了传统图像水印技术对于原始图像的依赖。通过密钥比相似度计算即可预测该区域中是否包含有意义水印，其更适用于包含大量图像序列的视频水印提取。

3 视频水印的嵌入、提取与相关检查

3.1 水印嵌入

视频水印嵌入算法如图2所示。

图2 视频水印嵌入算法框图Fig. 2 Framework of video watermark embedding

将待嵌入水印视频进行部分解码，保留I帧作为进一步水印嵌入的视频帧，且以帧为单位将水印嵌入到视频流的所有I帧中。水印嵌入形式为32×32的二值矩阵W。通过将字符编码为二值形式，每一个字符对应8位的二值序列，在二值序列后补0至序列长度为1 024，从而构建二维32×32矩阵。本文的DCT基于YCbCr颜色空间的Y分量进行。Y分量为颜色的亮度成分，由于人眼对视频中的此分量更敏感，通过对色度分量进行子采样以减少色度分量，使肉眼察觉不到图像质量的变化，所以本文使用Y分量进行水印嵌入以减少图像质量在感官上产生的变化(图3)。通过将3.1节中变换后的显著区域从RGB彩色空间转换到YCbCr彩色空间，提取Y分量。并将Y分量分成互不重叠的8×8子块，即block-dct(x,y)，x,y∈(0～8),x,y∈N，对每个子块进行二维DCT，得到block-dct(x,y)，其中x,y∈(0～8),x,y∈N。取水印二值矩阵W中的一个元素，嵌入到block-dct(x,y)的中频系数中。对嵌入水印信息的图像块block-dct(x,y)进行二维逆DCT得到包含水印信息的Y分量，合并到YCbCr彩色空间后再转换到RGB彩色空间。最后将包含嵌入水印信息的32×32正方形区域重新组合到原视频帧上。加入水印前后的视频帧如图3(b), (d), (f)所示。

在此过程中，不同于传统方法将视频帧均匀分割后对每一个子块均加入视频帧进行检测，本文只考虑在变换后的显著区域对视频帧进行水印嵌入，由此大大减少了视频水印嵌入过程中所消耗的计算时间，同时也能够保证在收到几何攻击后快速对嵌入区域进行矫正。

3.2 水印提取

视频水印提取算法如图4所示。

4.1节中水印生成过程属于私有水印生成，考虑到视频水印检测的盲检测特性(即检测水印时不提供原始视频)，为了获得对于几何攻击鲁棒的水印检测结果，本文首先通过显著区域检测模型将显著区域进行变换得到变换后检测区域D′将该区域从RGB彩色空间转换到YCbCr彩色空间并提取Y分量。将提取的Y分量分成互不重叠的8×8子块block-dct(x,y)，其中x,y∈(0,8),x,y∈N，对每个子块进行二维DCT，得到block-dct(x,y)。最后根据3.2节中所述提取系数的方法对每一个block-dct(x,y)提取中频系数，得到水印信息。

3.3 相关检测

本文考虑从2方面对视频中所加水印进行评估与测试：

(1) 水印不可感知性能检测。给定一个大小为m×n的原图像I和水印图像K，均方误差(mean square error, MSE)定义为

通过使用客观评价标准峰值信噪比(peak signal-to-noise ratio, PSNR)

来评价嵌入水印后视频表观偏离原始媒体的误差，以衡量水印视觉质量。

图3 加入水印前后视频帧视觉效果对比(嵌入水印为字符串)Fig. 3 Comparison of original video frame and video frame with imperceptible watermark(water00mark11dewatermark)

图4 视频水印提取算法框图Fig. 4 Framework of video watermark extraction

(2) 水印相关性检测。根据文献[7]中所使用的归一化相关系数(normalized correlation, NC)检测方法

对提取的水印与嵌入的水印进行相关性检测，从而判断所提取水印的质量，相关函数值越大，表示提取的水印与错误率越低。

4 实验结果及分析

本文嵌入的水印序列为无意义水印，检测水印是需计算认证水印序列与原始水印序列的NC系数。本文通过一系列外加的视频干扰处理来检测本文算法的有效性和鲁棒性，包括信号处理攻击，如高斯噪声、椒盐噪声，JPEG压缩，几何攻击，如不同尺度的放大与缩小变换等。算法鲁棒性的评判标准是通过检测到的水印与原始加入的水印相关与否来判定。

在检测本文算法对于信号处理攻击的鲁棒性能时，随机产生一系列不同强度的噪声，将其嵌入到水印视频的图像像素中，噪声相当于一个附加的干扰水印，其叠加结果更具有不可预知性和随意性。使用不同种类的噪声系列检测100次后，分别计算所检测到的水印与原始水印的相关值。从表1的结果中可以看出，本文算法对于所使用的全部信号处理攻击具有稳定且较好的效果。

表1 常见信号处理攻击测试结果Table 1 Comparisons of robustness against signal processing attacks

从表2的数据可以发现，文献[20]无法处理来自于尺寸缩放的几何攻击，文献[21]虽然在处理信号处理攻击时具有良好的鲁棒性，但对于尺寸缩放几何攻击表现较差。本文算法对于视频帧被放大或者缩小等几何攻击，具有较强的鲁棒性，特别是当图像被放大或缩小一半时，仍然能正确检测出水印(NC系数为0.988 9)。通过实验表明，本文中所使用的DCT是基于YCbCr颜色空间中的Y分量进行，人眼对于亮度分量较为敏感。由此，可以在视频中加入较大强度的水印而不会引起图像质量在感官上产生明显变化。另外，实验中也发现，在嵌入视频水印的过程中，对嵌入区域进行8×8的分块可以提升DCT的效率。

表2 抗击几何攻击的测试结果Table 2 Comparisons of robustness against geometric attacks

由于本文算法只对I帧进行水印嵌入，在不影响视频质量的前提下I帧不可能被删除，并且以帧为单位冗余嵌入到I帧中，故在理论上对视频流的剪贴删除操作具备鲁棒性。在本次实验中，随意改变I帧、P帧和B帧之间的顺序，同时删除部分I帧。通过在100个不同的视频中提取水印的实验，本文算法均可以检测出水印，相关系数平均值为0.999 5。通过该实验可发现，即便对视频帧的位置进行干扰，本文算法仍然可以在不使用原始视频的情况下检测出视频中所嵌入的水印信息。

5 结束语

本文提出一种基于空间变换网络的视频盲水印方法，通过使用注意力机制选择视频中图像的显著区域作为水印的插入区域，通过空间变换网络习得空间变换系数以矫正几何攻击所带来的缩放、旋转等几何形变，从而保证水印在几何攻击下获得较高的鲁棒性。通过进一步的变换域中频系数嵌入使得水印嵌入在鲁棒的前提下更加隐蔽。实验结果表明，本文方法具有较好的不可感知性、较强的鲁棒性，具有一定的实用价值。