利用运动向量嵌入概率增强特征的隐写分析方法

2022-01-27 07:39刘烁炜刘琲贝胡永健王宇飞赖志茂

华南理工大学学报（自然科学版） 2021年11期

刘烁炜刘琲贝胡永健† 王宇飞赖志茂

(1.华南理工大学电子与信息学院，广东广州 510640；2.中新国际联合研究院，广东广州 510700；3.中国人民警察大学，广东广州 510663)

目前，深度学习用于隐写和隐写分析已成为一种趋势，并在数字图像隐写[1- 2]和隐写分析[3- 4]领域取得了瞩目成果。然而，基于深度学习的视频隐写分析研究仍处于起步阶段。由于视频隐写分析网络(例如文献[5- 6])沿用了典型图像隐写分析的深度卷积神经网络，需要将视频分帧为图像序列后逐帧进行嵌密判断，忽视了视频隐写主要在编码后的压缩域而非在帧图像上直接进行嵌密操作，从而与图像隐写存在巨大差异的事实，导致基于深度学习的视频隐写检测网络性能尚未达到令人满意的程度。另一方面，传统上利用视频压缩编码特性所设计的手工特征具有维度小、针对性强、灵敏度高、可解释性好，且不受视频分辨率限制等特点，因此对视频隐写分析而言，在现阶段深化传统方法的研究仍具有很好的理论和实际应用意义。

典型的视频隐写方法包括修改运动向量[7- 9]、 DCT系数[10- 12]和帧内预测模式[13- 14]等。其中，修改运动向量对编码性能和视觉质量的影响最小，并能提供足够的嵌密负载，已成为目前最流行的视频隐写方式。为减少失真并提高安全性，通常在内容自适应策略下，对符合预定义选择规则的运动向量进行修改[7- 9]。检测基于运动向量的视频隐写途径有两种：一种途径是计算同一帧或相邻帧上运动向量的统计特性[15]；另一种是利用运动向量在多重编码后出现异常或在修改后局部最优性受损的特点。文中研究基于运动向量的视频隐写分析。

Cao等[16]证明了修改后的运动向量在重压缩过程中具有向原始运动向量复原的趋势，并根据这种现象设计了反映运动向量复原(MV reversion-based，MVRB)的15维特征，但码率对视频帧像素块的重构有很大影响，在低码率下量化引起的较大失真混淆了嵌密引起的失真，致使载体和载密视频所提取的特征之间的差异性难以区分，检测性能急剧下降。Wang等[17]指出运动向量的修改很大概率会破坏其局部最优性，并根据实际绝对差值之和(SAD)与通过加1或减1(Add or Subtract One，AoSO)操作获取的局部最优SAD之间的差异设计了18维特征。然而AoSO检测性能容易受到视频比特率的影响，原因是在检验局部最优性时缺少对运动向量编码所需的比特估计。对此，Zhang等[18]综合考虑了运动向量预测失真和编码所需的比特，提出了一种局部最优性的近似最佳估计方法(Near-Perfect Estimation for Local Optimality，NPEFLO)，并设计了36维特征用于检测，性能优于MVRB和AoSO。文献[6]首次提出一种用于视频运动向量隐写分析的深度神经网络VSRNet，对不同码率具有很好的鲁棒性，但整体检测性能仍逊于文献[18]的NPEFLO算法。

综上，定性或启发式利用嵌入端先验知识来指导隐写检测的方法已见于文献，然而通过全面定量刻画嵌入优先级来指导隐写检测的方法尚未见到。文中提出了一种利用嵌入概率来定量增强检测特征的方法，以期稳定有效地改善视频隐写检测器的性能。

1 运动向量嵌入概率的估计

运动向量的嵌入优先级与人眼视觉系统的运动注意机制、纹理掩蔽机制以及运动估计的原理密切相关，文中综合考虑这3方面因素，提出一种嵌入失真函数的估计方法，据此求出检测单元内各运动向量的嵌入概率。下面以HEVC/H.265[19]视频为例介绍嵌入概率的估计方法。

1.1 运动特征的度量

在视频快速运动区域进行修改通常不易被察觉，这一人眼视觉系统的运动注意机制被用于许多基于运动向量的隐写方法中。以Basketball视频中的一帧局部区域(见图1)为例，视频中快速移动的目标所对应的运动向量具有较大的幅值，而静态背景区域的运动向量幅值较小。这里带箭头的线段表示运动向量，其长度表示运动向量的幅值大小，箭头表示预测的方向，红色表示前向预测，绿色表示后向预测。文中利用运动向量的幅值来刻画视频内容的区域运动特征。设运动向量V=(x，y)，其幅值用下式度量：

(a)预测单元划分

(1)

式中，x、y分别为运动向量水平和垂直方向的分量。

1.2 纹理特征的度量

纹理掩蔽机制已广泛用于指导图像隐写和视频隐写。纹理复杂区域的运动向量应具有更高的嵌入优先级。以Soccer视频中的一帧局部区域(见图2(a))为例，图2(b)显示出纹理复杂区域和边缘区域的预测残差比平坦区域大，因此，对应运动向量的修改更符合隐写安全性原则。文中用预测单元的平均预测残差来刻画区域的纹理特性：

(2)

(a)重建视频帧

1.3 运动向量局部最优性的度量

在视频编码端，运动估计通过最小化拉格朗日失真函数来找到最优的运动向量m*：

(3)

出于安全性考虑，目前大部分隐写算法对运动向量仅进行±1操作。故在解码端，局部最优性的检验可限制在当前运动向量V的8邻域集中进行，即Ω(V)={(x+Δx，y+Δy)|Δx，Δy∈{0，±1}}。Ω(V)内的每个运动向量mt(t∈[1，9])对应的拉格朗日失真可计算为

(4)

J(V)与J(mt)差异越小，则修改后保持局部最优性的概率越大，V越适合嵌密，其嵌密优先级更高。文中用8邻域集拉格朗日失真的偏离散度D来刻画其差异性：

(5)

1.4 嵌入概率的估计方法

文中通过运动向量V的幅值|V|、平均预测残差Epre以及8邻域集拉格朗日失真的偏离散度D这3个方面对运动向量的嵌入优先级进行刻画。考虑到新型隐写算法大多遵循最小化失真或最大熵原则[20]，载体元素以最优概率进行嵌密，文中利用这一线索定义嵌入概率。

设一个检测单元包含N个运动向量，由于最优嵌密概率服从Gibbs分布[20]，对检测单元内的每个Vi(i∈[1，N])，其嵌入概率可定义为

(6)

式(6)计算得到的嵌入概率βi值可衡量当前Vi的嵌密优先级。其中，ρi为嵌密引起的失真，对于盲检测，接收端无法得到具体隐写算法对于失真的定义。对此，文中综合考虑式(1)、(2)和(5)的影响，定义嵌入失真函数为

(7)

2 检测特征的增强方法

无论是在给定平均载荷下最小化失真的隐写，还是在给定平均失真下最大化平均载荷的隐写，其嵌入概率的最优分布是一致的[20]。因此，对于盲检测，这种最优概率分布可作为先验知识用于特征的增强。以视频运动向量的嵌密为例，各运动向量的嵌密优先级存在差异。据此，在嵌密优先级意义上，文中提出利用嵌入概率定量精确强化不同运动向量在构造检测特征集时的贡献，其本质上是将嵌入的边信息用于隐写检测。下面通过一个实例介绍文中的特征增强方法。

2.1 检测特征集的构造

设一检测单元的特征集为F={Fj|j∈[1，n]}，其中Fj为第j维检测特征。对于一个针对运动向量修改的隐写检测方法，Fj的一般性构造如下：

(8)

式中：fj(i)为运动向量Vi第j维特征描述子的值；αj为归一化因子，由具体隐写检测算法所引用的文献给出，若没给出则为1。

2.2 增强后的特征集

为了区分各运动向量Vi的特征描述子fj(i)对隐写检测的贡献，可利用嵌入概率βi来评估当前fj(i)对于检测的影响，一种简单的方案是利用嵌入概率βi对fj(i)进行加权。增强后的特征集则为

(9)

其中βi由式(6)估计。从此处开始，下文后缀“-EEP”(Enhancement with Embedding Probability，EEP)均代表增强操作。

3 实验和结果分析

3.1 实验设置

(1)数据样本采集：300段CIF分辨率(352×288)的视频序列(YUV格式为4：2：0)，每段视频为300帧，帧率为30 f/s。所有视频用HEVC/H.265编码标准，在250、500、750和1000 kb/s 4种码率下进行编码。I帧周期为32帧，且只使用P帧，GOP(图像组)大小设置为4。

(2)视频隐写算法：文中将3种基于运动向量的经典视频隐写算法，包括Xu方法[7]、Aly方法[8]和Yang方法[9]，作为检测目标。其中，文献[7]和[8]是基于H.264视频编码提出的方法，文中将其移植到HEVC编码环境。嵌入率用被修改的运动向量个数比值(Corrupted MV Ratio，CMVR)来度量，即每帧用于嵌密的运动向量个数与总数的比值。CMVR取3种常见的嵌入率进行隐写：0.05、0.1和0.2。

(3)视频隐写分析算法：用3种经典的隐写分析算法，包括MVRB[16]、AoSO[17]和NPEFLO[18]来验证特征增强对检测性能的提升，并与一种最新的基于深度神经网络的检测方法VSRNet[6]进行对比。

(4)训练与分类：鉴于MVRB、AoSO和NPEFLO的特征维度分别为15、18和36，使用高斯核SVM分类器[22]进行训练分类，其中通过对网格空间{(C，γ)|C=2-5，2-4，…，215，γ=2-15，2-14，…，23}进行5倍交叉验证得到惩罚因子C和核参数γ。随机选取60%的样本用于训练，剩余40%的样本用于测试。执行20次迭代，取其平均检测准确率作为性能评估指标。考虑到部分帧在隐写时可能没有被修改，也为了比较基准一致，文中的检测单元定义为一个GOP，即4帧的视频子序列。

3.2 结果与分析

表1、2和3的实验包括两种操作：用原始算法进行检测以及用文中技术增强特征后进行检测。传统手工特征均按式(9)进行增强。可以看到，使用文中方法对特征增强后，3种隐写分析算法对3种隐写算法在3个典型的嵌入率下的检测准确率均有不同程度的提升。

表1 MVRB-EEP和MVRB的检测性能比较(码率为500 kb/s)Table 1 Comparison of detection performance between MVRB-EEP and MVRB (bitrate set as 500 kb/s)

表2 AoSO-EEP和AoSO的检测性能比较(码率为500 kb/s)Table 2 Comparison of detection performance between AoSO-EEP and AoSO (bitrate set as 500 kb/s)

表3 NPEFLO-EEP和NPEFLO的检测性能比较(码率为500 kb/s)Table 3 Comparison of detection performance between NPEFLO-EEP and NPEFLO (bitrate set as 500 kb/s)

增强方法在检测Xu方法时性能表现最为突出，其提升幅度范围为1.43～ 5.02个百分点。Yang方法直接利用了HEVC的编码特点，并使用运动向量空间编码嵌密，故在嵌入相同密信时修改的运动向量个数比Xu方法和Aly方法少很多，在3个隐写算法中最难检测。此外，Yang方法在选择运动向量时没有考虑幅值特性，但遵循纹理优先来选择嵌密位置，故仍在文中失真函数的考虑范围之内，因此文中增强方法在检测时仍有一定的效果。

文中用KL散度(即相对熵)[23]从理论上来解释文中增强方法性能提升的内在原因，KL散度的定义如下：

(10)

(a)AoSO特征分布

3.3 鲁棒性分析

码率对视频隐写分析算法的性能有很大影响。为验证增强方法的鲁棒性，文中选取了4种不同的码率进行实验，结果如图4所示，其中CMVR=0.1。图4显示，无论码率如何变化，文中增强方法对原始检测算法的检测准确率均有稳定的提升，尤其是对MVRB和AoSO特征，其性能提升幅度更大。总的来说，在低码率的情况下，文中增强方法提升的效果更加明显。

(a)MVRB特征增强

(c)NPEFLO特征增强

3.4 与深度神经网络检测方法的比较

为进一步验证文中方法的有效性，在实验中加入最新的针对视频运动向量隐写的深度神经网络检测方法VSRNet[6]进行比较。表4给出了7种检测方法在不同码率下对Xu方法和Aly方法的检测结果。考虑到Xu方法只对运动向量的一个分量进行嵌密，而Aly方法对水平和垂直两个分量均嵌密，为了保证公平的比较，嵌密长度需要一致，文中将前者的嵌入率CMVR设为0.2，将后者的设为0.1。

表4 7种检测方法在不同码率下的检测准确率

VSRNet在不同码率下的检测性能具有良好的鲁棒性，准确率普遍优于MVRB，在低码率下也优于AoSO。但VSRNet在构造输入矩阵时，将运动向量以类似像素的形式进行输入，解决了深度网络的输入格式困难，但难以将运动向量在压缩编码中的特性在所学习到的深度特征中反映出来，导致深度检测网络的优势未能完全发挥。事实上，VSRNet整体检测性能仍逊于NPEFLO，在高码率下也低于AoSO。这一结果从侧面也说明在现阶段研究传统方法仍具有积极的意义。

表4中，文中增强后的NPEFLO-EEP的检测准确率最高。增强后，MVRB-EEP在码率750 kb/s和1 000 kb/s下检测Xu方法的准确率超过VSRNet；AoSO-EEP在码率500 kb/s下检测Aly方法的准确率也超过VSRNet，由此可见文中特征增强的效力。

3.5 时间复杂度

每个GOP增强方法增加的运行时间与原始特征提取时间的比值如表5所示。由表5可知，对于3种检测方法，文中增强方法所增加的运行时间均少于原始提取特征时间的0.5%，说明提升检测性能所需的计算复杂度很小。实际上，在估计嵌入概率时的部分中间运算结果可直接用于特征提取中，例如，在估计嵌入概率时计算预测残差的SAD值可用于MVRB特征、AoSO特征的提取，而讨论局部最优性时，计算的拉格朗日失真又可用于NPEFLO特征的提取。

表5 每个GOP增强方法增加的运行时间与原始特征提取时间的比值Table 5 Ratio of the increased running time of each GOP to the time of original feature extraction %

4 结语

文中根据最优嵌密概率分布的一致性，将其作为盲检测的先验知识，以HEVC视频为例，介绍了一种利用嵌入概率作为边信息的隐写分析特征增强框架，实验结果证明了增强方法的有效性，并从理论上解释了性能提升的内在原因。由于增强方法在估计嵌入概率时并不涉及具体的视频编码标准，这种做法可方便地推广到其他视频编码标准(例如H.264)。此外，尽管文中以运动向量为例进行特征增强，但对压缩域其他编码参数的隐写分析，例如DCT系数和帧内预测模式等，仍具有指导意义。文中在估计运动向量的嵌入概率时，根据普遍的嵌入策略启发式地定义失真函数，将来可进一步研究失真函数的优化构造方法。