基于流形学习的JPEG图像定量隐写分析算法

2014-09-12 11:17张明超蔡晓霞陈红

计算机工程与应用 2014年21期

关键词：流形特征向量特征提取

张明超，蔡晓霞，陈红

电子工程学院，合肥 230037

基于流形学习的JPEG图像定量隐写分析算法

张明超，蔡晓霞，陈红

电子工程学院，合肥 230037

提出了一种基于DCT系数统计特性的JPEG图像定量隐写分析算法。该算法在对JPEG图像DCT系数的统计模型进行研究的基础上，提取了能够反映嵌入容量变化规律的特征参数α。以特征参数α为基础，提出了基于流形学习的特征提取算法，通过LIB-SVM分类器进行训练，估计隐写对DCT系数的更改比率。实验结果表明，与传统的定量分析算法相比，提出的算法具有更高的估计准确率和稳定性。

定量隐写分析；特征提取；流形学习；JPEG图像

1 引言

隐写术[1]是研究如何隐藏信息的存在，目的是保护隐藏在载体中的秘密信息。隐写分析，作为隐写术的对抗技术，也是信息安全领域一个重要的研究方向，其目的是检测进而提取载体中的秘密信息。目前，隐写分析的研究主要集中于隐写信息的检测。而隐写的提取作为隐写分析与密码分析的交叉领域[2]，有关它的研究还非常少，尚没有成熟的理论和方法。通常只要能够判断出秘密信息是否存在，就认为隐写已被攻破。然而，为了能够提取出秘密信息，分析者还需要隐密信号的更多细节，如隐密信息的长度或载体信号的更改比率。

定量隐写分析[3]，作为隐写信息检测和提取的中间环节，是指准确估计秘密信息的长度或信号的更改比率。目前只有少数文献[4-7]提出了能估计嵌入信息长度的隐写分析算法，而且大多数是针对具体一个或者一类图像隐写术的专用隐写分析算法[4-6]。

Bohme[4]在WS（Weighted Stego image）方法的基础上，提出了扩展的WS法，对Jsteg隐写的嵌入容量进行快速估计。陈嘉勇等[5]对一类伪随机置换隐写术建立有向圈模型，证明了有向圈模型中存在大量等价密钥和相邻密钥，并给出计算等价密钥量的方法。利用等价密钥和相邻密钥的性质，结合突变点检测法，提出一种针对随机LSB隐写术的基于选择密钥的提取攻击算法，但是对消息嵌入率估计存在较大误差。Jan Kodovský等[6]基于图像统计特征参数，采用最大似然估计（maximum likelihood estimator）和零值信息假设（Zero Message Hypothesis，ZMH）提出了针对Jsteg隐写的定量隐写分析算法。Pevny等[7]提出基于自检测特征进行定量隐写分析的思路，并且针对多种JPEG隐写，采用平凡最小二乘（Ordinal Least Square，OLS）和支持向量回归分析（Support Vector Regression，SVR）训练出相应的定量隐写分析器。

本文针对JPEG图像的Jsteg和F5隐写算法，在文献[7]的基础上，提出了一种基于DCT系数统计模型的定量隐写分析算法。该方法对原始图像和载密图像的DCT系数进行统计分析，找到了能够反映嵌入容量变化规律的特征参数α。在此基础上，采用文献[8]的方法，共提取了276个具有一定区分能力的特征参数组成特征向量，然后利用流形学习的方法进行降维处理，将处理后的数据作为LIB-SVM分类器的输入，通过自学习的训练过程得到定量隐写分析的分类器，从而达到对现有的基于JPEG隐写的定量分析方法进行改进的目的。

2 JPEG图像的DCT系数统计模型

在隐写分析领域，国内外已有很多学者对图像DCT系数的统计分布模型进行了研究，提出了相关的统计分布模型算法（高斯模型[9]、广义高斯模型（GGD）[10]、拉普拉斯模型（Laplacian）[11]、柯西模型（Cauchy）[12]）。由文献[12]可以知道，在以上传统的概率模型中，柯西模型能够更好地拟合DCT系数的直方图分布。本文在SαS模型（Symmetric Alpha-Stable）[12]的基础上，提出了一种改进的统计分布模型（Ameliorate alpha-Stable，AαS）算法。

对于SαS模型来说，当特征指数α越大，其分布统计模型就越尖锐；相反，当特征指数α越小，其分布模型就越平坦。因为SαS模型的概率分布函数是由其特征函数经傅里叶反变换（IDFT）得来，但是由于经IDFT后的结果为复数，计算不方便，同时IDFT与JPEG数据压缩标准不兼容，应用受到很大限制。因此，本文直接利用其特征函数来拟合JPEG图像的DCT系数分布，提出了AαS模型，即

fX(x)=|exp(jμt-δ2/2·|t|α)|·max(h(x))(0≤α≤3)（1）其中，h(x)表示DCT系数的直方图分布，0≤h(x)＜1。对于AαS模型来说，当特征指数α越大，其分布统计模型就越平坦；相反，当特征指数α越小，其分布模型就越尖锐。

为了评估两曲线的相似程度，定义了两曲线的相似度（Similarity Measurement）。设两随机变量X和Y的概率模型函数分别为fX(x)和fY(x)，则其相似度为：

式（2）左式是连续型的概率模型相似度定义，右式是离散型的概率模型相似度定义。当相似度(SM)值越小，则两种概率曲线就越接近。当SM=0时，则说明两曲线完全重叠。利用式（2）对图1的三种概率模型进行相似度计算，结果如表1。

从表1可以看出，AαS模型的相似度值最小，柯西模型的相似度值最大。因此对于图1，其概率模型与AαS模型最匹配。

图1 woman图像

表1 woman图像三种概率模型的相似度

图2（a）是250幅图像取最优AαS模型时对应的特征指数α，其值在0到3之间，平均值为0.595 4。而图2（b）是250幅图像取最优AαS模型时对应的相似度值，其值大部分介于0～0.5之间，平均值为0.385 9。结合表1可以看出，图像DCT系数最理想的分布模型为AαS模型。而AαS模型的特征指数α能够很好地反应DCT系数的分布特点，下面将它作为主要的特征参数用于分析实验。

图2 AαS模型的特征指数和相似度值

3 基于DCT系数统计特性的定量隐写分析算法

载密图像的有效特征随信息嵌入率的变化而变化，从而可以根据图像特征估算载密图像的信息嵌入率。已有的大部分定量隐写分析方法必须要知道隐写算法的嵌入规则，这些定量隐写分析算法不具有通用性。为了提高估计值的准确性，在文献[7]的基础上，本文提出了采用新的特征提取方法和应用流形学习的方法，得到新的基于DCT系数统计特性的JPEG图像定量隐写分析方法。该方法主要包括3个部分：载体图像预测、统计特征提取、SVM训练和检测。下面逐一介绍。

3.1 载体图像预测

图3 载体图像预测流程图

通常情况下载体图像的DCT系数直方图是未知的，这给通用隐写分析算法的设计带来了极大的不便。Fridrich等人在文献[13]中提出：将待测图像解压缩到空间域，然后剪裁掉最上边的4行和最左边的4列后，进行低通滤波，再按相同的量化表（量化表可以从待测图像的文件头中读出）重新压缩，可以构造出一幅统计特性与载体图像相近的预测图像，其中，预测图像与待测图像大小相同。具体流程如图3所示。

3.2 统计特征提取

为了衡量待测图像和预测图像中某个特征统计量的差异大小，构建如下公式：

其中，f为图像的某个特征统计量，J1表示待测的JPEG图像，J2表示对该图像的预测图像。

首先采用文献[8]中的方法从待测图像和预测图像中分别提取一阶统计特征、二阶统计特征和Markov特征等参数，并添加了由第2章中式（1）和式（2）得到的特征指数α和δ2。然后，采用式（3）分别计算从待测图像和预测图像中提取的特征参数间的差异，得到276维统计特征向量。

为了降低数据处理的复杂性并提高分类的准确率，需要对其进行维数约简。流形学习是一种有效的非线性降维方法，它可以挖掘出隐藏在高维数据中的低维流形。局部线性嵌套（LLE）[14]能够较好地发现高维数据中的局部几何结构，并具有计算简单的优点。因此，下面采用LLE方法对276维特征向量进行降维处理，具体步骤如下：

假设经过特征提取后得到的JPEG图像的特征向量集合为：X={x1，x2，…，xN∈RD}，其中，N代表图像样本数，xi代表第i个图像的特征向量，D代表特征向量维数。

算法的第一步是计算出每个样本点的k个近邻点。把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个近邻点。k是一个预先给定值。

LLE算法的第二步是计算出样本点的局部重建权值矩阵。这里定义一个误差函数，如下所示：

在实际运算中，Qi可能是一个奇异矩阵，此时必须正则化Qi，如下所示：

其中r是正则化参数，I是一个k×k的单位矩阵。

LLE算法的最后一步是将所有的样本点映射到低维空间中。映射条件满足如下所示：

其中，ε(Y)为损失函数值，yi是xi的输出向量，yij(j= 1，2，…，N)是yi的k个近邻点，且要满足两个条件，即

其中M是一个N×N的对称矩阵，其表达式为：

要使损失函数值达到最小，则取Y为M的最小m个非零特征值所对应的特征向量。在处理过程中，将M的特征值从小到大排列，第一个特征值几乎接近于零，那么舍去第一个特征值。通常取第2～m+1间的特征值所对应的特征向量作为输出结果。

3.3 LIB-SVM分类器

支持向量机（Support Vector Machine，SVM）[15]是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中，因此，被广泛应用到很多领域中。它是建立在统计学习理论、VC维理论和结构风险最小原理的基础上，其基本原理就是寻找最优分类面（Optimal Hyperplane），将空间中两类样本点尽可能多的正确分离，同时使得支持向量（即两类样本中离分类面最近的样本点）距离分类面最远。

表2 对Jsteg隐写的嵌入率估计（%）

设训练样本集为(xi，yi)，i=1，2，…，n，xi∈Rd，yi∈{+1，-1}，d维空间中线性判别函数的一般形式为g(x)= w·x+b，分类面方程为w·x+b=0。为了使所求得的最优分类面能够对所有样本正确分类，且分类间隔最大，则对于样本点(xi，yi)应满足以下两个条件：

其中，C为惩罚因子；ξi为非负松弛变量。

这是一个二次凸规划问题，由于目标函数和约束条件都是凸的，根据最优化理论，这一问题存在唯一全局最小解。应用Lagrange乘子法并满足条件：

最后得到SVM的分类器具有以下形式：

其中，αi≥0是拉格朗日乘子，K(xi，x)表示核函数。目前，最常用的核函数有线性核、多项式核、RBF核和sigmoid核四种。在本实验中，主要利用台湾大学林智仁等人开发设计的LIB-SVM软件包。

目前，常用的多分类支持向量机方法有“一对多”（One-Versus-Rest）和“一对一”（One-Versus-One）算法。针对本文中训练样本的数目要求较小，运算量不大的特点，以提高检测的正确率为准则，采用“一对一”的算法设计了多类分类器，该分类器不仅可以检测出待测图像是否载密，而且能够进一步判断载密图像中嵌入了多少秘密信息。

4 实验与结果分析

首先构建实验所用的载体图像库。收集了索尼、佳能等品牌的几款不同型号的数码相机拍摄的250张数码照片，其格式均为质量因子90以上的真彩色JPEG图片。利用MATLAB 7.10把它们统一处理成大小为512× 512、质量因子为75的灰度JPEG图像。然后，从得到的250幅图像中随机选取150幅图像构成训练图像库，剩下的100幅构成测试图像库。

4.1 对Jsteg隐写的定量分析实验

采用Jsteg隐写对载体图像进行嵌入率为α=0.05，0.1，0.15，0.2，0.25，0.3，0.35，0.4，0.45，0.5的更改（嵌入率即为更改的系数在所有可嵌入系数中所占的比率），得到10组载密训练图像和10组载密测试图像。然后分别采用文献[7]和本文的方法提取相应的统计特征向量；将训练图像中提取出的所有特征向量作为分类器的输入；设定LIB-SVM的参数，经过机器的自学习过程，训练得到分类器。最后采用相应的分类器对两种情况下的测试图像进行嵌入率的估计。具体实现如下：

（1）将这10组图像分别记作类别A～J，选取其中任意两个不同的类别分别标记为“+1”和“-1”，经过训练可以得到45个二分类器。

（2）提取待测图像的特征向量，分别输入到45个已训练好的LIB-SVM分类器中进行检测，根据检测结果对A～J十个类别进行投票，获得票数最高的类别即被判定为待测图像的嵌入率。

表2给出了文献[7]以及本文方法的检测结果。

从表2可以看出：针对Jsteg隐写，在不同嵌入率下，相比于文献[7]，本文提出的基于流形学习的特征提取算法，能够获得较高的正确检测率。

4.2 对F5隐写的定量分析实验

采用F5隐写对载体图像进行嵌入率为α=0，0.05，0.1，0.15，0.2，0.25的更改（嵌入率即为更改的系数在所有可嵌入系数中所占的比率），得到6组载密训练图像和6组载密测试图像。然后分别采用文献[7]和本文的方法提取相应的统计特征向量；将训练图像中提取出的所有特征向量作为分类器的输入；设定LIB-SVM的参数，经过机器的自学习过程，训练得到分类器。最后采用相应的分类器对两种情况下的测试图像进行嵌入率的估计。具体实现如下：

（1）将这6组图像分别记作类别A～F，选取其中任意两个不同的类别分别标记为“+1”和“-1”，经过训练可以得到15个二分类器。

（2）提取待测图像的特征向量，分别输入到15个已训练好的LIB-SVM分类器中进行检测，根据检测结果对A～F六个类别进行投票，获得票数最高的类别即被判定为待测图像的嵌入率。

表3给出了文献[7]以及本文方法的检测结果。

表3 对F5隐写的嵌入率估计（%）

从表3可以看出：针对F5隐写，在不同嵌入率下，相比于文献[7]，本文提出的基于流形学习的特征提取算法，同样能够获得较高的正确检测率。

分析表2和表3的实验结果，可以验证在JPEG图像的DCT域中存在一个相应的低维流形，而流形学习方法有从高维数据中找到这个低维流形的能力，从而找到最重要的区分信息。而将未经处理的高维数据直接用于分类和训练，并不能达到很好的分类效果。

需要说明的是：在使用LLE进行降维处理时，当引入新的测试样本时，需要重新构造和求解最小重构权值矩阵，然后通过该矩阵计算相应的特征向量来求其低维嵌入结果。这样做要耗费巨大的计算代价，对图像目标的实时性有一定的影响，这就是流形学习的样本外点学习问题。在实际目标的识别实验中还发现基于流形学习算法的特征提取识别时间要比原始方法的长一些，而这也正是下一步研究需要解决的重点问题。

5 结束语

本文提出了一种基于DCT系数统计特性的JPEG图像定量隐写分析算法。该算法在分析JPEG图像DCT系数统计模型的基础上，采用了基于流形学习的特征提取方法，得到目标数据的低维流形，将其作为特征参数并利用支持向量机进行分类识别。在对Jsteg和F5的定量分析实验结果表明，该算法的鲁棒性和准确性都有了较大提高，在实际中具有重要的应用价值。但该算法仍然存在一些不足：特征提取识别的时间较长，运算速度较慢。如何解决上述所提出的问题，研究更有效的定量分析算法，将是下一步工作研究的重点和难点。

[1]夏煜，郎荣玲.基于图像的信息隐藏检测算法和实现技术研究综述[J].计算机研究与发展，2004（4）.

[2]张卫明，李世取，刘九芬.对空域图像LSB隐写术的提取攻击[J].计算机学报，2007，130（9）：1625-1631.

[3]Fridrich J，Goljan M，Hogea D，et al.Quantitative steganalysis of digital images：estimating the secret message length[J].ACM Multimedia Systems Journal：Special Issue on Multimedia Security，2003，9（3）：288-302.

[4]Bohme R.Weighted stego-image steganalysis for JPEG covers[C]//Proc of the 10th Int Workshop on Information Hiding.Berlin：Springer，2008：178-194.

[5]陈嘉勇，祝跃飞，张卫明，等.对随机LSB隐写术的选择密钥提取攻击[J].通信学报，2010，31（8）：73-80.

[6]Kodovský J，Fridrich J.Quantitative structural steganalysis of Jsteg[J].IEEE Transactions on Information Forensics and Security，2010，5（4）：681-693.

[7]Pevny T，Fridrich J，Ker A D.From blind to quantitative steganalysis[C]//Proc of Electronic Imaging，Security and Forensics of Multimedia Contents XI.Bellingham，WA：SPIE，2009.

[8]Pevny T，Fridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C]//Proc of Electronic Imaging，Security，Steganography，and Watermarking of Multimedia Contents IX.Bellingham，WA：SPIE，2007：1-13.

[9]Fridrich J.Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]//Proc of the 6th Information Hiding Workshop.Berlin Heidelberg：Springer-Verlag，2004：67-81.

[10]Zhang Li，Qian Gongbin.Multi-bit optimum image blind watermark detector based on dual channel detection[J]. Journal of Electronics&Information Technology，2007，29（7）：1717-1721.

[11]Lie Wen-Nung，Lin Guo-Shiang.A feature based classification technique for blind image steganalysis[J].IEEE Transactions on Multimedia，2005，7（6）.

[12]毛家发，钮心忻.基于JPEG净图定量描述的隐写分析方法[J].电子学报，2011，39（8）：1907-1912.

[13]Fridrich J，Goljan M，Hogea D.Steganalysis of JPEG images：breaking the F5 algorithm[C]//Lecture Notes in Computer Science 2578.Berlin：Springer-Verlag，2002：310-323.

[14]Roweis S T，Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science，2000，290（5500）：2324-2326.

[15]Pevny T，Fridrich J.Towards multi-class blind steganalyzer for JPEG images[C]//Proceedings of International Workshop on Digital Watermarking.[S.l.]：Springer-Verlag，2005：39-53.

ZHANG Mingchao,CAI Xiaoxia,CHEN Hong

Electronic Engineering Institute,Hefei 230037,China

A quantitative steganalysis algorithm of JPEG images based on DCT coefficient statistical characteristics is proposed.Based on the research of DCT coefficient statistical model of JPEG images,the characteristic parameterα,which can reflect the embedding capacity change rule,is extracted in the proposed method.With the LIB-SVM classifier,a kind of manifold learning algorithm is applied to feature extraction from the characteristic parameters includingα.By this means,the change ratio of DCT coefficients caused by steganography can be estimated.The results show that compared with other traditional quantitative analysis,the algorithm gains higher estimation accuracy and stability.

quantitative steganalysis;feature extraction;manifold learning;JPEG

TP391

10.3778/j.issn.1002-8331.1211-0325

ZHANG Mingchao,CAI Xiaoxia,CHEN Hong.Quantitative JPEG images steganalysis algorithm based on manifold learning.Computer Engineering and Applications,2014,50（21）：175-179.

张明超（1987—），男，硕士在读，主要研究方向为信息安全。E-mail：1139708343@qq.com

2012-11-27

2013-01-11

1002-8331（2014）21-0175-05

CNKI出版日期：2013-01-29，http://www.cnki.net/kcms/detail/11.2127.TP.20130129.1543.017.html