基于四叉树分割的JPEG隐写分析

2014-05-29 09:46平西建许漫坤李文祥

电子与信息学报 2014年3期

汪然平西建许漫坤李文祥张涛

基于四叉树分割的JPEG隐写分析

汪然*平西建许漫坤李文祥张涛

(信息工程大学信息系统工程学院郑州 450002)

当前主要的隐写分析方法都是对整幅图像进行特征提取，而忽略了图像的内容差异。该文提出一种基于四叉树分割的JPEG隐写分析方法，该方法根据图像块的纹理复杂度进行图像分割，对具有相同统计特性的子图像分别进行隐写检测特征的提取，并构造相应的分类器，通过加权融合得到最终的检测结果。实验结果表明该方法具有良好的性能，尤其是在训练与测试图像的统计特性具有较大差异时，该算法的检测准确率提高更加明显。

信息隐藏；JPEG隐写分析；图像分割；四叉树；纹理复杂度

1 引言

目前，JPEG隐写分析采用了多种多样的方法进行特征提取，并且得到了良好的检测结果，但是大部分隐写分析方法对整幅图像采用相同的过程进行特征提取，而忽略了图像本身固有的统计特性，这会导致隐写检测的准确性受到图像内容和质量的影响，并过分依赖于所使用的图像库。当训练和测试库不匹配时，算法性能会发生明显下降，因而难以应用于实际。图像是以一定的空间结构载荷所需要传递的视觉信息，通常可以将其看作具有区域平稳性的马尔可夫信源。隐写所造成的改变不仅与隐写机制有关，还与载体数据的统计特性密切相关。一些研究者已经注意到了载体，载密数据统计特性与隐写分析结果之间的关系，并提出了一系列基于图像内容的隐写分析方法。文献[13]将图像按一定尺寸进行分块，并根据隐写检测特征对图像块分类，对每类图像块分别进行隐写分析。文献[14]则将整体图像按照内容复杂度分类至不同的子图像库，对每个子图像库分别进行隐写分析。在相同的实验条件下，上述两种方法均能提高算法的检测性能。然而，前一种方法未根据图像内容对图像块进行分类，图像分块尺寸的选择难以自适应地平衡图像内容的同一性和差异性，而且由于该算法对每一个图像分块均需提取274维隐写检测特征，当图像尺寸较大时，就会造成维数灾难。而后一种方法是对图像的整体内容进行分类，未考虑图像信源统计特性的差异性。

本文提出一种基于图像内容的JPEG隐写分析方法。该方法采用图像块的DCT系数特征衡量图像的纹理复杂度，以基于四叉树的方法将图像分割为若干互相重叠的子图像，对每一类子图像分别提取隐写检测特征，通过加权融合得到最终的检测结果。实验结果表明，本文算法具有较好的检测性能，尤其是在训练和测试图像的统计特性具有较大差异时，检测准确率的提高更加明显。

2 基于内容的JPEG隐写分析算法

将秘密信息嵌入自然图像后，具有强随机性的秘密信息对内容不同的图像子区域的统计特性会产生不同的影响，而对相似内容的子区域会产生相似的影响。因此，可将图像分割为若干子图像，将其按图像纹理复杂度分为若干类别。这样，每个类别内的载体子图像的统计特性更加相似，隐写检测特征在不同载体子图像间的差异较小，使得载体与载密图像之间的可分性更好。根据上述思想，本文提出一种新的隐写分析方法，其流程如图1所示。在训练过程中，根据图像8×8分块的纹理复杂度对给定图像进行分割，对分割所得到的每一类具有相同或相近纹理特征的子图像分别提取隐写分析特征，并建立分类器进行训练。在测试过程中，同样先对给定图像进行分割，然后将对每一幅子图像所提取的特征送入相应的分类器，通过加权融合得到总的判决结果。

2.1 四叉树分割

四叉树图像分割方法[15]采用递归分解的原则，将每一个图像块分成4个大小相同的子块，对每一个子块提取根据图像统计特性定义的区域属性一致性测度，并设定判别准则来决定是否继续迭代分割。该分割方法具有灵活度高，分块速度快的优点，并且分割所得到的子图像块具有规则的形状，有利于后续操作，适合作为隐写分析特征提取的预处理过程。

则停止对图像块进行迭代分割。NZR特征能够反映8×8分块的复杂度，当一个图像块中所有的8×8分块都具有相近的复杂度时，该图像块内部具有一致的区域属性。图2所示为一幅图像在不同的值下经过四叉树分割所得到的结果，可以看出，此分割方法可以较好地反映图像的纹理特性，较大的图像块对应于平坦区域，而较小的块则为复杂区域或图像边缘。的取值决定了分割的精细程度，当取值较小时，更多的子图像块被分解，分割过程对图像纹理更加敏感，但是容易过分解，因而对纹理复杂的图像分割效果不好；当取值较大时，边缘信息不能准确刻画；具体的值设定将在实验部分进行说明。为了保留JPEG分块的统计特性，本分割方法所得到的最小图像块尺寸为8×8。

图2 四叉树分割结果

2.2 图像块分类及类别融合

对给定图像进行四叉树分割之后，提取每一个分割所得图像块的NZR特征，并对这些特征进行聚类，将其分为互不重叠的集合以实现对图像块的分类。由于DCT系数特征集中分布于0值周围，因此基于DCT系数的NZR特征在其值域上不是均匀分布的。如果采用目前比较常用的K均值聚类方法对特征进行聚类，就会将大量的图像块分类为平坦图像，各类图像块的数目会有较大差异。为了避免这一现象，本文定义了一种部分平均聚类(Partly Equal Clustering, PEC) 方法。在给定的图像库中随机选取一部分图像，对所有图像块计算NZR特征，并将这些特征平均分类，使每个类别具有相同的图像块数目，不同类别间的边界点作为聚类向量。用PEC方法进行聚类可以使每幅图像中每个类别的图像块数目大致相等。

综上所述，本文所提出的基于四叉树的图像分割方法主要包括了四叉树分割，图像块分类及类别融合3个步骤，其分割流程如图4所示。

2.3 隐写检测特征提取

定义1 归一化全局直方图

及其差分特征

其中为所有AC-DCT系数所组成的全局直方图，

图3 图像分割结果

图4 基于四叉树的图像分割流程

定义2 归一化单频率直方图

及其差分特征

定义3 捕捉块间相关性的变量

定义4块效应

定义5 共生矩阵

进而可以定义水平方向概率转移矩阵：

表1图像分割数目和纹理区域间的映射关系

图像分割数目N纹理区域平坦中等复杂 3{1}{2}{3} 4{1,2}{3}{4} 5{1,2,3}{4}{5} 6{1,2,3}{4,5}{6}

2.4 训练和测试

3 实验结果

为了检测本文算法的性能，本节采用在隐写分析中常见的通用图像库进行实验，包括BOWS2图像库[16]，Camera图像库[17]，UCID图像库[18]，BOSSbase 0.92[19]以及从每个库中选取的1000幅图像所组成的混合图像库。这些图像来源广泛，内容丰富，能够全面验证算法的性能。对载体图像以nsF5, F5,MB1, JPHide和PQ等隐写方法和不同的嵌入率生成载密图像库。在实验中，除了PQ隐写和第3.4节实验，其它图像的压缩质量因子均为75。采用SVM分类器[20]进行分类，40%的图像用于训练，其余60%用于测试。

3.1 图像分割参数的影响

3.2 性能比较

为了测试本文算法在不同情况下的性能，分别针对训练图像库与测试图像库匹配及不匹配的情况进行实验。对5种隐写方法在3种嵌入率下，采用不同图像库时，本文算法与文献[9]，文献[12]及文献[13]算法进行了比较。表2给出了在训练库与测试库匹配的情况下几种算法的实验结果，该实验在BOWS2库随机选取3000幅图像进行实验。对所有算法随机选择相同的图像用于训练和测试，重复实验5次，取每次结果的平均值进行比较。实验结果表明，对于5种隐写方法，本文算法的性能均优于其它算法，尤其是对JPHide的检测效果改进更加明显。基于分块思想的文献[13]性能优于原始采用274维特征的方法，但是与本文算法相比性能略差。表3所示为在训练与测试库不匹配的情况下几种算法的实验结果，实验中训练图像为UCID库中随机选取的1000幅图像，测试库为BOSSbase库中的3000幅图像。从表中可以看出，本文算法性能明显优于其它算法。当训练与测试库不一致时，本文算法的性能所受到的影响并不明显，这是因为本文算法充分考虑了图像的内容和统计特性。上述实验表明，当图像来源和统计特性有较大差异时，本文算法能够获得更加优异的检测结果。

图5 分割参数对检测正确率的影响

3.3 针对自适应隐写方法的检测结果

为了证明本文算法对自适应隐写方法同样有效，在BOWS2图像库上对PQt, PQe, BCH以及BCHopt隐写方法进行了测试，实验结果如表4所示。从表中可以看出，对上述4种自适应隐写方法，本文算法均能明显提高算法的检测性能，说明基于图像内容的隐写分析方法对自适应算法更加有效。

表2在BOWS2图像库上的检测正确率比较(%)

隐写方法嵌入率文献[9]算法(274维)文献[12]算法(548维)文献[13]算法(分块)本文算法 nsF50.0251.9250.0852.6752.75 0.0558.1759.0059.3359.42 0.1070.0866.7570.9672.33 F50.0258.8959.3359.6759.33 0.0575.8371.5076.4678.58 0.1092.6791.3393.1295.17 MB10.0264.9261.5064.7566.42 0.0580.6780.8382.7187.67 0.1095.1794.5093.3397.17 JPHide0.0281.7582.0882.0093.58 0.0582.9284.9285.6394.42 0.1090.5090.3388.7596.33 PQ0.0271.8370.0875.8775.00 0.0583.5084.1785.0087.42 0.1094.8391.4292.0895.75

表3训练、测试库不匹配时的检测正确率比较(%)

隐写方法嵌入率文献[9]算法文献[12]算法文献[13]算法本文算法 nsF50.0250.5050.0050.7351.25 0.0551.1753.5855.3456.17 0.1063.9262.6764.4566.42 F50.0252.0055.2556.4257.67 0.0569.2570.6774.6877.00 0.1079.2580.7583.5686.17 MB10.0262.0061.0861.7864.25 0.0576.8374.5080.5282.25 0.1090.3393.2594.6894.33 JPHide0.0274.9275.6277.8985.58 0.0576.6778.4278.9888.08 0.1085.5685.9284.8791.33 PQ0.0269.1766.7570.8275.42 0.0579.8381.2580.9885.08 0.1088.4290.0890.5492.75

3.4 针对混合质量因子图像的检测结果

4 结论

本文提出了一种基于纹理复杂度的JPEG隐写检测算法，该算法采用四叉树分割方法，对8×8分块后的图像块进行分类和合并，从而将图像分割成一些互相重叠的子图像，对具有相同纹理复杂度的子图像分别提取隐写检测特征，并构造分类器。在测试阶段，每幅子图像的隐写检测特征通过相应的分类器进行测试，对每个分类器的检测结果进行加权融合得到最终的检测结果。由于本文算法进行了图像分割和多次特征提取，因而复杂度要高于文献[9]算法，在同等实验条件下，本文算法的特征提取及训练分类时间均为文献[9]算法的3.3倍左右。但实验结果表明，本文算法能够有效提高JPEG盲检测算法的性能，尤其是在图像来源和内容差异较大的情况下，这种改善更加明显。

表4对4种自适应隐写方法的检测正确率比较(%)

隐写方法嵌入率文献[9]算法文献[12]算法文献[13]算法本文算法 PQt0.2066.7565.5069.7877.42 0.3074.9276.0875.9684.50 PQe0.2068.6770.4271.2576.75 0.3077.9280.0081.2585.75 BCH0.1562.4263.5463.8365.93 0.2067.3468.2268.7571.54 BCHopt0.1560.1361.2762.0963.83 0.2065.3165.8665.1369.82

隐写方法嵌入率文献[9]算法文献[12]算法文献[13]算法本文算法 nsF50.0248.0949.1350.0051.71 0.0550.0049.6650.9457.21 0.1064.5665.0366.2369.96 F50.0254.3452.7855.9957.63 0.0568.1369.3471.4273.63 0.190.0388.9790.7692.00 MB10.0259.0657.7860.0462.58 0.0579.0980.0981.5385.29 0.1094.3893.9494.2395.67 JPHide0.0268.3869.4171.5681.50 0.0569.6672.3473.4583.09 0.1082.4485.7285.7785.63

[1] Latham A. JP hide&seek [OL]. http:// linux01. gwdg. de/~alatham/stego.html, 2011.

[3] Sallee P. Model-based steganography[C]. Proceedings of Digital Watermarking Workshop, Seoul, Korea, 2003: 154-167.

[4] Fridrich J, Goljan M, and Soukal D. Perturbed quantization steganography[J]., 2005, 11(2): 98-107.

[5] Zhang R, Sachnev V, Botnan M,.. An efficient embedder for BCH coding for steganography[J]., 2012, 58(12): 7272-7279.

[6] Fridrich J. Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]. Proceedings of Information Hiding Workshop, Toronto, Canada, 2004: 67-81.

[7] Shi Y, Chen C, and Chen W. A Markov process based approach to effective attacking JPEG steganography[C]. Proceedings of Information Hiding Workshop, Old Town Alexandria, 2006: 249-264.

[8] Liu Q, Sung A, Qiao M,.. Neighboring joint density-based JPEG steganalysis[J]., 2011, DOI:10.1145/ 1899412.1899420.

[9] Pevny T and Fridrich J. Merging Markov and DCT features for multi-Class JPEG steganalysis[C]. Proceedings of Electronic Imaging, Security, Steganography, and Watermarking of Multimedia Contents, San Jose, 2007: 1-13.

[10] Kodovský J, Fridrich J, and Holub V. Ensemble classifiers for steganalysis of digital media[J]., 2012, 7(2): 432-444.

[11] Kodovský J and Fridrich J. Steganalysis of JPEG images using rich models[C]. Proceedings of SPIE, Electronic Imaging, Media Watermarking, Security, and Forensics XIV, Vol. 8303, San Francisco, 2012, DOI: 10.1117/12.907495.

[12] Kodovský J and Fridrich J. Calibration revisited[C]. Proceedings of ACM Multimedia and Security Workshop, Princeton, 2009: 63-74.

[13] Cho S, Cha B, Wang J,.. Block-based image steganalysis: slgorithm and performance evaluation[C]. Proceedings of IEEE Int. Symp. Circuits and Systems, Piscataway, NJ, 2010: 1679-1682.

[14] Amirkhani H and Rahmati M. New framework for using image contents in blind steganalysis systems[J]., 2011, 20(1): 013016-1-013016-14.

[15] Jacobs E, Fisher Y, and Boss R. Image compression: a study of the iterated transformation method[J]., 1992, 29(2): 127-142.

[16] Bas P and Furon T. Bows-2 [OL]. http://bows2.gipsa-lab. inpg.fr/BOWS2OrigEp3.tgz, 2011.

[17] Goljan M, Fridrich J, and Holotyak T. New blind steganalysis and its implications[C]. Proceedings of SPIE, Security, Steganography, and Watermarking of Multimedia Contents 6072,VIII, Vol. 2006: 1-13.

[19] Filler T, Pevný T, and Bas P. BOSS [OL]. http://boss. gipsa- lab.grenobleinp.fr/BOSSRank/, 2011.

[20] Chang C and Lin C. LIBSVM: a library for support vector machines [OL]. http://www.csie.ntu.edu.tw/~cjlin/libsvm. 2012.

汪然：女，1985年生，博士生，研究方向为信息隐藏和隐写分析.

平西建：男，1953年生，教授，研究方向为图像处理和信息隐藏.

许漫坤：女，1977年生，讲师，研究方向为图像处理和信息隐藏.

李文祥：男，1986年生，博士生，研究方向为信息隐藏和隐写分析.

张涛：男，1975年生，副教授，研究方向为图像处理和信息隐藏.

JPEG Steganalysis Using Quad-tree Based Segmentation

Wang Ran Ping Xi-jian Xu Man-kun Li Wen-xiang Zhang Tao

(,,450002,)

The traditional image steganalysis methods are based on the features extracted from the whole image, while ignoring the differences of the image content. A new JPEG steganalysis algorithm using quad-treebased segmentation is proposed. First, the given images are segmented to sub-images according to the texture complexity. Then, then steganalysis features of each sort of sub-images with the same or close texture complexity are extracted separately to build a classifier. Finally, the steganalysis results of the whole image are obtained by weighted fusing of all the sub-image categories. Experimental results demonstrate that the proposed algorithm exhibits excellent performance and significantly improves the detection accuracy.

Information hiding; JPEG steganalysis; Image segmentation; Quad-tree; Texture complexity

TP391

1009-5896(2014)03-0631-08

10.3724/SP.J.1146.2013.00671

2013-05-16收到，2013-09-13改回

国家自然科学基金(61272490)资助课题

汪然 wangran721@gmail.com