基于块效应网格偏移的重获取JPEG图像篡改检测

2017-12-28 08:51黄维黄添强张雪莉肖辉
网络与信息安全学报 2017年12期
关键词:损失量特征值剪切

黄维,黄添强,张雪莉,肖辉



基于块效应网格偏移的重获取JPEG图像篡改检测

黄维1,2,黄添强1,2,张雪莉1,2,肖辉1,2

(1. 福建师范大学数学与信息学院,福建 福州 350117;2. 福建省大数据挖掘与应用工程技术研究中心,福建 福州 350117)

重获取图像是原始或篡改后的图像经过中间媒介的映射后再次拍摄获取的图像,一张高质量的重获取伪造图像很难通过人眼判别真伪。针对JPEG格式的重获取图像篡改操作,提出了一种重压缩块效应网格偏移的检测方法。重获取图像由于再获取过程会引入与原图不相关的背景信息,该图像进行多次压缩会产生块效应网格偏移,即重压缩产生的块效应网格会与原始的网格错匹配,利用图像的平均信息损失量进行块效应网格是否发生偏移来检测图像的原始性。实验表明,该方法比已有的重获取图像检测方法准确率更高,且平均检测时间更短。

图像取证;重获取图像;JPEG图像;重压缩;块效应网格偏移

1 引言

随着智能化数码拍摄设备的普及,以及多媒体编辑软件功能的易于操作和强大,数字图像的篡改越来越容易进行。恶意的伪造篡改图像内容会使图像的真实性和可靠性遭受怀疑,因此,对于数字图像真伪的辨别研究显得尤为重要[1]。

重获取图像是一种常见的图像伪造手段,是原始或篡改后的图像经过中间媒介的映射后再次拍摄获取的图像。对重获取图像而言,只要其图像质量高,就可能使人们对于图像的原始所有者或者内容产生疑惑,引起争执,甚至产生利益上的伤害,如许多产品外包装的造假以及“华南虎事件”[2],都引起了社会的广泛关注,造成了一定的负面影响,更加说明了对于重获取图像的取证研究所具有的现实意义。

目前,对于重获取图像的研究已经有了一定的进展。Farid等[3]最早提出利用高阶小波统计特征来区分自然图像和非自然图像。非自然图像指的是重获取图像和计算机合成图像(CG, composite graph),但是对于高质量重获取图像的检测效果不佳,精度不高。Yu等[4]提出了针对于重获取打印图像的级联双色模型概念。作者利用文献[5]提出的基本原理是将图像分解成两部分:镜面反射部分和漫反射部分,图像的漫反射分量中存在一些与纸质表面的纹理特性有关的高频分量。作者采用400张图像组成的图像库进行实验,利用镜面反射分量除以图像本身得到镜面反射分量在图像本身中的占比,进一步消除了图像亮度的影响,验证了自然图像的镜面反射分量的占比梯度直方图近似服从拉普拉斯分布,重获取图像的镜面反射分量占比梯度直方图服从瑞利分布,但文中并没有给出该算法在区分原始图像和重获取图像的准确率[6]。Gao等[7]提出了一个通用物理模型,以函数响应的形式给出重获取图像的物理过程,分析了一系列的物理特征量检测重获取图像,但是特征维度高,提取特征时间较长,实时性较差。Kot等[8]建立了针对PC机液晶显示器上的重获取图像库,提出了3种图像特征进行检测,其一是多尺度的图像纹理描述算子Multi-LBP(local binary pattern)特征,其二是多尺度小波特征,其三是颜色特征空间。该方法取得了较好的实验效果,本文的算法也将与之对比。Yin等[9]在文章中采用了噪声特性和JPEG压缩特性来分析PC机液晶显示器上的重获取图像。实验结果显示该算法具有一定的区分能力,但是准确率方面还有待提高。文献[10,11]提出基于边缘轮廓线字典学习的方法,是对PC机LCD显示屏上的重获取图像进行检测。该方法具有较好的实时性,提取特征的维数较少,时间相应减少。Li等[12]提出基于图像的物理特征方法,对液晶屏上的重获取图像进行检测。

本文针对重获取的JPEG图像重压缩造成的网格不匹配特性进行检测。块效应网格偏移一般用于图像复制粘贴中篡改区域的定位检测,而重获取的JPEG图像也会因为重压缩造成块效应网格偏移,所以针对此特性,本文首次把它用来检测重获取的JPEG图像。由于JPEG图像编码过程中会对图像进行8×8的分块,在重获取图像的过程中会对图像进行再次编码,再次编码划分的块不同造成图像重压缩网格不匹配的特性。本文利用JPEG压缩之后的平均信息损失量检测出网格不匹配现象,从而确定图像是否为重获取图像。

本文的算法检测对象不仅是PC机LCD显示屏上的重获取JPEG图像,还可以是印刷产品外包装或其他地方重获取的JPEG图像,检测范围更广。本文的算法具有提取的特征维数低、准确率高的性能。本文提取特征的时间与基于多尺度LBP特征的方法和基于多尺度小波特征检测方法相比较,检测时间更短,检测效果更好。

2 JPEG图像网格错匹配

JPEG图像编码过程中,将图像分成8×8的像素块,然后对每块分别进行离散余弦变换(DCT, discrete cosine transform),得到64个DCT系数,该操作导致块与块之间的相关性被忽略。对每块的DCT系数进行量化时,由于量化过程中的DCT系数需要取整,导致一些图像的高频分量丢失,使解码的图像块与块边界处的像素不连续,产生水平竖直的网格线,这种现象被称为块效应网格(BAG, block artifact grid)[11]。

JPEG重获取图像的伪造过程为:在一个真实的场景利用图像采集设备进行拍摄,得到一个原始JPEG图像,此时该图像经过一次JPEG压缩。该图像可以在LCD显示屏、手机、扫描仪、彩色打印机等设备显示。篡改者可通过对这些图像显示设备上的原图像进行再次拍摄,得到重获取的JPEG图像,此时图像经历再一次JPEG压缩。在重获取原图像的过程中,会或多或少引入与原始图像无关的背景信息,可利用现有的图像编辑软件,如Photoshop、光影魔术手、ISEE等进一步处理图像,使图像与原图像尽可能相似,无法通过人眼直接辨别。重获取图像的操作流程如图1所示。

图1 重获取图像操作流程

一幅JPEG图像经历一次JPEG压缩会产生块效应网格,该图像经历再次压缩时,若其8×8的分块与原图像压缩时分块一致,那么BAG是正确匹配的,即对齐重压缩。当图像是重获取图像时,图像引入了无关的背景信息,且可能经过图像编辑软件处理,此时对图像进行JPEG压缩,其BAG会与原始图像的BAG不匹配,也就是产生了BAG错匹配现象。如图2所示,由于重压缩的分块不一致,造成了BAG网格偏移现象。

图2 JPEG重压缩BAG错匹配

3 检测算法

本文算法利用平均信息损失量估计JPEG重压缩偏移量,将图像剪切行列(0≤≤7,0≤≤7),并且提取图像的质量因子2,再以质量因子2压缩剪切图像,对压缩之后的图像进行分块以及离散余弦变换求出图像平均信息损失度,由于图像剪切行列(0≤≤7,0≤≤7),所以生成了64维平均信息损失量特征,然后根据提取的64维平均信息损失量特征的峰值确定是否发生BAG的错匹配,峰值出现的位置是0行0列代表了图像的原始性,不是0行0列的位置则判定该图像为重获取图像。算法主要步骤如图3所示。

图3 检测算法流程

3.1 预处理

提取待检测图像压缩质量因子,将待检测图像剪切掉行列(0≤≤7, 0≤≤7),然后将剪切后的图像以质量因子进行再次压缩。

3.2 平均信息损失量

本文利用平均信息损失量[14]来估计JPEG重压缩BAG网格偏移。JPEG压缩先将图像分为8×8的不重叠的块,利用离散余弦变换,得到每块的DCT系数,然后将DCT系数进行量化,量化阶段的DCT系数四舍五入取整会导致高频分量丢失。为了估计这些丢失的信息量,定义了平均信息损失量。

一幅图像分成个8×8的不重叠块,每个块经过DCT变换生成64个DCT系数,每个系数所在的位置用(,)表示,量化之后的DCT系数用Q_DCT表示,则Q_DCT(,)(0≤≤7,0≤≤7)表示块的第行第列的量化DCT系数。个块中于(,)位置上的Q_DCT值为0的个数总和用__(,)表示,则JPEG图像个块于(,)位置上的信息损失量(,)表示如下。

一幅图像有个块,每个块有64个量化的DCT系数,对每个位置计算其DCT系数为0的个数,产生64个信息损失量(,),对这64个信息损失量求取平均值,即该图像的平均信息损失量,如式(2)所示。

在压缩过程中,图像的质量因子越大,所对应的DCT量化表的值越小,量化处理的DCT系数为0的个数越少,图像的平均信息损失量就会随之减小。

在以上研究基础上,本文提出了一种基于二次速度估计的高分辨距离像补偿算法。首先,利用互相关FFT法对目标参数进行粗估计,并结合速度和距离的先验知识设置合理的搜索区间。然后基于最小波形熵准则,采用MDCFT进行精确估计,实现距离像的运动补偿。

3.3 对齐与非对齐压缩

一幅图像经过质量因子为1的第一次JPEG压缩,该图像的平均信息损失量用1表示。该图像重获取过程中经历再次JPEG压缩,为使重获取的图像尽可能真实,压缩的质量因子2会尽可能大,使重获取图像的质量尽可能高。图像的压缩质量因子越大,其平均信息损失量就会越小。而重获取图像由于网格线与原图像有偏移,其再次压缩过程所经历的是非对齐压缩,此时平均信息损失量用2表示。当质量因子2大于1,图像以2或1的质量因子压缩时,质量因子2所对应的量化表的值比1所对应的量化表的值小,量化后DCT系数为0的个数越少,图像的平均信息损失量就会越小,所以2小于1。

重获取图像的网格线非对齐,假设网格线的偏移量是行列,那么可以对图像进行剪切,将图像剪切行列(0≤≤7,0≤≤7),使图像的网格线与原始图像网格线对齐,之后再对图像进行质量因子为2的压缩,则图像此次经历的压缩就是对齐压缩。在对齐压缩的过程中,图像的平均信息损失量就会接近于第一次JPEG压缩引起的图像平均信息损失量1,而非对齐压缩的过程中,图像的平均信息损失量就会接近于再次JPEG压缩引起的图像平均信息损失量2。

定义一幅图像,剪切行列后的图像为(,)。该图像经历第一次JPEG压缩后的图像为1,定义为

经历第二次JPEG压缩后的图像为2,定义为

那么,剪切行列后的图像2(,)经历与第二次质量因子一样的JPEG压缩后定义为

此时,将剪切行列后的图像的平均信息损失量_2(,)定义为

3.4 检测峰值点

由于DCT变换过程是将图像分成8×8不重叠的块。所以剪切的行列的数值范围为[0,7]。提取的剪切图像平均信息损失量2(,)特征是一个8×8的矩阵,有64个特征值,每个特征值所在的位置(,)代表了经过剪切行列后的每幅图像,该位置的特征值代表剪切后的该幅图像的平均信息损失量。

图像平均信息损失量2(,)的64个特征值中,如果在(0,0)位置上出现峰值点,代表这幅图像不需要剪切行列就可以与原始图像的分块网格对齐,代表该图像再次以2的质量因子压缩是对齐压缩,即图像为未经篡改的原始图像。如果在(2, 3)位置上出现峰值点,代表这幅图像在剪切2行3列之后与原始图像的分块网格对齐,剪切之后以2的质量因子压缩才是对齐压缩,即图像的BAG网格发生了2行3列的偏移。而未出现峰值的其他位置上的特征值,由于原始图像偏移1行1列与剪切行列之后的图像是分块网格还是没有对齐的,剪切之后的图像再次以2的质量因子压缩时经历的还是非对齐压缩,所以特征值小于对齐压缩后的图像。

4 实验分析

实验运行环境计算机配置为Intel Core i5- 4590 CPU 3.30 GHz、8 GB内存、Windows 7 系统,使用Matlab R2014b的平台进行算法的实现,利用Photoshop软件对重获取图像进行进一步处理。本文用来进行实验的非压缩图像来自McGill Calibrated Colour Image Database[15],选取Flowers、Animals、Fruits、Textures、Winter、Shadows这6个文件夹下的图像,每个文件夹选取30张图像,选取Landscapes与Foliage文件夹下每个文件夹10张图像,共计200幅图像。重获取的图像来自于自己拍摄的图像,自己拍摄的图像使用Canon EOS 6D和MX5设备拍摄,重获取图像分辨率为512×512。随机选取非压缩的原始图像200幅,首先将每幅图像以质量因子1压缩为JPEG图像,然后利用图像获取设备对这200幅图像重获取,重获取的图像采用Photoshop软件进行无关背景信息删除和其他进一步处理,使人眼难以判别是否为重获取图像,再将图像以质量因子2(大于质量因子1)压缩,得到JPEG格式的重获取图像,利用本文第3节的检测算法检测这些重获取图像。图像示例如图4所示。

(a) 原始图像一

(b) 重获取图像一

(c) 原始图像二

(d) 重获取图像二

图4 原始图像与重获取图像示例

该实验的实验结果如下。

实验中将原始图像作为正样本,重获取图像作为负样本,正负各200幅图像作为实验样本。原始图像被算法检测为原始图像则为正的正样本(TP, ture positive),原始图像被算法检测为重获取图像则为负的正样本(FN, false negative),重获取图像被算法检测为原始图像则为正的负样本(FP, false positive),重获取图像被算法检测为重获取图像则为负的负样本(TN, ture negative)。

为了评价算法的性能,本文使用精确率(precision)、召回率(recall)、准确率(accuracy)对实验结果进行分析。

图像检测结果是一个8×8的64维特征值矩阵,如图5所示,其中每个特征值用像素值表示原始图像在检测过程中,峰值点位置是一个白色的亮点。图5(a)显示的是原始图像的检测结果,白色的亮点出现在(0, 0)位置,代表峰值点位置为(0, 0),该图像检测结果为原图。图5(b)显示的是重获取图像的,白的亮点出现在(4, 4)位置,代表峰值点位置为(4, 4),该图像检测结果为重获取图像。

(a) 峰值(0,0)

(b) 峰值(4,4)

图5 检测结果

文献[8]中提出了3种经典的重获取图像检测算法,本文的实验结果与文献[8]的多尺度LBP特征和多尺度小波特征2种算法做比较。实验结果如表1所示,本文提出的算法与多尺度LBP特征值和多尺度小波特征值算法相比较,精确率更高,漏检更少。表2中将不同算法之间的平均检测时间作为对比,可以看出,本文的算法与多尺度LBP特征提取的算法相比较,时间复杂度有了明显的降低。

表1 不同算法检测结果

表2 不同算法的平均检测时间

5 结束语

本文提出了一种基于重获取的JPEG图像重压缩造成的网格不匹配特性的重获取伪造图像检测方法。原始图像的分块网格不会发生偏移,进行多次压缩不会产生块效应网格偏移,为对齐压缩。而重获取的图像由于再获取过程会引入或多或少与原图不相关的背景信息,致使图像的分块网格与原始图像不一致,重压缩产生的块效应网格会与原始的网格错匹配,基于该特性,本文采用图像的平均信息损失量特征值的峰值进行检测块效应网格是否产生偏移,检测图像是否为重获取图像。实验表明,本文的算法可以有效地从图像中区分出原始图像和重获取图像,拥有较好的检测效果和较短的检测时间。不足之处在于,本文的算法针对的是JPEG格式的重获取图像,而不限制格式的重获取图像检测是今后研究工作的主要方向。

[1] FARID H. A survey of image forgery detection[J]. IEEE Signal Processing Magazine, 2009, 26: 16- 25.

[2] HOLDEN C. Rare-tiger photo flap makes fur fly in China[J]. Science, 2007, 318(5852): 893.

[3] FARID H, LYU S. Higher-order wavelet statistics and their application to digital forensics[C]//IEEE Workshop on Statistical Analysis in Computer Vision. 2003: 8-94.

[4] YU H, NG T T, SUN Q. Recaptured photo detection using specularity distribution[C]//IEEE International Conference on Image Processing. 2008: 3140-3143.

[5] TAN R T, IKEUCHI K. Separating reflection components of textured surfaces using a single image[J]. Pattern Analysis and Machine Intelligence, 2005, 27(2): 178-193.

[6] 李瑞寒. 高效重获取图像检测算法[D]. 北京: 北京交通大学, 2015. LI R H. Efficient detecting algorithm of regaining image[D]. Beijing: Beijing Jiaotong University, 2015.

[7] GAO X, NG T T, QIU B, et al. Single-view recaptured image detection based on physics-based features[C]//IEEE International Conference on Multimedia, 2010: 1469-1474.

[8] CAO H, KOT A C. Identification of recaptured photographs on LCD screens[C]//IEEE International Conference on Acoustics Speech and Signal Processing. 2010: 1790-1793.

[9] YIN J, FANG Y. Digital image forensics for photographic copying[C]//The International Society for Optical Engineering, 2012: 10.

[10] THONGKAMWITOON T, MUAMMAR H, DRAGOTTI P L. An image recapture detection algorithm based on learning dictionaries of edge profiles[J]. IEEE Transactions on Information Forensics & Security, 2015, 10(5): 953-968.

[11] THONGKAMWITOON T, MUAMMAR H, DRAGOTTI P L. Robust image recapture detection using a K-SVD learning approach to train dictionaries of edge profiles[C]//IEEE International Conference on Image Processing. 2014:5317-5321.

[12] LI R, NI R, ZHAO Y. An effective detection method based on physical traits of recaptured images on LCD screens[M]//Digital-Forensics and Watermarking. Berlin: Springer International Publishing, 2015.

[13] 赵洁, 郭继昌, 张艳, 等. JPEG图像双重压缩偏移量估计的篡改区域自动检测定位[J]. 中国图象图形学报, 2015, 20(10): 1304-1312. ZHAO J, GUO J C, ZHANG Y, et al. Automatic detection positioning in area of double compression offset estimation of JPEG[J]. Journal of Image and Graphic, 2015, 20(10): 1304-1312.

[14] WU L, KONG X. Image tampering localization via estimating the non-aligned double JPEG compression[J]. The International Society for Optical Engineering, 2013, 8665.

[15] McGill calibrated color Image database[EB/OL]. http://tabby.vision. mcgill.ca/.

JPEG recapture image tamper detection method based on block effect grid offset

HUANG Wei1,2, HUANG Tian-qiang1,2, ZHANG Xue-li1,2, XIAO Hui1,2

(1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, China;2. Fujian Provincial Engineering Research Center of Big Data Analysis and Application, Fuzhou 350117, China)

Recaptured images are captured original or distorted image shown on the intermediaries, a high-quality recapture image is difficult to distinguish the authenticity of the human eye. Aimed at the tampering operation of JPEG image, a method of detecting block effect grid offset due to re-compression was proposed. The original image was compressed multiple times did not produce the block effect of the grid offset, and the recapture image, because of the recapture process would introduce background information that was not related to the original image, the re-compression of the block effect grid with the original grid is mismatched, and the average information loss amount of the image was used to detect whether the block effect grid generates an offset or not to detect the recapture image. Experiments show that this method is more accurate than the existing recapture image detection method, and the average detection time is shorter.

image forensics, recapture images, JPEG images, repetitive compression, offset of BAG

TP393

A

10.11959/j.issn.2096-109x.2017.00220

2017-10-15;

2017-11-24。

黄添强,fjhtq@fjnu.edu.cn

国家自然科学基金资助项目(No.61070062, No.61502103);福建省高校产学合作科技重大基金资助项目(No.2015H6007);福州市科技计划基金资助项目(No.2014-G-76);福建省高等学校新世纪优秀人才支持基金资助项目(No.JAI1038);福建省科学厅K类基金资助项目(No.2011007);福建省教育厅A类基金资助项目(No.JA10064)

The National Natural Science Foundation of China (No.61070062, No.61502103), Industry-University Cooperation Major Project of Fujian Province (No.2015H6007), Science and Technology Program of Fuzhou (No.2014-G-76), Program for New Century Excellent Talents in University of Fujian Province(No.JAI1038), The K-class Foundation Project of Fujian Provincial Science and Technology (No.2011007), The A-class Foundation Project of Fujian Provincial Education Department (No.JA10064)

黄维(1994-),女,福建莆田人,福建师范大学硕士生,主要研究方向为信息安全、数字多媒体取证。

黄添强(1971-),男,福建莆田人,博士,福建师范大学教授,主要研究方向为机器学习、数字多媒体取证。

张雪莉(1993-),女,河南正阳人,福建师范大学硕士生,主要研究方向为信息安全、数字多媒体取证。

肖辉(1991-),男,福建南平人,福建师范大学硕士生,主要研究方向为信息安全、视频目标跟踪。

猜你喜欢
损失量特征值剪切
开采对矿区天然森林生态系统碳损失量的影响
一类内部具有不连续性的不定Strum-Liouville算子的非实特征值问题
煤层瓦斯损失量计算方法探讨及其实践*
一类带强制位势的p-Laplace特征值问题
基于一类特殊特征值集的扩散算子逆谱问题
单圈图关联矩阵的特征值
东天山中段晚古生代剪切带叠加特征及构造控矿作用
TC4钛合金扩散焊接头剪切疲劳性能研究
关于石嘴山矿区煤层气含量测试中损失量计算的探讨
混凝土短梁斜向开裂后的有效剪切刚度与变形