基于DCT块特征与背景先验的JPEG图像显著性检测算法

2017-01-17 05:49孙小龙刘漳辉郭文忠
关键词:纹理阈值显著性

孙小龙,刘漳辉,郭文忠,

(1. 福州大学数学与计算机科学学院,福建 福州 350116; 2. 福建省计算机网络与智能信息处理重点实验室,福建 福州 350116)

基于DCT块特征与背景先验的JPEG图像显著性检测算法

孙小龙1,刘漳辉2,郭文忠1, 2

(1. 福州大学数学与计算机科学学院,福建 福州 350116; 2. 福建省计算机网络与智能信息处理重点实验室,福建 福州 350116)

提出一种新颖的基于最短路径的JPEG图像显著性检测算法. 算法在JPEG图像的DCT系数块中直接提取出灰度、纹理和颜色3种低层次图像特征; 然后,通过计算其内部块到达图像边界的最短路径来得到最终显著性值; 最后,在公开测试集MSRA-1000上与多种图像显著性检测算法进行对比. 实验结果显示,方法在4种不同的评测标准上都优于对照算法,并且能够快速、高效地产生令人满意的显著性图.

显著性检测; JPEG图像; DCT系数; 最短路径

0 引言

人类对于判断复杂场景中哪些区域或部分最具吸引力有一种天赋的直觉. 认知心理学的相关研究[1]指出,人类这一快速准确的判断机制是建立在将人类视觉系统中有限的资源分配给场景中的某些区域或部分进行详细地处理来实现的,而对于场景中的其他部分视觉系统则分配较少甚至不为其分配相关资源. 根据生物学的研究结论,Itti等[2]指出了人类视觉注意力应该分为两个阶段: 注意前期和注意期. 在注意前期,人类的视觉神经并行地处理外部视觉刺激,在这个阶段视觉系统得到了场景图像的低层次特征; 在注意期,视觉系统将使用这些低层次场景图像特征进行一个复杂的分析过滤的处理过程,处理完成后就得到了人类视觉的注意力焦点FOA(focus of attention).

近年来,研究人类视觉系统的视觉显著性检测行为机制,并利用这一机制来实现对图像显著性信息的提取已成为计算机视觉领域中研究的热点. 图像显著性检测的目的是为了能够检测出图像中的显著对象,而这些显著对象是由显著图来进行描述的. 显著图反映的是图像中的不同部分对于人类视觉系统吸引力的差别. 通过使用显著图,视觉系统能快速定位从而迅速处理图像中的这些显著对象. 因此,图像显著性检测技术适合作为各个计算机视觉研究领域的预处理方法. 当前显著性检测技术在计算机视觉领域已经得到了广泛的应用,如对象识别[3]、视频场景对象的快速分析[4]、图像的网络索引[5]、图像和视频压缩[6]、动态目标跟踪[7]和图像修复[8]等领域都可以通过图像的显著性检测技术来提升算法的效率.

当前,大部分显著性检测算法都是基于普通图像的颜色、亮度、纹理、方向等特征得到图像的显著图,对压缩领域的图像显著性检测的研究还很不足. 在图像压缩领域中,JPEG是当前得到最广泛使用的一种基本图像压缩方式,使用JPEG方式进行压缩的图像,在获得很高的压缩比率的同时依然能基本保留图像的信息,且由于体积小同时能基本保留图像的信息,在网络传输时可减少图像的传输时间,因此JPEG图像适用于互联网传输. 如果能够直接对JPEG图像进行显著性检测,而不是先把这些压缩图像解压之后再对非压缩格式的图像进行显著性检测,则能够大大提升显著性检测的效率. 设计一个高效快速的JPEG图像的显著性算法对于提高图像显著性检测计算的应用前景很有帮助.

1 相关研究

许多基于生物学模型的显著性检测方法取得了不错的效果. 基于Koch与Ullman[9]提出的生物学模型,Itti等[2]提出了一个产生了深远影响的图像显著性检测算法-IT算法. IT算法使用了亮度、颜色以及朝向3个低层次图像特征,通过使用DOG(diffrence of gaussians)滤波器将原图像转化为9层高斯图像金字塔,再对每一层次的图像低层次特征使用不同的滤波函数进行处理并计算其中央-周围差异度. 然后,将9层图像低层特征图融合为一个显著图. 最后,IT算法对此3个特征显著图使用WTA(winner take all)方式得到最终显著图.

随着研究的进一步深入,研究人员意识到,生物学上关于显著性检测的研究理论不够成熟,利用不成熟的理论建立的模型无法取得可靠的结果. 于是,研究者突破严格的生物学模型,用更加简单快捷的计算来实现模型的简化. 研究者将生物学模型与数学计算模型相结合,不但简化了复杂的生物学建模过程,降低了问题的复杂度,而且取得了更好的图像显著性检测效果. Achata等[10]提出了一种多尺度的图像显著性检测算法-AC算法,该算法使用了多尺度的感知单元来计算中央-周围差异度,从而得到与原图分辨率相同的显著性图. Goferman等[11]提出了一种使用局部特征进行全局考虑的图像显著性检测算法-CA算法,该算法从全局对比度考虑,选择出与当前区域最相似的k个单元进行对比度计算,并将其对比度累加和作为当前区域的显著值. 最终,将得到的图像显著性值与高层先验知识结合起来以提高其算法的检测效果. Harel等[12]提出了一种基于图论的图像显著性检测算法-GB算法,该方法采用构造马尔科夫链的方式对由IT算法中提取出的低层次特征图进行规格化,然后将所有的特征显著图叠加得到最终显著图.

还有一些学者从图像频率域来对图像显著性检测进行研究. Hou和Zhang[13]提出了一种基于图像剩余频谱的显著性检测算法-SR算法,该算法基于高频抑制原理,即人的视觉系统对偏离普通状态的图像内容更为敏感,而对普通状态的图像内容则会进行注意力抑制. 因此,SR算法通过对图像在频率域的对数频谱(log-spectrum)进行分析,从图像中剔除代表普通状态的图像频谱而只抽取出图像的剩余频谱(spectral residual),得到图像的最终显著图. Achanta等[14]提出一种基于频率调谐的图像显著性检测算法-FT算法,指出图像频率域的低频部分描述了图像的整体信息,而高频部分则描述了图像的细节信息. 越接近低频部分其所包含的有效信息越多,而图像的最高频信息甚至只包含纹理甚至是噪声. FT算法首先使用一个高斯平滑操作来去除图像的最高频部分,接着对图像中的每一个像素计算其与所有像素的平均值的差值,从而得到图像的最终显著图. 近来,Wei等[15]提出一种基于背景先验的图像显著性检测算法,指出图像中各个区域到达其背景区域的最短颜色路径能反映这个区域的显著性值. 该算法从一个全新的角度对图像的显著性检测进行研究,拓宽了这个领域的研究思路.

一些学者在压缩图像领域也进行了显著性检测研究的探索. Fang等[16]将图像的显著性检索首次引入压缩图像领域,提出一种基于DCT(discrete cosine transform)块特征的显著性检测算法. 该算法从JPEG图像的DCT系数中提取出其RGB颜色特征、强度特征以及纹理特征并使用Hausdorff 距离[17]来得到最终的显著性值.

在此,提出一种新颖的基于DCT块特征与背景先验的JPEG压缩图像显著性检测算法. 首先, 从JPEG比特流中得到其DCT块,并从这些DCT块中提取出CIELAB颜色特征、强度特征以及纹理特征,再分别通过背景先验来计算出各个特征的显著性值. 最后,将得到的特征图使用规格化的方法计算出最终的显著图.

2 算法框架

2.1 JPEG图像低层特征提取

JPEG压缩算法是基于DCT系数来进行块变换编码,DCT系数中保留了大量图像的低频信息. 而对于HVS中人眼不敏感的大部分高频信息,JPEG 压缩算法在对DCT系数使用量化(quantization)操作之后,大大减少了多余的信息,在保留图像质量的同时也节省了图像的存储空间.

图1 一个8×8的DCT块Fig.1 DCT coefficients in an 8×8 block

对于JPEG压缩格式的图像,首先从JPEG比特流中提取出图像的DCT系数. DCT系数在图像中是以8×8的块为单位进行划分的. 如图1所示,1个DCT系块中由1个DC系数与63个AC系数以zig-zag编码方式构成. 其中,左上角的DC系数包含了1个DCT系数块中的大部分图像的低频信息,其余的63个AC系数,离 DC系数的距离越远其所包含的频率越高,其包含的有效图像信息越少,甚至于只含一些人眼不敏感的杂波. 得到图像的DCT系数后,根据DCT系数获得下一步显著性检测所需要的低层图像特征. 使用强度、CIELAB颜色以及纹理3个特征进行之后的图像显著性值的计算.

JPEG图像使用YCrCb颜色空间来描述图像的颜色信息. 因此,在提取强度特征之前,要把DC系数由YCrCb颜色空间转化为RGB颜色空间. 强度特征的计算方法如下式所示.

其中:R,G,B为由DC系数中得到的RGB颜色空间的颜色分量值.

CIELAB颜色模型是由国际照明委员会提出的可以用于描述人眼所见的所有与设备无关的颜色模型,它是基于人类对于颜色的感知均匀性设计的,它有效地弥补了RGB颜色模型的一些不足,如颜色视觉刺激非线性、色彩分布不均等. 将RGB颜色空间转换为CIELAB颜色空间后,就得到了CIELAB颜色特征. 颜色特征的表示方法如下式所示.

其中:L,a*,b*为CIELAB颜色空间中的颜色分量值.

最后,从DCT系数中提取纹理特征. 文献[16]指出AC系数可以用来描述图像的纹理特征. 与文献[16]方法一样,根据DCT系数包含图像纹理频率信息的不同来描述纹理特征. 纹理特征的表示方法如下式所示.

如图1所示,L、M、H分别表示在低频信息Lc分组、中频信息Mc分组以及高频信息Hc分组的AC系数之和.

2.2 基于背景先验的JPEG图像显著值计算

基于背景先验的显著性检测模型是由Wei等[15]首先提出的,适用于非压缩格式图像的显著性检测方法,该算法指出图像中各个区域到达其背景区域的最短颜色路径能反映这个区域的显著性值. 由于其以区域为单位进行图像显著性值的特点,与基于DCT系数块的JPEG图像压缩格式有很好的兼容性. 因此,引入背景先验的观点来对JPEG压缩图像进行显著性检测.

在前一部分的JPEG低层图像特征提取中,对每1个DCT系数块,本文算法得到了强度、CIELAB颜色以及纹理3个JPEG图像低层特征. 因此,JPEG图像的每1个8×8块都可以被下式所表示.

对于每一个这样的JPEG图像块, 本文算法分别计算其与周围8邻居块的对比度. 其强度、CIELAB颜色以及纹理3个JPEG图像低层特征的对比度计算公式分别为:

其中:i={1, 2, 3, 4, 5, 6, 7, 8}. 图2(a)为DCT块与其8连通邻居块的示意图,下标k表示当前JPEG图像块,i表示当前JPEG图像块的8个不同的邻居块的位置.

图2 DCT块与其邻居块Fig.2 DCT block and its neighbors used in iteration

由式(5)、(6)、(7)得到的每一类图像特征的对比度后,还需要分别计算其中的每一个元素到达背景区域的最小代价来得到每一类特征的显著性. 与文献[15]一样,算法假设图像的最外层块为背景区域. 因此,计算元素到达背景区域的最小代价问题就转化为计算其到达图像最外层块的最短路径问题.

Toivanen等[18]提出了一种快速高效的计算最短路径的算法,其接近线性的算法复杂度能快速高效地计算出每个元素到达边界的最短路径. 采用该方法来计算JPEG图像块的显著性值,使用2次迭代来进行所有元素的最短路径的计算.

1) 第一次迭代. 首先,最小代价矩阵赋初值如下:

其中: BG为边界区域的集合; MAXNUM为一个极大的常量,实验中令MAXNUM=9 999.

以从上到下、从左到右的顺序进行第一次迭代计算. 如图2(b)所示,对第一次迭代,算法只比较1~4方位的邻居块的代价.

其中:S*表示迭代计算后得到的新值;S表示迭代前的代价; CF∈{Cintensity, Ccolor, Ctexture}.

2) 第二次迭代. 以从下到上、从右到左的顺序执行第二次迭代计算. 如图2(c)所示,算法只比较5~8方位的邻居块的代价.

最后,根据公式(11)来得到最终的图像显著性.

3 结果与分析

在MSRA-1000公开测试集[14]上测试所提出的算法,与GB算法[12]、FT算法[14]、LC算法[4]、SR算法[13]以及CA算法[11]进行比较. MSRA-1000是由Achanta等设计的一个产生了深远影响的图像显著性检测公开测试集,这个测试集包含了1 000张JPEG格式的图像,Achanta等还为这1 000张测试图像手工标注了像素精度的标准显著性二值图(ground truth)以更直观、准确地测试算法的性能. 对于MSRA-1000数据库中的所有JPEG格式图片,GB算法、FT算法、LC算法、SR算法以及CA算法都给出了相应的显著性图. 因此,直接使用原作者提供的显著性图与本文算法生成的显著性图进行比较,同时也避免了解压过程对实验结果的影响. 图3列出了本文算法与其余对照算法在MSRA-1000测试集上生成的部分显著图,可以看出本文算法产生更均匀、完整的显著图.

图3 MSRA-1000上各个算法生成的显著图Fig.3 Comparison of saliency maps using different methods on the MSRA-1000

以下使用PR曲线(precision-recall curve)、自适应阈值分割度量(adaptive thresholding measure)、ROC曲线(receiver operator characteristic curve)以及AUC值(area under curve)这4个被广泛使用的评价标准在MSRA-1000测试集上来测试本文算法性能.

1) PR曲线. PR曲线是一个被广泛使用于信息检索领域中评测算法性能的评测标准. 对于显著性检测算法产生的显著图,其图像的每一个像素点的取值范围在[0, 255]之间. 以1为步长使用此区间内的每一个整数值对显著图进行固定阈值分割,并计算其相应的准确率(precision)与召回率(recall). 当此阈值取遍其值域区间[0, 55]之后,就得到了PR曲线. 图4列出了本文算法与GB算法、FT算法、LC算法、SR算法以及CA算法所产生的PR曲线. 显然,本文算法在准确率与召回率上都优于其余对照算法.

2) 自适应阈值分割. 自适应阈值分割技术是由Hou等[13]提出并用来检测图像中的显著原型对象(proto-objects). 与文献[14]一样,使用每一张显著图的平均显著值的两倍作为其本身的自适应分割阈值. 使用此阈值对显著图进行二值化分割之后,得到此显著图的平均准确率、平均召回率与Fbeta度量. 其中Fbeta度量的计算方法如式(12)所示.

参照文献[14]令beta2=0.3. 如图5所示,本文算法在平均准确率Precision*、平均召回率Recall*与Fbeta度量上都优于GB算法、FT算法、LC算法、SR算法以及CA算法.

图4 MSRA-1000上各算法产生的PR曲线对照图

图5 MSRA-1000上各方法产生的自适应阈值分割度量对照图

3) ROC曲线与AUC值. ROC曲线常常被应用于医学、生物学、数据挖掘等领域中对算法的性能进行测试. ROC曲线是由一系列的阈值将算法的结果划分为两个类别,以FPR(false positive rate)为横坐标,以TPR(true positive rate)为纵坐标绘制出的曲线. 首先将得到的显著图使用一个固定的阈值t进行二值分割,其中t的范围由0以步长1均匀变化到255. 对于每一个固定的阈值t,计算数据集中所有显著图的TPR和FPR的平均值. 当t取遍其值域,就得到了一条由256个点对刻画出的曲线,即用于测试显著性检测算法性能的ROC曲线. 如图6所示,相对于其余对照算法,本文算法在MSRA-1000数据集上能产生更好的ROC曲线. AUC被定义为ROC曲线之下区域的面积. AUC值能在一定程度上反映出算法的性能,其值应在0~1之间,越接近1则算法的性能越好. 如图7所示,本文算法在MSRA-1000公测集上的AUC值为0.961 51,相较于GB算法的AUC值0.914 61,FT算法的AUC值0.836 09,LC算法的AUC值0.775 33,SR算法的AUC值0.717 09以及CA算法的AUC值0.874 83,本文算法性能更好.

图6 MSRA-1000上各算法产生的ROC曲线对照图

图7 MSRA-1000上各方法产生的 AUC值对照图

4 结语

提出一种新颖的基于DCT块特征与背景先验的JPEG压缩图像显著性检测算法. 首先从JPEG比特流中得到其DCT块,并从这些DCT块中提取出CIELAB颜色特征、强度特征以及纹理特征,再分别通过背景先验来计算出各个特征的显著性值,最后,将得到的特征图使用规格化的方法计算出最终的显著图. 在MSRA-1000公开测试集上将本文提出的算法与GB算法、FT算法、LC算法、SR算法以及CA算法进行比较,结果表明本算法在PR曲线、自动阈值分割度量、ROC曲线与AUC值上都优于这些方法.

[1] 梁宁建. 当代认知心理学[M]. 上海: 上海教育出版社, 2003: 85-106.

[2] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1998, 20(11): 1 254-1 259.

[3] DU Y, LIN B, LU J. The multi-orientation target recognition method based on visual attention[C]//Third International Conference on. Instrumentation, Measurement, Computer, Communication and Control (IMCCC). Shenyang: IEEE, 2013: 776-780.

[4] ZHAI Y, SHAH M. Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th Annual ACM International Conference on Multimedia. New York: ACM, 2006: 815-824.

[5] WANG P, WANG J, ZENG G,etal. Salient object detection for searched web images via global saliency[C]//Computer Vision and Pattern Recognition (CVPR). Rhode Island: IEEE, 2012: 3 194-3 201.

[6] 王瑞, 余宗鑫, 杜林峰, 等. 结合图像信号显著性的自适应分块压缩采样[J]. 中国图象图形学报, 2013,18(10): 1 255-1 260.

[7] 江晓莲, 李翠华, 李雄宗. 基于视觉显著性的两阶段采样突变目标跟踪算法[J]. 自动化学报, 2014, 40(6): 1 098-1 107.

[8] 王祎璠, 姜志国, 史骏, 等. 显著性检测指导的高光区域修复[J]. 中国图象图形学报, 2014, 19(3): 393-400.

[9] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[M]. Berlin: Springer, 1987: 115-141.

[10] ACHANTA R, ESTRADA F, WILS P,etal. Salient region detection and segmentation[M]. Berlin: Springer, 2008: 66-75.

[11] SGOFERMAN S, ZELNIKMANOR L, TAL A. Context-aware saliency detection[J]. IEEE Transactions on, Pattern Analysis and Machine Intelligence, 2012, 34(10): 1 915-1 926.

[12] HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]//Advances in Neural Information Processing Systems. Vancouver: MIT Press,2006: 545-552.

[13] HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]//Computer Vision and Pattern Recognition. Minneapolis: IEEE, 2007: 1-8.

[14] ACHANTA R, HEMAMI S, ESTRADA F,etal. Frequency-tuned salient region detection[C]//Computer Vision and Pattern Recognition. Anchorage: IEEE, 2009: 1 597-1 604.

[15] WEI Y, WEN F, ZHU W,etal. Geodesic saliency using background priors[C]//European Conference on Computer Vision-ECCV. Berlin: Springer-Verlag, 2012: 29-42.

[16] FANG Y, CHEN Z, LIN W,etal. Saliency detection in the compressed domain for adaptive image retargeting[J]. IEEE Transactions on, Image Processing, 2012, 21(9): 3 888-3 901.

[17] ROCKAFELLAR R T, WETS R J B. Variational analysis[M]. Berlin: Springer-Verlag, 1998: 108-148.

[18] TOIVANEN P J. New geodosic distance transforms for gray-scale images[J]. Pattern Recognition Letters, 1996, 17(5): 437-450.

(责任编辑: 洪江星)

DCT block feature based saliency detection in JPEG image with background prior

SUN Xiaolong1, LIU Zhanghui2, GUO Wenzhong1, 2

(1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350116, China; 2. Fujian Province Key Laboratory of Network Computing and Intelligent Information Process, Fuzhou,Fujian 350116, China)

This paper proposes a novel image saliency detection method dealing with JPEG images, which directly extracts 3 image low-level features (intensity, texture and color) from JPEG DCT blocks and then evaluates image saliency by calculating the shortest path from each internal point to the background. We compare our method with some state-of-the-art methods on the publicly available datasets MSRA-1000. Experimental results show that our method exhibits better performance in terms of four evaluations than some state-of-the-art methods. The final saliency maps indicate that our method can also produce satisfied saliency maps directly in compressed domain.

saliency detection; JPEG image; DCT coefficients; shortest path

10.7631/issn.1000-2243.2017.01.0001

1000-2243(2017)01-0001-07

2014-10-15

郭文忠(1979- ),教授,博士生导师,主要从事计算智能及其在计算机网络中的应用研究,fzugwz@163.com

国家自然科学基金资助项目( 61103175); 教育部科学技术研究重点资助项目( 212086); 福建省杰出青年科学基金资助项目( 2014J06017); 福建省自然科学基金资助项目( 2014J01231); 福建省高校杰出青年科学基金资助项目(JA12016); 福建省高等学校新世纪优秀人才支持计划资助(JA13021)

TP391

A

猜你喜欢
纹理阈值显著性
基于BM3D的复杂纹理区域图像去噪
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于显著性权重融合的图像拼接算法
使用纹理叠加添加艺术画特效
基于自适应阈值和连通域的隧道裂缝提取
基于视觉显著性的视频差错掩盖算法
比值遥感蚀变信息提取及阈值确定(插图)
TEXTURE ON TEXTURE质地上的纹理
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定