低码率下基于ROI与JND的分级量化方法

2013-01-31 05:23张军涛
电视技术 2013年17期
关键词:人眼感兴趣人脸

喻 莉,冯 慧,张军涛,左 雯,王 宁

(1.华中科技大学 电子信息与工程系,湖北 武汉430074;2.中兴通信股份有限公司,广东 深圳518057)

近年来,以计算机技术、视频、音频和通信技术为基础的多媒体技术发展迅猛,而互联网的发展普及也使得多媒体技术的应用更加广阔。多媒体使人们的生活更加丰富多彩,但是由于受到网络带宽的限制,图像质量总是不尽人意,低码率视频编码不仅用于窄带网络环境如桌面视频,随着高清视频引入视频会议等应用,现有宽带网络也无法满足高清视频码流的传输,对低码率视频编码同样有很大需求。但是在编码码率达到要求的条件下,视频质量却不佳。近年来,为了进一步提升视频压缩性能,国内外许多专家和学者专注于人眼视觉特性。

结合感兴趣区域ROI[1](Region of Interest)编码是一类重要的基于人眼视觉特性的方法,视频质量的最终受体是人眼视觉系统(HVS)。视频中每一帧都存在一些纹理信息丰富的区域,这些区域更能引起人眼视觉的注意,即ROI区域。提升ROI区域的主观质量可以增强图像的主观质量。基于ROI编码的方法可分为两种类型:一种是基于特征区域的增强层编码[1-2];另一种是针对ROI区域进行更精细的量化方法。前者主要适用于MPEG-4框架,而后者应用广泛有效。文献[3]提出了基于HVS针对前景和背景选取不同的量化参数QP的分级量化模型,文献[4]提出一种灵活的比特分配算法,文献[5]提出一种基于感知的ROI视频编码方案,文献[6]提出一种基于ROI的可分级量化策略,上述模型均是将视频帧分为ROI区域和非ROI区域(即前景区域和背景区域)进行分级量化,然而,这些模型并没有考虑ROI区域内部特性,对ROI区域同一量化缺乏对人眼感兴趣区域层次性的进一步分析,以至于在低码率的编码条件下,这些模型对视频主观质量的提升有限,不能满足低码率视频的应用需求。所以,进一步探索对ROI区域的分级量化具有十分重要的意义。

本文针对低码率条件下以人脸为主体的桌面视频、手持终端等场景提出一种基于ROI与JND的分级量化方法。人眼视觉特性HVS中的JND模型表明边界区域的JND值相对于平滑区域的要大[7-8],而人脸区域内的眼睛、鼻子、嘴巴等部位属于边界,因此在以人脸为主体的桌面视频、手持终端等场景下,ROI区域(即人脸)中人眼更感兴趣的边界部分可以用JND模型检测。通过结合ROI和JND对视频帧的区域划分,建立更加符合人眼视觉特性的三级量化模型,指导人眼感兴趣区域量化参数的选取,进一步提升ROI区域的主观质量。

1 分级量化模型

1.1 基于ROI与JND的分级策略

传统基于ROI的分级量化模型仅将视频帧划分为ROI区域和非ROI区域,没有考虑ROI区域的内部特性,不能很好地符合人眼视觉特性。为进一步提升视频主观质量,本文分析了人眼感兴趣区域(人脸)的内部特性。根据HVS中的恰可失真(JND)模型可知,边界区域的JND值相对于平滑区域较大。在本文中,人脸区域内的眼睛、鼻子、嘴巴等部位属于边界,因而JND值较大,如图1所示。因此,在以人脸为主体的桌面视频、手持终端等场景下,结合JND可以对ROI区域(即人脸)进一步划分,即将整帧图像划分为NROI,ROI_level1,ROI_level2,据此可以建立一种三级量化模型,图2是该分级量化模型的框图。通过该模型来指导不同区域的量化过程,为人眼感兴趣的区域分配更多的比特,从而提升视频图像的主观质量。

图1 foreman序列JND值计算结果,深色的代表JND值较大

图2 基于ROI和JND的分级量化模型框图

1.2 基于ROI与JND的分级策略

基于ROI和JND的分级量化方法具体过程如下:

当宏块属于NROI区域时,其量化参数QP的大小由式(1)决定

式中:λ代表基于感兴趣因子P的一个QP调整因子;X和Y代表视频帧在宽度和高度方向所包含的宏块个数。

当宏块属于ROI区域,且其JND值小于等于阈值JNDthd时,即当宏块属于ROI_level1时,其量化参数QP由式(3)决定

当宏块属于ROI区域,且其JND值大于阈值JNDthd时,即当宏块属于ROI_level2时,其量化参数QP的大小由式(4)决定

式中:QPinit代表帧级QP;Δ是根据ROI区域内JND值的特点调整QP的常数因子,Δ>0;P是人眼对视频帧的感兴趣因子,由人眼视觉特性可知,ROI区域越大,人眼视觉对其感兴趣程度越低,相应感兴趣因子P值越小。相反地,ROI区域面积越小,感兴趣程度越高,所以感兴趣因子P与ROI区域面积的关系为

式中:α是感兴趣常数;Spicture是当前帧的面积;SROI是感兴趣区域总面积;k是常数。

据此,本文针对ROI区域与非ROI区域,结合JND建立三级量化模型,采用不同的量化策略,为人眼感兴趣区域分配更多的比特来进行编码,而对人眼不那么感兴趣的区域分配较少的比特,从而提升整个视频的主观质量。

2 实验结果与分析

本文所提方法在X264平台上实现,JND检测采用Yang等人提出的像素域NAMM模型[10](该模型有效地融合了亮度自适应模型和纹理掩模模型,具有较好的性能)。为验证本文算法的有效性,将本文算法与X264标准测试平台软件、文献[6]中基于ROI区域的视频编码方法进行比较。实验采用4种测试序列,主要实验参数如表1所示,这些序列具有不同的运动剧烈程度,从而可以验证本文算法的鲁棒性。

表1 主要实验参数

图3给出了cif序列foreman目标码率为100 kbit/s时3种算法编码的主观效果图,可见本文算法编码的图像人脸区域具有更清晰的纹理信息,因而具有更好的主观质量。VGA序列Zhang目标码率为150 kbit/s时3种算法编码的主观质量对比如图4所示,相对于图4a、图4b、图4c中人脸的关键部位,如眼睛、鼻子、嘴巴等区域的方块和模糊大量减少,主观质量提高明显。因此实验结果验证了本文所提分级量化模型的有效性。

3 小结

针对低码率条件下以人脸为主体的桌面视频、手持终端等场景,本文提出一种基于ROI和JND的分级量化方法。该方法结合JND模型对ROI区域进行再分级,建立多级量化模型,指导各区域量化参数的选择。实验结果表明,本文所提分级量化模型更加符合人眼视觉特性,能够显著提高视频图像的主观质量。

[1]袁飞,黄联芬,姚彦.视频质量客观评价技术研究[J].电视技术,2007,31(3):91-94.

[2]PENG W H,CHIANG T,HANG H M.Adding selective enhancement in scalable video coding for region-of-interest functionality[C]//Proc.IEEE International Symposium on Circuits and Systems.Island of Kos:IEEE Press,2006:3089-3092.

[3]VAN D S M,LIN Y T.Content-based selective enhancement for streaming video[C]//Proc.Image Processing.Piscataway:IEEE Press,2001:977-980.

[4]DALY S,MATTHEWS K,RIBAS C J.Face-based visually-optimized image sequence coding[C]//Proc.Image Processing.Los Alamitos:IEEE Press,1998:443-447.

[5]CHAI D,NGAN K N,BOUZERDOUM A.Foreground/background bit allocation for region-of-interest coding[C]//Proc.Image Processing.Vancouver,BC,Canada:IEEE Press,2001:923-926.

[6]SIRA R,NIKIL J.Optimizing algorithms for region-of-interest video compression with application to mobile telehealth[C]//Proc.Multimedia and Expo.Toronto,Canada:IEEE Press,2006,130(56):513-516.

[7]LIU Q,HU R.Perceptually motivated adaptive quantization algorithm for region-of-interest coding in H.264[C]//Proc.9th Pacific Rim Conference on Multimedia,PCM 2008.Tainan,Taiwan:Springer Verlag,2008:129-137.

[8]CHOU C H,LI Y C.A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile[J].IEEE Trans.Circuits and Systems for Video Technology,1995,43(54):467-476.

[9]刘静,王永芳,武翠芳,等.改进的JND模型及其在图像编码中的应用[J].电视技术,2011,35(13):15-18.

[10]YANG X K,LIN W S,LU Z K,et al.Just noticeable distortion model and its applications in video coding[J].Signal Processing:Image Communication,2005,20(7):662-680.

猜你喜欢
人眼感兴趣人脸
有特点的人脸
一起学画人脸
更 正
人眼X光
人眼为什么能看到虚像
三国漫——人脸解锁
闪瞎人眼的,还有唇
看人,星光璀璨缭人眼
这样的智能厨房台面,你会感兴趣吗?
长得象人脸的十种动物