低码率下基于ROI与JND的分级量化方法

2013-01-31 05:23张军涛

电视技术 2013年17期

喻莉，冯慧，张军涛，左雯，王宁

(1.华中科技大学电子信息与工程系，湖北武汉430074;2.中兴通信股份有限公司，广东深圳518057)

近年来，以计算机技术、视频、音频和通信技术为基础的多媒体技术发展迅猛，而互联网的发展普及也使得多媒体技术的应用更加广阔。多媒体使人们的生活更加丰富多彩，但是由于受到网络带宽的限制，图像质量总是不尽人意，低码率视频编码不仅用于窄带网络环境如桌面视频，随着高清视频引入视频会议等应用，现有宽带网络也无法满足高清视频码流的传输，对低码率视频编码同样有很大需求。但是在编码码率达到要求的条件下，视频质量却不佳。近年来，为了进一步提升视频压缩性能，国内外许多专家和学者专注于人眼视觉特性。

结合感兴趣区域ROI［1］(Region of Interest)编码是一类重要的基于人眼视觉特性的方法，视频质量的最终受体是人眼视觉系统(HVS)。视频中每一帧都存在一些纹理信息丰富的区域，这些区域更能引起人眼视觉的注意，即ROI区域。提升ROI区域的主观质量可以增强图像的主观质量。基于ROI编码的方法可分为两种类型:一种是基于特征区域的增强层编码［1-2］;另一种是针对ROI区域进行更精细的量化方法。前者主要适用于MPEG-4框架，而后者应用广泛有效。文献［3］提出了基于HVS针对前景和背景选取不同的量化参数QP的分级量化模型，文献［4］提出一种灵活的比特分配算法，文献［5］提出一种基于感知的ROI视频编码方案，文献［6］提出一种基于ROI的可分级量化策略，上述模型均是将视频帧分为ROI区域和非ROI区域(即前景区域和背景区域)进行分级量化，然而，这些模型并没有考虑ROI区域内部特性，对ROI区域同一量化缺乏对人眼感兴趣区域层次性的进一步分析，以至于在低码率的编码条件下，这些模型对视频主观质量的提升有限，不能满足低码率视频的应用需求。所以，进一步探索对ROI区域的分级量化具有十分重要的意义。

本文针对低码率条件下以人脸为主体的桌面视频、手持终端等场景提出一种基于ROI与JND的分级量化方法。人眼视觉特性HVS中的JND模型表明边界区域的JND值相对于平滑区域的要大［7-8］，而人脸区域内的眼睛、鼻子、嘴巴等部位属于边界，因此在以人脸为主体的桌面视频、手持终端等场景下，ROI区域(即人脸)中人眼更感兴趣的边界部分可以用JND模型检测。通过结合ROI和JND对视频帧的区域划分，建立更加符合人眼视觉特性的三级量化模型，指导人眼感兴趣区域量化参数的选取，进一步提升ROI区域的主观质量。

1 分级量化模型

1.1 基于ROI与JND的分级策略

传统基于ROI的分级量化模型仅将视频帧划分为ROI区域和非ROI区域，没有考虑ROI区域的内部特性，不能很好地符合人眼视觉特性。为进一步提升视频主观质量，本文分析了人眼感兴趣区域(人脸)的内部特性。根据HVS中的恰可失真(JND)模型可知，边界区域的JND值相对于平滑区域较大。在本文中，人脸区域内的眼睛、鼻子、嘴巴等部位属于边界，因而JND值较大，如图1所示。因此，在以人脸为主体的桌面视频、手持终端等场景下，结合JND可以对ROI区域(即人脸)进一步划分，即将整帧图像划分为NROI，ROI_level1，ROI_level2，据此可以建立一种三级量化模型，图2是该分级量化模型的框图。通过该模型来指导不同区域的量化过程，为人眼感兴趣的区域分配更多的比特，从而提升视频图像的主观质量。

图1 foreman序列JND值计算结果，深色的代表JND值较大

图2 基于ROI和JND的分级量化模型框图

1.2 基于ROI与JND的分级策略

基于ROI和JND的分级量化方法具体过程如下:

当宏块属于NROI区域时，其量化参数QP的大小由式(1)决定

式中:λ代表基于感兴趣因子P的一个QP调整因子;X和Y代表视频帧在宽度和高度方向所包含的宏块个数。

当宏块属于ROI区域，且其JND值小于等于阈值JNDthd时，即当宏块属于ROI_level1时，其量化参数QP由式(3)决定

当宏块属于ROI区域，且其JND值大于阈值JNDthd时，即当宏块属于ROI_level2时，其量化参数QP的大小由式(4)决定

式中:QPinit代表帧级QP;Δ是根据ROI区域内JND值的特点调整QP的常数因子，Δ＞0;P是人眼对视频帧的感兴趣因子，由人眼视觉特性可知，ROI区域越大，人眼视觉对其感兴趣程度越低，相应感兴趣因子P值越小。相反地，ROI区域面积越小，感兴趣程度越高，所以感兴趣因子P与ROI区域面积的关系为

式中:α是感兴趣常数;Spicture是当前帧的面积;SROI是感兴趣区域总面积;k是常数。

据此，本文针对ROI区域与非ROI区域，结合JND建立三级量化模型，采用不同的量化策略，为人眼感兴趣区域分配更多的比特来进行编码，而对人眼不那么感兴趣的区域分配较少的比特，从而提升整个视频的主观质量。

2 实验结果与分析

本文所提方法在X264平台上实现，JND检测采用Yang等人提出的像素域NAMM模型［10］(该模型有效地融合了亮度自适应模型和纹理掩模模型，具有较好的性能)。为验证本文算法的有效性，将本文算法与X264标准测试平台软件、文献［6］中基于ROI区域的视频编码方法进行比较。实验采用4种测试序列，主要实验参数如表1所示，这些序列具有不同的运动剧烈程度，从而可以验证本文算法的鲁棒性。

表1 主要实验参数

图3给出了cif序列foreman目标码率为100 kbit/s时3种算法编码的主观效果图，可见本文算法编码的图像人脸区域具有更清晰的纹理信息，因而具有更好的主观质量。VGA序列Zhang目标码率为150 kbit/s时3种算法编码的主观质量对比如图4所示，相对于图4a、图4b、图4c中人脸的关键部位，如眼睛、鼻子、嘴巴等区域的方块和模糊大量减少，主观质量提高明显。因此实验结果验证了本文所提分级量化模型的有效性。

3 小结

针对低码率条件下以人脸为主体的桌面视频、手持终端等场景，本文提出一种基于ROI和JND的分级量化方法。该方法结合JND模型对ROI区域进行再分级，建立多级量化模型，指导各区域量化参数的选择。实验结果表明，本文所提分级量化模型更加符合人眼视觉特性，能够显著提高视频图像的主观质量。

［1］袁飞，黄联芬，姚彦.视频质量客观评价技术研究［J］.电视技术，2007，31(3):91-94.

［2］PENG W H，CHIANG T，HANG H M.Adding selective enhancement in scalable video coding for region-of-interest functionality［C］//Proc.IEEE International Symposium on Circuits and Systems.Island of Kos:IEEE Press，2006:3089-3092.

［3］VAN D S M，LIN Y T.Content-based selective enhancement for streaming video［C］//Proc.Image Processing.Piscataway:IEEE Press，2001:977-980.

［4］DALY S，MATTHEWS K，RIBAS C J.Face-based visually-optimized image sequence coding［C］//Proc.Image Processing.Los Alamitos:IEEE Press，1998:443-447.

［5］CHAI D，NGAN K N，BOUZERDOUM A.Foreground/background bit allocation for region-of-interest coding［C］//Proc.Image Processing.Vancouver，BC，Canada:IEEE Press，2001:923-926.

［6］SIRA R，NIKIL J.Optimizing algorithms for region-of-interest video compression with application to mobile telehealth［C］//Proc.Multimedia and Expo.Toronto，Canada:IEEE Press，2006，130(56):513-516.

［7］LIU Q，HU R.Perceptually motivated adaptive quantization algorithm for region-of-interest coding in H.264［C］//Proc.9th Pacific Rim Conference on Multimedia，PCM 2008.Tainan，Taiwan:Springer Verlag，2008:129-137.

［8］CHOU C H，LI Y C.A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile［J］.IEEE Trans.Circuits and Systems for Video Technology，1995，43(54):467-476.

［9］刘静，王永芳，武翠芳，等.改进的JND模型及其在图像编码中的应用［J］.电视技术，2011，35(13):15-18.

［10］YANG X K，LIN W S，LU Z K，et al.Just noticeable distortion model and its applications in video coding［J］.Signal Processing:Image Communication，2005，20(7):662-680.