一种基于张量的深度视频增强算法研究

2018-10-21 11:02姚孟奇张维忠王靖

姚孟奇 张维忠 王靖

摘要: 针对深度视频出现的许多空洞,提出一种基于张量的深度视频空洞修复算法。首先运用加权移动平均机制对原始深度视频进行处理,得到预处理视频,然后根据背景张量的低秩性和运动目标的稀疏性,利用低秩张量恢复的方法重建张量的低秩部分和稀疏部分,实现背景与运动目标的分离。同时,针对分离出来的运动目标部分,利用相似块匹配构造一个四阶张量,根据视频张量的低秩性和噪声像素的稀疏性,再次利用张量恢复重建四阶张量的低秩部分和稀疏部分,去除噪声并修复视频空洞,采用张量表征深度视频,利用分块处理,解决基于帧处理的传统方法丢失数据信息问题,保持视频数据的空间结构,在相同实验环境下,采用3个视频进行测试。实验结果表明,本方法可以很好地去除噪声,修补孔洞,并且基本可以还原视频的纹理结构,保持边缘,达到视频增强的效果,显著提高了深度视频的质量,鲁棒性强。该研究对实时获取外界信息具有重要意义。

关键词: 深度视频; 张量; 张量恢复; Kinect

中图分类号: TP391.41; TP391.75文献标识码: A

收稿日期: 20170519; 修回日期: 20170823

基金项目: 国家自然科学基金资助项目(61I70106,61305045);山东省科技发展计划资助项目(2014GGX101048)

作者简介: 姚孟奇(1992),女,硕士研究生,主要从事计算机视觉研究。

通讯作者: 张维忠(1963),男,山东昌邑人,教授,博士,主要从事计算机视觉、模式识别、图像处理方面的研究。Email: zhangwz_01@aliyun.com随着深度传感技术的发展,深度数据越来越多的应用于计算机视觉、图形图像、虚拟现实等研究和应用领域中,市场对深度视觉技术的需求也趋于井喷状态。视频作为人类活动中常用的信息载体,包含了物体的大量信息,成为人类实时获取外界信息的重要途径。但由于设备本身的缺陷、采集源、光线等原因,常常会产生空洞和噪声。目前,主流深度相机主要采用结构光和飞行时间法(time of flight,TOF)技术。2010年下半年,微软推出第1代基于结构光的深度传感器设备——Kinect;2014年10月,又推出了基于TOF的第2代Kinect。由于其价格低廉,具备同时捕捉彩色数据和深度数据的功能而得到广泛关注。但是Kinect获取的深度视频质量较差,Kinect V2的深度传感器分辨率仅为512×424,在光滑物体表面和遮挡区域由于深度信息缺失会产生空洞[1],且同一区域不同时间的深度值会产生变化。对于单幅深度图像的处理常用矩阵方法,而对空洞修复的研究也很多。S. Matyunin等人[2]利用帧间运动补偿和中值滤波对空洞进行修复,由于没有考虑边界问题,当空洞区域较大时会出现深度修复错误问题;K.R.Vi jayanagar等人[3]在前者的基础上,采用各向异性扩散上采样和图像滤波结合的方法,修正边界对齐问题,但效果并不明显;随后又出现了滤波器方法[4],利用彩色图像作为引导信息修复方法[5],深度网络卷积去噪修复方法[6]和一系列保持边缘的方法[7]。对于二维视频,传统的去噪和修复大都基于帧序列,利用时域、空域信息,结合各种滤波方式进行去噪和修复。唐权华等人[8]提出的时空联合视频去噪方法,同时利用信号的时域和空域相关性进行视频去噪,解决了传统滤波器在去噪能力与模糊程度之间存在的矛盾。将双域滤波和三维块匹配算法结合[911],利用时空频域相关性进行去噪。为了改进对视频纹理和细节的恢复,陆续有学者将运动补偿、光流法引入视频去噪[1213],充分利用了相邻帧之间的自相似性和冗余性。由于连续多帧图像会有很多冗余信息,给处理带来很大麻烦,且单帧处理再组合的方式,忽略了其视频内在的结构信息,增强后的视频容易出现闪烁不连续的情况。基于此,本文利用张量[14]表征深度视频数据,将通道、时间、空间维度一次性完整表达,保证了视频内部结构的完整性。该研究对实时获取外界信息具有重要意义。

1基于张量的深度视频增强算法

1.1加权移动平均机制

Kinect采集视频时,即使在同一個场景的同一个像素位置,其对应的深度值也在不断变化,这是由随机噪声引起的闪动效应。为了避免这种效应,采取如下加权移动平均机制[15]:

1)用一个队列表示离散的数据集,存储当前深度视频的前N帧。

2)根据时间轴给这N帧赋权值,距离时间越近的帧权值越小。

3)新的深度帧为队列中的深度帧加权平均得到。

在这个过程中,可以调整权值参数和N的大小,以达到最佳效果。

1.2低秩张量恢复模型

低秩张量恢复[16]也称高阶鲁棒主成分分析(higherorder robust principle component analysis, highorder RPCA),能够自动识别矩阵中被损坏的元素,并恢复原始数据。具体描述为:将原始数据张量D分解为低秩张量L和稀疏张量S之和,即

D=L+S(1)

则张量恢复可用如下优化问题来表示,即

minL,S Trank(L)+λ∑Ni=1‖Si‖1s.t. D=L+S(2)

其中,D,L,S∈RI1×I2×…×IN;Trank(L)表示张量L的Tucker秩。

将上述张量恢复问题转化为凸优化问题,即

minLi,Si∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1s.t. D=L+S(3)

其中,Li,Si分别表示张量的第i阶模式(因为构建的张量是四阶,故i取1~4)的展开矩阵;λ为固定常量。针对式(2)中的优化问题,典型的求解方法[17]包括加速近端梯度(accelerated proximal gradient,APG)算法和增广拉格朗日乘子法(augmented lagrange multiplier,ALM)。鉴于ALM算法的精度高且收敛速度快,本文采用ALM算法来解决此优化问题,将其推广到张量。根据式(2),构造增广拉格朗日函数为

L(Li,Si,Yi,μi)=∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1+∑Ni=112μi‖Li+Si-Di‖22-(4)

其中,Yi是拉格朗日乘子;μi>0是惩罚因子。通过交替迭代,反复估算Li和Si,直到收敛,最终得到原始数据的低秩部分和稀疏部分。

1.3相似块匹配

视频的帧与帧之间有极大的相似性,所以原始视频构成的张量有很强的低秩性[18]。对当前帧中的运动物体,如果场景没有切换,则与之相似的部分应该在其前后两帧中。对每帧图像设置一个大小为的α×α图像块bi,j为参考块,以此参考块为中心设置一个窗口B(i,j)=lf(α×α),其中,l为正整数,f为原始视频帧数。参考块的相似度匹配准则用均方误差函数(mean square error,MSE)[13]表示,即

MSE=1N2∑N-1i=0∑N-1j=0(Cij-Rij)2(5)

其中,N=α×α表示图像块bi,j的大小;Cij和Rij分别为当前待检测帧和参考帧的像素值。MSE值越小,表示两个块匹配越准确。在B(i,j)中寻找与参考块相似的图像块bx,y,将其坐标放在以下集合中

Ωi,j=x,y|T=MSEx,y≤t, x,y∈Β(i,j)(6)

式中,t为阈值。实验可根据实验环境多次测试确定,当MSE值小于等于阈值时,可以断定测试块和参考块是相似块,并加入Ωi,j集合。取前n个最相似的块定义为一个张量,即

PΩi,j=(DΩi,j(1),bΩi,j(2),…,bΩi,j(n))(7)

式中,bΩi,j(k)表示第k个相似块。

对用Kinect V2获取的色彩视频进行分块,根据Registration原理[19],对深度图和彩色图进行配准,并根据相似块中彩色视频的帧数和块位置,挑出相对应帧的深度图中的相对块的位置,组成张量DΩi,j,把张量DΩi,j带入式(1),得对于块的张量恢复模型为

minLΩi,j,SΩi,jTrank(LΩi,j)+λ‖SΩi,j‖s.t DΩi,j=LΩi,j+SΩi,j(8)

与式(1)的解法相同,得到干净无噪的LΩi,j块和SΩi,j噪声。将处理过的块重组,即可得到去噪并修复的增强视频。

2实验及分析

2.1实验设置

本实验使用3个视频进行测试,测试视频的彩色图像帧如图1所示。由图1a可以看出,背景和运动目标(手和书)比较简单;由图1b可以看出,背景和运动目标(纯色T恤人)相对复杂,但运动目标距离摄像头远,纹理比较少;由图1c可以看出,背景比较散乱复杂,且运动目标(穿红T恤拿东西的人)纹理比较多。

2.2参数设置

为了使算法达到最佳效果,本文算法的参数设置均为经验设置。确定输入的视频帧为120帧,相似块个数为30,块的大小为6×6,最大迭代次数为180,容忍阈值ε1=10-5,ε2=5×10-8。为了凸现本文实验方法的优越性,用峰值信噪比(peak signaltonoise ratio,PSNR)[20]作为衡量去噪后视频图像帧的质量指标。将本文实验方法与VBM3D和RPCA方法的实验结果进行对比,3种方法处理后的PSNR值如表1所示。

2.3实验结果

由表1可以看出,在相同实验环境下,本文研究的方法测试视频的效果均优于其他方法。利用本文算法去除背景的运动目标增强后的结果如图2所示。

图2利用本文算法去除背景的运动目标增强后结果其中,图2a为原始视频a中深度视频帧截图;图2b为原始视频b中深度视频帧截图;图2c为原始视频c中深度视频帧截图;图2d为视频a去除背景后用本文方法增强的结果;图2e为视频b去除背景后用本文方法增强的结果;图2f为视频c去除背景后用本文方法增强的结果。由图2可以看出,利用本文算法对去除背景后的运动目标进行增强的效果很明显,噪声基本去除,边缘保持较好。

用本文方法對深度视频增强结果如图3所示。图3a为原始视频a中深度视频帧截图;图3b为原始视频b中深度视频帧截图;图3c为原始视频帧c中深度视频帧截图;图3d为用本文方法对视频a增强结果视频帧截图;图3e为用本文方法对视频b增强结果视频帧截图,图3f为用本文方法对视频c增强结果视频帧截图。由图3可以看出,本方法可以很好地去除噪声,修补孔洞,可以还原视频的纹理结构,保持边缘,达到视频增强的效果。

3结束语

结合张量恢复模型和视频分块思想,本文提出了一种基于张量的深度视频增强方法。将视频分成前景部分和背景部分,背景部分不作处理,只对前景部分进行增强和去噪,减少了后期处理的工作量,提高了效率。把前景视频图像帧分成若干个小块,利用相似块匹配构造张量表征视频数据,把视频增强问题转化成一个求张量恢复的问题。实验结果表明,本文方法在对深度视频的处理上,明显优于传统方法,在保持原始视频纹理信息的基础上,更能有效地去除干扰噪声。但是本文算法中的参数是多次实验得到的经验值,不能自适应设置,下一步会对动态背景的深度视频增强进行研究,并进一步研究算法中参数的自适应选择。

参考文献:

[1]吕朝辉, 沈萦华, 李精华. 基于Kinect的深度图像修复方法[J]. 吉林大学学报: 工学版, 2016, 46(5): 16971703.

[2]Matyunin S, Vatolin D, Berdnikov Y, et al. Temporal Filtering for Depth Maps Generated by Kinect Depth Camera[C]∥3D TV Coferenece: The True VisionCapture, Transmission and Display of 3D Video. Antalya, Turkey: IEEE, 2011, 47(10): 14.

[3]Vijayanagar K R, Loghman M, Kim J. Refinement of Depth Maps Generated by LowCost Depth Sensors[C]∥ Soc Design Conference. Jeju Island, South Korea: IEEE, 2013: 355358.

[4]Lin X, Yuan F, Cheng E. Kinect Depth Image Enhancement with Adaptive Joint MultiLateral Discrete Filters[J]. Journal of Difference Equations and Applications, 2016, 44(3): 117.

[5]Liu J Y, Gong X J, Liu J L. Guided Inpainting and Filtering for Kinect Depth Maps[C]∥IEEE International Conference on Pattern Recognition. Tsukuba, Japan: IEEE, 2012: 20552058.

[6]Zhang X, Wu R Y. Fast Depth Image Denoising and Enhancement Using a Deep Convolutional Network[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016: 24992503.

[7]Xie J, Feris R S, Sun M T. EdgeGuided Single Depth Image Super Resolution[J]. IEEE Transactions on Image Processing, 2016, 25(1): 428438.

[8]唐权华, 雷金娥, 周艳, 等. 一种时空联合的视频去噪方法[J]. 计算机工程与应用, 2010, 46(6): 163165.

[9]肖进胜, 李文昊, 姜红, 等. 基于双域滤波的三维块匹配视频去噪算法[J]. 通信学报, 2015, 36(9): 9197.

[10]肖进胜, 姜红, 彭红, 等. 一种改进的三维块匹配视频去噪算法[J]. 四川大学学报: 工程科学版, 2014, 46(4): 8186.

[11]Chen D Y, Ju C C, Ho C T. Method and apparatus for image denoising with threedimensional blockmatching, US9123103[P]. 2015.

[12]Buades A, Lisani J L, Miladinovc M. PatchBased Video Denoising with Optical Flow Estimation[J]. Transactions Image Proces, 2016, 25(6): 25732586.

[13]Wen B, Ravishankar S, Bresler Y. Video Denoising by Online 3D Sparsifying Transform Learning[C]∥IEEE International Conference on Image Processing. Quebec City, QC, Canada: IEEE, 2015: 118122.

[14]陳代斌, 杨晓梅. 基于低秩张量恢复的视频块效应处理[J]. 计算机科学, 2016, 43(9): 280283.

[15]彭义刚, 索津莉, 戴琼海, 等. 从压缩传感到低秩矩阵恢复: 理论与应用[J]. 自动化学报, 2013, 39(7): 981994.

[16]柳欣, 钟必能, 张茂胜, 等. 基于张量低秩恢复和块稀疏表示的运动显著性目标提取[J]. 计算机辅助设计与图形学学报, 2014, 26(10): 17531763.

[17]Dabov K, Foi A, Egiazarian K. Video Denoising by Sparse 3D TransformDomain Collaborative Filtering[C]∥Signal Processing Conference, European. Poznan, Poland: IEEE, 2008: 145149.

[18]何富多, 胡燕祝. Kinect彩色相机与深度相机的标定与配准[D]. 北京: 北京农业大学, 2015.

[19]Wang Z Y, Hu J H, Wang S Z, et al. Trilateral Donstrained Sparse Representation for Kinect Depth hole Filling[J]. Pattern Recognition Letters, 2015, 65(C): 95102.

[20]杨嘉琛, 侯春萍, 沈丽丽, 等. 基于PSNR立体图像质量客观评价方法[J]. 天津大学学报: 自然科学与工程技术版, 2008, 41(12): 14481452.