基于改进CycleGan模型的动画视频CDS仿真

2022-03-01 01:12王哲，谢玮

计算机仿真 2022年1期

王哲，谢玮

(1. 太原工业学院，山西太原 030001；2. 扬州大学，江苏扬州 225009)

1 引言

多媒体资源应用日渐普及，视频资源[1]由于丰富的信息含量与直观的表达能力等诸多优势，越来越受到青睐，并逐渐演变成工作与生活中的主要信息载体。视频的无序性与非结构性在一定程度上增加了检索、管理等难度，从视频序列帧内分离出具备一定意义实体的分割技术[2]，针对此类问题给予了一种有效的辅助手段。随着大数据时代的来临，视频数据规模呈爆炸式增长，传统分割技术以像素域为实现对象，已无法与当前科学技术水平相匹及，而压缩域[3]作为视频数据储存与传输的形式，就其研发的视频分割技术凭借显著分割速度优越性日益脱颖而出，并使研究侧重点逐渐从像素域转变为压缩域。

例如，冯镔等人[4]针对MPEG(Moving Picture Experts Group，动态图像专家组)系列视频，通过压缩码流的DCT(Discrete Cosine Transform，离散余弦变换)系数与运动向量信息完成分割，经实验检验，该方法分割效果较好；朱威等人[5]面向智能视频检索，根据HEVC(High Efficiency Video Coding，高效率视频编码)码流解析出的编码信息，提出一种压缩域镜头边界检测策略，该方法计算复杂度较低，能够较好地监测出镜头边界。

生成式对抗网络[6]不仅广泛应用于图像生成、翻译以及超分辨率等领域中，而且在自然语言处理等其它领域也略有涉及，因此，本文基于上述文献方法优势，通过改进、优化Gan(Generative Adversarial Networks，生成式对抗网络)模型，得到一种改进的CycleGan(Cycle Generative Adversarial Network，循环生成式对抗网络)模型，并利用该模型完成动画视频压缩域分割。四阶矩策略通过增强背景与目标部分间、目标与噪声部分间的差异，提升了压缩域的分割质量；将多尺度结构相似性损失添加于循环生成式对抗网络模型中的循环一致性损失中，使图像与初始图像间的相似性更强；利用形态学滤波整形分割结果，对目标轮廓与外形具有一定平滑作用；全局运动补偿阶段在削弱背景中运动向量同时，强化目标中运动向量，降低两个区域分割难度。

2 改进CycleGan模型构建

生成式对抗网络模型是一种由生成器与判别器构成的学习模型，生成器用于学习实际数据分布，在噪声中获取与真实数据最为接近的样本G(z)，判别器则用于判定所得数据的可靠程度。

将判别器D作为二类分类器，通过对抗训练[7]完成训练学习，采用生成器G与判别器D的极值描述该学习过程，其目标函数表达式如下所示：

+Ez～PZ(z)[log(1-D(G(z)))]

(1)

若生成器与判别器存在多余数据，需添加输入项xc，对目标函数进行改写，得到如下等式

+Ez～PZ(z)，xc～Pdata(xc)[log(1-D(G(z，xc)，xc))]

(2)

Ladv(GX→Y，DY)=Ey～Pdata(y)[logDY(y)]

+Ex～Pdata(x)[log(1-DY(GX→Y(x)))]

(3)

Lcyc(GX→Y，GY→X)

(4)

由于循环生成式对抗网络模型在处理几何形状时，无法实现完全双映射。通过添加多尺度结构相似性损失来加以改进，以更好地应对几何形状变化。基于视频亮度l、对比度c以及结构s等影像信息，设计出多尺度结构相似性损失SSIM表达式，如下所示

(5)

其中，亮度l、对比度c以及结构s等信息的对比形式分别描述如下

(6)

(7)

(8)

针对两个多尺度结构相似性损失下的循环一致性损失重建，结合L1正则项损失LL1，令重建输入图像各是X′、Y′，则新的多尺度结构相似性损失如下所示

L′SSIM=(1-SSIM(X′，X))+(1-SSIM(Y′，Y))

(9)

其中，X′=F(G(x))，Y′=G(F(y))。

L1正则项损失LL1表达式如下所示

(10)

由以上各式推导出下列基于多尺度结构相似性损失的循环一致性损失界定公式

Lcyc+SSIM=λSSIMLSSIM+λL1L1

(11)

式中，λSSIM+λL1=1。

3 基于改进CycleGan模型的视频压缩域分割

3.1 视频压缩域预处理

从任意视频压缩域中提取出一个包括相位与幅度的二维矢量场，针对其带有的噪声运动矢量，采用均值滤波算法预处理矢量场所含信息，获取具有高可信度的矢量均值。在均值滤波处理过程中，先确定滤波窗口规格w=n*n，利用下列计算公式解得该窗口中的中值向量vmed

vmed=median{vi}

(12)

再由下式解得窗口中所有向量到中值向量vmed的欧几里得距离[8]

(13)

升序排列欧几里得距离di值后，设定滤波输出为与欧几里得距离对应的向量均值，表达式如下所示

(14)

当矢量场中存在均值与中值向量vmed接近的t个向量时，认为该向量不是噪声数据，可以保留；反之则去除。

针对视频中运动向量的强度、伸缩度以及旋转度等特征，分别采用幅度、散度与旋度加以表征，并将其作为分割要素，提升分割性能。若运动向量分量为{vx，vy}，则幅度M、散度D与旋度C的计算公式分别如下所示

(15)

(16)

(17)

(18)

上式里，δ(·)表示边界函数，表达式如下所示

δ(R)=

(19)

其中，分割品质参数是Q，压缩域R规格是|R|，矢量场规格是|F|。

形态学滤波处理[9]不具备四连通的视频压缩域Ri，采用下列表达式执行开、闭运算

f=(R⊕E)⊗E

(20)

式中，矩形结构元素用E表示。

3.2 视频压缩域运动补偿

为确保参数迅速收敛，利用牛顿迭代法[10]经各阶段迭代过程，去掉一定数量的高残差运动向量，将余下的运动向量作为更新后仿射运动模型参数的计算依据，待参数收敛，运行终止[11]。通过全局运动补偿得到残差矢量场，实现视频压缩域的全局运动补偿。具体流程描述如下：

1)初始化模型参数m(0)；

2)根据向量块i的当前帧位置，估算出其前一帧位置，解得预测运动向量与初始运动向量之间的误差值；与阈值p作比对后，把所有大于阈值的向量点全部去除；

3)采用牛顿迭代法处理余下的运动向量，完成模型参数更新，得到新的参数向量m(η)；

4)迭代运行第2)步到第3)步，运行的终止条件有三个，分别是：迭代次数达到7次；参数向量m(η)与运动向量mstatic之间的差值比0.01小；参数向量m(η)与m(η-1)之间的差值参数分量，大部分比0.0001小。其中，mstatic表示摄像机静止时的运动向量。

5)经过明确运动模型参数，根据解得的全局运动矢量GMV，补偿累积运动场AMV的任意向量块Bi，得到下式所示的残差运动场RMV表达式

(21)

3.3 视频压缩域分割

视频背景部分的运动向量强度小且范围大，而目标部分则正好相反，基于此，将其转变成在高斯背景信号里提取非高斯目标信号的问题，利用四阶矩策略与改进的循环生成式对抗网络模型，完成非高斯信号辨识。

假设有|Ri|个运动向量，采用下列计算公式解得各部分第i个运动向量均值mi，判定背景部分与目标部分

(22)

若某区域运动向量均值mi比总体视频帧p%的面积大，则认为该部分为背景；而针对运动向量均值mi较小的区域，则需采用下列四阶矩做进一步判断，防止错误分割区域

(23)

4 动画视频压缩域分割仿真

4.1 仿真环境

从卡内基梅隆大学运动捕获数据库中任意选取一组动画视频流，每隔15帧插入一帧。按照表1所示的软硬件配置，搭建视频压缩域分割仿真环境。其中，实验中选用的DART7.0物理引擎工具由佐治亚理工学院图形实验室与人体机器人实验室共同研发。

表1 视频压缩域分割实验环境相关配置统计表

表2所示为动画视频压缩域分割方法的相关参数设置。

表2 分割方法相关参数统计表

4.2 动画视频压缩域分割视觉效果分析

为验证本文方法有效性与可行性，分别选取视频序列的第8帧、第10帧、第21帧、第39帧以及第67帧，展开压缩域分割仿真，所得模拟结果分别如以下各图所示。

图1 动画视频第8帧分割效果示意图

图2 动画视频第10帧分割效果示意图

图3 动画视频第21帧分割效果示意图

图4 动画视频第39帧分割效果示意图

图5 动画视频第67帧分割效果示意图

根据视频序列各帧的分割仿真效果可以看出，本文方法采用均值滤波算法预处理了矢量场信息，使用表征指标较好地描述了视频中运动向量的强度、伸缩度以及旋转度等特征，通过全局运动补偿得到残差矢量场，实现了视频压缩域的全局运动补偿。故该方法不仅良好地运用了区域的色彩信息，而且充分利用了每个像素空间方位之间的潜在关联，有效分割了动画视频的压缩域，使视频对象及其边缘细节得到精确分割与较好保留，令对象更具完整性。

4.3 动画视频压缩域分割性能分析

动画视频压缩域分割模拟效果分析多为主观性评价，分割效果以肉眼感官的视觉质量作为评估的主要依据。为客观说明方法的优越性，分别从分割误差、处理效率两个角度，得到更具说服力的实验数据(见表3)，验证本文方法的分割性能。

表3 五个视频帧的分割误差与时长

根据表3中不同类别的像素数量与分割时长等数据可以看出，本文方法成功分割了绝大多数的目标像素，且错误分割情况鲜有发生，与此同时，分割用时较短，能够满足实际应用中的实时性需求。究其原因是本文方法通过添加多尺度结构相似性损失，改进了循环生成式对抗网络模型，使其能够更好地应对几何形状变化，经预处理阶段，利用四阶矩与改进的循环生成式对抗网络模型，大幅降低了错误分割概率。

5 结论

本文以改进的循环生成式对抗网络模型为基础，设计一种动画视频压缩域分割方法，为视频编码、分析、监控等后续视频处理技术奠定了良好的基础。本文方法中尚存的几个未解决问题是：本文研究出发点仍以视频中的运动对象为分割目标，下一步应针对多目标、静态目标等分割对象做深入探索，提升方法适用性与应用性；运动向量作为视频压缩域分割的关键点，需在今后工作中就准确化、致密化以及空间充分化进行研究。