基于语音驱动的虚拟形象合成系统

2021-03-16 01:29贺晓光

安徽电子信息职业技术学院学报 2021年1期

贺晓光

（科大讯飞股份有限公司，安徽合肥 230000）

一、引言

通过调研，我们发现有不少国内外学者对基于语音驱动的虚拟形象问题进行了深入研究。来自华盛顿大学的团队[1]在SIGGRAPH 2017上发布了合成奥巴马的论文，该方法采用RNN学习从原始音频特征到嘴型的映射，给定每个时刻的口型，通过纹理贴图的方法来合成高质量的嘴部纹理，接着使用动态规划算法将合成的嘴型和目标视频进行匹配和重定向使头部运动看起来更自然，最终将合成的嘴部区域融合进目标视频中。我们首先尝试了该方案，唇形预测和纹理合成后的嘴部区域效果很好，但是将合成嘴型和目标视频进行融合时，会出现明显的不匹配现象，通过多次调整参数，仍然很难得到论文中的效果。同时，我们认为仅考虑嘴部区域的合成而没有考虑下巴、法令纹附近肌肉的一致运动会使得融合结果过于生硬，自然度难以保证。

Zhou等人[2]提出的音频驱动虚拟动画人物的研究中，不仅考虑了嘴部区域的特征点还考虑了下巴、鼻子区域的部分特征点，这种方式给了我们一定的启发，我们也尝试采用该方式进行实验，效果虽然比仅用嘴部区域更好，但是合成出的视频部分时间段仍然存在明显地不自然。

以上的方法依赖于现有的3D模型，需要调节的参数也较多，经过较长时间的尝试，尚未得到较好的效果。因此，我们同时探索了直接使用2D图像进行视频生成的思路[3-4]。我们采用的思路是将使用语音预测出的唇形、鼻子点、下巴点连线画在对应的位置上，而将周围的RGB像素值置零，得到了输入图像，使用真实的RGB图像作为监督，让网络根据线框生成周围的纹理。

二、算法介绍

先使用RNN将语音特征映射为特征点坐标，然后将特征点连成线框画在目标图像上，最后使用语音特征和线框特征融合的生成式对抗网络生成合成视频，我们称之为Two-stage方案。

（一）基于LSTM的特征点预测

首先我们对输入的音频进行降噪处理，并根据停顿位置将视音频切分为长度从2秒到20秒不等的视音频段，共得到了N段视音频。对每段音频提取100HZ，28维的梅尔频率倒谱系数（MFCC）。接着，我们使用DAN[5]检测每帧视频中的人脸特征点，并从中选取出如图1所示的32个特征点。将特征点根据双眼的一对特征点进行旋转归一化和尺度归一化，并以鼻尖点为中心位置进行平移归一化。对归一化的64维特征点坐标使用PCA降维到40维，为了和100HZ的音频特征匹配，我们使用线性差值的方法将25HZ的PCA特征插值为100HZ。最后搭建一个输入为28维，输出为40维的一层单向LSTM网络，为了利用上下文信息，引入了20帧的时间延迟。在预测阶段，需要根据目标图像特征点使用反向旋转、平移、尺度和PCA归一化得到32个嘴部附近的特征点在目标图像上的位置。

图1 选取出和嘴部相关的32个特征点

使用成对构造的N个音频段以及插值后的PCA特征进行训练，进行40轮迭代后，L2损失下降到1e-3的水平，训练结束。预测出的唇形具有较好的连续性，抖动现象明显降低，每个发音的唇形与音频对应的很好，如图2所示。

图2 使用LSTM预测出的连续唇形

（二）基于线框图的视频合成网络设计

直接使用带有线框的残缺RGB图像作为输入，生成的视频会出现少量的唇形与语音对不齐的现象，这说明仅使用线框作为控制信号，对唇形生成的控制能力不足够。因此，我们尝试将和唇形直接相关的音素特征加入网络中。具体做法为，使用训练好的神经网络提取出每段语音的音素特征，得到100HZ，66维的音素序列，根据视频帧序号采用最近邻方式找到相应的音素帧，并将前后两种进行拼接得到198维向量送入视频合成的生成网络，使用一层全连接层将198维的特征映射为128维，再将该向量扩展为128×128×128维的张量。将该张量与相同大小的图像特征图进行相加，从而进一步加强对生成视频的控制。加入音素的网络结构如图3所示。

图3 加入音素后的单层融合视频合成网络结构

（三）训练参数配置与过程

使用随机梯度下降算法对网络进行训练，设置学习率为0.001，经过大约24小时迭代，G_VGG损失从11.0左右下降到2.0左右，网络达到收敛。在测试阶段，仅需要加载训练好的生成网络参数，输入测试音频构造出的带有线框的残缺RGB图像，网络即可预测出每帧视频图像，使用ffmpeg工具进行合成，可以得到最终的视音频。

三、实验结果与分析

为了简化表达，我们将使用音素、音频MFCC特征、特征点坐标作为输入特征表示为phone，audio，landmark。将不同的特征和网络结构进行组合，我们设计了如表1所示的实验。我们展示了表1中最好的实验结果（ID=3）与较差实验结果（ID=4）的对比（如图4）所示，可以看出生成的视频牙齿、唇形均达到了人类视觉可接受的程度。

表1 不同特征、网络结构下的实验效果

图4 最好的实验结果(第一行)与较差实验结果（第二行）的实验效果对比

从实验效果来看，使用前后10帧音素特征来控制视频的生成能够达到最好的效果，可能是因为音素特征与唇形的对应比较直接，该特征为one-hot向量，更易于网络的学习。但是音素特征的提取需要依赖训练好的神经网络，如果直接使用传统的MFCC特征也能达到目前的合成效果，无疑可以进一步降低系统的复杂度和提高运算效率。

四、结语

本文提出了一种基于生成式对抗网络的语音驱动人脸视频合成技术。对于生成式对抗网络的方案，我们又分别探索了使用不同控制信号和网络结构下的生成效果，当前使用音素作为控制信号端到端的生成视频可以达到最好的效果，唇形的对齐能力很强，比使用线框的方案有明显的提升。该方案仍有不足之处，有待后续研究者继续优化。