生成式对抗网络中讲话人脸合成模型的研究现状

2021-09-09 07:36田裕景恩彪

现代计算机 2021年19期

田裕，景恩彪

(华北理工大学人工智能学院，唐山 063210)

0 引言

随着生成式对抗网络[1]的技术发展，计算机对图像、视频内容的理解取得了重大性的突破，同时这也引起在计算机图形学领域中一部分学者的关注。这种情况造成计算机视觉不再全面专注于对图像的理解，例如图片的分类、分割等操作，转而融合相反的图像操作方向，图像合成。这也打开人们对图像生成领域研究的大门，图像合成是指将图像理解的信息：噪声、标签，转换成图像的过程。其中人脸图像是在计算机视觉中应用最广泛的图像类型之一，人脸动画技术又在计算机图形学的动画领域发展了数十年成为其中的关键技术之一，所以人脸图像合成技术普遍用于社会的各个领域。

人脸之所以被广泛研究主要因为人脸是区分不同的人类个体之间特征的突出表现，并且人脸图像在计算机里面的表示又是一种常见的矩阵数据类型，在社会中人脸因有独特的辩识性而在社会互动中具有特别重要的地位[2]。应运而生人脸在视觉领域有了以下应用，如人脸检测、人脸特征识别、人脸情感判断分析、人脸影像以及人脸面部动画等[3]。

最近在人脸动画生成领域中出现了一项生成人脸讲话动作的研究，其工作内容是根据不同的语音片段来改变不同身份特征人物的嘴部动作，呈现出特定人物在描述该语音片段内容的讲话视频。该方法致力于解决语音到视频的转换问题，可以帮助听力受损的用户使用唇读技术识别语音内容，同时在电影、摄影、娱乐等一些感兴趣的领域具有很大的应用潜力。

目前，尽管对人脸合成技术进行了广泛研究，但是只有少数学者研究过讲话人脸动画生成，其研究思路大体可分为四个技术层面：其一，通过裁剪或生成与音频特征映射相关的嘴部动作模型或序列，与现有视频进行拼接生成固定身份特征的面部动画模型[4-5]。其二，直接用音频片段去生成人脸视频，此方法依靠大量数据进行训练，因为模型没有学习到固定的生成人脸主题，所以生成效果模糊[6]。其三，排除时间对人脸动画生成序列的影响，通过原始视频帧提取图像特征，使另一张静止图像去拟合原始视频帧的深层嘴部动作变化，最后计算生成视频帧和原始视频帧起始序列位置，剪切音频序列片段与生成动画拼接合成一个新的人脸视频[7-8]。这种拟合其他图像、视频的方法被称为图像到图像的翻译和图像到视频的翻译。其四，通过对音频序列进行特征提取并与图像特征映射生成音频与身份语义相耦合的视频帧序列[9]。

综上所述，如何实现生成讲话人脸模型是值得不断探索的问题。

1 讲话人脸合成技术的发展

近几年，学者们从不同角度提出了使用音频或者文本做为输入，合成讲话人脸视频的技术方法。从音频转换成视频存在一系列重要的实际应用。例如，从音频生成高质量视频可以显著减少视频编码、传输所需的带宽量，这种带宽量占互联网传输带宽的很大一部分。另外从音频转换成视频还可以帮助一些听力受损的人实现唇读来获取音频信息。

在2017年，Suwajanakorn等人提出了一篇关于合成奥巴马演讲视频的文章，受到了社会各界的广泛关注[4]。该文章阐述了一种使用人脸识别技术学习人脸特征的方法。他们构造了一个身份提取和身份消除的自动编码器(D2AE)模型，该模型采用双流线索设计并长时间使用奥巴马总统的演讲视频进行训练，使模型学习到用于欺骗验证系统的身份消除特征和身份提取特征，这两种解纠缠特征不但可以表示人物的身份和属性特征，而且可以完整地表示输入图像。模型最后通过一个LSTM神经网络学会了从原始音频特征到嘴巴形状的映射。即给定特定身份人物每个瞬间的嘴巴形状，合成高质量的嘴巴纹理特征，并将其与适当的3D姿态匹配合成，以改变他在目标视频中嘴部的运动变化来匹配输入的音频轨道从而构建视频。这篇文章所使用的方法与Face2Face类似。

Face2Face[5]实现的是实时人脸重建方法——单目标视频序列重建。其中模型输入的源序列也是一个单目视频流，Face2Face通过一个普通的网络摄像头对人脸面部表情进行实时捕获进行处理，然后把捕捉到的面部表情或者嘴部动作拼接融合到其他身份特征的目标视频当中。与上文所提的D2AE不同的是，D2AE是使用音频直接合成嘴部形状在进行拼接融合。

Duarte等人提出了一种只使用音频生成人脸面部视频的方法[6]，但结果比较模糊。Chuang等人提出了一种Speech2Vid模型[7]，采用自动编码器结构学习音频特征和视频数据之间的对应关系，并基于音频以图像到图像的翻译的方法对大量数据进行训练，但结果缺乏连续性。Wang等人构建了一个Vid2Vid模型[8]，该模型在不对时间建模的前提下，以图像到图像翻译的方法生成一个连续的视频序列。基于此Song Yang等人提出使用条件递归的方式将图像和音频特征合并到循环单元中，通过耦合时间依赖生成人脸动画[9]。

Fan等人介绍了一种双向循环神经网络生成视频帧的方法[10]，该方法通过双向LSTM重新定位人脸下半部分，并从不同音频文件中选择与目标视频生成嘴部区域相同的音频源进行拼接，因此它需要大量具有唯一目标标识视频帧进行选择。同样的Charles等人使用语音标签从口腔图像字典中选择视频帧[11]。Wan等人提出了一种通过主动外观模型合成讲话者面部的方法[12]，该方法能够控制讲话者面部的情绪，但受限于系统训练的唯一模型。Garrido等人通过把配音视频里的讲话者的嘴巴形状转移到目标视频中来合成讲话者的面部[13]，但是这种方法需要配音视频里的人讲出与模型需要的同样的语音片段。Karras等人提出了一种通过音频的实时输入以低延迟方法驱动端到端模型生成3D面部动画的方法[14]。

Oh等人提出了一个Speech2Face模型[15]，其模型通过大量的视频训练学习到可以只通过音频输入来生成一个模糊的面部模型。Hang Zhou等人研究发现讲话的面部序列实际上是由主题相关信息和讲话相关的信息共同构成，他们通过对抗训练解开音频与视频的纠缠，生成出任意面部动画模型[16]，但需要后期对视频进行处理。

2 关键模型技术

讲话人脸合成技术是一种多模态生成技术[17]，一种方言可以理解为语言的一个模态，一段语音、一张图像都可以称为一个模态。音频到视频是一种模态转换，图像到视频是一种模态转换，这种模态的转移方法称为多模态生成，指计算机可以理解和生成不同模态的数据。

2.1 基于GAN的动画生成技术

NVIDIA公司提出的Vid2Vid[8]模型是一种基于图像翻译的视频生成模型，Vid2Vid的工作是对图像提取潜在语义图并使用生成式对抗网络来生成视频。Vid2Vid模型训练了两个生成网络和两个判别网络，生成网络使用图像的光流信息作为图像的光流约束，使生成网络G1能够生成较低分辨图像和光流估计图，然后使用上一时刻图像与光流估计图合并生成扭曲图，最后利用扭曲图和低分辨率图像通过生成网络G2生成高清图像，循环往复生成序列视频帧，合成视频动画。判别网络在视频和图像两种不同粒度需求上对生成的视频帧进行判断，从而拟合模型生成的视频帧的数据分布。Vid2Vid模型结构如下：模型生成的视频帧的数据分布。Vid2Vid模型结构如图1所示。

图1 Vid2Vid模型架构图

模型的序列化生成公式如下：

(1)

公式前半部分是计算上一时刻生成视频帧的扭曲像素，后半部分是生成新的像素。

模型定义的损失函数为：

(2)

其中LI表示图像条件判别网络DI的损失；LV表示视频判别网络DV的损失；LW表示光流图的估计损失；λW表示光流图的估计损失的超参数，λW=5。

(3)

同样的，LV的具体定义如下：

(4)

模型的光流损失LW包含两个部分，一个部分为真实图像与光流图之间的误差，另一个部分是前一视频帧生成的扭曲图到下一生成视频帧之间的损失，公式如下：

(5)

2.2 语音合成讲话人脸动画

语音合成讲话人脸动画的方法是只使用语音作为模型的输入来驱动模型生成视频动画。现如今通过音频驱动3D面部动画的方法已经被广泛的应用，并且可以实现逼真的仿人效果。但是目前没有通过音频直接生成逼真人脸的方法。由Duarte等人提出的Wav2Pix[6]模型，可以生成一个可见的面部人脸动画。首先使用了大量从YouTube收集的博主讲话视频，对这些视频进行音频、面部裁剪，将音频转换成波形文件，重采样16KHz，对视频帧进行人脸检测，以确保图像包含人脸主题。然后通过语音编码器对音频进行特征提取，将提取的特征编码e作为输入来生成图像。其次使用剪裁到的视频帧图像输入到判别网络中，对判别网络进行优化，使模型的生成网络可以生成近似拟合真实的视频帧的数据分布特征。模型架构如图2所示。

图2 Wav2Pix模型架构图

根据Wav2Pix架构图看出，绿色代表音频编码向量，粉色为卷积、反卷积操作，同时音频编码嵌入到判别网络中作为判别网络的条件。Wav2Pix模型使用了LSGAN相关损失，以最小二乘代替了原始GAN中相对熵的评判指标。模型的损失函数为：

(6)

(7)

2.3 语音与图像合成讲话人脸动画

与直接语音生成讲话人脸动画不同的是，添加一个包含身份特征模态的隐变量对于固定生成人脸的主题更加实用，大多数的做法是使用人脸图像作为模型的一个输入，来限制模型生成特定该输入的讲话人脸动画。

由Chuang等人提出的Speech2Vid模型[7]，仅使用音频语音段和目标身份的面部模型来生成讲话人脸视频。该模型通过编码器-解码器结构对音频和图像特征进行提取和还原，生成一个区别于输入图像嘴部运动变化的其他面部动画。模型的结构如图3所示。

图3 Speech2Vid模型架构图

Speech2Vid模型对生成的预测人脸图像和真实的图像使用了L1损失进行约束，公式为：

(8)

3 结语

本文详细介绍了基于生成式对抗网络的讲话人脸合成技术的一些相关研究，然后介绍了三个讲话人脸合成方法，这三个方法都有着典型的生成方法，能为接下来的研究提供重要基础。讲话人脸合成技术发展到目前阶段，仍存在一些技术上的瓶颈，如图像生成质量分辨率较低、输入音频的语义无法精确地跨模态转换为图像的表示。