融合注意力机制的高分辨人脸识别图像重建

2022-02-14 12:41胡正平潘佩云崔紫微赵梦瑶

信号处理 2022年1期

胡正平潘佩云崔紫微赵梦瑶毕帅

（1.燕山大学信息科学与工程学院，河北秦皇岛 066004；2.燕山大学河北省信息传输与信号处理重点实验室，河北秦皇岛 066004）

1 引言

随着深度学习技术不断成熟，深度模型在人脸识别［1］领域有较好的应用，这些人脸识别模型大多利用较高分辨率人脸图像进行训练，因此对于较高分辨率人脸具有鲁棒性。然而现实世界中因拍摄设备、拍摄环境等原因，采集到的图像会出现分辨率较低的情况。同时对于一些为节省资源而使用成本低的监控设备场所，其获取的画面分辨率可能会较低。针对这类图像，深度学习模型的识别效果不理想，因此如何在补全丢失特征信息的基础上，将低分辨率（Low-Resolution，LR）人脸重建［2］到高分辨率（High-Resolution，HR）人脸，这对开放环境下展开后续人脸识别工作有重大研究意义。

针对LR 图像重建研究，重建方法主要分三大类：基于插值［3］、基于重建［4］和基于学习［5］。基于插值［3］重建方法主要依据像素间线性关系，通过计算得到插值点的像素值，该方法重建图像相对平滑，对图像细节表达不到位，图像边缘不清晰。基于重建［4］算法主要根据低分辨率图像整体特征以及同场景下的不同信息，通过利用数学知识实现对重建图像的约束，从而完成重建高分辨率图像工作，该方法计算量大并且不易控制重建图像精度。基于学习［5］重建算法可根据构造LR-HR 图像对，通过学习两者间的特征分布来约束重建高分辨率图像，该方法可在网络训练过程中学习到不同层次的图像特征，建立LR 图像与HR 图像间映射关系，从而完成对LR 图像重建工作。该方法通过与深度学习结合，在图像重建上有较多应用。

生成对抗网络（Generative Adversarial Network，GAN）凭着其自身可通过对抗学习完成图像生成、数据扩增等特性，在图像重建方面得到关注。2016年，Radford等人［6］提出无监督表示学习的深度卷积生成对抗网络（Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks，DCGAN）模型。该模型将卷积神经网络和GAN网络进行结合，经过在不同数据上训练，模型能较好提取图像特征，同时GAN网络训练的稳定性得到提升，可以完成图像生成工作。然而面对复杂的重建工作时，需要增加网络层数才能学习到更多有效特征信息，研究表明增加网络层数可获得更好重建效果，但同时计算量也随之增加，并且复杂的网络容易出现训练梯度消失或者梯度爆炸。He等人［7］提出残差思想，在网络结构上采用Skip Connection 连接，通过累加特征图来解决梯度爆炸、消失等问题。Ledig 等人［8］提出SRGAN（Super-Resolution Using a Generative Adversarial Network）网络模型，利用残差块代替简单卷积网络，使得网络训练容易达到收敛状态，且不易出现梯度消失。2018年，Wang等人［9］在SRGAN基础上提出ESRGAN（Enhanced Super-Resolution Generative Adversarial Networks）网络结构，该结构使用残差密集块（Residual Dense Block，RDB）作为生成网络的主体，在图像重建上达到不错效果，但其生成的图像存在伪影，同时在LR人脸重建问题上容易出现重建人脸与原有人脸结构不匹配的问题。同年，Kossaifi等人［10］提出GAGAN（Geometry-Aware Generative Adversarial Networks）模型，在算法中融入人脸几何结构设想，使整个网络在训练过程中具有较好的人脸生成效果。然而上述模型在重建人脸图像时忽略LR图像携带的特有身份信息，而身份信息保留在后续人脸识别工作中体现价值。为保证重建过程中人脸身份信息的保留，2019 年Hsu 等人［11］提出的Si-GAN 模型，在DCGAN［6］基本网络框架上采用双生成器结构，对输入LR 图像对进行简单标记，当输入图像对来自同一类则标记为“1”，反之标记为“0”。这一操作使得重建过程中相同类图像的特征距离更小，不同类图像间特征距离更大，不仅解决超低分辨率条件下低分辨率人脸重建问题，还在重建过程中保持人脸身份信息，这对后续利用深度模型对重建人脸进行识别具备优势。综上，文献［6，8-11］在LR图像重建上均有不错效果，但这些模型都存在着对各通道特征同等处理，缺乏处理不同类型信息灵活性的问题。在模型初始训练中，卷积更偏向对局部依赖关系和局部接受域进行建模，当网络达到一定深度时卷积才能建立全局依赖关系［12］，而一些全局特征信息在卷积学习过程中会存在丢失问题。而文献［12-14］表明注意力机制在建模全局依赖关系［12-13］以及降低无关图像域特征信息［14］表现出良好性能。因此注意力机制在图像重建中的应用对于提升重建图像的质量可起到增进作用。其中文献［12］将注意力机制与GAN 网络结合，形成模型SAGAN（Self-Attention GAN），该模型可以根据全局特征生成图像细节。2018年，Kastaniotis等人［15］在注意力框架基础上，提出ATA-GANs（Attention-Aware Generative Adversarial Networks）模型，该方法进一步提升重建图像细节精度。

受已有文献的启发：将注意机制与对抗学习模型相结合，本文提出融合注意力机制的高分辨率人脸识别图像重建模型。通过在不同位置残差块网络结构后添加注意力模块，作为对浅层卷积偏重局部关系学习的补充，使得网络在建立全局依赖关系以及学习有利重建人脸特征信息上有更好性能。鉴别器在全卷积神经网络基础上添加注意力模块，达到对全局人脸结构更好几何约束，鉴别过程中更好区分真假人脸图像的目的。最终生成器在与鉴别器进行不断迭代优化训练过程中，重建出人脸特征更加完善、视觉效果更加清晰的HR人脸图像。

2 融合注意力机制的高分辨率人脸识别图像重建模型

融合注意力机制的高分辨率人脸识别图像重建模型框图如图1所示。模型由两个生成器和一个鉴别器组成。生成器由残差块、注意力模块、上采样模块以及若干个卷积层构成。鉴别器由若干个卷积层嵌套注意力模块组成。

2.1 残差模块

残差网络（Residual Block Network，ResNet）［7］可以解决当神经网络较深时，在反向传播过程中出现梯度爆炸、梯度消失的问题。同时，残差网中Skip Connection 能起到信息补充作用，可减少训练过程中信息丢失情况。其网络结构由一系列残差块构成，常见残差块结构如图2所示。

图2（a）残差块可表示成：xi+1=xi+F(xi，wi)，其中xi表示输入，xi+1表示输出。F(xi，wi)代表残差映射，对应图2（a）左边一系列操作，该操作一般由二到三个卷积层构成。xi对应图2（a）右边曲线操作称为直接映射。实际操作中，xi和xi+1的特征图数量有可能不一致，这时需采用图2（b）所示的残差块结构。此时xi+1=h(xi)+F(xi，wi)，其中h(xi)=Wi·xi，Wi表示对输入进行1×1 卷积操作。当网络训练达到一定精度时，网络学习目标转变为恒等映射学习，即使输入xi近似于输出xi+1，以此来保证在后面训练中网络性能不会下降。

2.2 注意力模块

注意力机制［16-17］赋予模型在训练时能区分信息的重要程度，并根据训练需要聚焦于图像特征中相关较大的部分。研究者们将注意力机制运用到神经网络，类似人类视觉选择机制，注意力机制会使其在提取输入样本特征时有针对性选择，对有利网络模型训练的特征分配较高权重，对不影响网络模型性能甚至是不利网络训练的特征分配较低权重。

综上，注意力机制可学习到更利于模型训练的特征信息。因此，本文将注意力机制引入模型训练。注意力模块框架如图3 所示。x∈RC*N*N是第i层输入图像特征图，C代表通道数，N代表图像分辨率。为计算注意力和注意力特征图，首先将x转换到特征空间f，g，h。f(x)和g(x)后续矩阵相乘以及Softmax操作如公式（1），公式（2）所示。

βji表示在合成第j个区域时，第i个位置的参与程度。如图3所示，注意力模块最终输出可表示为：o=(o1，o2，…，oj，…，oN)∈RC×N。其中oj定义如下：

上述公式中提到的f(x)、g(x)、h(xi)、v(xi)可分别表示为f(x)=Wfx，g(x)=Wgx，h(xi)=Whxi，v(xi)=Wvxi其中均代表学习权重矩阵，实验中C1=C/8。注意力模块进一步将注意力层输出乘以比例参数，然后加回输入要素图。所以注意力模块最终输出为：yi=λoi+xi，这里λ∈[0，1]是需要学习的标量，并将其初始化为0，训练过程中再逐渐增大权重。

2.3 融合注意力机制的生成对抗网络

如何学习获取真实样本高维特征分布，以重建出与真实样本难以区分的伪样本，这在图像重建方面有重要意义。2014 年，Goodfellow 等人［18］首次提出生成对抗网络（Generative Adversarial Networks，GANs）模型，该模型可能在对抗训练过程中逐渐学习到真实样本的高维特征分布，进而生成伪样本。其基本结构如图4 所示，主要由生成器（Generator，G）和鉴别器（Discriminator，D）组成。GAN原理源于博弈中二人“零和博弈”思想。

在训练生成对抗网络整个过程中，优化目标函数如公式（4）所示。

其中Pdata(x)、Pz(z)分别代表真实数据x的概率分布和噪声数据z的概率分布。鉴别器D 输出对输入数据的判别结果，网络训练最终目的是正确判断数据来源，即当输入数据来自真实数据时，输出D(x)尽可能趋向于1，相反则为0。因此训练鉴别器过程中需不断调参使得D(x)尽可能大，D(G(z))尽可能小。而训练生成器G 时，就需要Pz(z)尽量与Pdata(x)做到同分布，因此要保证D(G(z))尽量大。

2.3.1 融合注意力机制的生成网络

融合注意力机制的生成器网络结构如图5 所示。网络使用残差块、注意力模块、上采样以及3×3卷积模块堆叠而成，在第二层残差块和第五层残差块的末端添加注意力模块，目的是用来弥补浅层卷积偏向局部依赖关系建模而缺乏对全局信息学习的不足。同时注意力模块能在不断学习过程中对利于人脸重建的特征信息分配高权重值，对不利于重建的特征信息分配低权重值。

2.3.2 融合注意力机制的鉴别网络

融合注意力机制的鉴别器网络结构如图6 所示，鉴别器是由若干个卷积层构成，将注意力模块引入鉴别器中，利用注意力模块作为不同卷积层连接，将人脸特征图传递给下层网络。鉴别器的最终输出是标准化数值，该数值用来表示判别输入HR人脸图像的真假，真为“1”假为“0”。

3 模型训练和优化

鉴别器优化过程即为最小化交叉熵值过程，鉴别器损失函数如公式（5）所示。

因此GAN 网络训练中，总的对抗损失函数和文献［18］中相似，如公式（7）中的描述。

此外在训练中，为使生成样本更加逼真，模型还添加内容损失Lc。对于给定真实输入HR 人脸图像对，如果二者是同一身份则身份标签s设置为1，二者来自不同身份则身份标签s 设置为0。内容损失Lc定义为：

两张图片越相似，两者特征信息就越接近，其特征距离值也就越小。Ew中使用特征间L1-范数，用来描述图像间的相似性。Lb用来确保不同身份人脸图像的特征间距离大于预定边界阈值y，即确保不同身份人脸图像的距离越来越大。同时LG用来确保相同身份人脸图像的特征距离尽可能小。

综上，整体网络训练最终可转换成公式（12）描述的最小-最大优化问题，其中D、G 分别代表鉴别器和生成器，LGAN表示对抗损失，Lc代表内容损失，LAGAN(D，G)表示总损失函数。三者间关系为LAGAN=LGAN+Lc。

4 实验仿真

实验在三个数据集CASIA-WebFace、CelebA 和LFW 上进行。CASIA 数据集包含494414 张人脸图像，他们来自于10575个不同人脸对象，包含各种形态人脸，比如：正面、侧面、不同光照、戴眼镜等。为保证模型对人脸形态具有鲁棒性，实验随机选取491131 张人脸子集作为训练集，该子集中人脸图像具有丰富形态，部分人脸图像如图7 所示。CelebA和LFW 数据集分别来自名人人脸图像和自然生活中的人脸图像，这两个数据中包含各式各样人脸，且两数据集数据分布各不相同。

实验在CASIA 数据集上进行生成对抗训练，在3283 张CASIA 人脸子集，以及1000 张随机抽取的CelebA和LFW 数据集上完成模型测试。对于数据，首先将其进行随机组合，根据其存储路径生成TXT文本文件，以此作为网络中输入图片的读取路径。该文件中每行的信息除两张人脸图像的存储路径外，还有相应的身份标签。当两张人脸属于同一个身份的标签为“1”，属于不同身份的标签为“0”。8×8 图像进行4 倍重建时，批处理大小设置为64，学习率最初设置为0.0002，当迭代到5000 次时，学习率变化成原有的1/2。不同于8×8 重建实验，在16×16 重建实验中，批处理设置为8，学习率初始化为0.0001。优化器Adam 设置如下：beta1=0.5，beta2=0.999，epsilon=1e-8。为验证本模型的有效性，实验与SiGAN［11］的两种结构以及双三次插值方法进行对比，并采用峰值信噪比（PSNR）、结构相似度（SSIM），这两个指标衡量网络模型性能。

4.1 CASIA数据集

在CASIA 数据集中进行两个实验，第一组实验分别在8×8 分辨率LR 人脸图像和16×16 分辨率LR人脸图像上进行，利用融合注意力机制的生成对抗网络重建方法，分别进行4倍人脸重建，并与双三次插值法、SiGAN（densenet）［11］、SiGAN（resnet）［11］进行对比。

从CASIA 中选取5 个身份，不同重建方法的主观视觉比较如图8 所示，从左至右依次代表LR、Bicubic、SiGAN（densenet）［11］、SiGAN（resnet）［11］、Ours、HR 图像。图8（a）表示8×8 分辨率人脸重建至32×32 分辨率人脸效果图，图8（b）表示16×16 分辨率人脸重建至64×64 分辨率人脸效果图。根据图8发现，传统插值法Bicubic重建人脸效果过于平滑模糊。SiGAN（densenet）［11］方法重建人脸效果比较接近真实HR图像但存在伪影。SiGAN（resnet）［11］方法在脸部细节处重建存在不足，如图8（a）中第二行第四列以及第五行第四列显示。对比发现本实验重建效果略好于上述方法，尤其在细节方面，本实验方法更贴合原HR图像。

从客观角度看，重建图像与真实HR 图像间的PSNR 和SSIM 测试结果如表1 所示。根据表1 中数据发现，与其他方法相比，在8×8 分辨率LR 人脸重建上，模型PSNR 达到23.44dB，SSIM 达到0.718，数据表明本实验方法无论在图像清晰度，还是结构相似度上均略高于其他方法。在16×16 分辨率LR 人脸重建上，模型PSNR 达到24.32dB，SSIM 达到0.738。本实验方法在结构相似度上均略高于其他方法，从清晰度分析SiGAN（resnet）［11］方法重建图像最为清晰。

表1 CASIA数据集上不同方法重建HR人脸的PSNR和SSIM比较Tab.1 Comparison of PSNR and SSIM of different methods to restore HR face on CASIA dataset

在CASIA 数据集中进行第二组识别实验，首先随机挑选出668 类身份信息人脸共包含图像136835 张人脸图像。为利于识别工作展开，选取的这些身份人脸每一类中包含人脸图像均大于120 张。实验利用经典稀疏表示分类（Sparse representation-based classifier，SRC）方法，对3282 张测试人脸图像进行实验。实验识别率测试结果如表2 所示。根据表2 数据显示，本文方法重建后的人脸，在识别准确率上有所提升。

表2 不同方法重建的HR人脸识别性能的比较Tab.2 Comparison of HR face recognition performance reconstructed by different methods

由CASIA 数据集中两组实验可知，将注意力模块引入生成对抗网络，可有效提升网络性能。此外在提升重建HR 人脸视觉质量的同时，在人脸原有特征，特别是身份特征上有保留优势，该优势在识别工作上，使用Ours方法重建的人脸识别率均大于其他重建方法识别率。

4.2 LFW和CelebA数据集

实验还在LFW 和CelebA 这两个人脸数据集中进行测试，从LFW和CelebA两个数据集中随机抽取1000张图像作为测试图像。实验所用预训练模型均和4.1节中采用的模型一致。在LFW和CelebA这两个人脸数据集中进行两个实验，来验证本文训练模型的有效性和通用性。第一组实验中，对1000张LR人脸输入进行重建工作，并计算PSNR、SSIM。

从主观角度看，随机选取6个不同身份的人脸图像，他们在不同重建方法下的重建结果如图9所示，从左至右依次代表LR、Bicubic、SiGAN（densenet）［11］、SiGAN（resnet）［11］、Ours、HR图像。根据图9发现，本实验方法在视觉效果上略好于其他方法，在细节方面，本实验方法与原HR图像更为相近。

从客观角度来讲，由表3 中数据可得，在8×8 分辨率LR 人脸重建上，本实验模型PSNR 达到20.59 dB，SSIM 达到0.552，数据表明本实验方法无论在图像清晰度，还是结构相似度上均略高于其他方法。在16×16 分辨率LR 人脸重建上，模型PSNR达到22.74 dB，SSIM 达到0.666。本实验方法在结构相似度上均略高于其他方法，从清晰度分析Si-GAN（resnet）［11］方法重建图像最为清晰。

表3 CelebA、LFW数据集上不同方法重建HR人脸的PSNR和SSIM比较Tab.3 Comparison of PSNR and SSIM of different methods to restore HR face on CelebA and LFW dataset

在LFW 和CelebA 混合数据集中进行第二组实验，利用VGG16 网络模型［19］pool5 层输出，计算重建高分辨率人脸图像和真实高分辨率人脸图像间特征距离（DVGG）。DVGG计算特征空间中L2-范数距离，数值越小代表图像间特征更相似，进而说明重建图像保持原有图像的身份信息。实验结果如表4所示。

表4 CelebA、LFW数据集上不同方法重建HR人脸的特征距离（DVGG）比较Tab.4 Compare the feature distance（DVGG）of HR faces with different methods on CelebA and LFW datasets

由LFW 和CelebA 这两个人脸数据集中的实验得出与CASIA数据集实验类似的结果。但由于LFW和CelebA 数据集与CASIA 数据集之间数据分布规律不同，因此在LFW和CelebA数据集两个数据上的PSNR、SSIM 比在CASIA 数据集中表现略弱，但本文方法依然有较好低分辨率人脸重建效果。特征距离结果表明其在人脸身份保持上也具有一定体现。

5 结论

针对现有人脸处理模型对低分辨率人脸适用性的不足，以及由于拍摄设备及拍摄环境等因素造成采集图像存在分辨率低的问题，本文提出融合注意力机制的高分辨率人脸识别图像重建模型。在残差块堆叠网络结构中添加注意力模块，其中残差块可有效防止训练过程中出现梯度消失等现象，并且Skip Connection结构可对下级网络输入信息进行补充，以减少特征传输过程中信息丢失。注意力机制作为网络间相互连接的子模块，可有效弥补浅层卷积偏向局部依赖关系建模而缺乏对全局信息学习的不足，同时能针对性学习到更利于人脸重建的特征信息。实验表明，该人脸重建算法能重建出视觉效果相对较好的图像，同时重建图像可保留人脸身份信息。