多视图三维人脸重建方法综述

2023-11-12 15:16北方工业大学信息学院童立靖张豪杰

数字技术与应用 2023年10期

北方工业大学信息学院童立靖张豪杰

在现实生活中，人脸蕴含了个体丰富的信息，在视觉感知中占有非常重要的地位，因此人脸在三维重建中是一个非常重要的对象，具有广泛的应用前景。三维人脸重建具有很高的研究价值和意义。目前有关三维人脸重建的研究大多是针对单张人脸图像，虽然单视图三维人脸重建已经在人脸识别、虚拟现实等领域有了广泛应用，但是它仍然存在很大弊端，比如单张图像重建出的模型准确性和精度不足，但是多张图像却可以提供更多的观测数据，从而可以提高人脸三维模型的精度和准确性。同时当单张图像情况下存在的遮挡、光照变化等因素，重建结果可能存在噪声和误差，而多张图像可以通过多个视角的信息进行校正和补充，从而减少这些噪声和误差。因此本文主要讨论多视图三维人脸重建问题，将目前的研究工作按照使用的技术分为两类：第一类工作是基于传统方法的多视图三维人脸重建；第二类工作是基于深度学习的多视图三维人脸重建。最后对多视图三维人脸重建存在的主要挑战以及未来的发展趋势进行阐述。

1 基于传统方法的多视图三维人脸重建

多视图三维人脸重建是一项十分具有挑战性的任务，如图1 所示给出了本文列举的多视图三维人脸重建方法的时间节点等相关信息。其中，基于传统方法的多视图三维人脸重建主要是利用几何学的方法，如三角剖分等，对多张图像进行处理，通过计算相机姿态、纹理映射等过程，重建出三维人脸模型。下面是基于传统方法的多视图三维人脸重建基本流程：

首先是多张图像的获取：通过摄像机或者其他成像设备获取目标人脸的多张图像；其次是进行特征点检测与匹配：于每个视角的人脸图像中检测出关键的特征点，并将这些特征点进行匹配，以便在后续的三维重建过程中使用。通过对每个相机进行标定，得到相机内参和外参。利用三角剖分和网格重建等技术，将多个视角的特征点匹配到三维空间中，得到三维人脸模型。将人脸图像映射到三维人脸模型上，得到带有纹理信息的三维人脸模型；最后对三维人脸模型进行优化，例如平滑处理、形状调整等。

基于传统方法的多视图三维人脸重建在三维人脸重建的发展中提供了多种办法，解决了许多难题。比如为了从多张图像上重建出带有高精度几何细节的三维人脸模型，蔡麟[1]等人采用了一种多阶段优化的方式，将整个重建过程分为三个阶段，实现从粗糙到精细的三维人脸模型重建过程。

为了创建出高分辨率面部几何图形，Ghosh A[2]等人提出了一种使用偏振球面梯度照明从多个视点获取具有高分辨率漫反射和镜面光度信息的详细面部几何形状的新过程。实现了多张图像在给定的球面照明条件下，仅从两张人脸图像中进行漫反射分离。在摄像机前使用固定线性偏振器，从而能够从多个图像上有效地获取漫反射、镜面反照率和法线贴图。将这些反照率和法线贴图用作一种新颖的多分辨率自适应域消息传递立体重建算法的输入，以创建高分辨率面部几何图形。

虽然传统方法存在着很多的不足，但其促使了基于深度学习的多视图三维人脸重建方法的出现，为后来的研究提供了基础和启示，在三维人脸重建技术的发展历程中具有重要的意义。

2 基于深度学习的多视图三维人脸重建

基于深度学习的多视图三维人脸重建主要是使用卷积神经网络（CNN）等方法进行三维人脸模型的重建，从而可以去更好地处理遮挡和光照变化等带来的许多问题。下面是基于深度学习的多视图三维人脸重建基本流程：

首先是数据采集：收集多张同一个人的不同角度、表情和光照条件下的图像；其次是进行特征提取：利用卷积神经网络（CNN）等深度学习方法提取图像的特征向量。通过三维人脸建模算法将提取到的特征向量转换为三维人脸模型。将采集到的图像纹理映射到三维人脸模型上。根据光照条件和环境设置对三维人脸模型进行渲染，生成最终的三维人脸重建结果。

近年来，随着计算机视觉和深度学习技术的发展，多视图三维人脸重建技术得到了很大的进展，解决了许多复杂难题。比如，为了更好地关注在重建过程中，对于人脸的关键区域（例如，眼睛、眉毛、鼻子和嘴巴）的重建问题，Weiguang Zhao[3]等人提出了一种新的深度融合MVR（Deep Fusion MVR）模型，DF-MVR 网络结构如图2 所示[3]，并设计了一种具有跳过连接的多视图编码到单解码框架，从多视图图像中提取、整合和补偿深度特征，从而更好地关注人脸关键区域。

图2 DF-MVR 网络结构Fig.2 DF-MVR network structure

为了解决单张图像重建过程中，缺乏可靠3D 约束的问题，Fanzi Wu[4]等人提出了一种利用端到端可训练的卷积神经网络(CNN)从多张图像的输入中回归3DMM 参数的新方法，从而重建出三维人脸。该方法将不同方向的人脸图像之间建立对应关系，将几何约束纳入到网络中。

为了进行精确三维人脸重建，Yu Deng[5]等人提出了一种利用弱监督学习的新方法。该方法分为两个阶段：第一阶段，使用深度神经网络根据单个图像预测三维人脸形状，该网络使用弱监督进行训练，只在训练图像中注释了二维面部标志；第二阶段，使用多视图立体算法利用图像集来改进初始的三维估计，该算法利用图像集中的冗余信息来提高三维重建的准确性。

为了解决不恰当的面部姿势和深度模糊问题，Jiaxiang Shang[6]等人提出了一种利用多视图几何一致性的自监督训练架构，它为人脸姿态和深度估计提供了可靠的约束。其设计了一个令人印象深刻的多视图框架(MGCNet)，MGCNet 体系结构的训练流程如图3 所示[6]，MGCNet利用多视图一致性(包括几何和光度)来约束网络从单一输入产生视图一致的面部几何，这比仅提供2D 信息提供了更好的监督。

图3 MGCNet 体系结构的训练流程图Fig.3 Training flow chart of MGCNet architecture

3 总结与展望

多视图三维人脸重建技术是使用多个人脸图像来构建出一个三维人脸模型的技术。该技术已广泛应用于多个领域，如虚拟现实、人脸识别、医疗、游戏和动画等。但多视图三维人脸重建技术目前还存在一些困难和挑战，比如：（1）数据采集和处理难度：该技术需要使用多个角度和不同表情、姿态的人脸图像，这就需要对大量的数据进行采集和处理。同时，还需要对数据进行预处理、标注和清洗，这些过程都需要耗费大量的人力和时间。（2）复杂场景下的准确度：在复杂的场景下，例如光线、遮挡和动态环境等条件下，该技术的准确度会受到影响，可能无法准确地捕捉到人脸的真实形态和细节信息。（3）计算资源需求：该技术需要使用大量的计算资源和算力，以实现高精度和实时的三维重建，这就需要使用高性能的硬件设备和专业的软件工具。

未来，随着计算机视觉和深度学习技术的快速发展，多视图三维人脸重建技术有望实现更高的精度和效率，其性能会得到进一步提升。该技术将在虚拟现实、人脸识别、医疗、游戏和动画等领域得到更加广泛的应用。

引用

[1] 蔡麟,郭玉东,张举勇.基于多视角的高精度三维人脸重建[J].计算机辅助设计与图形学学报,2020,32(2):305-314.

[2] GHOSH A,FYFFE G,TUNWATTANAPONG B,et al.Multiview Face Capture Using Polarized Spherical Gradient Illumination[J].ACM Transactions on Graphics,2011,30(6):1-10.

[3] ZHAO W,YANG C,YE J,et al.From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion[J].2022.

[4] WU F,BAO L,CHEN Y,et al.MVF-Net:Multi-view 3D Face Morphable Model Regression[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:959-968.

[5] DENG Y,YANG J,XU S,CHEN D,et al.Accurate 3d Face Reconstruction with Weakly-supervised Learning: From Single Image to Image Set[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2019:285-295.

[6] SHANG J,SHEN T,LI S,et al.Self-supervised Monocular 3D Face Reconstruction by Occlusion-aware multi-view Geometry Consistency[C]//European Conference on Computer Vision,2020:53-70.