基于多监督的三维人体姿势与形状预测

2024-01-02 07:52张淑芳赖双意刘嫣然
关键词:人体模型关节点手部

张淑芳,赖双意,刘嫣然

基于多监督的三维人体姿势与形状预测

张淑芳,赖双意,刘嫣然

(天津大学电气自动化与信息工程学院,天津 300072)

三维人体重建技术指通过图像或视频建立有相应姿势和体型的三维人体模型,其在虚拟现实(VR)、网游、虚拟试衣等方面有着十分广泛的应用前景.其中,参数化的三维人体模型由于参数数量的局限,重建精度较低,缺少细节特征.为了提升参数化三维人体模型的重建精度,增加其脸部与手部细节,提出一种基于多监督的三维人体模型重建方法.该方法结合传统的回归方法和优化方法,利用卷积神经网络回归出参数化人体模型的参数,得到一个较为粗糙的人体模型,将该模型作为初始模板进行拟合和迭代优化,将带有脸部和手部的全身密集关节点信息和轮廓信息作为回归网络的2D监督,同时使用迭代优化后的人体模型作为回归网络的3D监督,最终可由一幅图像获得一个多细节、高精度的参数化三维人体模型.定性分析结果表明,该方法为人体拟合过程提供正确的拟合方向,可有效减少非自然姿势的出现,提高三维人体模型重建的准确度.全身密集关节点监督可为模型增加更多手部与脸部的细节,而轮廓监督可减少重建的人体模型与图像中人体的像素级偏差.定量分析表明,该方法在数据集Human3.6M上的平均逐关节位置误差(MPJPE)为59.9mm,较经典方法SPIN减少了4.16%,对关节点进行刚性对齐后模型的平均逐关节位置误差(MPJPE-PA)低至38.2mm,较SPIN减少了7.06%.

三维人体模型重建;多监督;回归方法;优化方法

随着计算机视觉技术和计算机硬件性能的不断提高,基于图像的人体三维模型重建技术得到了前所未有的进展,通过迭代拟合优化或者回归方法可重建出参数化的三维人体模型(如蒙皮多人线性模型[1](skinned multi-person linear model,SMPL)和SCAPE[2]模型),从而达到估计整个人体形状和姿势的目的.其中,基于优化的方法使用给定的SMPL[1]模型作为初始化模板,通过不断拟合输入图像中人的关节点、轮廓、部分分割等2D特征,最终得到较好的拟合结果.Bogo等[3]提出SMPLify方法,使用统一的SMPL模型迭代拟合图像中人体的2D关节点,数次迭代后获得重建的三维人体模型;Pavlakos等[4]对SMPLify方法进行改进,提出了SMPLify-X方法,将2D关节点扩展到带有面部、手部等的全身关节点上,丰富了模型的表达能力.此类方法都以平均姿势模型作为模板,整个拟合过程十分缓慢;而且由于对模板的依赖性较强,对于复杂的人体姿势预估精度较差,会出现不自然的姿势与形状,即实际人体无法做到的姿势,无法很好地适用于复杂姿势下的人体三维重建.Song等[5]利用神经网络来预测每次迭代拟合参数的更新规则,增快了迭代速率,有效改善了拟合方法的精确度和收敛性,但其打破了端到端的学习框架,增加了局部最优化的风险.

基于回归的方法使用2D特征信息作为回归网络的弱监督,如轮廓、关节点[6]、分割信息[7]等,以回归人体模型的重投影与2D信息之间的误差作为整个网络的损失.Kanazawa 等[8]提出人体网格重建(human mesh recovery,HMR)网络,将一张图片输入神经网络直接回归三维人体模型的参数,该方法虽然减少了时间的消耗,倾向于生成合理的人体形状和姿势,但最终得到的模型和原始图片往往不能较好地对齐.Omran等[9]提出NBF(neural body fitting)网络,该网络分为两个阶段:先使用卷积神经网络预测人体分割图,以去除原始RGB图片中光照、外观、服装等信息对于预测SMPL参数的影响;再将分割图输入卷积神经网络回归SMPL模型参数.该方法过于依赖分割图预测的准确度,且受网络自身局限性,在准确度方面达不到现有需求.Zhang等[10]提出了一个金字塔网格对齐反馈(PyMAF)循环策略,给定当前预测的参数,利用特征金字塔,并根据回归网络中的网格图像对齐状态显式校正预测参数,改善了2D图像平面上人体模型网格和图像的对齐度.

尽管上述方法对于三维人体模型重建有一定的效果,但受人体数据集缺乏3D标注的影响,这些方法的重建精度有待提高.SPIN(SMPL optimization in the loop)[11]将回归方法和拟合优化方法进行融合,其核心思想是将回归网络预测的结果作为优化方法的初始值,从而加快了迭代优化的速度和准确性;迭代优化的结果作为网络的一个强先验,两种方法相互辅助形成一个自我改善的循环,使整个算法具有自我提升的能力.SPIN改善了拟合方法速度慢和回归方法精度低的不足,也在一定程度上缓解了人体3D数据集缺乏的问题,但仍然存在模型和图像之间不能较好地对齐,以及缺乏手部和脸部细节的问题.

因此,本文延续回归方法和拟合优化方法相结合的框架,提出一种新的参数化人体模型重建方法,即多监督的人体网格预测(multi-supervision human mesh prediction,MSHMP)模型.该方法基于SMPL-X人体模型,使用2D密集关节点和轮廓作为整个网络的弱监督,既减小了人体模型和标准模型之间的偏差,又增加了手部和脸部的细节信息,提高了三维人体模型的精度;同时本文还将通过回归网络得到的密集关节点人体模型作为拟合过程的初始化模板,经过迭代拟合获得拟合模型,使用拟合模型与回归网络得到的模型之间的3D顶点误差作为网络的强监督,弥补了数据集缺少3D标注的问题.经过对MSHMP网络进行训练,最终可由一幅图像获得多细节、高精度的参数化三维人体模型.该三维人体模型可广泛应用于虚拟试衣、动画建模、医学教学等领域.

1 基于多监督的三维人体模型重建

现有的三维人体模型重建精度较低,缺乏脸部和手部细节,为此本文提出了一种基于多监督的重建方法.方法网络框架如图1所示,分为回归模块和拟合模块,回归模块通过卷积神经网络回归出初始的粗糙人体模型,然后送入拟合模块进行迭代优化,从而生成多细节、高精度的人体模型.

图1 MSHMP网络结构

1.1 人体三维表示

1.2 回归模块

MSHMP方法在回归模块中使用轮廓信息和带有手部和脸部的关节点信息作为回归网络的2D监督,改善了回归模型与图像中人体的像素级偏差,使得参数表征出的人体模型更加贴合图像中的人体,具有更清晰的细节.

图2 MSHMP的回归模块

1.3 拟合模块

式中表示肘部和膝盖.

本文拟合模块带有性别分类器,男性和女性在身材方面具有不同的比例和形状,如果仅使用中性模型对图片进行拟合,将无法满足现实需求,本文方法在拟合过程中能自动识别性别,并按照性别特征的不同,使用不同性别的人体模型进行迭代拟合,使得最终优化出来的模型更具有真实性.与SMPLify-X方法不同的是,本文使用回归模块获得的人体模型作为拟合模块的输入,这样大大减少了迭代的次数,加快了迭代优化过程的速度,而且缓解了因姿势复杂等情况造成的模型难以收敛的问题.

经过一定程度的回归和优化之后,将获得与图像中人体姿势和形状更加贴合、面部和手部细节更加清晰的三维人体模型.本文只保留最好的三维拟合模型,具体方法是:每获得一个新拟合的三维人体模型,都比较新模型和原本保留的三维人体模型的关节2D重投影损失判断是否对唯一保留的模型进行更新,从而消除偶尔的错误拟合对回归过程的影响,在一次回归过程中将此优化迭代60次的结果作为反馈.

2 实验结果与分析

2.1 数据集及量化指标

本文使用Human3.6M[15]、MPI-INF-3DHP[16]和LSP[17]数据集进行训练,使用Human3.6M、COCO[18]数据集进行测试.这些数据集涵盖了人在受限的室内场景和复杂的室外场景中运动、生活、娱乐等的不同姿态,数据量十分庞大,共有超过300多万张人体姿势图像,且部分数据具有姿势注释和关节点标注.

本文使用平均逐关节位置误差(mean per joint position error,MPJPE)和通过刚性对齐后的平均逐关节位置误差(MPJPE-PA)两个量化指标来对不同方法的重建性能进行定量分析.其中MPJPE指标表示预测的三维人体模型与真值三维人体模型对应关节点之间的均一化欧氏距离,MPJPE-PA是经过普氏分析(Procrustes analysis)法之后的MPJPE,计算了不考虑平移和旋转情况下的模型重构误差.两个量化指标均用于衡量人体模型姿势的重建精度,值越小则表示预测的三维人体模型越接近真值.

2.2 对比实验

为了验证本文所提方法的性能,在COCO数据集和Human3.6M数据集上将本文方法与目前较为经典的回归方法HMR[8]、拟合方法SMPLify-X[4]和SPIN[11]进行对比实验比较,图像分辨率为224×224.

如图3所示,从左至右分别为原始输入图像、HMR、SMPLify-X、SPIN和本文方法重建的三维人体模型,前3行和后3行分别为Human3.6M数据集和COCO数据集的重建效果.图4分别为图3第4行人体模型头部和第5行人体模型手部放大后的结果.

(a)输入图像 (b)HMR (c)SMPLify-X (d)SPIN (e)本文方法

图3 不同方法的三维人体模型重建效果对比

Fig.3 Comparison of the reconstruction effect of a 3D human body model among different methods

从图3可以看出,通过HMR和SPIN方法获得的三维人体模型与真实的包含人体的输入图像之间有着较大的偏差,并且忽略了细节(例如脸部表情、手部姿势等).本文方法重建出的三维人体模型具有偏差小、细节多的优点,这是由于本文在提取2D特征的过程中,不仅获得了2D人体关键点的信息,而且获得图像中人体的轮廓信息,将两者共同作为网络的二维监督,在改善重建出来的三维人体模型与真实图像中人体之间的偏差方面起到了至关重要的作用.SMPLify-X方法在拟合过程中由于姿势复杂和初始模板单一等原因增加了人体模型产生畸形的风险(如图3(c)和图4(c)),对于复杂姿势有较大的局限性.与此同时,不同于SPIN,本文使用 SMPLify-X应用于拟合的过程,作为整个网络的3D监督,既缓解了3D数据缺乏的难题,又增加了重建模型在手部和脸部上的细节.如图4所示,本文方法重建的三维人体模型在脸部五官上更加清晰,手部的关节点弯曲与更加符合图像中手部姿势.

(a)输入图像 (b)HMR (c)SMPLify-X (d)SPIN (e)本文方法

图4 不同方法的脸部和手部重建细节对比

Fig.4 Comparison of the reconstruction details of the face and hands among different methods

本文将网络回归出的人体模型作为拟合过程中的初始化模型,有效缩短了拟合优化的时间.以平均模板作为拟合过程初始化模型的SMPLify-X方法的拟合时间约为260.54s,本文方法的拟合时间约为15.21s,重建速度提升超过10倍,有明显的加速模型收敛的优势.本文在数据集Human3.6M上进行了定量分析,如表1所示,本文方法的MPJPE-PA指标为38.2mm,较SPIN下降了7.06%,MPJPE指标为59.9mm,较SPIN下降了4.16%.

表1 不同三维人体模型重建方法的定量比较

Tab.1 Quantitative comparison among different recon-struction methods for the 3D human body model mm

2.3 消融实验

为了验证本文方法的可行性、有效性和对于三维人体模型重建的意义,本文设计了两组消融实验:在拟合优化的过程中有/没有使用SMPLify-X方法;在2D监督中有/没有使用轮廓信息.

首先,验证本文所提方法在拟合过程中使用SMPLify-X方法对于重建模型的手部和脸部的影响.图5为三维人体模型整体效果,图6为图5第1行脸部和手部放大后的效果.其中图6(b)为本文方法未使用SMPLify-X方法的情况下重建的三维人体模型,其面部细节较粗糙,双手均为五指张开状,手指无法弯曲,无法准确地重建手部姿势;图6(c)为使用SMPLify-X方法的情况下重建的三维人体模型,该模型有着十分明显的五官,手部细节上也更加贴合图像中人体的手部姿势,表现出更好的效果.由此可知使用SMPLify-X方法进行拟合对于局部细节的重建有十分优越的表现.

将未使用SMPLify-X的本文方法与使用SMPLify-X的本文方法在Human3.6M数据集进行定量地比较,如表2所示.定量分析可知,使用SMPLify-X方法进行拟合优化的比未使用SMPLify- X方法在MPJPE指标上降低了1.16%;在MPJPE-PA指标上降低了2.30%.数据表明将SMPLify-X方法作为拟合过程不仅提高了手部和脸部细节上视觉效果,而且对于三维人体模型的重建精度也有一定的改善.

(a)输入图像(b)未使用SMPLify-X (c)使用SMPLify-X

图5 使用/未使用SMPLify-X方法的比较

Fig.5 Comparison of the results with and without SMPLify-X method

(a)输入图像(b)未使用SMPLify-X (c)使用SMPLify-X

图6 使用/未使用SMPLify-X方法的脸部和手部重建细节比较

Fig.6 Comparison of the reconstruction details of the face and hands with and without SMPLify-X method

表2 使用/未使用SMPLify-X的本文方法定量比较

Tab.2 Quantitative comparison of the proposed method with and without SMPLify-X mm

其次,验证加入轮廓信息作为监督对减小重建的模型与图像中人体的偏差的影响,其他实验设置均按本文方法进行设置.如图7所示,图7(b)未使用轮廓信息,重建的模型在人体的手部和腿部与图像中的人体无法对齐,且未对齐区域较大(如图中黄色方框所示);而图7(c)中使用轮廓信息进行监督,重建的人体模型姿势和体型偏差得到了明显改善(如图中绿色方框所示),人体模型网格与图像的对齐度更高.

(a)输入图像 (b)未使用轮廓信息 (c)使用轮廓信息

图7 加入/未加入轮廓信息的比较

Fig.7 Comparison of the results with and without sil-houette information

将未加入轮廓信息的本文方法与加入轮廓信息的本文方法在Human3.6M数据集进行定量的比较,如表3所示.加入轮廓信息后网络的MPJPE-PA指标由39.7mm降至38.2mm,MPJPE指标也由60.8mm降至59.9mm,重建精度有所提高.

表3 加入/未加入轮廓信息的本文方法的定量比较

Tab.3 Quantitative comparison of the proposed method with and without silhouette information mm

3 结 语

本文对基于参数化模板的三维人体模型重建方法进行了研究,针对直接回归方法存在精确度较差、拟合方法存在拟合时间长和受初始化模板影响大的不足,本文将两种方法进行融合,将回归的人体模型作为拟合过程的初始模板,拟合的SMPL-X模型作为回归网络的3D监督,并且在2D监督的关节点损失中使用密集关节点,缩短了拟合时间,提高了重建的准确度,为模型增加了手部和脸部的细节.另外,本文在回归网络中加入了轮廓损失,从而减少最终的模型与真实图像中人体之间的偏差.实验结果表明本文所提方法具有较好的可行性和有效性.

目前基于Transformer方法[19]重建效果优于卷积神经网络,但Transformer神经网络数据量庞大,对硬件设备要求较高,未来会考虑将Transformer神经网络与卷积神经网络进行结合,进一步提高三维人体模型的重建精度,而且使其更加便于应用到实际之中.

[1] Loper M,Mahmood N,Romero J,et al. SMPL:A skinned multi-person linear model[J]. ACM Transactions on Graphics(TOG),2015,34(6):1-16.

[2] Anguelov D,Srinivasan P,Koller D,et al. Scape:Shape completion and animation of people[C]//ACM SIGGRAPH 2005 Conference. Los Angeles,USA,2005:408-416.

[3] Bogo F,Kanazawa A,Lassner C,et al. Keep it SMPL:Automatic estimation of 3D human pose and shape from a single image[C]// European Conference on Computer Vision. Amsterdam,the Netherlands,2016:561-578.

[4] Pavlakos G,Choutas V,Ghorbani N,et al. Expressive body capture:3D hands,face,and body from a single image[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:10975-10985.

[5] Song J,Chen X,Hilliges O. Human body model fitting by learned gradient descent[C]// European Conference on Computer Vision. Glasgow,UK,2020:744-760.

[6] Moon G,Lee K M. I2l-meshnet:Image-to-lixel prediction network for accurate 3D human pose and mesh estimation from a single RGB image[C]// European Conference on Computer Vision. Glasgow,UK,2020:752-768.

[7] Rueegg N,Lassner C,Black M,et al. Chained representation cycling:Learning to estimate 3D human pose and shape by cycling between representations[C]//Pro-ceedings of the AAAI Conference on Artificial Intelligence. New York,USA,2020:5561-5569.

[8] Kanazawa A,Black M J,Jacobs D W,et al. End-to-end recovery of human shape and pose[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7122-7131.

[9] Omran M,Lassner C,Pons-Moll G,et al. Neural body fitting:Unifying deep learning and model based human pose and shape estimation[C]//2018 International Conference on 3D Vision(3DV). Verona,Italy,2018:484-494.

[10] Zhang H,Tian Y,Zhou X,et al. PYMAF:3D human pose and shape regression with pyramidal mesh alignment feedback loop[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal,Canada,2021:11446-11456.

[11] Kolotouros N,Pavlakos G,Black M J,et al. Learning to reconstruct 3D human pose and shape via model-fitting in the loop[C]//Proceedings of the IEEE/CVF Interna-tional Conference on Computer Vision. Seoul,Republic of Korea,2019:2252-2261.

[12] Cao Z,Simon T,Wei S E,et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:7291-7299.

[13] Gong K,Gao Y,Liang X,et al. Graphonomy:Universal human parsing via graph transfer learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:7450-7459.

[14] Zhou Y,Barnes C,Lu J,et al. On the continuity of rotation representations in neural networks[C]//Proceed-ings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:5745-5753.

[15] Ionescu C,Papava D,Olaru V,et al. Human3.6M:Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,36(7):1325-1339.

[16] Mehta D,Rhodin H,Casas D,et al. Monocular 3D human pose estimation in the wild using improved CNN supervision[C]//2017 International Conference on 3D Vision(3DV). Qingdao,China,2017:506-516.

[17] Johnson S,Everingham M. Clustered pose and nonlin-ear appearance models for human pose estimation [C]//Proceedings of the British Machine Vision Conference. Wales,UK,2010:1-11.

[18] Lin T Y,Maire M,Belongie S,et al. Microsoft coco:Common objects in context[C]//European Con-ference on Computer Vision. Zurich,Switzerland,2014:740-755.

[19] Lin K,Wang L,Liu Z. Mesh graphormer[C]//Pro-ceedings of the IEEE/CVF International Conference on Computer Vision. Montreal,Canada,2021:12939-12948.

Prediction of 3D Human Pose and Shape Based on Multi-Supervision

Zhang Shufang,Lai Shuangyi,Liu Yanran

(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

The three-dimensional(3D)human reconstruction technology refers to the establishment of 3D human body model with corresponding pose and shape through images or videos,which has a wide application prospects in virtual reality,online games,virtual try-on,etc. Among them,the parametric 3D human body model has low reconstruction accuracy and lacks detailed features due to the limited number of parameters. To improve the reconstruction accuracy of the parametric 3D human body model and add details to the face and hands of the model,a novel human body model reconstruction method based on multi-supervision is proposed. This method combines the traditional regression method and optimization methods and uses a convolutional neural network to regress the parameters of a coarse parametric human body model,which is used as an initial template for fitting and iterative optimization. The dense joints of the whole body with the face and hands and silhouette information are used as a 2D supervision of the regression network,and the iteratively optimized model is used as a 3D supervision of the regression network. Finally,a multi-detail and high-precision parametric 3D human-body model can be obtained from a single image. In the qualitative analyses,the proposed method provides a correct direction for the human body fitting process,which can reduce the appearance of unnatural poses and improve the accuracy of the reconstructed 3D human body model. The supervision of the whole-body dense joints can add more details to the face and hands of the human body model,while the silhouette information can reduce the pixel-level deviation of the reconstructed human body model from the human body in the image. Meanwhile,quantitative analyses show that the mean per joint position error(MPJPE)of the method on the Human3.6M dataset is 59.9mm,which is 4.16% lower than that of the classical method skinned multiperson linear(SMPL) model,and the MPJPE after the Procrustes analysis is as low as 38.2mm,which is 7.06% lower than that of SPIN.

3D human body model reconstruction;multi-supervision;regression method;optimization method

TP37

A

0493-2137(2024)02-0147-08

10.11784/tdxbz202211011

2022-11-05;

2023-02-27

张淑芳(1979— ),女,博士,副教授,shufangzhang@tju.edu.cn.

刘嫣然,yan_ran_liu@163.com.

天津市研究生科研创新资助项目.

Tianjin Research Innovation Project for Postgraduate Students.

(责任编辑:孙立华)

猜你喜欢
人体模型关节点手部
手部皮肤软组织缺损修复的皮瓣选择
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
搞好新形势下军营美术活动需把握的关节点
RGBD人体行为识别中的自适应特征选择方法
基于乘员体型的车辆安全性研究
Family makes 45—foot icicle in front yard
两种皮瓣修复手部软组织缺损的比较
体验创新:3D人体扫描仪测三围
发生于手部的硬下疳一例