基于深度学习的单目多人动作捕捉设计

2021-04-26 04:13胡思翔
科学技术创新 2021年10期
关键词:关节点时域校正

胡思翔 孟 伟

(广东工业大学 自动化学院,广东 广州510006)

1 概述

动作捕捉技术在影视行业中的使用比较成熟和普遍,捕捉系统把专业演员的动作数据捕捉下来并做特定处理后,再与影视作品中的角色模型绑定,可以得到三维虚拟动画。目前使用的姿态捕捉系统主要分为传感器捕捉和光学捕捉两大类。前者使用更为成熟,其特点是传输速度快、获得的姿态数据更准确,缺点是成本较高、而且穿戴设备使用起来不太方便。相比之下光学捕捉刚好相反,光学捕捉也有两种:无标记的和有标记的。本文的研究对象是无标记的捕捉系统,即普通的2D 图像或视频作为输入,用目标检测和特征提取的方法来捕捉人体的关节点数据[1]。虽然因其性能不稳定还没有广泛使用,但是其易用性、灵活性和低成本等优势是不应被忽略的。

人体姿态估计是计算机视觉中一个重要且具有挑战性的任务,长久以来都受到关注。近几年国内外的众多学者提出了相当可观的卷积神经网络模型和其他辅助方法来进行人体姿态估计,涵盖了单人到多人,二维到三维,图片到视频[2]。不过人体姿态是一个复杂的非线性模型,环境噪声、遮挡、空间深度歧义性是这一任务的主要阻碍。如果输入对象是视频数据,要输出帧率高、平滑稳定的姿态也是一个难点。现有的方法多是基于图像的三维姿态估计[3],或者是对于单人视频的估计[4]。实际的动作捕捉应用对象很多时候面对的是多人场景,而且角色必须要与虚拟的物理空间有所接触,因此我们提出从视频中的三维多人估计模型,以满足实际需求。

图1 本文提出基于矫正单元的多人动作捕捉网络结构原理图。输入是二维RGB视频,在每秒9 帧的帧率下可以稳定输出三维姿态,经过数据格式变换和绑定,最后可以得到三维动画

三维姿态估计一般分为两种:一种是回归式——直接从二维数据里回归关节点的三维坐标,这要求数据要有三维标注,这往往难以获得。另一种是提升式[5]——先获取二维的姿态,然后在二维的基础上训练一种映射方法提升到三维空间。本文的工作将围绕提升式展开,目前的二维估计方法比较成熟,我们将重点放在三维估计的实现特别是多人目标上。时域卷积充分利用视频流不同时间点的关键信息来推断三维姿态,将人体关键点连接关系看作图结构是实现图卷积的先决条件,然后可以从全局和局部共同提取骨骼的三维关系。之前的方法将重点放在对像素空间的特征学习和大规模数据训练上,没有很好利用人体运动学、空间物理关系、人体拓扑结构等先验信息[6],对于单目三维姿态推测仅仅依靠神经网络的学习是不够的。从一些模型的实际使用中会发现多目标的空间相对位置错误、与地面接触有穿透和腾空、姿态不自然的倾斜和相互遮挡等一些常见问题。因此本文针对上述问题提出在时域图卷积神经网络模型下的校正单元,利用人体运动先验知识辅助网络的训练,提高姿态捕捉的准确性。将输出的三维姿态数据进行格式转换,可以导入到三维动画设计软件中与各种虚拟角色模型绑定,最后实现简便高效的捕捉系统,模型结构设计如图1。

2 多人三维估计网络

目前的单人三维估计和多人二维估计方法比较成熟,而多人三维估计还有诸多挑战。文献[7]提出多视角的方法,虽然有良好的效果,但是需要专门的数据集,而且难以从日常场景中采集数据。本文立足于单目视频数据,以更低成本实现多人动作捕捉。当前时域卷积和图卷积是实现姿态估计的两种重要方法,结合这两种方法的优点也成为了热门的研究方向[8]。真实世界中不同目标距离相机远近各不同,反映在图像中就是目标所占像素不同,因此需要从二维空间里推断多目标的三维分布,本文采用的方法是深度估计,将深度信息反馈到时域图卷积可以实现多人三维估计,这是多人与单人的不同之处。

2.1 时域图卷积

文献[5]提出的时域卷积网络利用姿态在时域上的连续性,从二维姿态输入中进行时域的空洞卷积提升到三维空间。时域卷积源自于RNN 和LSTM,文献[4]避开RNN 网络在时域上不能并行处理,并且在输入与输出之间的梯度长度是固定的,这样对于不同的长度的输入序列都可以稳定训练而不至于梯度消失和爆炸。网络还采用了空洞卷积以获得长时域信息,而不局限于上下两帧。模型对视频中的三维估计效果很好,但不适用于多人情况。从文献[9]和[8]中得到启发,将图卷积应用到时域卷积,能够获取更好的关节点空间信息。骨骼关节点数据形式就是一种图结构,在文献[9]之前的图卷积方法基本都是学习卷积层的权重参数,而对于从二维关键点到三维空间的复杂非线性变换,理解关节点之间的空间关系以及每个关节点对其他关节点的影响是不能忽视的另一个重点。人体骨骼动态是一种非规则的复杂结构,利用图卷积进行三维姿态估计可以克服这一限制,模型同时提取局部和全局姿态信息以适应遮挡情况。局部与全局优化如图2 所示。由于视频流中的人体姿态具有连续性,同时具有局部动态与局部静态以及暂时性遮挡需要同时依赖上下帧的辅助和图卷积对姿态空间的推测,本文提出的网络结构中图卷积与时域卷积是同时进行的。为了适应多人估计,针对时域卷积和图卷积分别做了相应改进。类似于文献[4]的网络结构,构建四个时域卷积模块,每一个由批归一化、残差连接、ReLU 损失函数与随机失活等卷积层组成。每两个时域模块之间有一个图卷积模块,考虑到多人估计的要求,在时域图卷积的基础上结合目标的深度信息,使得多人姿态有真实的空间分布和相对位置关系。

图2 人体姿态局部优化与全局优化结构示意图

2.2 深度估计

文献[10]采用自上而下的方法先检测图像中的所有关键点,然后按照PAF(partaffinityfield)原理将同属一个目标的关节点组合在一起,可以适应视频流的多人二维姿态估计。在人体姿态估计之前,还有一个分支任务——使用MaskRCNN[11]先对视频中人物预先采样,在静止伸展的状态下进行二维姿态估计,以获得每个目标的标准骨骼模型,用于三维姿态估计和校正单元,然后检测视频流中每一帧所有人体目标,输出人物标记与边框。对目标的深度估计是在二维估计关节点坐标和目标检测与边框回归等基础上进行的,对于每个由回归边框分割出的目标,选择骨盆关键点P 为人体基准,根据[12]提出的方法,以针孔相机的成像原理来计算目标到相机的距离。P=(xp,yp,zp),其中Zp表示到相机的距离。仅仅从二维图像估计距离缺乏支持条件,于是设计了一个新的测量尺度k:

其中αx,αy分别表示焦距除以X 轴与Y 轴的距离因子,Areal,Aimg分别表示人体在真实空间(单位:mm2)与图像空间(单位:pixel2)的面积。在给定相机参数情况下,k 用实际空间面积与成像空间面积的比值来近似表示目标到相机的绝对深度。然后根据成像原理可以得到距离d:

3 校正单元

3.1 姿态校正

从单目视频中的三维人体姿态估计,因为多人情况下的相互遮挡/自遮挡、空间歧义性、人物动作快慢变化和环境噪声导致的抖动,直接从姿态估计网络中输出的数据是不准确的,这种错误是分为两个层次的: 一个是关节点坐标输出及其连接为主的姿态本身的错误,另一个是姿态整体在三维空间上的错误。提出的校正单元就是为了系统解决上述问题的。

对于第一种错误,空间歧义性是其最大的障碍,因为一种二维姿态可以由多种三位姿态映射得到。而且人体姿态的不同关键点,其计算复杂度是不同的。头部和躯干容易检测推断,而四肢特别是腕关节、肘关节,膝关节和踝关节是最容易出现歧义的。因此,姿态校正单元分局部和全局两个尺度进行优化,如图2 所示。

三维姿态的歧义性具体表现在关节点的坐标和骨骼的长度与方向上。在第二章中提到,姿态估计之前需要采集每个角色的标准模型,从标准模型的二维姿态输出中主要获取骨骼长度,标准骨长成为优化三维输出的有力参考,这种方法叫做人体测量学[13]。

图3 人体姿态父子关节关联与对称结构图子节点与父节点的关联姿态轨迹空间

根据预先定义的骨骼拓扑结构和标准模型,关节连接限定和轨迹空间的限定(如图3 所示)可以用来优化骨骼方向[14]。

3.2 接触校正

之前的姿态估计方法和基于此的动作捕捉方法主要目的是为了得到更加准确的以关节点空间坐标为核心的姿态数据,他们主要聚焦于人体本身。本文的重点除了姿态准确外,还需要考虑姿态本身在空间中的分布状态是否正确,比如身体某种不自然的倾斜,多个目标之间的相对位置关系,还考虑与地面的接触关系是否正确,比如足部与地面不正常的穿透和腾空。上述问题还没有受到太多关注,但是在实际使用时经常会出现这些问题。与地面的接触校正不仅仅是优化足部关节点坐标,应该把姿态模型看作与真实世界类似的动量体,除了要优化整个姿态与地面的距离,还要考虑足部与地面的作用力关系,因为这种作用力关系是非线性的,无论是与地面的接触距离还是接触状态都不是单一的、固定的,而且人体是非刚体结构,为了避免最终的虚拟角色动作不过于僵硬,需要考虑这些因素。

图4 人体运动学与力学简化模型结构图

在二维姿态估计的同时需要获取初始的地面表示。因为对所有的训练数据标注很困难,此外假设目标所处平面是没有起伏的平坦区域,因此只标注一部分数据,一方面用来获取初始地面,另一方面可以提高校正单元对与地面接触状态的调整。相较于姿态的估计任务,对地面的获取相对简化容易些。足部与地面的接触判断,直接的方式是检查足部关节点坐标与初始地面之间的距离d。而根据动力学分析,地面对人体的作用力大于零时,足部与地面是接触的。如果从二维估计的接触标记输出有误,或者标记正确,但是输出的三维姿态与地面是穿透或腾空状态,此时结合动力学的条件需要对姿态空间位置进行校正。所有的关节点坐标都需要上或下平一个偏移距离△d。

3.3 平衡校正

在与地面接触校正的基础上,进一步提出位姿平衡校正——主要针对人体不自然倾斜。对于人体平衡状态,有静态的更有动态的。静态情况只需要考虑地面支持力与重力的作用,而重点是动态的平衡。人体的每个关节点都会产生动量、加速度、旋转力矩,相互之间还有复杂的作用力,与地面之间除了压力外还有摩擦力,这些合力构成了人体的平衡或者失衡。为了保持姿态平衡,文献[16]提出通过动量计算来控制人体平衡。在这些方法的激励下,本文提出了基于几何的平衡控制法。

结合3.2 对人体质心的预测,采用人体几何学的方法校正人体平衡状态。首先还是判断人体是否失衡,判断的先决条件是当前姿态处于与地面接触状态,暂不考虑本身处于腾空状态的动作。通过下面的模型可以分析人体平衡需要的条件,质心C所处的位置应该在地面对双脚作用力frfl的合力f 的延长线附近,O 是f 与地面的交点。通过对一定数据的测量发现,质心、O与f 形成的夹角θ 在阈值之内,从失衡姿态所得的θ 会明显偏离这个阈值。根据测量,取这个阈值为50。

图5 人体力学分析与平衡矫正

由齐次方程组:

可求得向量k。原关节点到O 点构成的向量为P,其围绕k的单位向量u 旋转 θ后得到新的关节点,设为p':

3.4 损失函数

4 实验与评估

4.1 数据集与评估机制

Human3.6M 数据集是人体姿态估计任务最常用的数据集,它包含了360 万张由动作捕捉系统在室内环境下捕捉到的单人视频帧,有11 位专业动作演员展现15 种日常行为(比如行走、站立、交谈等)可以适应单人姿态估计和相机中心坐标预测任务。根据之前的经验,数据集中的1,5,6,7,8 部分用来训练,9和11 用来测试。MuPoTS-3D 数据集是一个多人三维姿态估计的数据集,包含了室内和室外二十多种场景。视频中每个人的真实3D 动作来自于多视角的无标记捕捉,可以适应以人为中心和以相机为中心的坐标系。MuCo-3DHP 是另一套多人三维估计的数据集,它是通过对MPI-INF-3DHP 3D 单人数据集组合而来。MuPoTS-3D 数据集用来测试,MuCo-3DHP 用来训练。

评估协议——目前有两种评估协议使用较广泛:第一种是计算预测的姿态与真实姿态关节点坐标平均误差(MPJPE),第二种是配准之后的平均误差[18],这种机制被称为PA MPJPE。

4.2 实现过程

本文使用的Mask R-CNN 公开的模型在编码数据集上预先训练,用于目标检测和边框回归。对于时域图卷积网络,它们的主干部分用公开发布的ResNet-50 初始化,ResNet-50 在ImageNet 数据集上预先训练,其余部分的权重用σ=0.001 的高斯分布初始化。权重由Adam 优化器更新,最小批量大小为128。初始学习速率设置为1x10-3,并在第17 轮训练时减小10 倍。使用256×256 大小的输入图像,在训练中进行数据增强,包括旋转(±30°)、水平飞行、颜色抖动和合成遮挡。

姿态估计网络的训练分为两个阶段: 第一阶段使用human3.6M 数据集,每段视频中的第5 帧和第64 帧用来测试,除了human3.6M 数据集,还使用MPII 数据集,每一组训练数据中两种数据集各占一半。第二阶段使用MuCo-3DHP 和MuPoTS-3D 数据集,为了增强数据集,每一批的数据中有一半是COCO 数据。实验使用4 个英伟达1080ti-gpu 对时域图卷积网络进行了20 轮次的训练。

在公开数据集上的实验结果显示,本文模型输出的姿态准确性达到了单人视频估计的水平,输出的精度与平滑性跟目标数量和帧率有关。表1 的数据显示,本文提出的单目多人视频估计模型的精度与当前单人估计模型的精度相当。

4.3 校正单元评估

三个校正单元在多个评估协议上的消融结果对比,使用两种评估协议。数据显示姿态矫正对于准确率提高的贡献最大,平和矫正和接触矫正的贡献有限,但是对于动作捕捉的实际应用却至关重要,各个部分对于最终结果的效果如表2 所示,多人动作捕捉效果如图6 所示,校正单元如图7 和图8 所示。

表2 在MuPoTS-3D 数据集上的预测精度量化

5 结论

本文动作捕捉模型在非限定性的环境中可以对多人进行动作采集,人体姿态经过校正之后基本符合真实的人体动作,用于三维的虚拟角色中效果良好,在不需要专业拍摄装备和标记及其他辅助设备的情况下,可以在日常生活中获取素材,基本实现了动作捕捉系统的简易化设计。不过本文提出的方法只是实验性的,取得的数据比较有限。只能采集人体主干部分的关键点,对于表情以及手的动作还无法有效捕捉;而且如果捕捉对象的动作速度过快、过于复杂和遮挡较多的动作都不能得到有效的输出结果。此外,还缺乏专用于影视行业的动作数据集,神经网络能够识别捕捉的动作基本限于日常生活范围。这些难点将是下一步的工作内容,同时期望本文的工作会为姿态估计和动作捕捉进一步的研究带来启发。

表1 使用Human3.6M 数据集在MPJPE 评估标准下与其他方法的对比

图6 在COCO 2017 数据集上的动捕视觉效果

图7 接触矫正效果图

图8 平衡矫正效果图

猜你喜欢
关节点时域校正
矛盾转化关节点视角下的新时代发展特质与方向
基于关节点数据关注RGB视频的双人交互行为识别
OFDM 系统中的符号时域偏差估计
改进的浮体运动响应间接时域计算方法
重载机车网络重联TCN 故障节点识别方法研究*
关节点连接历史图与卷积神经网络结合的双人交互动作识别
劉光第《南旋記》校正
基于复杂网络理论的作战计划时域协同方法研究
网络分析仪时域测量技术综述
基于特征分解的方位向多通道SAR相位失配校正方法