动态视角下人体行为识别研究

2019-06-06 04:21纪亮亮赵敏

软件导刊 2019年3期

纪亮亮赵敏

摘要：3D人体行为识别数据库发展给人体行为识别研究者提供了便利，然而现存数据库视角固定等问题限制了机器人移动范围。为了研究真实环境下的人体行为识别，建立一个基于RGB-D摄像机的动态多视角人体行为数据库DMV Action3D，收集了20人的600多个行为视频，约60万帧彩色图像和深度图像。另外，在DMV Action3D数据库基础上，利用CRFasRNN图片分割技术将人像进行分割并分别提取Harris3D特征，利用隐马尔可夫模型对动态视角下的人体行为进行识别。实验结果表明，在动态视角下使用CRFasRNN图像分割方法，人像分割效果突出，且不受环境、场景、光照因素影响，与真实环境下人体轮廓的相似度极高。DMV Action3D数据集对于研究真实环境下人体行为具有较大优势，为服务机器人识别真实环境下人体行为提供了一个较佳资源。

关键词：人体行为识别;3D数据库;CRFasRNN

DOI：10. 11907/rjdk. 182080

中图分类号：TP317.4文献标识码：A文章编号：1672-7800（2019）003-0178-05

0 引言

基于視觉的行为识别研究在人机交互、智能监控和视频检索中有重要应用价值。随着立体视觉和深度传感器的发展，3D场景和深度信息获取为人体行为识别分析提供了多样化的研究手段和方法。人体行为数据库的建立给行为识别研究提供了便利，常用的人体行为3D数据库包括：微软MSR Action3D[1]、MSR Daily Activity[2]、康奈尔大学CAD-60[3]和CAD-120[4]、UTD-MHAD[5]、UWA3D Multiview II[6]、南阳理工大学的NTU RGB+D[7]等。其中，NTU RGB+D数据库极其丰富，包含17个视角、80个场景、40个采集动作对象、60组动作、56 880个样本，存有RGB+D+IR+3DJoints数据提供研究者使用。然而，这些数据库在满足场景多变、视角多变、动作类别丰富的条件下却忽略了重要一点：所有机器视角都为静态视角，服务型机器人在移动情况下，其视角信息会随着移动路径发生背景变化、光照变化、遮挡等情况，因此静态视角提供的数据信息对于移动机器人识别研究不再适用。

研究动态机器视角信息需要建立动态视角人体行为数据库。本文使用Microsoft Kinect传感器，选取30组复杂人体行为，包括日常生活行为、运动行为和异常行为三大类，设计多个人体、物体、环境具有交互作用的动作，采集20个人的习惯动作，建成一个超过60万帧的人类行为识别3D数据库DMV3 Dataset。Kinect从3个视角出发，其中2个为固定垂直视角（正视角、侧视角），1个为为动态视角，用一款ROS机器人围绕人体作半圆运动，动态录制了人体行为动作的整个过程。

数据库人体行为的复杂性和多变性使得识别算法复杂度大幅增加。基于图像的常用算法如帧差法[9]、光流算法[10]在动态机器视角下完全失效，使得动态视角下行为识别难度远远超过静态视角。本文提出使用CRFasRNN[8]对移动视频序列帧中的人体进行分割，CRFasRNN是一个端到端的深度学习方法，将神经网络与概率图模型的优势结合，用于解决像素级图像分割问题。该方法不受场景和光照变化影响，对分割后的人像提取人体特征，最后利用隐马尔可夫模型进行训练分类。

1 相关工作

人体行为识别方法研究随着3D深度图像的发展有了很多突破。随着人体数据库更新，人体识别方法经历了3个阶段：第一阶段，基于灰度视频序列的特征提取方法，例如帧差算法、光流算法等;第二阶段，基于彩色图、深度图以及关节点的特征提取方法，例如三通道HOG特征[11]、SIFT[12]、BRISK[13]等;第三阶段，基于深度学习的特征提取方法，例如文献[14]提出用3D CNN模型自动识别视频序列中的人体动作。但是，也存在一定不足：一是现有的数据库动作类别较少且部分行为数据不完整，如MSR Action3D数据库仅限于游戏动作，没有与物体交互的行为，CAD数据库具有多背景特点，但视频样本数量有限;二是目前已经存在的数据库多数都为固定单视角，多视角数据能给研究者提供多角度间信息相关研究，以此判断视角的优劣性问题;三是目前采集的数据库背景都是静态的，静态视角下人体行为识别方法在动态视角下出现了不适用性，在机器人移动视角下，无法验证跟随机器人动态识别人体行为，或者为移动机器人寻找最佳视角。

在神经网络和概率图模型结合方面，使用神经网络预测结构化输出研究中较为杰出的方法有：Do等[15]提出了神经网络和马尔可夫网络进行组合，对序列标签进行分类识别;Bell等[16]和Chen[17]使用CRF改进从CNN中获得的分割结果，前者重点为材料识别和分割，后者则在语意图像分割上提出了显著的改进方法;在自然语言处理中，Yao等[18]表明通过引入CRF模型可以显著提高基于RNN的字体识别性能。在此之前所有方法都是利用神经网络提取特征，再将特征输入图模型进行训练分类，而文献[19]则将卷积网络中可变形的部分模型表示为一种MRF，作为神经网络的一层，将图模型结构直接变为神经网络的迭代层。而CRFasRNN的突出贡献在于将密集CRF作为RNN，形成端到端可训练的图像分割系统。

2 动态多视角数据库建立

TurtleBot[20]是一款移动机器人，其硬件主要有Yujin Kobuki移动底座、Kinect视觉传感器、2 200mAh（或 4 400mAh）电池和可装卸的结构模块，使用著名的ROS（Robot Operating System）作为操作系统，能实现3D地图导航、跟随等功能。

在DMV3 Dataset数据库中，所有动作都是在复杂背景中使用Kinect从两个静态视角和一个动态视角进行摄制完成的。动态摄像头由TurtleBot机器人外接Kinect，从正面到侧面以人为圆心、半径2.5m的轨道上随机进行录制。图2为摄像机录制场景。两个静态摄像头的角度为90°，摄像头1从正面录制，摄像头2从侧面录制。

数据库包含3个不同场景下的30个不同人体行为。每类行为包含20个动作，是一个多角度、动态视角下交互式人体行为数据库。人体行为包含三大类，分别为基本动作类（10个）、与物体交互类（15个）和行为异常类（5个）。基本动作类有单手高举挥舞、抛出、鼓掌、双手挥舞、慢跑、坐下起立、原地向上跳、自拍、看手表、坐在地上。与物体交互类有读书、写字、擦汗、脱外套、穿/脱鞋子、戴/摘眼镜、踢箱子、从口袋里拿东西、打电话、喝水、吃零食、在黑板上写字、使用电脑、搬箱子、搬椅子。行为异常类包含摔倒、躺在地上、摔杯子、从椅子上跌落、肚子疼。DMV Action3D数据库包含彩色图、深度图、关节点位置和时间等信息，既保证了多视角、多背景、多样本和多交互行为，还增加了一个动态视角，为实验者分析视角和寻找最佳角度提供了可供验证的数据库。

3 CRFasRNN人像提取

人体行为识别研究重点在于如何提取视频序列中的人体特征。人体特征值是指可以描述人体运动信息的特征，一般方法有：提取图像的颜色、纹理特征、角点或者利用关节点状态获取人体运动的方向、速度等。本文提出使用CRFasRNN方法对移动视频序列帧中的人体进行分割并提取特征。CRFasRNN是一个端到端的深度学习方法，其将神经网络与概率图模型的优势结合，用于解决像素级图像分割问题。本文将简单介绍用于分割图像的条件随机场图模型和CRFasRNN方法中用到的公式标签等。

图像中每个像素[i]具有类别标签[xi]，还有对应的观测值[yi]，每个像素点作为图模型的节点，像素与像素间的关系作为边，即构成了一个条件随机场，通过观测变量[yi]推测像素[i]对应的类别标签[xi]。条件随机场满足吉布斯分布，如式（1）。

CRF-RNN网络使用反向传播算法[21]和随机梯度下降法形成了端到端可训练网络。在训练期间，将一张完整的图片作为输入，使用损失函数计算网络中每个像素输出的误差，例如图4中Softmax函数表示相对于真实图片分割的误差。FCN-8s作为网络的第一部分，输出作为CRF的一元势函数，在网络的正向传输中，通过CNN阶段进入CRF-RNN网络中后，需要[T]次迭代才可以输出，Softmax损失函数随着CRF-RNN网络迭代的结束而结束。在反向传播期间，一旦误差达到了CRF-RNN网络输出[Y]，则在RNN网络输入[U]到来之前进行[T]次迭代。训练期间，平均场迭代次数[T]设置为5，避免了网络崩溃，也减少了训练时间，测试时迭代次数为10。

4 实验与分析

CRFasRNN分割人像不受光照变化和场景变化影响，在机器震动或者人速度较快、图片帧出现模糊的情况下分割效果依然显著，人像分割精确，边缘少有毛刺现象。图5展示动态机器视角下复杂环境中的30组人体分割效果。

对分割好的图片分别利用Harris3D方法[24]提取特征，3D特征的优势在于增加了时间维度，保留了动作的运动趋势特征。图6、图7分别展示分割前与分割后的角点检测对比，可以看出，经过分割后的图片去除了大量背景干扰，由于在运动视角下，人和背景相對于摄像头产生的复杂运动使得人体运动检测变得困难，利用CRFasRNN进行人像提取去除背景后，在移动视角下能够准确提取人体运动特征信息。

最后，利用HMM模型对获取的人体边缘特征进行训练分类，最终得到行为识别率为94.74%，混淆矩阵如图8所示。

5 结语

本文提出一种动态机器视角下的人体姿态识别方法，利用CRFasRNN对移动机器视角下的人像进行分割并提取角点信息。实验证明，在动态视角下CRFasRNN图像分割方法使人像分割效果突出、边界清晰，与真实环境下的人体轮廓相似度极高，超越了其它图像分割方法。CRFasRNN对视频帧进行分割后去除了大量背景环境干扰，该方法不受环境、场景、光照因素影响，也不受机器视角中人数的影响，可以识别多人的行为。另外，本文提供了一个较大规模的动态视角人体行为识别数据库DMV3 Dataset，数据库场景多变、动作复杂，对于研究真实环境下的人体行为具有显著优势和较大使用价值。

参考文献：

[1] LI W，ZHANG Z，LIU Z. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops ，2010：9-14.

[2] WANG J， LIU Z， WU Y， et al. Mining action let ensemble for action recognition with depth cameras[C]. Computer Vision and Pattern Recognition （CVPR）， 2012： 1290-1297.

[3] SUNG J， PONCE C， SELMAN B， et al. Unstructured human activity detection from RGBD images[J]. IEEE International Conference on Robotics & Automation， 2011， 44（8）：47-55.

[4] KOPPULA H S，GUPTA R，SAXENA A. Learning human activities and object affordances from RGB-D videos[J]. International Journal of Robotics Research， 2013， 32（8）：951-970.

[5] CHEN C，JAFARI R，KEHTARNAVAZ N. UTD-MHAD： a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing， 2015：168-172.

[6] RAHMANI H，MAHMOOD A，DU H，et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2016，38（12）：2430-2443.

[7] SHAHROUDY A， LIU J， NG T T， et al. NTU RGB+D： a large scale dataset for 3D human activity analysis[C]. Computer Vision & Pattern Recognition ，2016：1010-1019.

[8] ZHENG S，JAYASUMANA S， ROMERA-PAREDES B， et al. Conditional random fields as recurrent neural networks[C]. IEEE International Conference on Computer Vision， 2016：1529-1537.

[9] YAMADA T，HAYAMIZU Y， YAMAMOTO Y， et al. A stretchable carbon annotate strain sensor for human-motion detection[J]. Nature Nanotechnology， 2011， 6（5）：296-301.

[10] TAO M，BAI J，KOHLI P， et al. Simple flow： a non iterative， sub linear optical flow algorithm[J]. Computer Graphics Forum， 2012， 31（2pt1）：345-353.

[11] LI N， CHENG X， ZHANG S， et al. Realistic human action recognition by fast HOG3D and self-organization feature map[J]. Machine Vision & Applications， 2014， 25（7）：1793-1812.

[12] TOMPSON J， JAIN A， LECUN Y， et al. Joint training of a convolution network and a graphical model for human pose estimation[C]. Eprint Arxiv， 2014：1799-1807.

[13] LEUTENEGGER S， CHLI M， SIEGWART R Y. BRISK： binary robust invariant scalable key points[J]. International Conference on Computer Vision（ICCV）， 2011， 58（11）：2548-2555.

[14] XU W， XU W， YANG M， et al. 3D Convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012： 35（1）：221-231.

[15] DO T M T， ARTIERES T. Neural conditional random fields[C]. Thirteenth International Conference on Artificial Intelligence & Statistics， 2010：177-184.

[16] BELL S，UPCHURCH P，SNAVELY N， et al. Material recognition in the wild with the Materials in context database[C]. IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2015：3479-3487.

[17] CHEN L C， PAPANDREOU G， KOKKINOS I， et al. Deep lab： semantic image segmentation with deep convolution nets， aurous convolution， and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intel， 2016， 40（4）：834-848.

[18] YAO K， PENG B， ZWEIG G， et al. Recurrent conditional random field for language understanding[C]. IEEE International Conference on Acoustics， Speech and Signal Processing， 2014：4077-4081.

[19] GIRSHICK R R，IANDOLA F，DARRELL T，et al. Deformable part models are convolutional neural networks[C]. Computer Vision and Pattern Recognition， 2015：437-446.

[20] KNISS J， JIN K， IVANS R， et al. Robotics Research with TurtleBot 2016[D]. Idaho：Boise State University Scholar Works， 2016.

[21] LéCUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）：2278-2324.

[22] LONG J，SHELHAMER E，DARRELL T. Fully convolution networks for semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition， 2015：3431-3440.

[23] KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. International Conference on Neural Information Processing Systems， 2011：109-117.

[24] SIPIRAN I， BUSTOS B. Harris 3D： a robust extension of the Harris operator for interest point detection on 3D meshes[J]. Visual Computer， 2011， 27（11）：963.

（責任编辑：何丽）