基于深度学习卷积神经网络的人体行为识别研究

2020-05-25 11:07胡韬

科技传播 2020年6期

胡韬

1 深度学习在人体行为识别的应用现状

美国、欧洲对人体行为识别已开展了深入的研究，国内的研究机构比如中科院、浙江大学对人体行为识别也积极地开展了研究。人体行为识别中已有各种算法，而把深度学习技术应用于人体行为识别于近几年来才慢慢开展。深度学习在人体行为识别中进展迅速并且有着不错的表现，长时递归卷积神经网络、双数据流卷积神经网络在不同的数据集中都能表现良好，并且所用的特征提取方法代替了原先低效、复杂的人工特征提取。因此，深度学习在人体行为识别有着巨大的研究价值和潜力。

2 人体行为识别数据集

在人体行为识别中有两个常用的简单数据集：Weizmann 数据集和KTH 数据集。这两个数据收集人体行为数据，将数据分成样本集和标签集。Weizmann 数据集发布于2005 年，标签集中共包含10 种人体行为，分别为走路、跑步、前跳、跑步、弯腰、挥单手、挥双手、原位置跳、连续跳和单脚跳，数据集一共90 个视频，视频的分辨率为180×44。KTH 数据集发布于2004 年，由25 个实验员在4 个场景中完成，标签集中共有6 种人体行为，分别为拳击，拍手，挥手，慢跑和走路，一共包含600 个视频，视频的分辨率为160×120。

3 深度学习特征提取方法

在深度学习特征提取方法之前，大量采用了人工特征提取方法，即人基于自己的经验从视频中找出所需要的特征。2013 年，iDT 算法逐渐被广泛接受和使用，其准确率和效率远远高于传统的人工特征提取方法，但其计算过程较复杂。而深度学习的算法在某些方面表现更优，深度学习神经网络一般由以下3 种结构组成：卷积神经网络、循环神经网络和全连接神经网络，通过这三种不同的结构可以组合出无数种神经网络，适用于不同的特征提取情况。在组合出神经网络模型的结构以后，我们通过已有的数据训练神经网络，正向传播得到预测值，通过预测值和真实值之间的差距，反向传播不断调整神经网络中的参数，直到参数达到最佳值，保存模型和最佳值，用于特征提取。

4 双通道深度卷积神经网络的结构设计

4.1 双通道深度卷积神经网络行为识别的基本思想

双通道深度卷积神经网络模仿人类大脑视觉皮层的信息处理，人类大脑视觉皮层的信息处理有两个通道：一个通道用于对目标物体的感知，另一个通道用于处理物体的动作信息的处理。双通道深度卷积神经网络采用了双通道来获取视频信息，空间通道用于获取物体的静态特征，时间通道用于获取物体的动态特征，最后综合空间和时间通道信息来综合分析和判断。

4.2 双通道深度卷积神经网络总体结构设计

双通道深度卷积神经网络通过两个通道来获取信息，空间通道处理视频中每一帧的图像信息，时间通道处理光流图像信息，最后将两个通道的信息融合来分析最终结果，如图1。时间通道处理光流图像信息基于高精度光流估算算法，该算法有以下假设：像素值连续假设，即视频中同一像素点在位置发生变化以后，像素点的值不发生变化；光滑性假设：位移场在物体的边缘处保持连续。在以上假设的基础上，我们可以用能量方程和欧拉-拉格朗日定理对光流图像信息进行提取。在提取水平和竖直方向的光流值后，将光流值存入一张RBG 图片的三个通道值，得到一张彩色图片，即实现光流信息的表达。

图1

4.3 双通道深度卷积神经网络具体设计

双通道深度卷积神经网络空间通道结构基于VGGNet 卷积神经网络，一共有13 个卷积层和三个全连接层，具体如下：

输入层的图像采用224×224 的彩色三通道RGB图像，并随即调整图像的顺序。

第一复合卷积层共包含两个卷积层和一个池化层，两个卷积层的卷积核的大小都为3×3，两个卷积核的个数都是64，步长为1。池化层采用最大池化，池化层的窗口大小为2×2，步长为2。

第二复合卷积层包含两个卷积层和一个池化层，两个卷积层的卷积核的大小都为3×3，两个卷积核的个数都是128，步长为1。池化层采用最大池化，池化层的窗口大小为2×2，步长为2。

第三复合卷积层包含三个卷积层和一个池化层，三个卷积层的卷积核的大小都为3×3，三个卷积核的个数都是256，步长为1。池化层采用最大池化，池化层的窗口大小为2×2，步长为2。

第四复合卷积层包含三个卷积层和一个池化层，三个卷积层的卷积核的大小都为3×3，三个卷积核的个数都是512，步长为1。池化层采用最大池化，池化层的窗口大小为2×2，步长为2。

图2

第五复合卷积层包含三个卷积层和一个池化层，三个卷积层的卷积核的大小都为3×3，三个卷积核的个数都是512，步长为1。池化层采用最大池化，池化层的窗口大小为2×2，步长为2。

全连接层共包含三个全连接层，第一个全接连层包含4 096 个神经元，第二个全连接层也包含4 096 个神经元，第三个全连接层的神经元个数根据识别类别个数确定。前两个全连接层都采用dropout 策略，以防止过拟合。

最后一个输出层采用softmax 分类器，对各个类别的概率进行计算。

双通道深度卷积神经网络空间通道结构如图2所示。双通道深度卷积神经网络时间通道结构和空间通道的网络结构类似，在全连接层的神经元个数有所不同，神经元的个数从4 096 改成1 024。空间通道和时间通道的激活函数都采用Relu 函数。

双通道深度卷积神经网络空间通道和时间通道的层数都较深，有16 层，但因为卷积核的个数有限，总共的参数并不多，因此训练的收敛时间较快。通道中用到连续卷积层，这样能够提高准确率，突出图像特征。模型中大量采用了小卷积的网络结构，该结构不仅能够加强网络的特征提取能力，还能够大量减少参数的个数。

5 结语

本文从4 个方面阐述了深度学习在人体行为识别中的应用：深度学习在人体行为识别的应用现状、两大重要的人体行为识别数据集、深度学习特征提取方法和双通道深度卷积神经网络。重点阐述了双通道深度卷积神经网络的原理、结构和具体设计。