基于深度学习卷积神经网络的人体行为识别研究

2020-05-25 11:07
科技传播 2020年6期
关键词:池化层双通道步长

胡 韬

1 深度学习在人体行为识别的应用现状

美国、欧洲对人体行为识别已开展了深入的研究,国内的研究机构比如中科院、浙江大学对人体行为识别也积极地开展了研究。人体行为识别中已有各种算法,而把深度学习技术应用于人体行为识别于近几年来才慢慢开展。深度学习在人体行为识别中进展迅速并且有着不错的表现,长时递归卷积神经网络、双数据流卷积神经网络在不同的数据集中都能表现良好,并且所用的特征提取方法代替了原先低效、复杂的人工特征提取。因此,深度学习在人体行为识别有着巨大的研究价值和潜力。

2 人体行为识别数据集

在人体行为识别中有两个常用的简单数据集:Weizmann 数据集和KTH 数据集。这两个数据收集人体行为数据,将数据分成样本集和标签集。Weizmann 数据集发布于2005 年,标签集中共包含10 种人体行为,分别为走路、跑步、前跳、跑步、弯腰、挥单手、挥双手、原位置跳、连续跳和单脚跳,数据集一共90 个视频,视频的分辨率为180×44。KTH 数据集发布于2004 年,由25 个实验员在4 个场景中完成,标签集中共有6 种人体行为,分别为拳击,拍手,挥手,慢跑和走路,一共包含600 个视频,视频的分辨率为160×120。

3 深度学习特征提取方法

在深度学习特征提取方法之前,大量采用了人工特征提取方法,即人基于自己的经验从视频中找出所需要的特征。2013 年,iDT 算法逐渐被广泛接受和使用,其准确率和效率远远高于传统的人工特征提取方法,但其计算过程较复杂。而深度学习的算法在某些方面表现更优,深度学习神经网络一般由以下3 种结构组成:卷积神经网络、循环神经网络和全连接神经网络,通过这三种不同的结构可以组合出无数种神经网络,适用于不同的特征提取情况。在组合出神经网络模型的结构以后,我们通过已有的数据训练神经网络,正向传播得到预测值,通过预测值和真实值之间的差距,反向传播不断调整神经网络中的参数,直到参数达到最佳值,保存模型和最佳值,用于特征提取。

4 双通道深度卷积神经网络的结构设计

4.1 双通道深度卷积神经网络行为识别的基本思想

双通道深度卷积神经网络模仿人类大脑视觉皮层的信息处理,人类大脑视觉皮层的信息处理有两个通道:一个通道用于对目标物体的感知,另一个通道用于处理物体的动作信息的处理。双通道深度卷积神经网络采用了双通道来获取视频信息,空间通道用于获取物体的静态特征,时间通道用于获取物体的动态特征,最后综合空间和时间通道信息来综合分析和判断。

4.2 双通道深度卷积神经网络总体结构设计

双通道深度卷积神经网络通过两个通道来获取信息,空间通道处理视频中每一帧的图像信息,时间通道处理光流图像信息,最后将两个通道的信息融合来分析最终结果,如图1。时间通道处理光流图像信息基于高精度光流估算算法,该算法有以下假设:像素值连续假设,即视频中同一像素点在位置发生变化以后,像素点的值不发生变化;光滑性假设:位移场在物体的边缘处保持连续。在以上假设的基础上,我们可以用能量方程和欧拉-拉格朗日定理对光流图像信息进行提取。在提取水平和竖直方向的光流值后,将光流值存入一张RBG 图片的三个通道值,得到一张彩色图片,即实现光流信息的表达。

图1

4.3 双通道深度卷积神经网络具体设计

双通道深度卷积神经网络空间通道结构基于VGGNet 卷积神经网络,一共有13 个卷积层和三个全连接层,具体如下:

输入层的图像采用224×224 的彩色三通道RGB图像,并随即调整图像的顺序。

第一复合卷积层共包含两个卷积层和一个池化层,两个卷积层的卷积核的大小都为3×3,两个卷积核的个数都是64,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。

第二复合卷积层包含两个卷积层和一个池化层,两个卷积层的卷积核的大小都为3×3,两个卷积核的个数都是128,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。

第三复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是256,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。

第四复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是512,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。

图2

第五复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是512,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。

全连接层共包含三个全连接层,第一个全接连层包含4 096 个神经元,第二个全连接层也包含4 096 个神经元,第三个全连接层的神经元个数根据识别类别个数确定。前两个全连接层都采用dropout 策略,以防止过拟合。

最后一个输出层采用softmax 分类器,对各个类别的概率进行计算。

双通道深度卷积神经网络空间通道结构如图2所示。双通道深度卷积神经网络时间通道结构和空间通道的网络结构类似,在全连接层的神经元个数有所不同,神经元的个数从4 096 改成1 024。空间通道和时间通道的激活函数都采用Relu 函数。

双通道深度卷积神经网络空间通道和时间通道的层数都较深,有16 层,但因为卷积核的个数有限,总共的参数并不多,因此训练的收敛时间较快。通道中用到连续卷积层,这样能够提高准确率,突出图像特征。模型中大量采用了小卷积的网络结构,该结构不仅能够加强网络的特征提取能力,还能够大量减少参数的个数。

5 结语

本文从4 个方面阐述了深度学习在人体行为识别中的应用:深度学习在人体行为识别的应用现状、两大重要的人体行为识别数据集、深度学习特征提取方法和双通道深度卷积神经网络。重点阐述了双通道深度卷积神经网络的原理、结构和具体设计。

猜你喜欢
池化层双通道步长
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
卷积神经网络模型研究分析*
近端胃切除双通道重建及全胃切除术用于胃上部癌根治术的疗效
改进深度卷积神经网络及其在变工况滚动轴承故障诊断中的应用
基于全卷积神经网络的SAR图像目标分类*
基于逐维改进的自适应步长布谷鸟搜索算法
采用6.25mm×6.25mm×1.8mm LGA封装的双通道2.5A、单通道5A超薄微型模块稳压器
一种新型光伏系统MPPT变步长滞环比较P&O法
分类高考能否打通“双通道”
一种新颖的光伏自适应变步长最大功率点跟踪算法