基于注意力机制的改进残差网络的人体行为识别方法

2021-11-09 06:49王昊飞李俊峰

软件工程 2021年11期

王昊飞　李俊峰

摘要：针对ResNeXt网络（残差网络）中存在的对特征提取不充分，以及数据集中背景信息干扰的问题，将ResNeXt网络和注意力机制相结合，提出了一种基于注意力机制的ResNeXt模型。首先，在ResNeXt网络的基础上，将浅层和深层的特征融合生成新型网络结构。其次，将全连接层由全局平均池化层替代，然后在通道空间注意力机制中添加一个条件因子，同时将改进后的注意力机制嵌入上述网络中。最后，在UCF101和HMDB51上分别进行实验，得到了95.2%和65.6%的准确率。研究表明，本文提出的模型可以有效地提取关键特征，充分利用不同层次的特征信息获得较好的准确率。

关键词：人体行为识别;注意力机制;ResNeXt;全局平均池化

中图分类号：TP183 文献标识码：A

Human Action Recognition Method based on Attention

Mechanism and Improved ResNeXt Network

WANG Haofei， LI Junfeng

（Faculty of Mechanical Engineering & Automation， Zhejiang Sci-Tech University， Hangzhou 310018， China）

haofeiwang@yeah.net; ljf2003zz@163.com

Abstract： Aiming at problems of insufficient feature extraction in ResNeXt network and background information interference in the dataset， this paper proposes a ResNeXt model based on attention mechanism， which combines the ResNeXt network and attention mechanism. First， based on ResNeXt network， shallow and deep features are merged to generate a new network structure. Second， the fully connected layer is replaced by a global average pooling layer. Then channel attention mechanism is improved by adding a condition factor. At the same time， the improved attention mechanism is embedded in the above-mentioned network. Finally， experiments are performed on UCF101 and HMDB51 respectively， and the accuracy rates of 95.2% and 65.6% are obtained. Experiments show that the proposed model can effectively extract key features， and make full use of feature information of different layers to achieve better accuracy.

Keywords： human action recognition; attention mechanism; ResNeXt network; global average pooling

1 引言（Introduction）

人體行为识别技术是从包含运动信息的图像、视频中进行识别的。在视频监控、智能家居、运动分析以及VR等领域都离不开人体行为的识别。人体行为识别已成为计算机视觉研究中的一个非常重要的领域[1]。由于视点的不同、背景的复杂性以及光照条件等的影响，人体行为识别仍然是一项非常具有挑战性的课题。传统人体行为识别是基于手工设计的特征[2]进行识别，并且依赖数据集特征提取的先验知识，耗费大量的时间和精力。随着深度学习的兴起，解决了手动设计特征的不足，在人体行为识别领域取得了重大进展[3]，已经明显超过了手工设计的特征。XIE等[4]提出了ResNeXt网络，用一种平行堆叠相同拓扑结构的blocks来代替残差网络三层卷积的block，同时增加了“基数”这一概念，减少了超参数数量，计算效率高，准确率高。注意力机制可以将其他不重要的信息忽略掉，重点关注关键信息[5]。将注意力机制应用到视频中的行为识别，能够有效提取视频帧中的关键信息。基于上述方法，为了充分提取视频中的特征，本文对ResNeXt网络进行改进并嵌入了改进后的通道空间注意力机制模型。

2 改进后的ResNeXt网络结构（Improved ResNeXt network architecture）

首先，本文将使用改进后的ResNeXt网络作为特征提取网络来提取时空特征，并将不同层次的特征进行融合，以充分利用各类特征信息。其次，网络中嵌入改进后的通道空间注意力机制，使网络更加关注有强反馈能力的特征。最后，经过全局平均池化操作后送入softmax函数进行分类，得到最终结果。本文提出的网络结构如图1所示。

本文采用的卷积网络为ResNeXt101，主体由四个残差模块组成。残差模块的结构如图2所示，1×1×1和3×3×3表示卷积核大小，F表示通道数，group表示分组卷积的组数，即将特征图分成group组的小特征图。ResNeXt网络结构采用VGG网络和inception网络中转换合并的思想，用一种平行的相同拓扑结构的block进行堆叠来进行分组卷积，用来控制分组数量，在没有增加参数复杂度的情况下提高了准确率。

本文中网络的残差模块分别用layer1、layer2、layer3、layer4表示，网络的具体结构如图3所示。随着网络的加深，一些细节特征被过滤掉，导致对提取到的特征利用不充分。本文改进后的ResNeXt网络将浅层网络提取的细节特征和深层网络提取的特征相融合，以充分利用各个层次所提取的特征信息。

对注意力机制输出的特征进行步长为2、卷积核大小为1的卷积，卷积操作后的特征和layer2输出的特征相融合输入layer3中继续进行卷积操作。同理，将和layer2融合后的特征进行两次步长为2、卷积核大小为1的卷积操作，并和layer4输出的特征相融合。进行卷积操作的目的是为了降低维度，使特征图能够进行融合。文中没有采用逐层特征融合，而是采用跳层融合的方式，首先是为了降低模型参数，减少计算量;其次，如果采用逐层融合的方式，包含过多的特征，会造成冗余的信息。两种特征采用element-wise进行融合。

3 注意力机制（Attention mechanism）

注意力机制模型[6]如图4所示，由通道注意力机制和空间注意力机制串联组成，对特征图在通道和空间维度上进行注意力生成，可以在不明显增加计算量的基础上提高准确率。

（1）通道注意力机制

本文对通道注意力机制进行了改进，由于平均池化和最大池化提取到的特征有所区别，添加了条件因子来对不同的特征进行权重分配。改进后的通道注意力机制如图5所示。首先将输入特征图在空间维度上进行压缩，分别进行平均池化和最大池化操作，得到和。然后对得到的这两个特征图进行权重分配，将这两个重新分配的特征输入一个共享网络中，该共享网络是包含一个隐藏层的多层感知机（MLP），经过共享网络的处理后，用element-wise求和输出特征向量。

（2）空间注意力机制

空间注意力机制如图6所示，将特征图在通道维度上进行压缩。对输入的特征图分别在通道维度做平均池化和最大池化操作，得到两个二维特征;然后，按照通道将特征进行拼接得到一个特征图;最后，对其进行卷积操作，使得最终得到的特征图和输入的特征图在空间维度上一致。

4 全局平均池化（Global average pooling）

传统的卷积神经网络分类时使用全连接层和softmax回归层。但是，由于全连接层参数过多，计算量大，容易造成过拟合，同时全连接层容易导致特征图损失空间位置信息。因此，本文采用全局平均池化层[7]来代替ResNeXt的全连接层，使特征图和行为类别之间的联系更加直观，转换为分类的概率更加容易，对空间位置信息的鲁棒性更强。

全局平均池化是对每一个通道图的所有像素求平均值，在特征提取的最后一个卷积层生成k 个特征图;经过全局平均池化层后得到k 个1×1的特征图，将这些特征图输入softmax层，输出结果就是k 个类别的置信度。

图7为全局平均池化示意图，图8为全连接示意图。本文对图7和图8进行参数计算，假设输入特征图大小为3×3×3，则全连接层产生的参数个数为3×3×3×3=81 个，而全局平均池化层将输入特征进行池化后直接送入softmax，所以参数个数为3×1×1×3=9 个。相比于全连接层，全局平均池化层的参数成倍数减少。

5 实验（Experiment）

5.1 数据集

（1）UCF101数据集

UCF101[8]是行为类别和样本数量最多的数据库之一，其中包含13，320 个视频和101 个类别。数据库的样本取自从BBC/ESPN收集并从网络上下载的各种运动的样本。UCF101多样性较强，在相机运动，人体的外形、形态、视点、背景、光照条件等各种不同的条件下存在较大差异，是目前为止最具挑战性的数据库之一。101 类行为被分成25 组，每组包括4—7 个视频，主要分为人与物体之间的交互、人与人之间的交互、人体自身的行为、演奏乐器和运动五类，如画眼妆、打篮球、打太极拳、弹吉他、攀岩等。同一组视频可能有一些共同的特征，如背景、视点等。如图9所示为部分动作示意图。

（2）HMDB51数据集

HMDB51[9]包含6，849 个视频，总共51 个类别，每个类别至少包含101 个视频。大多数视频来自电影片段，有些来自公共数据库，例如YouTube。动作主要包含一般面部的行为、面部的操作与对象的操作、身体的行为、身体与对象交互的行为和人体自身的行为五类，如交谈、喝水、倒立、骑自行车、拥抱等。部分动作示意图如图10所示。

5.2 视频采样与参数设置

本文将视频随机的一个位置进行均匀采样生成16 帧的输入片段，并通过裁剪的方式将样本尺寸统一为112×112，所以网络的输入样本大小为3×16×112×112。训练过程中，初始学习率设置为0.05，并在验证损失达到饱和后将其除以10，进行学习率衰减优化。使用动量为0.9的随机梯度下降优化器来对网络进行优化，使用ReLU激活函数，采用交叉熵损失函数计算损失。

5.3 结果与分析

（1）不同条件因子下的比较实验

该部分就改进的注意力机制中的条件因子的不同取值进行实验，分别在UCF101和HMDB51数据集划分的spilt1部分进行实验，条件因子分别取0.1、0.3、0.5、0.7、0.9，得到的结果如图11所示。可以看出，在UCF101上，当取值为0.5时，效果较好;在HMDB51上，当取值为0.7时，效果较好。所以本文选取为0.5和0.7分别进行实验。

（2）拆分实验

该部分将数据集UCF101和HMDB51分别拆分成三个部分进行实验，取三者的平均值作为最终结果。UCF101数据集被分成三个部分，每个部分包含测试集和训练集，每类行为的测试集和训练集总共为25 组，其中测试集包含7 组，训练集包含18 组。三种不同的拆分方式中的测试集交叉取前中后7 组，训练集取剩下的18 组，三个部分的测试集和训练集一一对应。而HMDB51数据集随机生成三种拆分方式。首先选择元标签分布最平衡的片段，然后选择与之关联最小的第二、第三片段，一次得到三种不同的拆分方式。每种拆分方式的每类行为都包含70 组训练片段和30 组测试片段，結果如表1所示。

（3）有无注意力机制对比实验

该部分对添加了注意力机制的特征图进行了可视化，将生成的热力图和原图相结合，如图12所示。图中热力图深色区域表示所预测到的行为，浅色区域表示背景部分，深色越深代表所受的关注越多。可以看出，添加注意力机制模型后，能够更有效地集中在关键信息处，能够更好地提取行为的关键信息，以便提高识别的准确率。本部分有无注意力机制模型进行对比的实验结果如表2所示。由表2可知，添加注意力机制后，无论是在UCF101还是在HMDB51上的准确率都有一定的提升。

（4）与其他算法的对比实验

为了验证本文算法的有效性，在数据集UCF101和HMDB51上，与近年来主流的iDT[10]、TSN[11]、Two-Stream CNN[12]等人体行为识别方法进行了比较，实验结果如表3所示。结果表明，本文的识别模型相比一些主流模型准确率有了大幅度提高，尤其在UCF101数据集上比iDT、Two-Stream分别提高了8.8%和7.2%。

6 结论（Conclusion）

本文提出了一种基于注意力机制的改进ResNeXt模型，并将其用于视频中的人体行为识别，将ResNeXt网络中的浅层特征和高层特征相融合，充分利用不同层次的特征。在通道空间注意力机制中加入条件因子，对不同的池化分配权重，并嵌入改进后的ResNeXt网络中，能够有效提取行为的关键特征;网络的最后用全局平均池化层取代全连接层，降低了网络过拟合的可能性，同时减少了参数。实验结果表明，本文提出的改进ResNeXt人体行为识别模型在UCF101和HMDB51数据集上获得了较好的识别率，具有一定的泛化性。

参考文献（References）

[1] 周波，李俊峰.结合目标检测的人体行为识别[J].自动化学报，2020，46（09）：1961-1970.

[2] 朱煜，趙江坤，王逸宁，等.基于深度学习的人体行为识别算法综述[J].自动化学报，2016，42（6）：848-857.

[3] 周风余，尹建芹，杨阳，等.基于时序深度置信网络的在线人体动作识别[J].自动化学报，2016，42（7）：1030-1039.

[4] XIE S， GIRSHICK R. Aggregated residual transformations for deep neural networks[C]// IEEE.IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， Hawaii， USA： IEEE， 2017：1492-1500.

[5] 王翔，任佳.基于多注意力机制的深度神经网络故障诊断算法[J].浙江理工大学学报（自然科学版），2020，43（02）：224-231.

[6] 徐岩，李晓振，吴作宏，等.基于残差注意力网络的马铃薯叶部病害识别[J].山东科技大学学报（自然科学版），2021，40（02）：

76-83.

[7] LIN M， CHEN Q， YAN S. Network in network[J/OL]. （2013-10-16）[2021-3-18]. https：//arxiv.org/abs/1312.4400.

[8] SOOMRO K， ZAMIR A R， SHAH M. UCF101： A dataset of 101 human actions classes from videos in the wild[J/OL]. （2012-10-3）[2021-3-18]. https：//arxiv.org/abs/1212.0402.

[9] 朱红蕾，朱昶胜，徐志刚.人体行为识别数据集研究进展[J].自动化学报，2018，44（6）：978-1004.

[10] 程海粟，李庆武，仇春春，等.基于改进密集轨迹的人体行为识别算法[J].计算机工程，2016，42（08）：199-205.

[11] WANG L， XIONG Y， WANG Z， et al. Temporal segment networks： Towards good practices for deep action recognition[C]// ECCV. The 14th European Conference on Computer Vision. Berlin， Germany： Springer， 2016：20-36.

[12] SIMONYAN K， ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J/OL]. （2014-6-9）[2021-3-18]. https：//arxiv.org/abs/1406.2199.

作者简介：

王昊飞（1994-），女，硕士生.研究领域：模式识别与智能系统.

李俊峰（1978-），男，博士，副教授.研究领域：智能信息处理，缺陷检测.