融合多尺度注意力和双向LSTM的行人重识别

2022-11-03 11:56闫昊雷李小春张仁飞邱浪波
空军工程大学学报 2022年5期
关键词:行人尺度注意力

闫昊雷,李小春,张仁飞,张 磊,邱浪波,王 哲

(1.空军工程大学信息与导航学院,西安,710077;2.武警陕西省总队,西安,710054;3.陕西省信息化工程研究院,西安,710061;4.陆军装备部,北京,100000)

随着我国“智慧城市”“智慧军营”的建设发展,以视频传感器为前端信息获取来源,结合人工智能技术进行后台信息处理的方法受到研究人员的广泛关注。行人重识别是一种应用于数据库中查询特定行人的方法,即对输入行人图像进行解析,提取图像外部特征,根据这些特征,可进行跨区域的行人匹配,寻找特定对象,极大地节省后台信息处理人员的时间和精力,可广泛应用于抓捕逃犯、不明身份人员进入军事涉密区域的跟踪和定位等军事场景和智能安防、无人超市等民用场景,但由于现实场景的复杂多变,不同相机存在质量差异,行人特征受外部环境影响较大,影响检测准确度。因此,行人重识别算法研究现如今仍具有挑战性[1]。以神经网络为基础的深度学习方法因其强大的识别效果受到研究人员青睐,该方法通过形成深层神经网络对图像提取特征,然后进行图像的分类和检索,避免传统手工算法中依靠人类寻找图像特征带来提取效果不佳的影响。具体来说,行人重识别在深度学习中的研究思路就是将输入图像通过深层神经网络,由网络提取特征加以利用,达到快速捕获其他视频传感设备下的该行人图像[2]。

注意力机制作为嵌入在神经网络模型中的一种模块,帮助网络识别图像的关键特征,忽略冗余背景特征。融入注意力机制的神经网络模型对图像特征提取效果更好,因此引发研究人员的广泛关注。如Hu[3]等人提出的SENet将各通道降维后压缩为对特征图的权重,从通道维度寻找与特征图间的关系。Chen[4]对注意力机制中复杂的高阶统计信息进行建模和利用,从而捕捉行人之间的细微差异。宋晓花[5]等人将通过含有注意力模块的主干网络后的特征图进行多尺度融合,获取不同尺度下的特征信息。Liu[6]等人通过将图像划分为不同窗口的形式,降低了运算量,将自注意力[7]融入目标检测算法中。Zhang[8]等人通过卷积操作寻找特征图空间维度和通道维度的相互关系,形成注意力权重。当前,对注意力机制研究主要是集中在模块的改进和创新上,而对多尺度的注意力模块融合仍有待研究。由于目标全局特征不足以充分描述行人图像的细节信息,故可根据先验知识,寻求行人身体各部位之间在图像上的排列规律,即行人图像可看作是从头部到腿部的有规律的排列,沿用循环神经网络可提取出序列上下文信息的思路,尽管行人每个身体部位在不同图像中并不总是位于相同的位置,但所有行人身体部位仍可以按身体排列规则进行建模。长短期记忆网络(LSTM)是门控循环神经网络的一种,其引入自循环方法,以产生梯度长时间持续流动的路径,通过门控自循环的权重,累积的时间尺度可以动态地改变。为进一步寻找行人图像各局部特征间关系,本文在融入多尺度注意力模块的卷积神经网络架构基础上,连接LSTM[9]提取行人图像各区域间的序列特征关系。

针对上述问题,本文提出一种基于多尺度注意力融合和双向LSTM的行人重识别算法(MAFLNet),该算法基于卷积神经网络和循环神经网络,使模型通过卷积网络在融入注意力机制有效提取图像特征时,同时关注不同像素区域之间的独特的序列关系。最后使用难采样三元组损失函数[10]和交叉熵损失函数在CUHK03[11]和Market1501[12]数据集上对该网络进行训练,检验算法有效性。

1 相关概念

1.1 注意力机制

注意力机制在图像处理和自然语言处理领域已经得到广泛应用,如:图像分类[13]、图像描述[14]、物体检测[15]、行人重识别[16]。现有的卷积神经网络无法根据输入图像提取特定目标的特征信息,而注意力机制能够作用于图像的中间层特征,帮助模型提取图像所包含的具有辨识度的关键特征。常见的注意力主要有空间注意力和通道注意力。空间注意力旨在提升关键区域的特征表达,将原始图片中的空间信息变换到高维空间中并保留关键信息,为每个区域生成权重掩膜并加权输出;通道注意力能够寻找不同通道对于特征图的相关性,通过神经网络自动获取各通道的权重,强化重要通道特征并抑制非重要通道特征。

在图像语义理解方面,选择性注意力和自注意力通过不同方式完成特征提取。选择性注意力模块以模型中间层特征为依据,通过神经网络学习注意力权重,并与原特征图融合,从而达到加强重要特征而抑制非相关成分的目的。而自注意力则从图像自身特点出发,减少对外部信息的依赖,尽可能地利用特征内部固有的信息进行注意力的交互。其通过embedding变换生成Key、Query和Value,根据前两项计算权重系数,然后再针对该权重对Value加权求和,完成对Query位置特征的调整。

1.2 LSTM

为进一步获取区域特征间的关系,本文采用循环神经网(RNN)获取图像的上下文信息。LSTM结构如图1所示。

图1 LSTM单元结构

图1中,在2个输入中,上面的输入是单元的记忆状态ct-1,下面的输入是上一层的输出ht-1。在2个输出中,上面的输出是下一个单元的记忆状态ct,下面的输出是当前层的输出ht。中间结构的3个Sigmoid激活函数代表3个门控制单元,由于Sigmoid函数的输出是0~1,因此可以实现控制阀机制。ft为遗忘门输出,主要用于对于上一个节点的输出进行选择性遗忘;it为输入门的输出的值,由St和ht-1控制。输出门ot用于输出隐藏状态ht,tanh为激活函数。

2 多尺度注意力融合和LSTM网络

2.1 设计思路

本文采取基于多尺度注意力融合的方法的卷积神经网络获取图像的全局特征,循环神经网络LSTM获取局部特征之间相互关系的方法共同对输入图像进行特征提取。思想框架如图2所示,其中,长方体表示特征图。具体来说,首先将输入图像通过基于多尺度通道注意力融合的卷积神经网络ResNet50,用以提取全局特征,然后根据行人各部位构造在图像中具有的规律性,对全局特征序列等份分割后获取相应的局部特征序列,接着通过双向LSTM网络寻找各局部特征之间的相互关系。对通过卷积神经网络获取的全局特征和循环神经网络获取的局部特征使用交叉熵损失函数和难采样三元组损失函数共同进行训练。

图2 多尺度注意力融合模块和LSTM的改进网络模型(MAFLNet)

2.2 多尺度注意力融合模块

本文通道注意力模块选为SE block作为研究对象,将原始图像通过含有融合多尺度通道注意力模块的ResNet50卷积网络,提取输入图像的全局特征后,通过难三元组损失函数和交叉熵损失函数进行训练。由于卷积神经网络在处理不同通道维度的特征图中所赋予的各通道权重也有所不同,故可在注意力融合模块中,对不同通道下的特征图像进行融合,即对输入的特征图在通道维度进行切分和组合操作,使不同通道维度下的注意力有效融合。多尺度注意力融合模块主要结构如图3所示,为方便阐述,对网络中间层的批归一化层和ReLU激活函数予以省略。主要步骤如下:假设输入特征图为X∈RC×H×W,其中C为图像通道数,H为图像高度,W为图像宽度。

图3 多尺度注意力融合模块

2.3 基于双向LSTM网络的序列关系提取方法

为提高模型的预测准确度,进一步使网络理解局部特征间相互关系,使用双向LSTM可分别从特征向量的起始点和终点双向移动,用于在二维图像上获取上、下、左、右4个方向的信息,为获取更准确的上下文信息,本文算法在设计中将隐藏层设为两层,其具体结构如图4所示。将通过多尺度注意力融合网络获取的全局特征向量进行水平分割后,得到该图像各局部特征所对应的特征向量,将所得向量输入至两层双向LSTM网络,以获取局部特征之间的相互关系。然后,将所有特征向量连接在一起作为最终的行人局部特征。 具体地,由卷积网络所得的输出X′∈RC×H×W,其中C为特征图的通道数,H为图像高度,W为图像宽度。为获取图像垂直方向的序列关系,首先使用全局平均池化操作将图像宽度压缩至一维,得到X1∈RC×H×1,然后对X1进行等份分割,从而产生H个通道数为C的特征向量,再将每个特征序列通过两层双向LSTM网络,生成U个特征向量,从而更好地表示特征序列连接关系。最后,将所有特征向量连接在一起作为最终的行人局部特征关系表示向量,再通过全连接层进行分类,最后使用交叉熵损失函数对模型进行训练。

图4 双向LSTM结构

3 实验结果和分析

本文算法基于Python的深度学习框架Pytorch,使用英伟达3090显卡进行模型训练和评估测试。在训练中,为提升模型鲁棒性,对数据集采取3种数据增强方法,即随机擦除、随机裁剪和水平翻转。模型训练轮数设置为400,采用Adam优化器,初始学习率设置为0.000 8,经过每40轮训练,将学习率降低为原先的0.5倍,难采样三元组损失函数中的超参数设置为0.3。在训练和测试中,每个batch设置为64,并采用余弦距离计算样本间的距离。

3.1 数据集选取

为检验本文算法的有效性,选用公开数据集Market1501和CUHK03作为本次实验的数据集。

Market1501:该数据集包含751个行人的12 936张图像用于训练,750个行人的19 732张图像用于测试。 所有图像均由5台高分辨率相机和1台低分辨率相机拍摄。

CUHK03:该数据集含有 1 467 个不同的人物,由 5 对摄像头采集,其中训练集包含767个行人的7 670张图像,测试集包含700个行人的7 000张图像。

3.2 实验评价标准和实施方案

为使各算法具有可比较性,实验中采取相同的实验环境和参数,并采用mAP和Rank-1作为评价标准。Rank-k通过计算前k个结果中预测正确的个数来表示算法准确性,如Rank-1表示预测出的图像中第1张正确的概率。mAP则反映了算法在整个测试集上的准确率。

为检验模型有效性,文中使用文献[17]的在ImageNet网络上预训练模型ResNet50作为本次实验的baseline,将本文算法和当前典型的其他行人重识别算法进行对比,检验算法的有效性和准确率。为检验各环节对算法性能的影响,将网络架构分解为融入SE block的baseline、融入多尺度注意力融合模块网络(MAFNet)和多尺度注意力融合和双向LSTM的网络(MAFLNet)进行消融实验,以验证多尺度注意力融合模块和双向LSTM网络在行人重识别算法的有效性。

3.3 实验结果分析

本文算法和其他当前基于注意力模块的行人重识别算法实验结果如表1所示,通过实验结果对比发现,在CUHK03和Market1501数据集上,baseline的特征提取效果一般,mAP分别只有69%和83.7%,Rank-1分别为73.8%和94.2%,而本文所提出的MAFLNet算法mAP分别达到77.2%和87.1%,Rank-1达到79.4%和95.4%,在mAP值平均提高5.8%,Rank-1平均提高3.4%,和其他算法进行对比,准确率也有较大提升。

表1 本文算法和其他算法对比

为消除各环节间的相互影响,按照实验方案分为3个部分进行消融实验。实验结果如表2所示。通过结果发现,使用SE block后,mAP在2个数据集上分别提高至71.2%和85.5%,Rank-1提升至73.8%和94.2%,表明该通道注意力模块可有效获取相应通道权重,提取通道重要信息;在该网络后添加双向LSTM网络,mAP在2个数据集上分别提高至72.5%和86%,Rank-1提升至75.8%和94.5%。通过融合注意力模块的网络后,双向LSTM网络根据行人图像特点,进一步学习输出特征序列的上下文信息,使模型预测准确率进一步提升。采用MAFNet对输入图像进行特征提取,mAP在2个数据集上分别提高至75.6%和86.4%,Rank-1提升至78.4%和94.8%,表明相较于基于SE blcok的单一尺度注意力网络,基于SE block的多尺度注意力模块可学习特征图在多个尺度下的通道信息权重并进行融合,在保证不低于单一尺度下的特征提取效果情况下,进一步挖掘不同尺度下的通道信息,从而关注重要特征而忽略冗余特征;为进一步验证和提升模型提取效果,在该网络后加入双向LSTM结构,形成本文算法MAFLNet。实验结果表明,mAP在2个数据集上分别提高至77.2%和87.1%,Rank-1提升至79.4%和95.4%,说明各分支结构均可提升模型预测精准度,多尺度注意力模块可有效引导模型关注关键特征,双向LSTM结构能有效获取图像的局部特征间的关系。

表2 各环节网络实验结果

为进一步直观感受各网络特征提取效果,对各个环节训练出的网络进行可视化处理,如图5所示。通过热点图可看出,本文算法MAFLNet更能关注行人的关键性特征,忽略冗余的背景特征,因此预测效果较好。

图5 网络热点图

4 结语

本文提出一种基于多尺度融合和双向LSTM的行人重识别算法,旨在将多尺度下注意力模块进行融合,提取与单一尺度不同的且更为关键的特征,后采用双向LSTM网络寻找图像上下文信息,并通过交叉熵损失函数和难采样三元组损失函数进行训练,实验结果表明本文算法的有效性,提高了行人重识别算法的准确度。由于本文算法在同一数据集下进行训练和测试,模型泛化能力较弱。因此,有关模型的迁移学习仍有进一步研究空间。

猜你喜欢
行人尺度注意力
让注意力“飞”回来
毒舌出没,行人避让
财产的五大尺度和五重应对
路不为寻找者而设
“扬眼”APP:让注意力“变现”
我是行人
曝光闯红灯行人值得借鉴
A Beautiful Way Of Looking At Things
宇宙的尺度
9