基于注意力机制与多尺度特征融合的行人重识别方法

2022-02-28 08:58宋晓茹杨佳高嵩陈超波宋爽

科学技术与工程 2022年4期

宋晓茹，杨佳，高嵩，陈超波，宋爽

(西安工业大学电子信息工程学院，西安 710021)

随着大规模高清摄像头的普及以及高速通信网络的发展，行人重识别技术被广泛应用于智能寻人系统、智能安防、自动驾驶等领域。行人重识别，即对特定的监控行人图像，检索跨摄像头跨场景的该行人图像。目前行人重识别技术已经有了很多研究成果，但由于遮挡和视角姿态等问题的影响仍然面临着巨大的挑战，因此提取具有鲁棒性的行人特征成为了解决行人重识别的关键性问题[1]。

传统的行人重识别需要手动提取颜色(RGB、HSV)或纹理(LBP、SIFT)[2]等特征后，使用度量方法对特征进行相似性度量，使特征间的类内距离尽可能小，类间距离尽可能大。然而，由于手动提取特征复杂且提取特征能力有限，随着深度学习的发展以及卷积神经网络在ImageNet图像识别大赛上取得的巨大成功，基于深度学习的行人重识别逐渐成为研究热点[3]。

基于深度学习的行人重识别根据损失函数的不同分为基于表征学习的行人重识别和基于度量学习的行人重识别[4]。基于表征学习的行人重识别可被当做分类或验证问题[5]。Zheng等[6]提出了一个孪生网络，该网络结合了两种模型的优势，同时计算分类损失和验证损失并利用其互补性质提高了模型的学习判别能力。Lin 等[7]提出了一种行人重识别网络，在学习 Re-ID 嵌入的同时，能够预测行人属性，这种多任务方法聚合了分类损失和属性损失，提高了网络的泛化能力。随着研究的深入，研究者们通常增加网络对局部特征的学习，Fu等[8]通过对行人图片水平分割的方法提取局部特征，还有一些研究通过预训练的人体骨架信息，但需要引入额外的图片切块或姿态点定位。

基于度量学习的行人重识别旨在学习两张图像的相似性，通过最小化度量损失函数，使行人正样本对特征间的距离更近，负样本对特征间的距离更远[9]。三元组损失[10]强制使得关于同一个目标图像与其正样本的距离小于与其负样本的距离，从而在缩小图像类内差的同时增大其类间差。常用的度量损失还有边缘挖掘损失[11]、四元组损失[12]等。

这些方法虽然已经取得了极高的准确率，但往往存在以下问题：①卷积神经网络通常取网络的最高层特征作为识别依据，但高层特征的分辨率低；②现有的行人重识别模型忽略了图像的关键性细节特征。为此，针对现有模型提取的行人特征通常无法充分的表达行人信息，提出了基于注意力机制与多尺度特征融合的行人重识别方法。其中注意力机制旨在使网络抽取出更加关键的信息，同时不会对模型的计算和存储带来更大开销，多尺度特征融合能利用多层特征间的互补特性改善模型，防止在训练过程中的特征丢失，使得模型得到深层次的特征表达，提高学习效率和准确率。

1 基于注意力机制与多尺度特征融合的行人重识别模型设计

1.1 网络结构设计

设计基于注意力机制与多尺度特征融合的行人重识别模型如图1所示，主要由骨干网络、注意力机制模块和多尺度特征融合模块组成。行人图像经过骨干网络提取特征后，对不同尺度的卷积层嵌入注意力机制得到关键特征，再通过尺度变换将特征尺寸归一化后进行特征融合，采用联合交叉熵损失、难样本采样三元组损失和中心损失的多损失函数策略对模型进行训练。

1.1.1 骨干网络

骨干网络使用改进的R-ResNet50网络，ReLU激活函数虽然求解梯度信息时收敛速度十分迅速，但是在神经元的输入值为负数时，通过ReLU函数计算的输出将全为0，经过这些神经元的梯度信息将都为0，这些神经元处于了一种“死亡”状态，这样会导致神经元权值也将无法得到更新，影响网络的表达能力。RReLU函数相较于ReLU函数，在神经元的输入为负值时，不会过滤掉所有负值，而是对负值赋予一个非零斜率，尽可能地保留负半轴的有效信息，RReLU的数学表达式为

(1)

式(1)中：在训练阶段，x为神经元的输入；参数a服从均匀分布。

使用RReLU函数替换ResNet50残差块结构中的ReLU激活函数，改进后的残差块结构如图2所示，使用改进后的残差块结构按照ResNet50的网络结构搭建方式，提出了R-ResNet50网络模型。

1.1.2 注意力机制模块

视觉注意力在人类大脑中用来处理大脑的视觉反馈信号，人体的视觉感官在不同时间内都会接受大量的外界信息，但是大脑中并不是所有的神经元都处于激活状态，所以在处理一些任务信息时大脑会有选择性的关注一些重点信息，而忽略不重要的信息，注意力机制的启发来源于认知科学中对视觉感知的研究，基本思想是让系统自主学会注意力。

由于在行人重识别任务中摄像头角度不同且行人图片背景复杂，将Fu等[13]提出的双注意力机制(dual attention network for scene segmentation，DANet)嵌入在行人重识别结构中，使得网络能够像大脑一样忽略无关的背景信息而关注行人的关键性信息。DANet是CBAM(convolutional block attention module)和Non-local的融合变形，由空间注意力机制和通道注意力机制并行组成，对特征图使用自相关矩阵相乘的形式分别得到空间注意力和通道注意力，最后将空间注意力和通道注意力的输出结果进行相加融合，得到聚合特征图后用于下一步操作，双注意力机制DANet避免了CBAM中手工设计池化、多层感知机等一些复杂操作。

1.1.3 多尺度特征融合模块

卷积神经网络在进行特征提取时采取模块逐层抽取的方式，每个模块输出尺寸不同，通常行人重识别都是取网络最高层的输出特征作为识别依据，卷积神经网络中的高层特征语义信息表征能力强，但缺乏空间细节特征；低层特征几何信息丰富，但语义信息表征能力弱。通过多尺度特征融合的方式将不同网络层的特征进行融合,提高网络的特征表达能力。

在对输入图像进行特征提取时，Conv3_X的输出尺寸为32×16×512，Conv4_X为16×8×1 024，Conv5_X为8×4×2 048。为了将特征尺度统一，首先使用双线性插值，分别将Conv4_X放大为32×16×1 024，Conv5_X放大为 32×16×2 048，然后用1×1 卷积将Conv3_X、Conv4_X升维为32×16×2 048，最后将3个相同尺度的特征拼接为f={Conv3_X,Conv4_X,Conv5_X}，特征f既能将3个特征层的优劣势互补，还能防止网络在训练过程中的特征丢失。

1.2 损失函数

为了提高网络识别率，使用联合交叉熵损失、难样本采样三元组损失和中心损失的多损失函数策略进行训练。交叉熵损失函数为

(2)

式(2)中：k为批量大小；n′为类别数，xi为第yi类中第i个样本的特征向量；W为权值；b为偏置量。

三元组损失函数在训练时从每批次训练样本中选出一张目标样本、一张正样本和一张负样本, 以样本之间的距离作为约束条件，缩小样本间的类内距离增大类间距离。但在网络训练时，通常都是简单易区分的样本对，网络学习的特征不足以描述图像信息，所以使用改进的难样本采样三元组损失函数，其表达式为

(3)

式(3)中：a为目标图像；p为正样本；n为负样本；A为相同ID的图像集；B为不同ID的图像集；dap(η)为正样本对距离；dan(η)为负样本对距离，N为每批次训练样本数，α表示距离间隔。

由于三元组损失的输入是在数据集中随机采集的图片，所以很难保证类内距离小于类间距离，中心损失能够减少样本之间的类内距离使得模型学习到的特征具有更强的识别能力，中心损失公式为

(4)

式(4)中：cyi为第yi个类别的特征中心；xi为样本i的特征向量。

将交叉熵损失函数、难样本采样三元组损失和中心损失函数联合起来作为行人重识别网络训练所使用的损失函数，可表示为

L=Lsoftmax+Lth_loss+Lcenter_loss

(5)

2 仿真实验与结果分析

2.1 实验数据

通过在公开数据集Market1501[14]和DukeMTMC-ReID[15]对设计的行人重识别模型进行仿真实验验证，验证模型的有效性。

Market1501数据集在清华大学中采集，由6个摄像头拍摄的1 501个行人的32 668张图像组成, 训练集有751人，12936张图像,测试集有750人，19 732张图像。

DukeMTMC-ReID数据集在杜克大学中采集，由8个高分辨率摄像机拍摄的1 404个行人的36 411张图像组成，训练集有16 522张，测试集有17 661张，查询集2 228张。训练集和测试集都有702个行人，平均每个人有23.5张图片作为训练数据。

2.2 实验环境及参数

实验操作系统为Windows10,CPU参数为Intel(R)Core(TM)i9-9900 CPU @3.60 GHz,64 GB内存，使用显卡NVIDIA RTX 2080Ti进行运算加速，Python编写程序，依赖开源框架Pytorch，网络权值更新采用Adam优化算法，初始学习率为0.000 1，dropout率为0.5，批量数为32，epoch为60。模型训练参数设置如表1所示。

在技术可行性方面，医院只要装有普通的电脑即可不需要什么复杂的设备和机器。在经济上，社区门诊服务系统肯定比大型的开发成本和维护费用较小，系统性价比很高。从使用目的来分析，社区门诊服务系统是针对小医院应用开发，功能简洁，操作方便，非常符合小型医院的使用要求。因此社区门诊服务系统应该是可行的。

表1 模型参数设置

2.3 评价指标

为了衡量算法性能，将首位命中率Rank-1和平均精度均值mAP作为本文算法评估标准。

行人重识别算法的目标是在不同的摄像机下找到与待查询目标最相似的行人，这可以看作是排序问题。Rank-1则表示在排序列表中第一张图片与待查询图片属于同一ID的准确率。

mAP由平均精度(average precision.AP)求和取平均得到，计算公式为

(6)

2.4 仿真实验结果分析

为了验证所提出模型的有效性，以骨干网络为基础分别对不同模块进行仿真实验，分析各个模块对实验结果的影响。

2.4.1 注意力机制模块的仿真实验结果

为了验证注意力机制模块对行人重识别结果的影响，模型去除了多尺度特征模块，在Conv3_X、Conv4_X、Conv5_X的输出特征后添加注意力机制DANet进行仿真实验。将骨干网络与注意力机制相结合后，在Market1501数据集的训练结果如图3所示，其中训练集的识别率为0.996，损失率为0.028；测试集的识别率为0.889，损失率为0.275，Rank-1为90.7%，mAP为75.1%，相比于单一的使用骨干网络Rank-1、mAP分别提高了1.3%和0.8%。

图3 注意力机制在Market1501数据集的训练结果

在DukeMTMC-ReID的训练结果如图4所示，其中训练集的识别率为0.994，损失率为0.031；测试集的识别率为0.841，损失率为0.445，Rank-1为84.3%，mAP为67.5%，相比于单纯使用骨干网络Rank-1、mAP分别提高了2.1%和2.4%。

图4 注意力机制在DukeMTMC-ReID数据集的训练结果

实验结果表明，注意力机制能够使得网络结构更加关注于行人图片中的关键信息，将更多的资源分配给这些信息，合理的对网络资源进行分配，提高模型的识别率。

多尺度特征融合通过将模型中不同卷积块的输出特征相融合，使得模型最终输出特征既包含了几何细节信息表征能力强的低层特征，也包含了语义信息表征能力强的高层特征。为了验证多尺度特征模块对行人重识别结果的影响，模型去除了图1中行人重识别网络结构的注意力机制模块，只保留了骨干网络和多尺度特征模块进行仿真实验分析。在Market1501数据集的训练结果如图5所示，其中训练集的识别率为0.996，损失率为0.027；测试集的识别率为0.892，损失率为0.230，Rank-1为91.1%，mAP为76.3%，相比于单一的使用骨干网络Rank-1、mAP分别提高了1.7%和2.0%。

图5 多尺度特征融合在Market1501数据集的训练结果

在DukeMTMC-ReID数据集的训练结果如图6所示，其中训练集的识别率为0.993，损失率为0.031；测试集的识别率为0.853，损失率为0.433，Rank-1为85.1%，mAP为68.3%，相比于单一的使用骨干网络Rank-1、mAP分别提高了2.9%和3.2%，表明多尺度特征融合可以提高特征的表达能力。

图6 多尺度特征融合在DukeMTMC-ReID数据集的训练结果

2.4.3 结合注意力机制与多尺度特征融合的仿真实验结果

将骨干网络R-ResNet50、注意力机制模块与多尺度特征融合模块结合起来设计行人重识别模型，并在主流数据集上分别进行仿真实验，网络结构如图1所示，在Market1501数据集的训练结果如图7所示，其中训练集的识别率为0.997，损失率为0.020；测试集的识别率为0.911，损失率为0.165，Rank-1为92.7%，mAP为80.4%，相比于单一的使用骨干网络Rank-1、mAP分别提高了3.3%和6.1%。

图7 注意力机制+多尺度特征融合在Market1501数据集的训练结果

在DukeMTMC-ReID数据集的训练结果如图8所示，其中，训练集的识别率为0.994，损失率为0.027；测试集的识别率为0.883，损失率为0.350，Rank-1为86.4%，mAP为71.0%，相比于单一使用骨干网络Rank-1、mAP分别提高了4.2%和5.9%。

图8 注意力机制+多尺度特征融合在DukeMTMC-ReID数据集的训练结果

相较于将注意力机制模块和多尺度特征融合模块单独使用时，两者结合起来识别率和损失率更快达到最高值并趋于稳定。表明所提出的基于注意力机制和多尺度特征融合的行人重识别网络模型能够增强模型的特征提取能力，提高行人重识别的识别率。

2.4.4 与主流方法的对比

为了验证所提出的行人重识别方法的优越性，将本文所提出的方法在Market1501数据集、DukeMTMC-ReID数据集上分别与多种主流算法进行对比，结果如表2所示。在Market1501数据集中，本文算法相较于PCB方法Rank-1、mAP分别提高了0.3%和3.1%，相较于Part-aligned方法Rank-1、mAP分别提高了1.0%和0.8%。在DukeMTMC-ReID数据集中，本文算法相较于PCB方法Rank-1、mAP分别提高了4.5%和5.7%，相较Part-aligned方法Rank-1、mAP分别提高了2.0%和1.7%。实验仿真结果证明了所提出的行人重识别模型在不同数据集的优越性，能够提高行人重识别的准确率。

表2 与主流算法的对比

2.4.5 可视化结果

使用本文方法对待检索图像进行行人重识别，相似度排行前十的可视化结果如图9、图10所示。通过可视化结果可知，所提出的基于注意力机制与多尺度特征融合的行人重识别方法显著提高了在公开数据集Market1501和DukeMTMC-ReID的识别效果。

黑色实线矩形表示检索正确；红色虚线矩形表示检索错误；Query表示待检索图像；Top-10表示检索出相似度排行前10的图像

3 结论

提出了基于注意力机制与多尺度特征融合的行人重识别方法。首先对残差网络ResNet50中的残差模块进行改进，克服了ReLU激活函数神经元“死亡”的缺点。其次在模型结构中加入注意力机制模块，使得行人重识别任务更关注一些行人的重点信息，减少不相关的信息对识别任务造成的干扰。最后，对骨干网络中的不同尺度特征进行采样融合，实现了网络结构中的低层特征与高层特征的优缺点互补，并使用多损失函数策略对网络模型进行训练，增强模型的泛化性。通过对行人重识别公开数据集的仿真实验表明，所提出的方法具有更高的准确率。