基于学习体型表征的行人再识别

2022-07-09 03:04王霄李海芳王庆生

科学技术与工程 2022年15期

王霄，李海芳，王庆生

(太原理工大学信息与计算机学院，晋中 030600)

行人再识别(person re-identification,Re-ID)[1]的目标是通过不同相机或不同时间拍摄的多个图像识别同一个人，并可与行人检测[2]和行人跟踪技术[3]广泛用于智能安保领域。Re-ID是许多应用程序中的一个重要组件技术，如人员跟踪、视频监控系统和计算取证。尽管目前行人再识别性能有所提高，但现有的方法通常依赖于这样一个假设，即要查询的人和图库图像都拥有相同的服装。虽然这个假设确实适用于许多现有的Re-ID数据集，但如果数据经过很长时间的聚合，同样衣服的假设就不成立了，因为人们倾向于每天换衣服。对许多行人再识别方法而言，跨图像改变个人的衣服会导致性能严重下降。

由于行人再识别广泛使用的数据集Market-1501[4]、DukeMTMC-reid[5]中缺乏同一身份的服装变化，服装依赖问题在之前的工作中很少受到关注。因此，Zheng等[6]提出了一个联合学习框架DG-Net，它包含一个生成模块，将每个人分别编码为一个外观表示和一个结构表示，从而提高现有行人数据集的行人再识别性能。虽然这个解开结构和外观的想法有助于解决服装依赖性问题，但使用外观来执行 Re-ID 仍然由服装颜色信息主导，无法实现更换服装情况下的行人再识别。现有的方法大多被训练成只关注匹配衣服的颜色，而忽略了其他与身份相关的线索，如体型。

还有一些模型以更好地表示Re-ID期间的特定解纠缠为目标。例如，Ma等[7]通过将输入与一个不可端到端训练的复杂多分支模型分离到前景、地面、背景和姿势来生成人物图像。Ge等[8]和Li等[9]利用受引导的图像信息学习姿态不变特征。还有学者用跨模态的方法解决了一个与服装依赖非常相似的问题，即传感器依赖性问题。Varior等[10]从相机视图图像采样的像素中学习颜色模式，解决了被感知颜色的不同照明的问题。Wu等[11]构建了第一个跨界RGB-IR基准数据集SYSU-MM01。他们还分析了三种不同的网络结构，并提出了在一个为RGB-IR Re-ID任务优化的网络。Ye等[12]提出了特定模态和模态共享的度量损失和一种新的双向约束损失。Dai等[13]引入了一种跨模态生成对抗网络(cross-modal generative adversari-al networks,cmGAN)来减少RGB和红外特征的分布散度。然而，尽管他们成功地学习了跨模态的传感器不变特征，他们的模型仍然不能用来解决单个月的服装依赖问题。但是传感器依赖性确实类似于服装依赖性问题，因为Re-ID系统学习利用数据集偏差来执行识别。跨模态的Re-ID方法通过确保学习到的表示对多种输入模式(如RGB图像和红外图像)不一致，从而迫使模型发现传感器不变的特征。本研究的思路是：使用特征判别器对生成的特征进行训练，看特征是来自RGB模态还是红外模态，知道判别器无法判断来自RGB还是红外模态，此时再去训练生成器，首先将RGB和红外图片输入特征提取器提取特征再利用损失函数优化提取特征，判别器、生成器不断循环直到得到跨模态特征。由此，现采取类似的方法，通过确保学习到的表示对颜色和灰度图像都有效，迫使表示对服装的颜色和图案不变。同时，更进一步和明确地指导表示学习到学习形状信息。

为了克服以往工作的局限性，并确认目前Re-ID方法的服装依赖问题，收集一个包含服装变化的新数据集是一个选择。然而，这可能会导致隐私的伦理问题，一些现有的数据集如DukeMTMC因此被暂停。为了解决目前Re-ID方法的服装依赖问题，需要一个数据集来进行评估，使用生成模型，在相同身份的图像上合成了不同的服装颜色变化。一般来说，开发这个合成的数据集是为了评估现有的最先进的方法在换衣服的场景中的弱点。

除了上述数据集外，本文中还提出一个颜色不可知形状提取网络来解决服装依赖问题，该问题通过对抗性学习和结构解纠缠来学习身体结构视觉表征。特别是，利用RGB图像产生的灰度图像来获得在服装颜色变化中相同分布的视觉特征。此外，提出的模型在观察具有姿态变化的灰度和RGB图像时，通过执行图像恢复来实现结构提取。

1 行人再识别方法

首先介绍本文方法的整体框架。其次，分别介绍提出方法中的两个部分,即服装颜色自适应和基于不同姿势引导的体型特征分离。

1.1 整体框架

本文提出的方法包括两个部分：服装颜色自适应和基于不同姿势引导的体型特征分离。本文提出算法的整体框架如图1所示。该整体框架包括：形状编码器ES、颜色编码器EC、特征鉴别器DF、图像生成器G和图像鉴别器DI。接下来描述这些模型如何一起工作来学习一个体型特征。训练该网络可以学习一个人的形状编码和一个人的图像的颜色编码，然而，本文研究主要是体型特征，因为它可以重新用于跨域(非颜色相关的)行人再识别任务。体型表征主要包括身体的轮廓、头发、行人携带物等。

图1 网络图Fig.1 Network diagram

1.2 服装颜色自适应

1.2.1 形状编码器ES

(1)

式(1)中：K为行人身份的数量。

dpos=‖fx-fxpos‖2

(2)

dneg=‖fx-fxneg‖2

式(2)中：fx、fxpos和fxneg分别为x、xpos和xneg图像的特征向量。根据上述定义，将三元组损失定义为

(3)

式(3)中：m>0是用于定义正图像对的距离dpos与负图像对的距离dneg之间距离差的边距。

1.2.2 特征鉴别器DF

接下来，由于本文的目标是推导出不依赖于服装颜色的体型表示，因此首先通过鼓励形状编码器ES在观察Xrgb和Xgray时生成相似的特征分布来学习颜色不变表示。为了实现这一点，提出了对抗性学习策略，并在潜在特征空间中部署了特征鉴别器DF。该鉴别器以特征向量rgb和gray作为输入，以确定输入的特征向量是来自Xrgb还是来自Xgray。更准确地说，将特征级的对抗性损失定义为

(4)

Exgray～Xgray{lg[1-DF(fgray)]}

1.3 基于不同姿势引导的体型特征分离

1.3.1 颜色编码器EC

1.3.2 图像生成器G

(5)

请注意，在上述重建损失函数中采用了L1范数，因为它保持了图像的清晰度[14]。与使用相同身份进行图像重建的自我身份生成不同，跨身份生成侧重于具有不同身份的图像生成。在这种情况下，没有像素级的真相监督，此处引入了基于外观和结构代码的潜在代码重建来控制这种图像的生成。

1.3.3 图像鉴别器DI

(6)

为了在测试阶段执行行人再识别，网络通过ES对查询图像进行编码，以推导体型特征s，用于通过最近邻搜索匹配图像库的搜索。将在以下小节中详细说明每个组件的属性。需要注意的是，网络的目标是在服装变化场景下进行行人再识别，而不观察地面真实的服装变化训练数据。通过引入上述网络模块，将能够在有服装变化的环境中执行重新识别。更准确地说，通过对编码器/生成器和特征鉴别器的联合训练，本文模型允许学习身体结构表示。利用上述损失总结了训练算法1的伪代码，其中λtri和λi是超参数。

算法1:Learning of ours Data:Image set:Xrgb,Xgray,X'rgb;Label set:Yrgb,Ygray Result:Configurations of ours1 θES,θEC,θDF,θG,θDI←initialize2 for Num.of training Iters.do3 xrgb,xgray,x'rgb,yrgb,ygray←sample fromXrgb,Xgray,X'rgb,Yrgb,Ygray4 ƒsrgb,ƒsgray,ƒcrgb←obtain by ES(xrgb),ES(xgray),EC(x'rgb)5 Lid,Ltri6 θES←-θES(Lid+λtriLtri)7 x∧rgb← obtain by G(ƒsgray,ƒcrgb)8 LDFadv,Lrec,LDIadv9 for Iters.of updating generator do10 θES←-θES(LDFadv)11 θES,EC,G←-θES,EC,G(Lrec+λILDIadv)12 for Iters.of updating discriminator do13 θDF ←-θDF(LDFadv)14 θDI←-θDI(LDIadv)

2 实验结果与分析

2.1 数据集

为了评估本文提出的方法，将在三个数据集上进行了实验：其中包括两个基准的行人再识别数据集：Market-1501[4]和DukeMTMC-reID[5,15]，这在最近的Re-ID任务中通常被考虑。此外，还将在一个名为SYSU-MM01[11]的跨模态数据集上进行了实验，以评估提出的模型在学习体型表示时的泛化性。

Market-1501:Market-1501[4]由32 668张来自6个摄像头视角的1 501个身份标签的图像组成。数据集被分成两个不重叠的固定部分：来自751个身份的12 936张训练图像和来自750个身份的19 732张测试图像。在测试中，使用750个身份的3 368个图像作为查询图像检索库中的匹配人员。

合成数据集:来自Market-1501的小合成数据集。它总共包含了24 732个图像200个身份的图像，每个身份都有数百个图像，它只用于测试场景。合成的数据集是用来评估现有的在换衣服识别时的弱点。如图2所示，该实验综合改变原衣服的颜色或纹理。

图2 行人示例Fig.2 Pedestrian exanple

DukeMTMC-reID:DukeMTMC-reID[5,15]也是一个大规模的行人再识别数据集。它从8台相机中收集到，包含了36 411个属于1 404个身份标签的图像。它被分为包含702个身份的16 522个训练图像、来自其他702个身份的2 228个查询图像和17 661个图库图像。

SYSU-MM01:SYSU-MM01[11]数据集是交叉模态(RGB-IR)行人再识别的第一个基准数据集，由6个相机捕获，包括两个红外相机和4个RGB相机。该数据集包含491人，共有287 628个RGB图像和来自4个RGB摄像机和2个RGB摄像机的15 792个红外图像。训练集共有32 451幅图像，包括19 659个RGB图像和12 792个红外图像，其中训练集包含395个身份，测试集包含96个身份。

2.2 实验细节

本文中使用PyTorch来实现了提出的模型。使用在ImageNet上预先训练的ResNet-50作为形状编码器ES和颜色编码器EC的主干。给定输入图像x(所有图像的大小被调整为256×128×3，分别表示宽度、高度和通道)，ES将输入图像编码为2 048维特征s。EC本文删除了它的全局平均池层和全连接层，然后附加一个自适应最大池层来输出2 048维的外观编码生成器的结构是6个卷积残差块，与Miyato等[16]提出的类似。图像鉴别器DI的结构采用ResNet-18作为骨干，而特征鉴别器DF的体系结构则由5个卷积块组成。这五个组件都是随机初始化的。Ltri的margin设置为2.0，将λtri和λi分别固定为1.0和0.1。

对于训练，所有输入图像的大小将重新调整256×128。与之前的深度行人再识别模型类似，随机梯度下降(stochastic gradient descent,SGD)用于训练学习率0.002和动量0.9的EC。本文中应用Adam[17]来优化ES、G和DI，并将学习率设置为0.000 1，和(β1，β2)=(0，0.999)。

对于Market-1501和DukeMTMC-reID，通过将RGB图像转换为灰度的图像来增强测试数据集。也就是说，除了标准的评估设置之外，查询图像和检索图库都是在RGB中，在灰色/RGB、RGB/灰色和灰色/灰色作为查询/检索集上进行了扩展实验，以评估当前Re-ID模型的泛化能力。对于SYSU-MM01，有两种测试模式，即All-search和Indoor-search模式。对于All-search模式，将使用所有的测试图像。对于Indoor-search模式，只使用1、2、3、6个摄像头的室内图像。这两种模式都采用了单镜头和多镜头的设置，这两种模式都使用红外图像作为查询图像，而使用RGB图像作为检索图库集。对于本文的合成测试集，将只在测试场景中使用，用来评估由Market-1501训练集训练的模型。

2.3 行人再识别评价

为公平起见，参照现有工作的做法，本文实验同样以累积匹配特性(cumulative matching characteristics,CMC)和平均精度均值(mean average precision,mAP)作为评价指标。CMC中的准确率Rk测量的是在前k个检索结果中出现正确行人图像的概率。mAP指标可以体现方法的平均检索性能。

对于合成的数据集，比较了提出的方法与目前的六种标准Re-ID方法和两种交叉模态Re-ID模型，结果如表1所示。发现所有标准的Re-ID方法的性能都严重下降，这表明标准的Re-ID方法都存在衣服颜色/衣服不匹配的问题。其次，虽然两种交叉模态方法证明了改进，但它们的模型也不能处理单一模态的服装颜色变化。

对于Market-1501数据集将本文提出的方法与当前六种标准的行人再识别方法和两种跨模态行人再识别模型的代码进行了比较，并在Market-1501数据集的一个标准和三个扩展设置中得出了结果。这些标准方法包括VerifIdentif[18]、SVDNet[19]、FD-GAN[8]、Part-aligned[20]、PCB[21]和DG-Net[6]，而跨模态模型包括cmGAN[13]、Alighn-GAN[22]。在表2中展示了所有结果，以及可以观察到的一些现象，此处将其总结为三个层次。首先，最先进的方法略优于两种跨模态方法，但在扩展评估中性能严重下降，这表明它们在训练服装颜色过拟合时易受颜色变化和弱泛化的影响；其次，本文提出的方法在每个设置中都优于所有的方法，这证明了它有能推导出体型表示的能力。

表1 合成数据集Table 1 Composite dataset

对于DukeMTMC-ReID数据集，还将本文提出的方法与当前六种标准行人再识别方法和两种交叉模态Re-ID模型进行了比较，在表3中的一个标准和三个扩展设置中报告了结果。观察到与Market-1501数据集同样的现象。

为了评估本文方法在跨模态行人再识别中的泛化，还在SYSU-MM01数据集上进行了额外的实验。将本文提出的方法与两个手工提取特征(HOG[23]、LOMO[24])和三种跨模态方法(SYSU[11]模型、cmGAN[13]、Alighn-GAN[22])进行了比较，结果见表4，可知本文方法在跨模态行人再识别中取得了可比的结果。

2.4 消融实验

表2 Market-1501数据集Table 2 Market-1501 dataset

表3 DukeMTMC-reID数据集Table 3 DukeMTMC-reID dataset

表4 SYSU-MM01数据集Table 4 SYSU-MM01 dataset

表5 消融实验Table 5 Ablation Studies

2.5 可视化结果展示

通过t-SNE可视化了合成数据集上的特征向量fs。值得重复的是，在合成数据集中，相同的身份可能会有不同的穿着，而不同身份可能会有相同的穿着。如图3所示，选择30个不同的人，每个都用一个颜色表示。在图3(b)中考虑并展示了五种不同的外观，相同着装的图像显示为相同的颜色。从图3(a)和图3(c)，观察到与DG-Net相比，投影的特征向量与DG-Net相比可以很好地分离，这表明本文的模式可以显示出足够的行人再识别能力。另一方面，对于图3(b)和图3(d)，用一种颜色表示相同的衣服，可以观察到，预测的相同身份但不同的着装的特征向量都有很好的聚集，而DG-Net的特征向量则没有。

图3 特征向量可视化Fig.3 Visualization of feature vectors

3 结论

在本文中，展开了一个长期被忽视的重要的行人重识别任务。收集了1个Re-ID数据集来模拟真实场景，其中包含服装变化。为了解决Re-ID中的服装变化问题，提出了一种新的颜色不可知论形状提取网络，它学习包含服装变化的数据的体型表示训练或微调。通过推进对抗性学习和体型解纠缠，本文模型在合成的数据集和两个基准数据集上取得了令人满意的性能。定性结果也证实了本文模型能够学习服装颜色不变的体型表示。此外，在一个跨模态数据集上的广泛实验结果也证明了本文模型可以推广到跨模态Re-ID。