基于多通道步态集合的跨视角步态识别

2021-12-21 11:25建,丁韬,许
关键词:步态识别率模板

吴 建,丁 韬,许 镜

(重庆邮电大学 通信与信息工程学院,重庆 400065)

0 引 言

步态识别是近年来计算机视觉和生物特征识别领域一个备受关注的研究方向,旨在根据人们走路的姿势进行身份识别。每个人走路的风格都各有不同,这都源于每个人的骨骼长度、肌肉强度、重心强度以及运动神经灵敏度等24种不同成分的差异性所造成的,如果把这些成分都考虑到,则步态是个体所特有的,这点在医学[1]和心理学[2]上也得到了多方面的印证。正是由于每个人的步态具有唯一性,且利用步态来识别个体具有远距离,非受控,不易伪装等优点,所以使得步态识别技术有了长足的发展,特别是在医疗、监控和疑犯跟踪等方面都有很广阔的应用前景。

步态识别作为一种新兴的生物识别技术,相比于较为成熟的识别技术如指纹识别、人脸识别[3]等,在识别精度和速度方面都有一定的不足。随着卷积神经网络的带动发展,步态识别研究成果在各方面的性能得到了很大的提升。步态特征提取是整个识别过程中最为关键的一步,也是一直以来国内外学者的研究热点。现如今的步态特征提取方法主要可分为基于模型匹配的方法和基于外观匹配的方法。基于模型匹配的方法是利用人体动力学的知识,将人体运动的特征参数模型化,在这些特征模型的基础上进行步态分析。文献[4]用单一视角的步态轮廓图来重构3D步态模型,并从模型中提取周期内的步态轮廓图来构建步态能量图,最后通过空间分类器来进行识别;文献[5]采用改进的FAST算法提取步态能量图中的特征点,同时用性能良好的BRIEF算法来描述特征点,最后通过特征点的匹配取得了很好的识别效果;文献[6]提取人体4个下肢关节角度作为运动特征,并使用确定性学习方法学习这些人体姿态参数,最终完成身份识别。这些方法的优点在于能充分抓住人体的运动信息,在人体遮挡或者伪装的情况下,模型化后的特征参数也能保证人体运动信息的完整性。但该方法参数运算量较大,且对摄像头的分辨率有较高的要求。基于外观匹配的方法是从行人的步态序列中产生时空模式来分析步态,通过计算视觉之间的相似性来进行步态识别。文献[7]采用步态能量图作为方法的输入,使用卷积神经网络和多任务学习模型来预测人的多个属性;文献[8]通过使用具有不同功能的编码器、生成器对不同视角或状态下的步态能量图进行转换,拟合成侧面视角下正常行走的步态能量图再进行匹配;文献[9]提出通过深度神经网络直接学习步态能量图或步态序列之间的相似度来学习步态特征从而完成步态识别。

步态能量图(gait energy image,GEI)通过在长时间范围内平均步态轮廓图,可以有效地抑制由于预处理失败而导致的噪声,但却丢失了部分时间上的信息。文献[10]提出了一种基于时间保持的步态能量图(chrono-gait image,CGI),该模板利用红绿蓝(red green blue,RGB)颜色空间保存了原生步态序列中的时间信息;文献[11]在步态能量图的基础上,选择更重要的GEI特征形成子集,并且使用全局-局部保持投影(globality-locality preserving projections,GLPP)算法来优化特征子集;文献[12]直接将步态轮廓图当作没有时序关系的图像集,识别效果显著。但这里选取步态轮廓图作为步态特征,它更注重了步态的时间信息而忽略了部分空间信息,步态的空间信息在识别过程中同样发挥着重要的作用。为了解决在提取步态特征过程中无法兼顾步态图像的时空信息和当前的步态识别方法实时性较低的问题,本文提出使用多通道步态模板(period energy image,PEI)来平衡步态图像的时空信息。综合考虑到在保留步态时序信息的同时能降低图像噪声和减少计算量,这里选择七通道作为通道数的划分界限,并将该七通道的步态模板当成图像集作为深度神经网络的输入,同时改进了分类器的学习方式。

1 获取多通道步态能量图

本文的主要任务包括步态检测和步态序列预处理,而后对步态序列进行归一化和周期检测等处理,最终获得多通道步态模板。

1.1 步态检测

在静态背景下运动目标检测与分割问题上,通常使用的方法为光流法、帧间差分法和背景减除法。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,帧间差分法是在图像序列相邻几帧间采用基于像素的时间差分来提取出图像中的运动区域,背景减除法是将当前帧与背景图像进行差分比较来实现对运动区域的检测。通过对各个方法进行对比,最终采用背景减除法[13]对人体进行检测与分割。本文针对室内环境采用直接差分的背景减除方法,而室外环境则采用背景实时更新的背景减除方法。假设B(x,y)和fn(x,y)分别代表背景图像和当前图像中(x,y)处的像素值,进行差分运算得

(1)

1.2 归一化步态轮廓图

首先,通过遍历原始的步态轮廓图像,找出上、下、左、右边界像素值为1的点,以此来确定人体轮廓的最小矩形框作为人体目标轮廓图像。然后将目标轮廓中的每个像素点(xn,yn)缩放至(64,64yn/xn),其质心横坐标xc为

(2)

(2)式中:xi为人体轮廓像素点的横坐标;N为总体的像素点数。最后,归一化轮廓图为64×64大小,如图1。

图1 原始步态轮廓图和归一化步态轮廓图Fig.1 Original and normalized gait contours

1.3 步态周期检测

步态区别于其他生物特征的一个重要方面就是人体步态具有很强的周期性。通过对单幅特征图像或者整个周期的图像进行匹配,可以在识别过程中对周期步态进行有效地评估。本文用人体运动的幅度来表示周期性变化,通过检测步态周期来找到一些关键帧,并在一个周期内测量每个步态框架的相对位置。步态轮廓图腿部区域的平均宽度W可表示为

(3)

(3)式中:h表示个体图像的高度;Li和Ri分别表示个体第i行中最左侧和最右侧前景像素的位置,这里0≤α≤β≤1。连续3个波峰或3个波谷之间的时间跨度为一个步态周期,如图2。步态周期检测从全部的帧序列中得到长度较小的周期序列,为周期内划分多个通道的步态能量图提供了依据。

图2 步态周期图Fig.2 Gait periodogram

1.4 单通道步态模板

为了用简单的方法提取出视频中有用的信息,目前常用的方法是提取步态能量图,如图3。

图3 步态能量图Fig.3 Gait energy image

步态能量图将一个步态周期内的轮廓图沿着时间维度对齐并平均,其定义可表示为

(4)

(4)式中:N代表行为序列的长度;t代表时间;(x,y)代表二维图像平面坐标。

在GEI中,通过在长时间范围内平均步态轮廓图,可以有效地抑制由于预处理失败而导致的噪声。GEI由于考虑了计算成本和识别性能之间的有效平衡,已经成为了步态的个性签名,是当前最常用的方法之一。

1.5 获取多通道步态模板

以单一通道的步态能量图为基础,这里提出了多通道的步态模板。GEI虽然抑制了噪声,降低了计算成本,但它却完全丢失了步态序列上的时间信息。CGI[10]利用RGB颜色空间保存了步态时间上的信息,但空间上的信息可能会被忽略。PEI平均了这2种方法的优劣,得到了更有效的步态模板。在多通道的步态模板中,步态序列中的帧被映射到不同的通道,本文根据帧的幅度来确定通道的边界,步态轮廓图在一定范围内对应的幅度用T(k)表示为

(5)

(5)式中:k为通道数,k=1,2,…,nc;m为通道窗口的大小;nc表示可能重叠的窗口数,代表了整个步态序列的空间信息。每个通道中的模板PEIk用该通道中帧的平均值序列来表示成步态能量图为

(6)

(6)式中:Nk为该通道内步态轮廓图的数量;Bt为第t帧的轮廓图像。通常情况下,通过增大m来提高Nk的大小可以提升降噪的效果,但同时也会增加计算量。这里通过(5)式和(6)式得到不同视角下(36°,90°和144°)的七通道步态模板如图4。

图4 七通道步态模板Fig.4 Seven-channel gait template

2 识别方法与原理

基于单幅图像提取特征的方法提取了步态能量图中的高维特征,这样既降低了计算成本,也保留了大部分的步态信息,但是这样会忽略步态中的时序信息,而直接从有序的步态轮廓图中提取特征能很好地建模步态中的时域和空域信息,但是计算复杂且不易于训练。本文方法结合了以上2种方法的优点,将多通道的步态能量图当作没有时序关系的图像集,让深度神经网络自身去提取并利用这种关系。

2.1 步态识别的基本方法

深度学习中的卷积神经网络是一种前馈网络系统,主要包括卷积层和池化层。卷积层主要是在原始的输入上进行特征提取,池化层主要负责对输入的特征图进行压缩,提取主要特征。卷积神经网络的人工神经元可以响应一部分覆盖范围内的周围单元,在图像处理问题上有很出色的表现。由于深度学习在各种生成任务上表现良好,因此被广泛用于步态识别任务[14-16],本文步态识别系统的工作原理如图5。

图5 步态识别基本过程Fig.5 Basic process of gait recognition

步态识别过程如下。

1)摄像头采集人的步态;

2)通过背景减除法从视频帧中提取步态轮廓图,并且对目标轮廓图进行归一化等预处理;

3)通过步态周期检测从预处理后的轮廓图中得到长度较小的周期序列,然后从中获取多通道步态模板;

4)将多张模板图像当成图像集作为输入进行特征提取,这里提取的特征包含丰富的时间和空间信息,并且具有较强的鲁棒性;

5)通过特征的分类与匹配来判断是否为同一个行人。

2.2 基于图像集的特征提取和聚合

特征提取作为整个步态识别过程中最为关键的一步,直接影响了最后的识别结果。本文通过提取帧级通道能量图特征方法来代替提取单一的步态能量图的方法,以获得更全面的特征信息。

fi=H(G(F(xi)))

(7)

(4)式中:函数F(·)通过CNN网络对序列中的每个轮廓图都进行特征提取;函数G(·)将提取到的多幅图像的特征映射到序列级函数中,得到一个聚合特征向量;函数H(·)通过全连接网络对得到的聚合特征向量进行辨别从而实现识别效果。由于一个周期的轮廓图包含了整个动作中的完整信息,这里的xi表示为周期内的多通道步态模板,方法的基本流程如图6。

图6 方法实现的基本流程Fig.6 Basic process of method implementation

2.3 度量学习方式的选择

识别任务大都是基于数据上的距离度量展开的,为了处理相似度,可以在特定的任务中选择合适的特征并手动构建距离函数。然而这种方法需要很大的人工投入,并且数据的改变会造成系统的鲁棒性降低。度量学习作为一个理想的替代,学习样本之间的距离度量,为估计样本相似性提供更可靠的依据。

(8)

(8)式中,ε1为阈值参数。对其距离进行l2范数归一化处理得

(9)

(10)

传统的三元组损失函数只要求样本对之间的类内距离小于类间距离,而并没有提出相似样本对之间的相似程度。在着装、遮挡、不同视角等外界环境的影响下,就很有可能导致相似样本对之间产生较大的差异。

基于以上的问题,这里做出了相应的改进。本文添加了新的损失函数来增强约束,使得相似样本对之间的距离应小于一个设定的阈值τ2,并且这个阈值应该小于τ1。这样,改进的损失函数通过增加约束来增大类间距离和减小类内距离,改进后的Triplet Loss函数可表示为

(11)

(4)式中:N为训练样本的个数;β为平衡类内和类间距离所占比重的系数。

3 实验结果分析

本文在MATLAB R2016b和PyTorch 0.4环境下进行实验,计算机配置为NVIDIA 1080TI GPU,运算平台为CUDA 9.0,实验过程都是基于Windows10(64 bit)操作系统上完成。

3.1 数据准备

本次实验采用CASIA-B标准步态数据集,如图7。CASIA-B是一个大规模的,多视角的步态库,共有124人,每个人有11个视角(0°,18°,36°,…,90°,…,180°),在普通条件,穿大衣和携带背包3种行走条件下采集。实验数据均通过降维和降噪处理。

图7 11个视角和3种行走状态Fig.7 Eleven perspectives and three walking states

由于步态能量图直接由轮廓图平均相加而成,所以轮廓图的规范程度对识别效果有很大的影响。而且在跨视角情况下又很容易导致提取到的步态轮廓图的形变问题。这里在融合步态能量图之前对轮廓图使用STN(spatial transformer network)网络进行预处理。STN网络通过对轮廓图进行旋转、缩放、平移、投影和弹性变形处理,有效地改善了步态能量图的特征表达能力。STN网络的结构如图8。

图8 STN网络结构Fig.8 Spatial transformer network structure

图8中,U为输入的原始步态轮廓图,θ为定位网格产生的空间变换参数,Tθ(G)为空间变换函数,V为输出的特征图。

3.2 实验结果

实验中对不同视角下的步态样本进行分析,在CASIA-B步态标准数据集中,每个样本有6组正常行走状态,2组携带背包和2组穿大衣状态。由于本文的主要目标是研究视角变化对特征表达的影响,所以试验均在同状态(nm-nm,bg-bg,cl-cl)下进行。在6组正常行走状态中,选取4组作为训练集,剩下2组作为测试集。携带背包和穿大衣状态各选一组作为训练集和测试集,实验如表1。

在跨视角对比实验中视角的选择上,本文选取了90°,54°,126°,72°和108°视角进行实验,实验结果如表2—表6。

表1 CASIA-B数据集的试验

表2 90°视角下各算法识别率对比

从表2中可以看出,本文算法在对穿大衣等协变量上有很强的鲁棒性,各个状态下识别率均高于基于生成对抗网络的步态识别[16]。与文献[16]相比,平均提高了19.5% 。其中,选择度量学习中改进的三元组损失函数对最终的识别性能也有所提升。从实验结果可以看出,平均提高了1.0%。

表3 54°视角下各算法识别率对比

表4 126°视角下各算法识别率对比

从表2—表4可以看出,本文算法相比于DeepCNNs[9]算法在某些情况下识别率略有降低,这是因为DeepCNNs算法中使用了复杂的神经网络结构,其网络分为局部特征匹配的底层网络,中级特征匹配和全局特征匹配的上层网络,对步态特征的映射更为明显,但是训练时间和测试时间都有很大程度的增加。实验表明,本文算法相比于GaitSet[12]算法在速度上提升了10倍左右,更适合于实时应用场景的识别。

表5 72°视角下各算法识别率对比

表6 108°视角下各算法识别率对比

从表3—表6可以看出,本文算法在各个视角下的识别率都有很大提升,与基于生成对抗网络方法所用算法相比,在72°和108°视角下识别率分别平均提高了19.7%,19.4%,有效缓解了视角变化给识别率所带来的影响。其中,侧身角度识别效果更佳,这是因为侧身角度同时拥有与步行方向平行的步幅信息和与行走方向垂直的步态信息,包含的特征信息更加丰富。

4 结束语

本文以标准数据集CASIA-B为研究对象,对原始步态轮廓序列进行周期检测和归一化处理,最后获取了一个周期的七通道步态模板。这里提出了将七通道步态模板当成图像集作为输入的识别方法,在提高了识别率的同时,还加速了网络的收敛速度,减少了识别时间。本文算法在各个视角的情况下都取得了很好的实验结果。在今后的工作中,为了应用于真实的识别场景,还将增加更多视角下的实验,同时对通道数进行相应的调整,以设计出一个能应对各种环境的步态识别系统。

猜你喜欢
步态识别率模板
铝模板在高层建筑施工中的应用
基于步态参数分析的老年跌倒人群步态特征研究
铝模板在高层建筑施工中的应用
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于面部和步态识别的儿童走失寻回系统
基于Kinect的学步期幼儿自然步态提取
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
步态研究及其在踝关节不稳中的应用进展