基于关键姿态的快递场景人-物交互行为识别方法

2022-07-09 06:44王苁蓉吴静静
计算机测量与控制 2022年6期
关键词:类别向量姿态

王苁蓉,吴静静

(1.江南大学 机械工程学院,江苏 无锡 214122;2.江苏省食品先进制造装备技术重点实验室,江苏 无锡 214122)

0 引言

近年来,随着电商时代的到来,快递行业也随之蓬勃发展,我国快递点数量剧增,快递揽收和运输过程中的安全问题受到日益关注。快递行业要求快递揽件时工作人员必须在快递箱封闭前进行一次开箱查验,以确保货物能够安全送达目的地。与传统人工视频监控相比,智能视频监控技术可以高效识别异常或者危险行为[1-2],对快递工作人员的行为进行识别和预警,极大提高了监控效率和监督的有效性[3]。因此,快递场景下异常行为识别方法的研究对于实现智能安全快递的目标具有重要意义。

近年来,人体行为识别被广泛应用于智能视频监控等日常生活场景中,目前国内外现有的行为识别研究更多聚焦于单人和多人行为[4-7]。在危险行为识别方面,Guan[8]利用3D-CNN结合LTSM进行异常行为识别;Xu[9]等人通过提取视频的底层特征,实现了对视频中暴力行为的检测;吴蓬勃[10]等人基于TensorFlow深度学习框架,使用PoseNet模型采集数据,通过LSTM实现了快递暴力分拣行为的识别。在动物行为识别方面,Wang[11]等人采用YOLOv3模型,基于深度图像分析技术研究了一种针对蛋鸡行为的自动识别方法;Yang[12]等人利用深度学习实现了猪行为的识别。以上方法在行为识别应用中效果较好,然而对于快递场景下开箱验视异常行为分析问题,仅使用人体运动信息描述行为往往会引起较大的识别错误率[13],易受到复杂背景、光照变化以及寄件人行为等干扰。在快递场景中,开箱验视属于人-物交互行为,仅仅依靠人手部的骨骼和关节信息难以区分相似动作,如寄件人人手干扰、其他快递员取物品等,丢失了必要的物体和语义信息。

针对以上问题,本文分析快递场景特点和异常行为特征,提出了一种基于关键姿态的人-物交互行为识别方法。针对场景内的背景干扰和信息冗余,提出一种基于GMM的关键帧提取算法;针对基于OpenPose骨骼点的人体行为识别方法丢失上下文场景和语义信息的问题,引入目标检测方法确定感兴趣的目标物,获得目标位置和类别;针对多目标行为识别问题,提出基于Auction的人-物最优分配方法,确定人-物关系描述子和关键姿态向量;最后,将行为识别和人-物关系进行融合决策得到最终识别结果。

1 本文方法概述

本文提出的基于关键姿态的快递场景异常行为识别方法流程如图1和图2所示。对于网络摄像头采集并传回的视频流,首先用改进的高斯混合背景建模方法建立监控场景背景模型,检测运动目标,根据运动目标的面积阈值判断是否是关键帧;对关键帧使用OpenPose计算获得骨骼点和肢体特征向量,输入深度学习行为分类网络得到人体最初行为模式和位置;使用目标检测算法对关键帧中的物体进行检测和分类,获得物体类别和位置,然后提出最优分配算法获得人-物关系特征描述子和关键姿态;最后将人-物交互关键姿态特征和最初的特征识别进行融合决策得到最终行为识别结果。

图1 基于关键姿态的快递场景人-物交互行为识别方法

图2 基于关键姿态的人-物交互行为识别流程

2 基于关键姿态的人-物行为识别

2.1 基于改进高斯混合模型的关键帧提取

在视频序列中由关键姿态描述的行为状态对于分析识别人的行为更有意义[14],同时为了减少数据冗余和计算负载,本文提出基于改进高斯混合模型的关键帧提取方法。在传统高斯混合模型中,在学习的过程中学习率是固定不变的,因此在一定时间后运动目标对应的高斯分布权值会上升,逐渐更新为背景分布,这样会导致运动目标出现孔洞然后消失,尤其是运动速度较慢的目标。因此本文将运动目标的速度v与像素点的学习率αx,y,t相关联,作为动态变量对其进行动态调整。本文定义的运动速度υx,y,t的数学表达式如式(1)所示。使用该方法进行运动目标检测,有效地提高了运行速度,加强了动态环境地自适应性。

(1)

(2)

式中,Δt代表时间间隔,为固定值。xt和yt指代的是t帧图像中运动目标点集的最小外接矩形的中心像素点的行列序号。对于组成运动目标的前景像素点集合来说,其中每一个点的速度υx,y,t均由相同的速度值来表示。

为了防止固定的更新速率将低速目标识别为背景,学习率αx,y,t需要随着速度υx,y,t的变化动态调整[15]。对于高速目标来说,它不会停留在固定区域,也就不存在前景分布逐步转换为背景分布的情况,所以像素点需要保持稳定、较高的学习率;而低速目标则完全相反。定义学习率αx,y,t的计算公式如式(3):

(3)

式中,υ0表示速度临界阈值,用于区分高速与低速的运动目标。当一个像素点满足以下条件时,它的学习率会初始化为初值αx,y,0:1)t-1和t时刻所匹配的分布模型发生了变化;2)连续5~10帧速度均为0。

如图3所示,图(b)为经过改进高斯混合模型之后获得的前景二值图,该模型相较于经典GMM提取的前景图对于消除孔洞等干扰问题有明显的优势。当相机视野范围内无运动目标进入时,检测系统处于待机模式,仅进行视频流与图像帧的获取。m(k)(x,y)表示经过改进的高斯混合模型之后得出的运动目标前景二值图。当检测区域内出现运动目标时,m(k)(x,y)中出现大量白色像素点,通过计算白色像素点个数与图片总像素的比例s,设定特定阈值V,筛选出大于阈值的帧组成关键帧,然后再进行后续的行为识别。

图3 改进GMM效果对比图

2.2 交互行为人-物状态向量提取

在完成关键帧的检测后,需要提取关键帧内的人体状态向量与物体状态向量,以便后续进一步对人-物状态向量进行匹配融合,进而实现人-物交互行为语义的描述。其中,人体状态向量可以由人体关键点的位置信息、肢体角度和行为标签来表达,物体状态向量可以由物体的类别标签、位置和尺寸来表达。

2.2.1 基于骨架建模的人体状态向量提取

OpenPose模型[16]是由美国卡耐基大学(CMU)以Caffe深度学习框架开发的人体姿态估计项目,可以实现人体关节点的提取与骨架结构的聚合,从而描述人体姿态特征。作为一种自下而上的关节点检测算法,在具有较高检测精度的同时,检测速度具有优越性。如图4所示,该模型可以输出18个人体关节点信息,包括关节的坐标向量以及置信度信息。

图4 基于OpenPose的骨架建模的模型图和结果图

OpenPose模型以RGB图像数据作为模型输入,以VGG19模型[17]的前10层做基础特征提取,对于提取得到的特征图F,通过关节位置回归支路(PCM)回归人体关节的位置向量集合S=(S1,S2,…,Sj,…,Sn),Sj表示第j个关节位置的坐标向量,通过关节亲和力大小预测支路(PAF)预测关节之间的亲和力场集合L=(L1,L2,…,Lc,…,Ln),Lc表示第c组关节对之间的亲和力大小分布。两条支路的输出可以表达为:

(4)

式中,F是基于图像数据提取的特征图,ρt和φt分别表示在阶段t的PCM支路输出和PAF支路输出。对于本文来说,只需要利用OpenPose模型PCM支路输出的关节坐标向量集合X=(X1,X2,…,X18),其中包含了代表人手的关节点的位置向量Xk(xt,yt)。

在完成人体关节坐标向量的提取后,需要进一步实现人体状态向量的描述,即人员行为状态的预测。本文采用神经网络模型处理关节向量信息,进而实现行为类别的预测,网络结构如图5所示。首先将输入的18个关节坐标向量扁平化处理成一维向量,网络整体由4个结构相似的全连接层Block组成,对于每一个Block输出都进行层标准化处理约束模型的参数分布,避免模型误差反向传播时出现梯度爆炸的问题。

图5 基于骨骼点的人体行为识别网络

针对行走、开箱、使用手机、包装快递、写快递单等5种人体状态描述,对应标签值为:“0-Walking”“1-OpenBox”“2-UsingPhone”“3-Packing”“4-Writing”。据此为神经网络模型定义5个输出向量,并通过Softmax函数完成对5种状态预测的置信度信息做归一化处理,取最大置信度对应的行为类别为当前人体状态向量描述。

2.2.2 基于YOLO的物体状态向量提取

上一节内容中对快递工作人员进行了骨架建模和行为识别,但由于快递员在快递开箱验视的过程中容易产生很多相似的干扰行为,如包装快递、使用手机、写快递单以及使用工具等等,这些行为存在一定的相似性,单单凭借人体行为无法有效区分识别。因此需要对场景中的目标物进行分类与定位,确定物体的状态向量,以便于对后续关键姿态估计以及决策融合提供物品信息。

YOLO作为一种经典的目标检测算法[18],将基于图像的目标对象检测问题定义为了一个回归问题,即利用整张图作为网络的输入,直接在输出层回归待检测物体所在区域Bounding Box的位置信息以及所属类别信息。作为端到端的模型结构,YOLO在检测速度上具有显著优势。利用该模型实现目标检测的流程如图6所示。

图6 YOLO模型目标检测流程示意图

YOLO模型同样以RGB数据作为模型输入,首先将图像划分为7×7的网络区域,然后执行两个Branch分支。第一个分支进行目标位置框区域估计,即基于每个网格Cell给出两个指定宽高比的预测框,输出Bounding Box的4个顶点坐标与置信度信息,后续基于置信度非极大抑制以及框选位置尺寸矫正实现候选框筛选与位置优化。第二个分支负责预测每个网格Cell的所属目标类别,结合第一个分支Bounding Box位置的估计结果,实现对待检测目标所在区域的ROI位置以及类别预测。

综合考虑各种因素,针对箱子、手机、胶带、快递单和小刀6种物体状态向量描述,对应标签值为:“1-Box”“2-Phone”“3-Tape”“4-Express List”“5-Knife”(初始化类别标签为“0-Nothing”),目标检测的实验结果如图7所示。从图中可以看出,该网络可以准确地检测出快递站场景中的目标物品,同时返回被测物品的位置和尺寸。最终得到物品的位置和类别状态向量集Yk(Lt,xt,yt,wt,ht),其中,Lt表示物品标签,xt和yt代表Bounding Box的中心点坐标,wt和ht分别表示Bounding Box的宽和高。

图7 目标检测识别结果图

2.3 基于Auction的关键姿态估计

与单人动作相比,多人-多物交互行为在快递场景中更为常见。如图8(a)所示,一个常见的快递场景中往往有多个工作人员(揽件员),在工作人员周围还存在多个寄件人,桌面上除了包括多个包装纸箱,还有手机、快递单收纳篮、计算器、胶带卷等,多人和各种类型的桌面物品极大地影响了开箱验视行为识别的准确率。为了提高多人-多物复杂环境下的开箱验视行为识别性能,本文提出一种基于Auction的关键姿态估计方法,根据多人和多物的位置和类别状态向量,设计全局最优分配代价函数,推断出开箱验视人-物交互关系候选对集合[19]。

图8 基于Auction的关键姿态估计算法

在快递场景中,假设YOLO算法检测到物品位置和类别状态向量集为Xk;OpenPose输出的人手位置状态向量集Yk。在本文提出的人物交互行为识别算法中,把关键姿态估计问题转化为分配问题,即将当前k时刻的物品状态估计Yk分配给人手状态Xk。而分配问题的关键在于设计一个代价函数来衡量物品状态和人手状态的相关性,两个状态估计的相关性越大则人-物的匹配可能性越高。由于目标状态指示的是一个包含位置、标签、附属关系等的向量,要确立两个状态向量间的匹配程度或相似性,需要借助向量特征来进行相似度的度量。本节设计的代价函数的原理为采用人手状态和物品状态的巴氏距离[20]来衡量二者的相似性,相似越大则两个目标状态的距离越小,进而匹配的代价越小。基于Auction的关键姿态估计原理如图9所示,具体算法可总结如下:

图9 关键姿态估计原理示意图

(5)

Step2:初始化Xk中所有未分配成功的状态估计并将关联代价(Price)设定为0;

(6)

Pn=Pn+dn+ε

(7)

Step6:返回至Step3;

Step7:输出带有标签的多人-多物配对集Pk={p1,p2,p3,…,pk},其中,Pk为包含第k个人手状态与所有物品状态价格的向量。

2.4 融合决策

在得到带标签的多人-多物配对集Pk={p1,p2,p3,…,pk}之后,选择与人手状态关联价格最高的物品状态进行直接配对,得到配对完成后的潜力人-物对,直接与初始行为进行融合决策。融合决策是根据一定的准则,将经过人体行为识别网络输出的行为类别结果、经过YOLO检测的物品信息以及通过Auction关键姿态估计得到的人物相关性配对集进行融合判断,最终获得人体行为的识别结果,初始行为类别和物体类别的数字标签对应表如表1所示。根据初始行为类别和物体类别以及对于几种行为的综合判断,具体的融合决策策略如下:

表1 初始行为类别和物体类别的数字标签对应表

Case1:当初始行为或者相匹配的物体类别的编号为0时,行为类别即为“Irrelevant Behavior”;

Case2:当初始行为与相匹配的物体类别的编号相同时,表示行为类别无需修正;

Case3:当初始行为为1,若相匹配的物体类别为2,则将初始行为修正为“Using Phone”;若相匹配的物体类别为3,则将初始行为修正为“Packing”;若相匹配的物体类别为4,则将初始行为修正为“Writing”;若相匹配的物体类别为5,表示行为类别无需修正;

Case4:当初始行为为2,若相匹配的物体类别为1,表示行为类别无需修正;若相匹配的物体类别为3,则将初始行为修正为“Packing”;若相匹配的物体类别为4,则将初始行为修正为“Writing”;若相匹配的物体类别为5,则将初始行为修正为“OpenBox”;

Case5:当初始行为为3,若相匹配的物体类别为1,表示行为类别无需修正;若相匹配的物体类别为2,则将初始行为修正为“UsingPhone”。若相匹配的物体类别为4,则将初始行为修正为“Writing”;若相匹配的物体类别为5,则将初始行为修正为“OpenBox”;

Case6:当初始行为为4,若相匹配的物体类别为1,表示行为类别无需修正;若相匹配的物体类别为2,则将初始行为修正为“Using Phone”;若相匹配的物体类别为3,则将初始行为修正为“Packing”;若相匹配的物体类别为5,则将初始行为修正为“OpenBox”。

在实际场景下,对于快递场景人物交互行为识别的应用意义就是判断工作人员是否进行了开箱验视。因此行为类别为“Open Box”是本文需要重点关注的行为类别,而“Packing”“Using Phone”“Writing”以及“Irrelevant Behavior”这4种行为属于快递站常见的其它行为,通过对这几种行为进行识别可以更好地对工作人员的行为进行规范,设计更合理的工作流程,提高快递开箱验视工作效率。

3 实验分析与设计

3.1 实验数据集介绍

本文研究的快递站场景人物交互行为识别属于具体场景应用,通用行为识别数据集不适合用来验证本文所提方法。因此,本文在真实快递站环境下采集了工作人员和顾客行为的视频片段,包含了以下4种行为类别,共200组视频,截取图像共10 000帧,其中行为“Opened Box”有2 353帧,行为“Packing”有3 382帧,行为“Using Phone”有2 645帧,行为“Writing”有1 079帧,行为“Irrelevant Behavior”有541帧,本文数据集示例如图10所示。

图10 数据集图像示例

3.2 实验步骤

根据第二章所阐述的行为识别和目标检测的方法,本文设计的实验步骤如下:

Step1:数据集划分。将200组邮局实验样本按照4:1的比例划分为训练集和测试集;

Step2:将训练集输入至OpenPose进行骨架建模,得到人体上半身的骨骼点数据;

Step3:将骨骼点数据作为输入,制作行为识别的数据集,对如图5所示的人体行为识别网络进行训练,学习率设置为0.0001,Epoch设置为100,BatchSize设置为32。

Step4:制作目标检测的数据集,训练YOLOv5网络,得到网络的训练模型并测试结果;

Step5:得到两种网络模型的测试结果后,根据基于Auction的关键姿态估计方法得到人-物配对集;

Step6:通过融合决策得出实验结果。

3.3 实验结果分析

本文采用精确率(Precision)和召回率(Recall)作为评价指标[21],用于评价该识别方法的优劣,具体计算方法如公式(8)和(9)所示:

(8)

(9)

其中:TP(ci)表示属于ci类且被正确分为ci类的样本数;FP(ci)表示不属于ci类但被分为ci类的样本数;FN(ci)表示属于ci类但没有被正确分为ci类的样本数[22-23]。

如上一小节所述,按照4:1的比例进行训练集和数据集的划分,因此测试集一共2 000帧,行为“Opened Box”有470帧,行为“Packing”有680帧,行为“Using Phone”有530帧,行为“Writing”有210帧,行为“Irrelevant Behavior”有110帧。将加入目标检测模块和融合决策之后的识别算法与加入前的识别算法进行对比实验,图11中的(a)和(b)分别为加入模块前和加入模块后识别结果的混淆矩阵,用测试集分别测试得出的准确率和召回率如表2和表3所示。

图11 混淆矩阵

表2 识别结果(加入模块前) %

表3 识别结果(加入模块后) %

实验结果表明,在加入目标检测模块和融合决策模块之后,该系统的精确率和召回率有了显著的提高,为了更直观地表明本文方法的有效性,将实验结果进行可视化。快递站实际场景的实验结果如图12所示,分别展示了3种不同时间段的图像帧序列,如图所示,(1,2,3,4)-b的右侧人员的真实行为类别为“Packing”,但是在未加入目标检测模块之前被误识别为“OpenBox”,加入目标检测模块并经过决策融合之后,识别结果得以修正;(1,2,3,4)-c右侧人员的真实行为类别为“OpenBox”,初始误识别为“Packing”,最终识别结果被修正准确。(1,2,3,4)-a由于该行为初始类别准确,因此最终识别结果并未发生改变。除此之外,图中仅显示了与人员行为相关的物品信息,这是通过关键姿态估计进行了人-物最优分配,去除了与人员行为无关的物品干扰。综上所述,本文算法具有良好的准确率和召回率。

图12 实际快递场景实验结果

4 结束语

本文综合分析快递场景的特点和异常行为特征,将基于骨架建模的人体行为识别与目标检测相结合,提出了一种基于关键姿态的快递场景人物交互行为识别方法。首先用改进的高斯混合模型进行关键帧的提取,然后用OpenPose进行骨架建模,继而利用基于骨骼点的人体行为识别方法获取人体的初始行为类别;使用YOLOv5算法获得场景内常见物品的类别和位置信息,解决了传统行为识别方法丢失上下文场景和语义信息的问题;通过提出基于Auction的多人-多物最优分配方法来进行关键姿态估计,最后将行为识别和人物关系进行融合决策,提高了人-物交互行为的识别精度。实验证明,本文方法的识别精度优于传统行为识别方法,解决了开箱验视过程中复杂环境干扰和相似行为难以区分这两个问题,实现了对快递场景人员开箱验视、使用手机、包装快递等行为的精确识别。但是,若目标检测算法未能检测出手机、胶带以及工具刀等小物体时,识别结果会受到影响。因此如何提高目标检测算法对于小目标的检测能力,如何将其与行为识别方法进行深度融合,将作为下一步的研究方向。

猜你喜欢
类别向量姿态
向量的分解
一起去图书馆吧
简析基于概率预测的网络数学模型建构
绿建筑的商业姿态
向量垂直在解析几何中的应用
get!五大潮流热点 许你裙装 浪漫姿态
向量五种“变身” 玩转圆锥曲线
选相纸 打照片
阅读是最美的姿态