扶梯人员异常行为识别研究

2021-03-22 01:46杨超宇张鑫鑫

绥化学院学报 2021年3期

杨成杨超宇张鑫鑫

（安徽理工大学经济与管理学院安徽淮南 232000）

目前随着行为识别的快速发展，认识和理解人类运动和行为逐渐成为计算机视觉领域的研究热点，提出了很多种基于深度神经网络的算法，行为识别一直是计算机视觉领域所研究的热点之一[1-2]。行为识别的两种基本方法，一种是手动提取有关特征，另一种是基于深度学习中神经网络自动提取有关特征，前者有着明显的局限性，后者有着很大的研究空间，为行为识别的进一步发展奠定了一个很好的基础。

Chua等人根据人体的形状特征，设计并计算出3个点分别代表人体的头部、上半身和腿部，然后利用3个点之间的距离和方向来表示人体的运动，确定动作类别[3]；Rougier C等人根据一个人在跌倒时，其行为在空间和时间上都会发生很大的变化，利用运动的历史图来探测大的运动行为，然后根据人体形态的特征，分析跌倒与行走的区别，最后区分行走与跌倒等行为[4]。Wang等人运用PCA网络识别人类的异常行为，即利用PCA深度学习网络提取人类行为特征，然后利用提取的特征训练线性支持向量机分类器，对跌倒等行为进行分类识别[5]。NunezMarcos等人是利用卷积神经网络来判断跌倒行为[6]。首先根据RGB计算光流图来表示运动信息，然后将得到的光流图引入到基于VGG-16的神经卷积网络中，得到用于训练分类器的特征向量，最后将表示动作行为的特征向量引入到由全连接层和Softmax层组成的网络中进行分类，然后确定相应的动作类别[7]。

根据众多研究结果表明，近年来，对于异常行为识别持续升温，研究趋势也从手动提取特征发展到现在的基于神经网络的自动提取特征，基于深度学习理论可以提取到维度更高的特征，识别结果就更精确，训练出来的模型也将具有更强的泛化性和鲁棒性.特定场景下的人体异常行为检测有着很好实用性，不断地得到越来越多的领域的高度重视。

一、Openpose模型

（一）算法简介。Openpose是卡内基梅隆大学推出的一个开源项目,实现多线程的一种对关键点的实时检测，不但可以追踪身体躯干上的的各个部位，而且可以面部和手指的时时动作经行捕捉。先前的识别思路是自上而下，意是就是先在区域中找到人所处的位置,然后再去识别骨骼，而Openpose则是自下而上，先找到特部位，再去识别骨骼关键点。见图1[8]。

图1 识别流程

在输出结果图1（2）和（3）的过程中，得到两个集合，集合和集合。集合S代表2D置信图，能够预测出人体关键点的位置，集合L代表有C个矢量场，每个肢体一个，表示关键点之间的相似性，中的每个图像编码一个2D向量.图1（2）表示Part Confidence Map，称为置信图网络，以下简称PCM，图1（3）表示Part Affinity Fields，称为亲和场向量，以下简称PAF，用以预测身体各个部位部位之间的亲和度。最后，通过贪婪推理的方法去分析置信度图和亲合场，得到结果图1（4），最终的匹配所采用的方法是著名的匈牙利方法，得到最大匹配方案，输出图像中所有人的2D关键点即图1（5）。

（二）算法流程。首先经过VGG-19的前10层对一张RGB三通道图片进行处理，提取输入特征，经过卷积神经网络层提取的图像特征输入到两个分支[9]。第一个分支是PCM网络，即输出各个位置上的存在关节点的概率图，每一个置信图表示身体的一个特定的部位在图像上某点发生的可能性，标准置信度计算公式为：

它表示肢体c上j关键点的置信图，k表示第k个人，xj,k表示第k个人的第j个关节点在图像中的真实位置，σ决定了高斯分布的形状，不同人的同一关节点的高斯分布可能会出现重叠，取最大值，以保证相近的两个点的两个尖峰不会因为平均而成为一个尖峰，计算公式为：

第二个分支是PAF，可以计算出两个关键点之间的关联置信度，用以预测两个关键点之间的亲和度。PCM可以表示关键点的位置，但是却无法表示关键点之间的关系；特别图像中的人数很多时候，各个关键点之间的关系是一个重要的信息。PAF对关键点之间的关系进行建模，PAF实际上就是一个2维的向量场，同时包含了位置和方向的信息，用来表示关键点之间的关系，见图2。

图2 肢体位置判断方法

第k个人的手臂关节点肘部设为Xj1,k和手腕Xj2,k，点p为手臂上的一点，点p处的PAF值为：

其中c表示关节j1和j2之间的枝干，在上面的图是前臂部分，v是p点的PAF值，是一个与j1关节点指向j2关节点方向一致的单位向量：

其中p的取值范围是：

lc,k=‖xj2,k-xj1,k‖2，表示肢体c的长度，v⊥向量是v向量的垂直向量，σl是关于l的函数，表示肢体c的宽度.在包含多个人的图像中，PAF的真实值是图像中所有人各自的PAF的平均值，即：

其中nc(p)代表非零向量的个数。

当关键点信息和PAF值已知时，计算两关键点线上的两个关键点线向量和PAF向量之间的点积积分，从而计算出两个关键点之间的相关性，计算公式如下：

对像素p进行采样：

p(u)代表把j1到j2之间的像素点都取一遍.根据PCM得到离散的候选部位：，其中dmj表示第j类身体部位的第m个关键点的位置，Nj表示肢体的候选部位的数量。匹配的目标是要求一个人的候选部位和其他部位相连，定义变量用来表示连接，所以候选部位的连线集合为Z=，单独考虑肢体c的两个部位j1和j2，目的是找到总亲和值最高的匹配方式，其计算方法为：

Ec表示肢体c所有匹配的总权重，Emn表示两种关键点之间的相关性，Zc表示肢体c匹配的z子集.约束条件是为了表示一个关键点只能与另一类关键点直接相连，方法采用著名的匈牙利算法，计算最大权重即为最佳匹配方式。

每个阶段训练的输出都会作为下一个阶段的输入，不断获取最精确的特征，反向传播精致来使得损失函数最小，损失函数的计算方法为：

网络会自动调节损失loss，进行参数优化，最终得出的这种模型对于骨骼识别具有很好的精度。

二、特征处理与分类

在得到关键点信息之后，需要对这些原始骨骼数据进行处理，提取需要的特征，然后将这些特征输送到机器学习分类器中，对当前所处的状态进行分析，从而判断当前人员所处的一种状态，具体流程见图3。

图3 行为分析流程

（一）缩放坐标。图像经Openpose输出的原始关键点坐标和具有不同的单位，需要进行缩放，缩放的目标是为了使和具有相同单位以用来处理不同的图像。

（二）去除关键点。在得到关键点信息之后，需要对这些原始骨骼数据进行处理，Openpose提取的骨骼有18个关键点，由于是对扶梯人员经行一种异常行为分析，而人的行为主要由躯干来支配，面部上的关键点起不到任何作用，因此需要去除头上五个点，分别是眼睛，耳朵和头，这些关键点不仅对人的行为分析没有太大的作用，反而会影响速度。

（三）删除无用数据。比如说视频的某一帧检测不到脖子、胳膊和大腿等关键点，构不成一个完整的骨架，那么这个骨骼数据没有任何利用价值的，可以删除。

（四）弥补骨骼某一处的残缺。如果当前帧的关键点信息中没有胳膊上的某一个关键点，可以利用上一帧或者其他帧的这个关键点与其他关键点的位置距离来添加关键点信息。骨骼关键点之间的距离是一定的，通过添加相邻帧相同部位之间的距是完全没有问题的。

（五）降低维度。处理好的骨骼数据可以直接用来特征提取，例如前N帧关键点的拼接，颈部的移动速度和关节的移动速度等，这些特征可以直接提取，但是提取后维度会比较的高，采用主层次分析算法进行降维，对特征经行简化。

（六）DNN分类器。DNN意为深度神经网络[10]，其结构包含输入层、隐藏层和输出层3部分，其原理和感知机相似，一个线性关系加上一个激活函数，激活函数有很多种，例如，Sigmoid、Relu等.DNN反向传播算法使得模型自动调节参数，不断迭代优化，得到最佳模型，使得分类结果更加准确。通过查阅资料，借鉴了其他研究者设计的深度神经网络模型[11]，对参数进行了调整，隐含层层数设置为3层，每层的神经元数量为100，进行训练，输出特征向量经过Softmax得到每个动作类别的发生的概率，判断当前动作。当识别准确率的不再上升，损失最小，就得到一个最佳的模型，根据输出动作类别标签分析当前状态下人员所处的一种姿态。

三、行为分析

动作类别标签共设置了9个动作标签，当出现某一动作时，会在图像右上角位置显示，动作类别标签是stand、walk、run、jump、sit、squat、kick、punch、wave，分别表示站立、行走、奔跑、跳跃、坐下、下蹲、踢、拳打、招手，在进行行为分析时，可以根据连续的动作来判定行为的发生，比如，在扶梯上踩空摔倒的过程伴随着多种动作的发生，有kick、jump、sit（见图4），采集了扶梯上人员的部分图像信息，将图像作为算法的输入，得到结果如图4，根据算法所识别出来的扶梯人员的一种动作，去分析判定当前人员所处的一种姿态，是处于跌倒或者是行走，或者是其他状态。

图4 动作识别结果

从图中可以看出图4（a）分类结果是属于上楼梯的一种姿态，图4（b）是扶梯人员在下扶梯，可以看出有多种动作可能发生的概率，比如jump、kick，取概率最大为当前所做出的动作，图4（c）是上扶梯时抬脚的一个动作，从图4（d）可以看出有摔倒现象的存在。

四、结语

笔者提出了一种关于扶梯人员异常行为检测的一种算法，从实验结果可以看出，对复杂场景人体的行为动作识别具有很好的效果[12]，对于避免安全事故的发生具有重大的意义.研究结果发现，当用窗口大小为五帧提取标准化特征数据进行训练后，在测试集上对9种动作识别的准确率为99.4%，用窗口大小每秒一帧提取原始特征训练后，在测试集上对9种动作识别的准确率为97.3%。识别准确率都高于95%以上，也表明了特征的选取影响识别的精度。另一方面算法在很多方面也存在着不足，从结果也可以看出来这一现象，当在图像中存在有物体遮挡现象或者是肢体没有完全暴露时，会出现难以识别的情况，这也是算法需要进一步改进的地方。