一种基于视频分析的异常行为识别算法及应用*

2022-11-09 02:33莫辉强邵唐红
计算机与数字工程 2022年9期
关键词:单元格网络结构损失

莫辉强 邵唐红 王 伟 杨 寒 曹 越 张 城 闫 茜

(1.浙江省轨道交通运营管理集团有限公司 杭州 310020)(2.深圳北斗应用技术研究院有限公司 深圳 518055)

1 引言

目前智慧地铁是轨道交通领域数字化探索的热门方向,旨在地铁线网和地铁站内应用互联网、物联网、大数据、人工智能等技术,提高运营效率,保障运营安全[1]。车站是地铁线网中的重要组成部分,其中针对站内乘客行为的安全管控是重要的一环,运用视频分析技术识别乘客的特定行为已经成为人工智能的热门研究领域。在车站内应用乘客行为检测技术可以有效降低车站人员巡站的工作强度,是实现智慧地铁的关键指标之一。

智能视频分析采用基于计算机视觉和图像处理的相关技术,实现对数字视频信号的处理、分析和理解,从而完成监控区域内的目标识别、追踪和行为检测[2]。

视频监控系统作为安防的重要手段,但是系统需要安排专人看管不免费时费力,所以基于视频分析技术的人体异常行为分析需求应运而生。目前视频监控技术已经经历了三代的发展,从基本视频监控到自动化视频监控,再到最新的智能视频监控[3],在智能视频监控时代,人体异常行为分析是目前计算机是视觉分析领域的热点主题。其核心利用监控系统输入的图像完成计算机视觉处理和分析,从连续的图像中检测人体目标、跟踪和识别其特定肢体动作并进行描述和呈现[4],在分析过程中主要通过深度学习,神经网络、骨架检测模型等多重方法相结合[5~6]。

因此本文将将介绍一种基于视频分析的异常行为识别算法应用,首先介绍算法的设计实现思路,然后介绍该算法在地铁车站的应用效果[7]。

2 算法设计

2.1 算法框架

异常行为识别算法使用了深度学习中的目标检测算法,通过模型分析视频中的所有人员,检测是否存在异常行为。

该算法命名为YOLO-sibat,是基于YOLO算法改进而来,YOLO-sibat将输入的视频帧划分成G*G个单元格(grid),若某个物体(Ground truth)的中心位置的坐标落入到某个单元格中,则该单元格只负责检测这个物体的类别及位置,每个单元格预测数量(anchor)设定为A个,置信度(confidence score),类别概率设置为C个。某个物体的位置信息转化为(x,y,w,h)的形式,分别表示该物体的中心点位置相对单元位置的偏移、宽度和高度,且该位置信息均是归一化的形式。置信度实际反映的是该单元格是否存在目标物以及存在目标物情况下位置的准确性[8~11],可定义为式(1):

每一个单元格预测G*G*(A*(5+C)),其中G为单元格,A为每个单元格的anchors,C为类别。

2.2 数据输入端

马赛克(Mosaic)数据增强是参考了CutMix数据增强的方式,CutMix只使用了两张图片进行随机拼接,对数据集的丰富并无太大作用,故采用随机4张图片进行了随机缩放、裁剪、排布的方式拼接成1张图片,该方法为Mosaic,极大地丰富了数据集[12]。

2.3 Backbone

Focus结构:切片,对RGB三通道图片进行切片的示意图,右边的4×4×3的RGB图像经过切片后变成12个2×2结构,将其堆叠后表示为2×2×12的特征图(feature map),以YOLO-sibat的结构为例,原始的视频帧经过比例缩放后得到640×640×3的图像大小,缩放后的图像经过Focus结构,采用切片的操作后,先变成320×320×32大小的特征图(feature map),再经过一次32个卷积核的卷积操作后,最终变成320×320×32的特征图[13]。

CSP结构:YOLO-sibat中参考了CSPnet网络设计,得到CSP1_X、CSP2_X网络结构,以YOLO-sibat网络为例,在主干网络(Backbone)使用CSP1_X网络结构,用于提取目标的特征,在模型的Neck部分使用了CSP2_X网络结构,用于结合高维度的语义信息和低维度的位置信息传递到网络预测部分。

2.4 Neck

Neck采用FPN+PAN的结构,Neck这部分除了使用FPN网络结构外,还在此基础上结合了PAN网络结构,PAN网络结构则和FPN网络传向相反,PAN从低维度的位置信息向高维度传递,经过下采样卷积后和高维度的语义信息进行融合,两个不同方向传递的网络结构相互融合后,进一步提升了网络特征表达的能力[14]。

2.5 Prediction

GIOU Loss:为了使模型预测的结果和真实值尽量的靠近,需要损失函数来进行判断模型的预测值是否和真实值相近,YOLO-sibat模型的任务为预测目标的类别和目标的位置信息,故损失函数为分类损失函数(Classificition Loss)、位置回归损失函数(Bounding Box Regeression Loss)两部相结合,其中GIOU Loss为位置回归损失函数,如式(2)所示:

NMS非极大值抑制:YOLO-sibat模型预测结果会存在非常多的目标框,需要对对于的目标框进行后处理,对所有模型预测的目标框进行一个筛选,采用了加权非极大值抑制(NMS)算法,经过该算法筛选后的目标框为最终结果。

2.6 实验过程与结果

1)评价指标

标检测算法进行检测识别,使用评价指标是mAP(mean average precision),这是一个可以用来度量模型预测框类别和位置是否准确的指标,AP值是Precision-Recall曲线下方的面积。混淆矩阵如表1。

表1 混淆矩阵

查准率(Precision):算法模型预测出来的所有正样本数量中,正样本占所有正负样本的比率。

召回率也称查全(Recall):在所有正样本数量中,被算法模型预测为正样本数量的比例。

2)模型训练

模型训练过程及最终结果如图1所示,所有横坐标为模型训练的轮数(epoch),纵坐标分表表示损失函数的值,第一行为训练过程坐标位置回归损失、是否存在目标损失、分类损失、精度、召回率;相对应的第二行为在验证集损失值。在最右边两列为mAP为98%,精度为97%,召回率为97.3%

图1 模型训练过程

3)模型验证与结果

测试一张图片在RTX 2080Ti的GPU上20ms后的效果如图2所示。

图2 模型验证

3 应用实例

根据地铁安监部与客运部的相关职责和要求,将该算法嵌入至智慧车站系统中,基于该算法还衍生出其他异常行为算法:人员摔倒、打架斗殴、人员滞留徘徊、人员入侵、人员电扶梯逆行、出入口商贩摆摊等算法车站运营人员可自定义操作算法和摄像头的配置,对于分析出的异常行为以及异常事件将会提示告警并且对侦测到的瞬间进行照片抓拍,如图3所示。

图3 人员摔倒检测

4 结语

本文首先介绍了异常行为的研究现状以及基于视频分析的摔倒识别算法,基于深度学习目标检测算法,开发了一套能够分析视频的智慧车站系统。除能够读入视频并显示之外,还嵌入了人体行为识别算法模块,能够对用户指定的摄像头配置所选择的算法,并在异常行为发生的时候实现记录、告警,同时将告警记录保存至数据库,实现了视频数据与告警数据的统一管理,具有良好的操作性。用户可以在地图上查看预警摄像头位置,实现监控技术和视频分析技术的统一,构建了一个低成本、强扩展性,方便安装操作以及灵活使用且高效监控的系统。

猜你喜欢
单元格网络结构损失
胖胖损失了多少元
流水账分类统计巧实现
玩转方格
玩转方格
玉米抽穗前倒伏怎么办?怎么减少损失?
浅谈Excel中常见统计个数函数的用法
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析
复杂网络结构比对算法研究进展