基于改进多示例学习的视频异常行为检测算法

2023-06-12 05:49徐闯徐祥振

电脑知识与技术 2023年11期

徐闯徐祥振

关键词：视频异常行为检测；弱监督学习；多示例学习；视频特征；全连接网络

0 引言

视频异常行为检测是利用正常和异常行为特征表示之间的差异来检测异常，在安保上具有重要意义。最初的视频异常行为检测方法是设计一种通用的模型，然后用不同场景下的异常视频去训练这个模型，但异常行为的认定与监控场景紧密关联，单一模型缺少相关场景信息。近年来，深度学习在各邻域表现出色，研究人员利用深度学习方法来提取视频特征，再用提取的视频特征去训练模型。

基于深度学习的视频异常行为检测根据训练数据标签的不同，可分为基于有监督学习的异常检测，基于无监督学习的异常检测和基于弱监督的异常检测。目前监督学习技术已经取得了很大的成功，随着视频数据的不断增多，数据标注的成本变得过高，对视频的标注工作变得越来越困难，许多任务因此不能获取全部的真实标签信息，给后续视频行为检测造成了更大的挑战。无监督的训练太过复杂和困难，且准确率偏低，因此无监督方法发展缓慢。相较而言弱监督更适合视频检测领域。弱监督学习不需要标注所有训练数据，只有部分带有标签，这样不仅能够节省人力成本，还能有效地利用数据，提升模型的性能。近年来，弱监督的方法在计算机视觉领域逐渐受到重視，出现了一些基于弱监督学习的图像视频分析方法，这为弱监督方法在视频行为检测领域的实现提供了更多可能[1]。

本文基于Sultani等人[2]提出的多示例学习算法进行改进，在原有良好性能的基础上提出了一种改进多示例学习（Modified Multiple Instance Learning，MMIL）算法，实验表明MMIL相较于原来的MIL算法有更高的准确率和更低的误报率。

1 相关工作

弱监督学习主要分为三种类型，分别为不完全监督、不确切监督和不精确监督。本文使用的是不确切监督，即训练的数据只带有粗粒度标签，把输入数据比作一个包，每个包里面包含很多个示例，包的标签是可知的，但每个示例的标签未知。

多示例学习（Multiple Instance Learning，MIL）是在弱监督领域常用的一种方法。该方法把多个数据合在一起叫作一个包，每个包都有一个标记。当一个包的标记为负时，这个包里面所有样本的标记都是负的。当一个包的标记为正时，这个包里面至少有一个样本的标记为正，包的标签并不能代表里面的样本属于这个类。Zhou[3]整理了机器学习中常用的一些多示例学习算法。Carbonneau等人[4]对多示例学习的一些问题和应用进行了调查。Sultani等人[2]提出了一种利用弱标记的训练视频进行异常检测的多示例学习算法。该算法利用一种对深度学习网络具有稀疏性和平滑性约束的MIL排序损失来学习视频片段的异常分数，最后学习得到一个分类器，使得对新输入的样本，可以给出它的正负标记。

2 MMIL 算法

MMIL把16个连续帧作为一个视频剪辑片段，对整个视频的视频剪辑片段提取特征后进行重复随机采样，最后每个视频都含有N 个包，每个包含有M 个视频剪辑片段的特征，这样就对不同长度的视频进行了归一化。将提取的特征作为全连接层的输入，最后得到对应的异常得分为S，结构如图1所示。Vn和Va分别表示包含异常和不含异常的视频。Bn和Ba为Vn和Va视频片段组成的包。Sn和Sa则是Bn和Ba中视频片段的异常得分，范围为0～1。

因为缺少每个视频片段的标签，无法使用Sai> Sni来判断异常，因此采用多示例排序损失的方法，只对正包和负包中异常得分最高的示例进行排名，正包中最高得分的视频剪辑片段是有可能含有异常片段的，包中最高得分的片段则是正常的，当正负示例的异常得分相差比较大时效果最好。

3 实验

3.1 ShanghaiTech 数据集

ShanghaiTech数据集包括13 个不同的异常场景，在不同的照明条件下，由多个不同视角的相机拍摄437 个视频片段，都是可疑的活动，例如在人行道上打闹、追逐、溜冰、骑单车和推手推车等。ShanghaiTech 数据集是为无监督学习而提出的，为了适应弱监督学习，Zhong 等人[5]将视频重新分为238 个训练视频和199个测试视频。

本文计算帧级受试者工作特征曲线（Receiver Op?erating Characteristic Curve，ROC）的曲线下面积（AreaUnder Curve，AUC）作为主要评估指标，其中AUC越大意味着识别能力越高。并且还通过异常视频的误报率（False Alarm Rate，FAR）来评估鲁棒性。

3.2 相关实验配置

本文使用I3D[6]作为特征提取网络，提取视频流中的外观RGB特征，并将其作为模型的输入，对MMIL 模型进行训练，本文把16个连续帧作为一个视频剪辑片段，然后通过I3D网络提取视频剪辑片段的特征，最后取视频剪辑片段特征的平均值，把这些特征值作为全连接神经网络的输入。全连接层的单元数分别是512、32和1。MMIL模型在全连接层引入了随机失活（Dropout）来防止过拟合，Dropout 丢失率设置为0.6。使用ReLU激活函数分别对第一个和第二个全连接层进行激活，选择了Adagrad优化器，并引入了L2范数正则化，权重衰减设置1e-3，以获得最佳性能，训练1000个epochs。

3.3 结果分析

本文在ShanghaiTech数据集上对提出的MMIL算法进行了验证，并与目前现有的基于多示例的弱监督视频异常行为检测算法进行了对比。如表1所示，实验结果表明，MMIL算法具有更高的准确率和更低的误报率。

4 结论

本文提出了一种基于多示例学习的MMIL算法。改进的算法对损失函数进行了优化，并对全连接层进行了调整，引入了Dropout，能够更好地防止过拟合。本文在数据集shanghaiTech上对改进后的模型进行了验证，通过实验发现，本文提出的MMIL模型与现有的弱监督学习方法相比，能够获得更好的效果。

电脑知识与技术2023年11期

电脑知识与技术的其它文章: Dynamic Unet+: 一种轻量精确的语义分割算法及应用; 基于工业互联网平台的工厂环境监测系统; 基于CH32高精度称重数据采集系统的设计与实现; 一种具有边缘保持的去除图像椒盐噪声算法; LoadRunner和JMeter应用于资产管理系统性能测试的对比分析; 定制软件系统著作权保护问题研究