基于自编码器的行人异常检测方法

2021-09-05 15:03胡秀云
科技创新导报 2021年13期
关键词:空间结构

胡秀云

DOI:10.16660/j.cnki.1674-098x.2104-5640-3698

摘  要:视频监控作为一种应用广泛的安全监控技术,自诞生以来就受到了人们的重视。为了实现对行人异常行为的检测。本文采用一种基于自编码器的检测模型,采用半监督学习方法,采用包含很少或没有异常事件的图像序列进行训练。具体来说,由卷积自动编码器组成的深层神经网络被用来以一种非监督的方式处理数据帧,捕获数据中的空间结构。然后将这些空间结构组合在一起组成数据表示,并由三层卷积长短期记忆模型(Long Short Term Memory, LSTM)组成时间编码器学习编码空间结构。最后将这些特征数据通过规则性得分,根据得分进而对行人异常行为与否作出判断。经过研究可以对异常行为作出判断。

关键词:行人异常  自编码器  空间结构  长短期记忆模型

中图分类号:TP319                          文献标识码:A文章编号:1674-098X(2021)05(a)-0082-04

Pedestrian Anomaly Detection Method Based on Autoencoder

HU Xiuyun

(School of Information, Shenyang Ligong University, Shenyang, Liaoning Province, 110159  China)

Abstract: Video surveillance, as a widely used security monitoring technology, has been paid attention to since its birth. In order to detect the abnormal behavior of pedestrians. This paper is based on self-encoder, using unsupervised learning method, using the image sequence containing few or no abnormal events.In particular, deep neural networks composed of convolutional autoencoders are used to process data frames in an semi-supervised manner to capture spatial structure in the data. And then these spatial structures are combined to form data representations, and a three-layer convolutional Long Short Term Memory (LSTM) is used to form a time encoder to learn the coding spatial structure. Finally, through the regular score, the characteristic data are judged according to the score. The study can judge the abnormal behavior.

Key Words: Pedestrian anomaly; Self-encoder; Spatial structure; Long short term memory

视频监控作为一种应用广泛的安全监控技术,自诞生之日起就受到人们的重视。行人异常检测中的异常其本身是指偏离了正常行为的一些不正常的行为,例如,逆行、聚集、摔倒、斗殴等。大多数这些不正常的情况事先是未知的,因为这将需要预测所有的异常形式,可能会发生事情的规范。因此,根本不可能为所有不正常或不规则的事物学习一个模型。相比获得不正常事件更容易获得正常的视频数据场景。所以我们可以集中在设置一个训练数据只包含正常的视觉模式。

1  行人异常检测方法简述

本文提出了一个新的视频数据表示框架,该框架通过一系列通用特征來表示视频数据。具体来说,一个由一堆卷积自动编码器组成的深层神经网络被用来以一种非监督的方式处理视频帧,捕捉视频中的空间结构,最后组成包含空间结构特征对的视频表示。当一个异常事件发生时,最近的视频帧会和之前的视频帧有显著的不同。利用自编码器训练了一个端到端模型,该模型由一个特征提取器和一个时间编解码器组成,它们共同学习帧输入的时间模式。该方法利用只含正常场景的视频进行训练。以最小化输入图像与学习模型重建的输出图像之间的重建误差为目标,采用的方法包括3个主要阶段。

2  行人异常检测系统设计

2.1 图像预处理

在数据的输入上,传统的图像识别输入的都是3通道的RGB彩色图像,而在行人检测中检测的是连续的视频片段。以往的检测手段如Hasan[1]等人提出的滑动窗口会失去视频中空间和时间特征。所以本文采用3D卷积[2],3D卷积的对象是三维图像,是多张图像按照一个时间序列的形式进行输入,卷积核的平移方向包括平面上的高、宽以及时间维度上的帧数,这样可以很好地保留空间和时间特征。

3D卷积:通常情况下对视频进行卷积都是使用2D CNN,对视频中每一帧图像进行卷积,但这种卷积方式的缺点就是会损失时间维度的帧间运动信息。使用3D CNN能更好地捕获视频中的时间和空间特征信息,3D CNN对图像序列采用3D卷积核进行卷积操作,如图1所示。

2.2 特征学习

提出了一种时空卷积自动编码器来学习训练帧中的规则模式。该体系结构由两部分组成: 用于学习每个视频帧空间结构的空间自编码器和用于学习编码空间结构的时间自编码器。

2.2.1 3D空间卷积自编码器

卷积网络的主要目的是从输入图像中提取特征。空间卷积通过输入数据的小范围图像特征,保持像素之间的空间关系。空间自编码器和解码器分别有两个卷积和去卷积层。数学上,卷积运算执行的是滤波器和输入的局部区域的乘积[3]。假设我们有n×n输入层,其次是卷积层。如果我们使用 m×m的滤波器,卷积层输出将是大小(n-m + 1)×(n-m + 1)×3。设置输入视频帧大小为10的序列,经过卷积和编码后再经过解码和反卷积[4]操作最后重构出视频序列。空间卷积自编码器构造如图2所示。

2.2.2 3D时间卷积自编码器

时间自编码器是一个三层的卷积长短期记忆模型(Long Short Term Memory,LSTM)[5],它包含了一个叫做忘记网关的循环门。卷积层可以很好地对物体进行识别,LSTM模型广泛应用于序列学习和时间序列建模。在这个结构中,LSTMS可以防止回传错误消失或爆炸,从而可以处理长序列,并且可以捕获更高层次的信息。卷积LSTM是LSTM体系结构的变体,是由shi[6]等人提出的,最近被用于视频帧预测。相比卷积长短期记忆模型(FC-LSTM),卷积LSTM使用卷积层代替全连接层。使用3D卷积直接提取数据的空间和时间特征,从而可以使卷积神经网络能更好地处理序列信息。将编码序列按时间顺序输入到卷积LSTM网络中对视频动态变化进行建模,由于一个编码便能描述图像中的几帧,即使在预测模型中LSTM网络仅仅能记忆输入序列中最后的几个编码,也能保证LSTM网络中记忆的内容包含了原视频中足够长的内容,强迫模能更好地学习特征表征。空间卷积自编码器构造如图3所示。

对流单元可由公式(1)到(6)来概括,输入端以图像形式输入,而每个连接的权重集则由卷积滤波器取代。这使得对流Lstm能够比Fc-Lstm更好地处理图像,因为它能够通过每个对流Lstm状态在时间上传播空间特性。

方程(1)表示遗忘层,(2)和(3)表示添加新信息的地方,(4)结合新旧信息,而(5)和(6)输出到目前为止学到的东西到下一步的lstm单元。变量xt表示输入向量,ht表示隐藏状态,Ct表示时间t时的细胞状态,t表示可训练的权重矩阵,b表示偏向向量,符号表示卷积,符号 表示矩阵乘积。

2.3 规律性得分

模型训练完成后,通过输入测试数据对模型进行性能评估,检验模型能否在保持较低误报率的情况下检测出异常事件[7]。训练得到的自编码器重构分支可以将输入而变换为与其相似的原图中空间位置为(x,y),所在帧数t的损失为e(x,y,t)。其中I(x,y,t)为该点的像素值,Fw()为自编码器对该值的非线性变换过程,我们使用以下公式来计算帧的损失:

得到时刻t视频帧上每个点的损失后,可以通过对该帧的异常值进行求和来得到这一帧异常总和,最终这一帧的异常打分函数如下:

然后用0到1之间的比例来计算异常值sa(t)。因此,规则性得分sr(t)可以简单地从1减去反常性得分:

3  数据增强

在训练数据缺乏的时候,会出现模型的泛化能力降低从而导致过拟合的现象。这时可以采用数据增强的方法对数据进行扩充来解决这种问题。数据增强的方法包括对图像进行尺度大小的改变、亮度调整、旋转、裁剪等[8]。针对本任务中的连续视频帧,使用跨步1、跨步2和跨步3连接两组镜头。例如,第一个跨步序列由帧{1,2,3,4,5,6,7,8,9,10}组成,而第二个跨步序列包含帧号{1,3,5,7,9,11,13,15,17,19},第三个跨步序列包含帧号{1,4,7,10,13,16,19,22,25,28}。为防止训练数据集过大,还可以将图像转换为灰度图像以降低维数。

4  结语

在这项研究中,将深度学习应用于具有挑战性的行人异常检测问题。提出了一个异常时间序列检测问题,并应用空间特征提取器和时间序列测量器相结合的方法来解决这个问题。对象层不仅保留了全卷积长短期记忆模型的优点,而且由于其固有的卷积结构也适用于时空数据。将卷积特征提取技术引入编解码结构中,建立了一个适用于视频异常检测的端到端可训练模型。将空间信息与时间信息很好地结合起来,从而判断视频块中是否存在异常。本实验是半监督学习,需要准备事先视频片段进行训练。未来,机器将会越来越少的依赖人类进行无监督学习,在无监督学习的基础下怎样能够精准识别异常以及提高鲁棒性将是一个重点的研究方向。

参考文献

[1] Hasan M,Choi J,Neumann J,et al.Learning Temporal Regularity in Video Sequences[C].2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016,733-742.

[2] 黎敏婷.基于卷积神经网络的视频异常检测算法[D].成都:华南理工大学,2019.

[3] 李炳臻,刘克,顾佼佼,等.卷积神经网络研究综述[J].计算机时代,2021(4):8-12.

[4] 鲍天龙.基于深度学习的监控视频中的异常事件检测和对象识别[D].北京:中国科学技术大学,2019.

[5] 冯亚闯.视频中的异常事件检测算法研究[D].西安:中国科学院大学(中国科学院西安光学精密机械研究所), 2016,106-108.

[6] Shi,Xingjian,Chen,et al.Convolutional lstm network: A machine learning approach for precipitation nowcasting[R].Cambridge, MA, USA:Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 1,2015,802-810.

[7] 盧博文.基于深度学习的监控视频中的异常行为的检测算法研究[D].南京:南京邮电大学,2020,23-24.

[8] 张扬.基于卷积自编码器的异常事件检测研究[D].杭州:浙江大学,2018,24-25.

猜你喜欢
空间结构
象山港内湾潮汐应变对横向流及其余环流垂向空间结构的调控研究
格绒追美小说叙事的空间结构
徐州安美固建筑空间结构有限公司
基于社会空间结构流变的统战工作组织策略研究
基于起点探测的有效教学策略研究——以“城市内部空间结构”一课为例
同城化视角下厦漳泉大都市旅游空间结构研究
空间结构SRT混合仿真试验技术研究
后三峡万州城市空间结构演变与重构
基于城市空间结构的住房与交通综合可支付性指数探讨
国内城市空间结构优化战略研究——以沈阳为例