结合重构和预测模型的无监督视频异常检测算法

2022-10-11 12:33姜晓燕朱凯赢蒋光好于润润
传感器与微系统 2022年10期
关键词:噪声重构预测

周 伟, 姜晓燕, 朱凯赢, 蒋光好, 于润润, 吴 益

(上海工程技术大学 电子电气工程学院,上海 201620)

0 引 言

近几十年来,视频异常检测被当做研究热点得到了快速发展,因为其在入侵检测、视频监控、医疗健康、缺陷检测等领域具有重要的应用价值[1~3]。异常指的是不符合正常事件的运动模式,如在一个都是行人行走的人行道上突然闯入一辆车,这辆车的出现则被称之为异常,强调的是突发状况。视频异常检测则是寻找出这些不符合正常事件的运动模式的视频段。然而,由于异常事件的定义模糊,与正常事件相比,异常发生的频率很低,异常事件难以采集,并且,由于图像中物体的遮挡、光照、位姿和尺度变化等问题,导致视频异常检测仍然是一项具有挑战性的工作。

现今许多方法仅使用单个重构模型或预测模型,以自编码器为载体进行视频异常检测。该类方法秉承着网络能够重构或预测正常帧,而对异常视频帧则重构或预测模糊的先验假设。然而,仅使用重构模型,当深度神经网络的参数量过大时,自编码器的学习能力有时并不能保证所有的正常数据都重构得完好,并且基于重构的方法只是重构过去的视频帧,没有体现出异常的突发性,没有利用到前后视频帧的相关性[4,5]。

基于预测的方法指的是网络通过学习过去视频帧的相关信息来精准预测下一帧图像。如文献[6]通过输入堆叠的连续T帧视频帧进入以U-net为基础的生成对抗网络(generative adversarial network,GAN),来生成下一帧图>像,再将生成器生成的图像送入判别器中判别生成图像的真伪。为了提高生成的图片质量,施加以强度、梯度、光流约束,来抓捕图像中的外观和运动特征。然而,此类方法由于使用光流,易受光照、噪声因素影响,当输入的数据中光照变化或包含噪声时,模型鲁棒性下降,且基于U-net的GAN网络训练参数较少,网络深度略有不足。

为克服上述问题,本文提出一种结合预测和重构模型的视频异常检测算法。预测模块能够扩大正常和异常的区分度,而重构模块则能使网络更加稳定。GAN使用残差网络和U-net网络的结合体,使网络得到有效学习的同时也大大减少训练所需时间。本文创新点总结如下:

1)结合预测模型与重构模型用于视频异常检测,预测模块能够扩大正常与异常的区分度,而重构模型则是预测模块的一个补充,使网络提高对噪声的鲁棒性。

2)网络的生成器部分联合U-net与残差网络,在加深网络深度的同时有效减少训练时间,提升效率。

1 重构与预测模型

1.1 重构模型

目前大多数基于深度学习的异常检测算法都使用到重构模型。其中,自编码器作为重构模型的代表而被广泛使用。文献[7]使用卷积自编码器网络进行异常检测;文献[8]提出的降噪自编码器是在输入数据中添加噪声,训练时也要求自编码器能重构出未加噪声的数据,增加其鲁棒性;文献[9]将自编码器与GAN结合形成的对抗式自动编码器(adversarial autoencoder,AAE),也能有效地学习输入分布。

1.2 预测模型

预测模型因为在无监督学习的视频表征方面具有良好效果而被广泛关注。其原理是通过输入多帧图片进入网络,来预测下一帧或几帧的图像。文献[10]使用卷积长短时序列网络预测下一帧图片;文献[11]将输入数据的特征送入长短时序列网络中,来预测其潜在空间表征,并根据预测误差来判断异常。

2 网络模型框架

针对视频异常检测领域使用单个重构模型无法完整重构图像、使用单个预测模型易受噪声扰动等问题,本文提出一种结合重构和预测模型的无监督视频异常检测算法。如图1所示,给定连续的输入视频帧I1,I2,I3,I4,…,It输入到预测模块中,生成预测的下一帧m,再将m输入到重构模块中,生成m的重构帧t+1。为保证生成高质量的视频帧,分别对m和t+1与下一帧的真值It+1之间施加外观、梯度、L2约束。同时,对It和It+1的光流真值与It和t+1的光流值施加约束。

图1 网络模型框架

2.1 生成器

输入连续的T帧视频帧进入网络,经过预测模块预测下一帧图像m,之后让生成的中间图像m再输入到重构模块中,最后输出下一帧的重构图像t+1。用来生成图像的生成器使用了相同的网络结构,为改进U-net网络(U-net和残差网络),如图2所示。图中的数字代表网络进行的操作,级联层为经过残差映射后的网络结构,拼接层为经过跳远连接将网络浅层和深层特征相结合后的结构。

图2 改进U-net网络结构框架

2.2 判别器

判别器的结构由4层卷积层和1层全连接层组成。判别器的目标是区分生成器生成的虚假图片,而生成器则是通过生成逼真的图片来使判别器判别失败。通过生成器与判器别器的相互博弈能够有效训练网络模型,生成精准的图片,如图3所示,网络输出的规则分越高表明输入的图片越有可能是真实图片。

图3 判别器网络框架

2.3 对抗训练

一般GAN通常由生成器和判别器2个部分组成,生成器主要是生成一些判别器难以判别真假的高质量图片,而判别器则努力判别图片的真伪。通过生成器和判别器的相互博弈,能够使GAN生成极为逼真的图片。模型中,使用的是最小二乘GAN(least square GAN,LSGAN)[12],其可生成更加贴近现实的图像。

2.3.1 训练判别器

(1)

式中i,j为序列Patch的索引值,D(I),D()∈[0,1]。

2.3.2 训练生成器

生成器的目标是能够生成让判别器判别为1的图片。与训练判别器的方法类似,训练生成器时,本文也固定判别器的参数不变,则生成器的优化函数如下

(2)

3 实验与结果分析

3.1 数据集

常用的几种公共的异常检测数据有CUHK街道数据集(avenue datasets)[13]和UCSD行人数据集(pedestrians datasets)[14]。图4是数据集中正常和异常事件的示例图片。

图4 正常和异常事件示例

USCD Pedestrians数据集由2个灰度数据集组成:Ped1和Ped2。描述的正常事件都是行人在街道上行走的场景,异常事件有骑自行车、开汽车、滑轮滑、坐轮椅穿越人行道等场景。两个数据集都是由固定的相机拍摄而成,需要指出的是,与Ped2相比,Ped1数据集存在行人尺度的变化,且背景信息如树木遮挡行人的场景较多,因此相比较更具有挑战性。

CUHK Avenue数据集是个彩色数据集,包含16个训练视频和21个测试视频。平均每个视频段包含839帧图像,异常事件主要是扔物体和奔跑。该数据集的相机视角也是固定的,存在行人尺度的变化。

3.2 评估标准

视频异常检测有帧级和像素级的评估标准,帧级评估是如果一帧中至少包含一个反常像素点,则这一帧则被正确检测出。像素级评估是如果一帧中至少有40%的像素点是反常的,则这一帧则被认为是正确检测出[15]。本文使用帧级的评判标准,并使用受试者工作特性(receiver operator characteristic,ROC)曲线下面积(area under the curve,AUC)来评估模型性能。

3.3 结果与分析

本文所有实验均是在英伟达(NVIDIA)公司GeForce RTXTM2080 GPUs with Intel®Xeon®E5—2603 1.70GHz x6 CPUs的配置下完成,运行环境为Ubuntu 16.04,深度学习框架选择Tensorflow。不同方法的AUC结果如表1所示。

表1 不同方法在Avenue,Ped1,Ped2数据集上的帧级AUC值%

从表1中可以看出,本文方法超过了现存的绝大多数方法,并且与基准方法比较,在Ped1,Ped2,Avenue数据集上分别有1.1 %,0.1 %,0.2 %的提升。需要说明的是,将文献[6]为基准方法是由于该方法在异常检测领域是个成功的模型案例,本文对其进行了部分改进。实验结果说明,本文方法优于基准方法,模型的效果更好。

3.4 消融实验

3.4.1 模型不同模块的影响

为验证本文模型的有效性,分析模型中施加的不同模块对于异常检测效果的影响。以Ped1数据集为例,实验结果如表2所示。

表2 不同模块在Ped1数据集中的AUC值 %

表2中的基准网络引用的是文献[6]的模型结构,仅包含预测模块,并使用基于U-net的生成器。为了提升网络深度,在文献[6]的基础上将U-net和残差块相结合,使网络得到有效学习,效果提升0.6 %。此外,通过添加重构模块,提升网络的鲁棒性,精度又进一步提升0.5 %,大大改进了网络性能,能够更好地区分正常和异常。

3.4.2 模型不同约束的影响

分析模型中所添加的不同约束对于异常检测性能的影响。同样以Ped1数据集为例,在实验过程中逐步剔除某一种Loss后进行实验,并对最终的AUC值进行记录,如表3所示。

表3 不同约束在Ped1数据集中的AUC值

从表3中可以看出,施加上述约束都能提升系统的性能,其中效果最明显的是对抗约束,这是由于本文的模型基于GAN进行训练。此外,系统中所添加的正则项L2约束通过对预测的下一帧的中间值m施加L2约束,可以使得重构模块更能重构出逼真的下一帧图片,系统的性能也大大提升。

3.5 模型的鲁棒性验证

为了验证噪声对我们模型性能的影响,实验中在数据集中添加椒盐噪声,选择Ped1数据集进行实验,并且设置不同椒盐噪声的比例来观察结果,并记录下添加不同比例噪声后系统的帧级AUC值。实验中,椒盐噪声的比例α依次为0.001,0.002,0.003,0.004(α为椒盐噪声点的数量占图像总像素的比例),如图5所示,实验结果在图6中给出。

图5 添加不同比例椒盐噪声后的视频帧

图6 添加椒盐噪声后对各系统的性能影响

从图6中可以看出,随着视频帧中椒盐噪声的比例增大,系统的性能仍然可以保持很好的精度,相比较而言,传统的基准系统精度下降得快。另一方面,由于椒盐噪声的逐渐增大,当噪声到达一定程度时(α=0.004),系统性能精度较差,这可能是由于椒盐噪声的颗粒数增大到一定程度时会影响生成的图片质量,进而间接影响系统性能。

4 结 论

本文提出一种联合预测模块与重构模块的视频异常检测算法,预测模块能够生成更加真实的下一帧图像,能扩大正常和异常的区分度;重构模块则使网络提高鲁棒性;使用结合残差网络和U-net网络的GAN来处理异常,避免网络出现梯度爆炸和梯度消失等问题。实验表明:所提算法能够有效提升异常检测的精度。未来,尝试聚焦于视频帧中的局部图像,将整体视频帧与局部目标相结合,以提升监控视频中自动监控的监控效率。

猜你喜欢
噪声重构预测
“白噪声”助眠,是科学还是忽悠?
青少年劳动教育实施的认知与策略重构
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
“双减”能否重构教育生态?
长城叙事的重构
基于声类比的仿生圆柱壳流噪声特性研究
用四维的理念重构当代诗歌
要减少暴露在噪声中吗?
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!