基于深度学习的监控视频目标检索

2016-01-27 03:44王金桥滕可振
无线电工程 2015年12期
关键词:视频监控深度学习

付 伟 ,王金桥,滕可振

(1.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;

2.中国科学院自动化研究所 模式识别国家重点实验室,北京 100190)



基于深度学习的监控视频目标检索

付伟1,王金桥2,滕可振2

(1.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;

2.中国科学院自动化研究所 模式识别国家重点实验室,北京 100190)

摘要基于内容的目标检索一直是视频监控领域最重要的研究内容之一。面向视频监控应用场景,提出了基于深度自动编码机的目标检索方法。通过在训练过程加入掩膜图像辅助信息和人工噪声,提高了深度神经网络特征表示的鲁棒性。实验结果证明了该方法在监控视频目标检索任务中的有效性和优越性。

关键词目标检索;深度学习;视频监控

DeepLearningforObjectRetrievalinSurveillanceVideos

FUWei1,WANGJin-qiao2,TENGKe-zhen2

(1.The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China;

2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

AbstractThecontent-basedobjectretrievalisoneofthemostimportantresearchtopicsinvideosurveillance.Thispaperpresentsanovelobjectretrievalapproachbasedondeepautoencoder.Thisapproachtakesadvantageofthemaskinformationtoassistobjectrepresentation,andintroducesmanualnoiseintothelearningapproach,whichenhancestherobustnessoffeaturerepresentationinthedeepneuralnetwork.Theexperimentalresultsprovetheeffectivenessandsuperiorityofthisapproach.

Keywordsobjectretrieval;deeplearning;videosurveillance

0引言

现代社会,平安城市的建设如火如荼,并逐步向智慧城市迈进[1]。作为城市智能感知的重要一环,视频监控系统已经被广泛地应用于机场、广场、商店、银行和公路等公共场合。无处不在的监控终端每天都在产生海量的图像数据,来不及看、错看漏看已经成为制约智能监控发展的瓶颈。基于内容的目标检索技术[2-4]可以一定程度上解决这一问题,一直是计算机视觉领域的研究热点。

然而,如何设计一种面向监控视频的高效的检索系统仍然面临着巨大的挑战。监控视频目标检索系统涉及背景建模、运动目标分割与提取和目标表示等子问题,每个子问题的性能都会制约检索系统的整体性能:监控场景下环境复杂多变,对目标的特征表达和描述必然引入背景噪声等因素的干扰;监控视频本身的低分辨率、目标在运动中的相互遮挡等问题对目标检索提出挑战。

针对目标表示和遮挡问题,提出了一种掩膜辅助的多模态目标编码方法。掩膜图像的引入有助于目标在图像中的准确定位,以减小背景的噪声影响。另外,在深度神经网络的训练过程中采取原始图像样本重构的策略,来应对遮挡情况对目标检索的影响。

1基于深度学习的目标检索方法

在面向视频监控的应用场景中,行人与车辆是最为关注的运动目标。Calderara等人[5]针对多摄像头无重叠的监控场景采用多高斯模型对行人的颜色分布概率进行估计,设计了一个针对行人的目标检索系统。Perrott等人[6]在MPEG-7和标准描述定义语言的基础上实现了面向CCTV录像的基于内容的实时检索系统。Annesley等人[7]也进一步验证了MPEG-7的颜色描述子在监控视频检索中的效果。Feris等人[8]提出了一种基于属性的车辆检索方法。

在他们的方法中,属性被定义为车辆颜色、速度及类型等语义特征。类似的,Thornton等人[9]对行人提取其性别、发型、衣服颜色、提包位置和颜色等属性,提出了一种基于生成式模型的检索方法。一方面,属性一般由人工指定,其定义的好坏直接影响检索的效果;其次,属性可看作是一种中层特征描述,仅仅依靠几个人工定义的属性对目标表示的描述能力是有限的。

近年来,深度学习受到学术界和工业界的广泛关注和研究。深度学习模拟人类大脑的结构,对数据有很强的学习能力,已在语音识别、图像分类和自然语言处理等方面取得了巨大的成功[10]。在计算机视觉领域,越来越多的工作表明,深度学习的方法通过构建深度神经网络可以从海量图像数据中学习得到更好的特征表达[11]。受此启发,本文提出了一种基于深度学习的监控视频目标检索方法,将背景建模后得到的前景目标图像和掩膜图像经深度神经网络非线性映射到低维二值编码空间,并使相似的图像具有相似的编码。

该系统框架由离线训练和在线检索2部分构成。在离线训练阶段,一个用于存储所有目标编码的数据库被建立。首先,利用背景建模算法从监控视频中提取运动目标,如行人和车辆。对每个目标提取了2张图像,即原始目标图像和二值掩膜图像。然后一个多模态的深度神经网络被训练来将目标和掩膜编码为二值向量。在线检索阶段,用户从监控视频图像中交互式地手动框选待检索的目标,继而用之前训练得到的自动编码机把该目标及其掩膜图像编码为二值向量,最后采用汉明距离度量与数据库中图像的二值向量间的距离,得到检索结果。

2基于深度自动编码机的目标表示方法

2.1深度自动编码机

自从2006年Hinton等人[12]提出受限玻尔兹曼机(RBM)的有效训练算法后,深度学习因其优越的特征学习性能,迅速成为机器学习领域的一个新方向。深度学习模拟人类大脑感知机制,通过将多个受限玻尔兹曼机逐层叠加,构建深度神经网络,对输入数据逐级提取从底层到高层的特征,从而建立从底层信号到高层语义的非线性映射。在视频监控的应用背景下,为快速准确地检索运动目标,采用深度自动编码机将运动目标映射到低维的二值编码空间来寻找其特征表示。

作为深度神经网络的基础结构,受限玻尔兹曼机将输入向量非线性地由可视特征空间转换到隐含特征空间。受限玻尔兹曼机结构如图1所示。

图1 受限玻尔兹曼机结构

由可视节点v和隐含节点h两部分构成,在任意2个不同类型的节点之间有连接(连接矩阵为W),其他节点之间没有连接。每一个节点上的数据都被认为符合某种分布,例如高斯分布和二值分布。可视节点被输入数据或者上一层受限玻尔兹曼机的输出数据初始化。它们之间的关系为:

深度自动编码机作为深度神经网络的一种,同样由多个受限玻尔兹曼机级联构成,其结构如图1所示。输入信号经自动编码机处理后,编码对原始信号的重建误差最小。

深度自动编码机的训练过程分为2个阶段:非监督的预训练和受监督的参数调整。在非监督的预训练阶段,深度自动编码机的编码部分被生成式的逐层训练,当前层的输出作为下一层的输入,各层分别优化从而得到解码部分的参数。进而根据编码和解码部分的对称性得到整个深度网络的初始化参数。最后,为了充分利用数据中的类别信息,还需要使用监督的方法,采用误差反向传播算法对参数进行调整。具体的训练过程可参看文献[13]。深度自动编码机示意图如图2所示。

图2 深度自动编码机示意

2.2目标表示的多模态方法

视频监控场景下,一方面由于光照变化和色差等因素的影响,背景建模算法存在一定的局限性;另一方面,不同运动目标也会发生相互遮挡的情况。因此监控视频中目标的分割与提取过程不可避免地引入了噪声。

(1)

然而,去噪的自动编码机对监控视频目标检索问题来说并不合适。主要原因有:① 去噪的自动编码机被用来提高针对全局噪声的鲁棒性,而非背景区域的噪声;② 如果在训练去噪的自动编码机时,仅针对背景添加噪声,会破坏前景和背景在相同客观条件下表现的一致性,从而影响自动编码机的效果。

假设输入图像中的前景部分和背景部分分别由f和b来表示,前景和背景的外观分别由隐含变量α和β表示,环境因素如光照变化、色差和随机噪声等由隐含变量θ表示。于是,有如下关系成立:

(2)

深度自动编码机在编码时更注重前景部分的外观α,同时考虑背景部分的光照、噪声等环境因素θ。基于此一种多模态的学习策略被采纳。具体的说,在输入部分,将训练数据拷贝使其加倍,其中的一半包括目标物体图像和原始的掩膜图像,另一半包括目标物体图像和全黑的掩膜图像;在输出部分,使用目标前景图像和原始的掩膜图像进行监督。这种训练方法迫使神经网络能够在掩膜图像不完整或不存在的情况下,依然能够有效地辨别出输入图像中的前景目标并对其进行编码。掩膜图像作为目标观测的上下文信息,记为m,则该目标前景的编码表示α可由以下求解过程得到:

(3)

在深度神经网络框架下,对上式的优化等价于求解如下最小化问题:

(4)

为了展示多模态的学习框架,不同的模态设置如图3所示。图3(a)为直接从原始图像上学习目标编码;图3 (b)为通过将背景区域置零,仅从目标区域学习目标编码;图3(c)为使用原始的去噪自动编码机学习目标编码;图3 (d)为将目标图像和掩膜图像结合起来,学习目标编码;图3(e)为通过拷贝训练集将其数量翻倍,其中一半训练数据T保持不变,另外一半T′的掩码图像全部置零。在预训练阶段,T和T′同时使用,在误差反传阶段,用T同时对T和T′进行监督。经过训练,即便用户没有输入掩膜图像,多模态的自动编码机仍然能够通过目标图像将其重构出来。这种训练方法使得深度自动编码机不仅能够编码目标本身,而且能够将其从背景噪声中分离出来。

图3 掩膜辅助的多模态目标表示

2.3遮挡情况的处理

多模态目标表示方法可以考虑遮挡情况的处理,如图3(f)所示。目标图像被规整的划分为图像块,对于每一张图像,随机选择一个图像块转换为黑色。然后,这些已添加噪声的图像和未添加噪声的图像组成了整个训练集。所有的图像都以未添加噪声的图像作为监督信息。通过这种训练方法,即便目标图像中的物体受到遮挡,也能够通过深度自动编码机网络重构出未遮挡的图像。

3实验分析与评价

为验证所提方法的性能,实验在中国科学院自动化研究所发布的视频数据集上进行。该数据集的视频均采集自学校、小区等实际监控场景的摄像头终端,经背景建模后共提取12 676个车辆和57 134个行人目标。

实验中所有目标前景图像与掩膜图像均被调整到32×32像素大小。为了在训练中得到更多的训练数据,所有的图像都被左右翻转以便将训练数据集加倍。深度神经网络的结构如图3所示,第1层受限玻尔兹曼机拥有4 096个可视节点和8 192个隐含节点。所有剩余的受限玻尔兹曼机各有4N个可视节点和N 个隐含节点,直到达到最终的维度。共有243个目标被挑选用来评价不同方法的表现,评价标准为平均准确度(mAP)。各种方法的平均准确率如表1所示。

表1 不同方法的平均准确率(%)

与传统的基于哈希方法如局部敏感哈希(LSH)[15]、谱哈希(SH)[16]相比,基于自动编码机的方法引入了较多的语义信息,因此可以更好地刻画和检索目标。

实验还比较了图3中不同模态策略下检索的结果。从实验结果可以看到,当掩膜图像信息被引入时,即便是单模态训练,与未添加掩膜图像相比,检索的准确度提升了12.09%。对于多模态的实验设置,噪声条件下的平均准确度提升了4.55%,在16×16遮挡块的条件下,相对于“一半掩膜图像置零”平均准确度提升了6.28%。这也表明了该方法对遮挡问题处理的有效性。

4结束语

基于深度学习的目标检索算法将原始图像和对应的掩膜图像联合映射为二值编码,刻画了目标的局部关系。该方法已在实际工程应用中表现出其在处理监控视频中目标遮挡和低分辨率问题方面的优越性,为深度学习理论在视频监控领域的进一步应用提供了一定的借鉴意义。

参考文献

[1]乔宏章,付长军.“智慧城市”发展现状与思考[J].无线电通信技术,2014,40(6):1-5.

[2]ARANDJELOVIC R,ZISSERMAN A.Three Things Everyone Should Know to Improve Object Retrieval[C]∥Computer Vision and Pattern Recognition,IEEE Conference on,2012:2 911-2 918.

[3]DATTA R,LI J,WANG J Z.Content-based Image Retrieval: Approaches and Trends of the New Age[C]∥ACM SIGMM International Workshop on Multimedia Information Retrieval,2005:253-262.

[4]SIVIC J,ZISSERMAN A.Video Google: A Text Retrieval Approach to Object Matching in Videos[C]∥Computer Vision,IEEE International Conference on,2003:1 470-1 477.

[5]CALDERARA S,CUCCHIARA R,PRATI A.Multimedia Surveillance: Content-based Retrieval with Multi Camera People Tracking[C]∥ACM international Workshop on Video Surveillance and Sensor Networks,2006:95-100.

[6]PERROTT A,LINDSAY A T,PARKES A P.Real-time Multimedia Tagging and Content-based Retrieval for CCTV Surveillance Systems[C]∥The Convergence of Information Technologies and Communications,International Society for Optics and Photonics,2002:40-49.

[7]ANNESLEY J,ORWELL J,RENNO J P.Evaluation of MPEG7 Color Descriptors for Visual Surveillance Retrieval[C]∥Visual Surveillance and PerformanceEvaluation of Tracking and Surveillance,2005:105-112.

[8]FERIS R,SIDDIQUIE B,ZHAI Y,et al.Attribute-based Vehicle Search in Crowded Surveillance Videos[C]∥ACM International Conference on Multimedia Retrieval,2011:18.

[9]THORNTON J,BARAN-GALE J,BUTLER D,et al.Person Attribute Search for Large-area Video Surveillance[C] ∥Technologies for Homeland Security,IEEE International Conference on,2011:55-61.

[10]余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1 799-1 804.

[11]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175-184.

[12]HINTON G E,SALAKHUTDINOV R R,Reducing the Dimensionality of Data with Neural Networks [J].Science,2006,313(5786):504-507.

[13]KRIZHEVSKY A,HINTON G E.Using very Deep Autoencoders for Contentbased Image Retrieval [C] ∥ ESANN,2011.

[14]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and Composing Robust Features with Denoising Autoencoders[C] ∥International Conference on Machine Learning,2008:1 096-1 103.

[15]CHARIKAR M.Similarity Estimation Techniques from Rounding Algorithm [C] ∥ ACM symposium on Theory of Computing,2002:380-388.

[16]WEISS Y,TORRLABA A,FERGUS R,Spectral Hashing[C]∥Advances in Neural Information Processing System,2009:1 753-1 760.

付伟男,(1986—),博士,工程师。主要研究方向:模式识别、图像处理。

王金桥男,(1978—),博士,副研究员。主要研究方向:模式识别、视频与图像处理、多媒体计算。

作者简介

基金项目:国家自然科学基金面上项目(61273034)资助。

收稿日期:2015-09-09

中图分类号TP391

文献标识码A

文章编号1003-3106(2015)12-0016-05

doi:10.3969/j.issn.1003-3106.2015.12.05

引用格式:付伟,王金桥,滕可振.基于深度学习的监控视频目标检索[J].无线电工程,2015,45(12):16-20.

猜你喜欢
视频监控深度学习
基于视频图像采集移动目标检测系统的设计
有体验的学习才是有意义的学习
数字化监控系统的企业应用
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于嵌入式Linux的视频监控系统的设计与实现
基于HTML5的视频监控微课设计浅析
智能视频检索技术在校园安防建设中的发展应用
深度学习算法应用于岩石图像处理的可行性研究