一种用于视频浓缩的图像匹配算法

2018-02-12 12:24马思骐袁健
软件导刊 2018年12期
关键词:图像匹配深度学习

马思骐 袁健

摘要:为了保证公共安全,身边的摄像头越来越多,在录像监控视频中提取有效信息也变得日益困难。针对该问题,提出一种新的基于无监督学习的图像匹配算法。该算法无需像以往算法一样,需要大量人工标注的数据,而是通过观看视频即可完成训练,从而节约了大量时间成本。利用图像匹配算法,可以将视频中无效与相似内容进行浓缩,以提炼出有效内容。该算法在MPI Sintel与KITTI集上进行了测试,APE分别为4.695与5.838,Accuracy@30分别为0.993与0.967,达到了较为理想的效果。

关键词:深度学习;图像匹配;无监督学习;视频浓缩

DOIDOI:10.11907/rjdk.181444

中图分类号:TP312

文献标识码:A文章编号文章编号:1672 7800(2018)012 0096 04

An Image Matching Algorithm for Video Synopsis

MA Si qi,YUAN Jian

(School of Optical Electrical and Computer Engineering, The University of Shanghai for Science and Technology, Shanghai 200082, China)

Abstract:To ensure public safety, there are more and more cameras around us. Along with that, there are more and more long term video surveillance. It is increasingly difficult to extract effective information in these videos. To solve this problem, this paper uses a new image matching algorithm based on unsupervised learning. It does not need the same amounts of manually labeled data as the pre vious algorithms. It can complete training by simply watching the video and save a lot of time and cost. Then through the image matching algorithm, invalid and similar content in the video can be condensed to extract effective content. Through experiments, the algorithm of this paper was tested in the MPI Sintel and KITTI sets, the APE are 4.695 and 5.838 and the Accuracy@30 are 0.993 and 0.967. Therefore good results are achieved.

Key Words:deep learning;image matching;unsupervised learning;video synopsis

0 引言

近年來,在一些公共区域发生了人员密集踩踏、暴力恐怖袭击等众多恶性事件,导致大量人身伤亡,在社会上造成了极大影响。因此,如今很多公共区域都安装了监控摄像头,摄像头将拍摄的视频流传输到服务器,然后在控制中心依靠人工实时查看以发现险情,但该方法效率低、成本高,需要耗费大量人力成本,且肉眼监测的情况极易出错,无法实现对公共区域全范围的实时监测。因此,迫切需要一种图像匹配算法去除长时间视频中无用信息的空白帧,以加快线索搜索速度。为了得到较好效果,采用深度学习的智能检测系统需要大量数据进行训练,因而需要大量人工标注,从而使算法开发成本非常高。

我国对图像匹配算法的研究虽然起步较晚,但在近年来获得了研究者的重点关注。王小睿等[1]提出并实现了一种自动图像配准方法,用于图像的高精度配准,但实际上其只是一种使用互相关系数作为相似性测度的半自动图像配准方法;郭海涛等[2]提出一种将遗传算法(Genetic Algorithm,简称GA)用于图像配准的算法;熊兴华等[3]提出将遗传算法与最小二乘法相结合,用于图像的子像素级配准;李智等[4]提出基于轮廓相似性测度的图像配准方法,可适用于轮廓特征丰富的图像配准。由此可见,图像匹配技术经过多年研究,已取得了大量研究成果,但由于图像匹配效果受多方面因素影响,相关技术有待进一步提升。

1 相关工作

本文利用现实世界视频序列中自然包含的时间相关性训练深度卷积网络,不需要手工标注即可完成帧插值,然后使用学习的CNN为每个输出像素计算灵敏度图。灵敏度图即梯度w.r.t.输入,指示每个输入像素对特定输出像素的影响。将具有最大影响的两个输入像素(每个输入帧一个)视为对应图像(即匹配),虽然是间接的,但对于由此产生的模型,通过简单地观看视频即可完成对应的帧匹配。

本文算法的主要优点在于可以利用普通的视频序列训练用于帧插值的深度卷积网络,而不需要任何人为的数据标注。本文训练数据由3个图像给出,每个图像由2个输入图像与1个输出图像组成,表示标注的内插帧。标注图像的正确示例为:当插入到输入图像对之间时,形成时间相关性的帧序列图像。这种时间相关性自然包含在正则视频序列中,从而可以简单地使用来自几乎任意视频流的连续图像三元组进行网络训练。每个三元组的第一帧与第三帧作为网络输入,第二帧作为标注的内插帧。最重要的是,在网络反向传播过程中得到了帧—帧对应关系,因此其不需要人工设计模型与繁锁的手工标注,而是通过简单地观看视频即可学习图像匹配方法。

1.1 神经网络匹配

在本文中,通过应用与Simonyan等[20]使用的类似技术进行反向传播,对于输出图像中的每个像素,都计算其输入像素的梯度,从而得到在输入像素影响下,输出像素有多少受到了反向传播影响,并影响了网络输入处的映射敏感性。

I 2=F(I 1,I 3)表示一个非线性函数(即训练的神经网络),描述了从输入图像I 1和I 3到差值图像I 2的映射,I 2几乎在输入帧的正中间。考虑到函数是一个向量映射,可以被分成h×w 的非线性子函数,每隔一帧都可以在输入图像中产生对应像素。

为了产生一个可反映反向传播中映射敏感性的图,本文针对每个输入图像计算Jacobian矩阵。Jacobian矩阵如下:

以上公式描述了一个 h×w矩阵如何在输出中对每一个h×w像素产生映射结果。本文定义了一个输出点(i,j)的绝对梯度,以对应每一个输出图像,然后衡量每个具体的输入 1和 3 ,如公式(3)所示。

该方式通过计算其绝对值代替每个矩阵的输入,为了导出每个对应帧内容的坐标,以该方式产生的梯度图可以更好地表示灵敏度或影响图。

即使是无监督学习,在本文中也选择了最简单的方法。本文选取在 Gi,j I 1( 1, 3)和Gi,j I 3( 1, 3)中各自的最大输入,并找到了Cij I 1和Cij I 3 。通过计算输入图像中每个点的梯度图,然后提取每次结果中最具有价值的点,得到:

所有对应点集合 S通过结合从Cij I 1和Cij I 3 提取的相同索引元素,最终表现为:

1.2 用于帧插值的深度神经网络

如图1所示,其包含了卷积部分与解卷积部分。与Hinton & Salakhutdinov [15]提出的自动编码结构类似,这两部分分别用于“编码”与“解码”。卷积部分基本模块如下:

INPUT–>[CONV->PRELU]*3->POOL->OUTPUT

本文采用参数整流线性单位[14],根据VGG Net的建议,将所有卷积滤波器的接收域大小设置为3,其中stride和padding都为1,然后将[CONV->PRELU]复制3遍,以更好地模拟非线性特征。

解卷积部分包括多个解卷积模块,每个模块都包括一个卷积变换层与两个卷积层。前者有4个接收域,stride为1,padding为1。解卷积模块如下:

INPUT->[CONVT-> PRELU] -> [CONV->PRELU]*2 -> OUTPUT

為了在帧插值里保持图像细节,在本文中复制了卷积模块2、3、4的输出特征,然后将其连接起来作为解卷积模块4、3、2的额外输入。由于本文中的网络是完全卷积的,允许输入不同分辨率的图像,这是一个很大优势,因为不同数据集可能会用到不同宽高比,网络中每个块的输出blob大小如表1所示。需要注意的是,实验将两个RGB图像叠加到一个输入斑点中,因此深度为6。网络输出为RGB图像,因此深度为3。Sintel的数据很容易获得,唯一区别是输入图像缩放到256×128而不是384×128。

2 实验

2.1 神经网络训练

训练数据的数量与质量对于深度神经网络训练至关重要,但本文可以简单地使用大量真实世界的视频。在这项工作中,本文专注于使用KITTI RAW视频[11]与Sintel视频进行训练,结果显示该神经网络表现非常好。该网络首先训练KITTI RAW视频序列,该数据集包含56个图像序列,共16 951帧。对于每个序列,本文将每3个连续帧(前后两个方向)作为训练三元组,其中第1个和第3个图像作为网络输入,第2个图像作为相应输出,然后通过垂直翻转、水平翻转和两者的组合进行图像增强。

样本三联体的总数是133 921,然后从原始Sintel电影中选择案例对网络进行微调。实验过程中,从电影中手动收集了总共5 670帧的63个视频剪辑,对其进行分组并增加数据后,最终得到44 352个样本三元组。与以相对均匀速度记录的KITTI序列相比,Sintel序列在本文工作环境中代表较难的训练实例,因为其包含了大量快速与人为渲染的运动,捕捉帧速率仅为24FPS。Sintel样本的重要部分因此不包含所需的时间相关性。

2.2 细节训练

实验在具有两个K40c GPU的机器上使用Caffe[16]进行训练。网络权重采用Xavier的方法进行初始化[12],并由Adam解算器[14]进行优化,固定动量为0.9。初始学习速率设置为1e-3,然后在损失函数停止下降时进行手动调整。对于KITTI RAW数据集的训练,将图像缩放为384×128;对于Sintel数据集的训练,将图像缩放为256×128,批量大小为16。本文对KITTI RAW进行了大约20个时期的训练,然后在Sintel电影图像上对其微调了15个时期。训练期间未观察到过度训练,并在5天后终止训练。

2.3 算法损失

文献[13]、[21]中提到,在输出帧与训练样例之间最小化L2损失,可能导致不切实际与模糊的预测。本文在整个实验中未能证实这一点,但发现通常用于鲁棒光流计算[20]的Charbonnier损耗

可以對L2损耗作适当改进,因此继续采用其进行网络训练,并设置ε 集为0.1。

2.4 图像匹配表现

本文将产生的匹配与几种经验设计方法进行比较(本文算法简称为ABBY),包括经典的Kanade Lucas Tomasi特征跟踪器[5]、HoG描述符匹配[9](其被广泛用于增强密集光流计算)以及最近的DeepMatching方法[22],其依赖于多层卷积体系结构,且性能先进。比较不同匹配算法需要从多个角度考虑,因为其通常为图像不同部分产生不同数量的匹配。为了公平比较,本文调整了每个算法参数,使算法在匹配输入图像上尽可能均匀分布。对于DeepMatching,本文使用默认参数;对于ABBY,本文从4个像素宽度均匀网格的每个角中提取对应关系;对于KLT,本文将minEigThreshold设置为1e-9,以生成尽可能多的匹配;对于HoG,再次将像素采样网格宽度设置为4,然后根据合适的度量值对匹配进行排序,并为每个算法选择相同数量的最佳匹配。通过这种方式,4种算法产生相同数量的匹配,且每个输入图像具有相似的覆盖范围。

本文在KITTI[11]与MPI Sintel[10]训练集中提取有效的标注数据进行比较,并使用图像分辨率相同的图像执行所有实验。在KITTI上图像被缩放为384×128,MPI Sintel图像缩放为256×128。本文使用KITTI RAW序列训练的网络进行KITTI Flow 2012训练集的匹配实验,然后使用Sintel影片剪辑上的微调网络进行MPI Sintel Flow训练集实验。这4种算法是根据平均点误差(APE)与精度@ T进行评估的,后者被定义为与第一张图像的“正确”匹配相对于匹配总数的比例[18]。如果在第二张图像中的像素匹配比T像素更接近标注值,则匹配正确。

在KITTI 2012与MPI Sintel培训集上进行匹配性能测试结果如表2、表3所示。其中DeepM表示DeepMatching,采用指标为:平均点误差(APE)(越低越好),精度@ T(越高越好)。

如表2、表3所示,DeepMatching根据所有度量标准以及MPI Sintel与KITTI集合生成最高质量的匹配结果。值得注意的是,本文算法在KITTI上的DeepMatching性能非常接近,在精度@10与精度@20方面的性能优于KLT跟踪和HoG匹配,但在MPISintel上的表现有所下降。尽管APE测量结果表明其性能优于HoG和KLT,但本文算法在MPI Sintel的整体性能上仍然具有竞争力。

3 实验结果与分析

本文研究表明,目前的工作使人工神经网络不需要大量手工标注数据,即可从普通视频中学习图像匹配。尽管本文算法目前在实际应用场景中并不能提供所需的计算效率,但其可为相关问题提供更简单的解决方案。相信该方法未来会得到更广泛的应用,并且在计算效率与可靠性方面更加符合现实需求。

参考文献:

[1] 王小睿,吴信才.遥感多图像的自动配准技术[J].中国图形图像学报,1997,10(2):735 738.

[2] 郭海涛,刘智,张保明.基于遗传算法的快速影像匹配技术的研究[J].测绘学院报,2001,18(S1):20 22.

[3] 熊兴华,钱曾波,王任享.遗传算法与最小二乘法相结合的遥感图像子像素匹配[J].测绘学报,2001,30(1):54 59.

[4] 李智,张雅声.基于轮廓特征的图像配准研究[J].指挥技术学院报,1998,9(3):101 106.

[5] BIRCHFIELD S. Derivation of Kanade Lucas Tomasi tracking equation[J]. Unpublished Notes, 1997,44(5):1811 1843.

[6] SCHAFER R, WIEGAND T, SCHWARZ H.The emerging H.264/AVC standard[J].EBU Technique Review, 2003.

[7] 王嵩,薛全,张颖,等.H.264视频编码新标准及性能分析[J].电视技术,2003(6):25 27.

[8] YU A, LEE R, FLYNN M. Early detection of all zero coefficients in H.263[C].Picture Coding Symposium,1997.

[9] BROX T, MALIK J. Large displacement optical flow:descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011,33(3):500 513.

[10] BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[M].Computer Vision– ECCV 2012. Springer Berlin Heidelberg, 2012:611 625.

[11] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. International Journal of Robotics Research, 2013,32(11):1231 1237.

[12] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neuralnetworks[J]. Journal of Machine Learning Research, 2010,9:249 256.

[13] GOROSHIN R, MATHIEU M, LECUN Y. Learning to linearize under uncertainty[J]. Computer Science, 2015.

[14] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human level performance on imagenet classification[C]. IEEE International Conference on Computer Vision,2015:1026 1034.

[15] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks.[J]. Science, 2006,313:504 507.

[16] JIA Y, SHELHAMER E, DONAHUE J,et al. Caffe: convolutional architecture for fast feature embedding[DB/OL].http://www.icsi.berkeley.edu/pubs/vision/caffe14.pdf.

[17] KINGMA D, BA J. Adam: a method for stochastic optimization[C]. ICLR, 2015:1 15.

[18] REVAUD J, WEINZAEPFEL P, HARCHAOUI Z, et al.Deep convolutional matching[DB/OL]. http://cn.arxiv.org/pdf/1506.07656.

[19] SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: visualising image classification models and saliency maps[DB/OL]. http://www.robots.ox.ac.uk/~vgg/publications/2014/Simonyan14a/simonyan14a.pdf.

[20] SUN D, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[M]. Holand: Kluwer Academic Publishers, 2014.

[21] WANG X, GUPTA A. Unsupervised learning of visual representations using videos[C].IEEE International Conference on Computer Vision, 2015:2794 2802.

[22] WEINZAEPFEL P, REVAUD J, HARCHAOUI Z, et al. Deepflow: large displacement optical flow with deep matching[C].IEEE International Conference on Computer Vision, 2014:1385 139.

猜你喜欢
图像匹配深度学习
基于图像匹配和小波神经网络的RFID标签三维位置坐标测量法
一种用于光照变化图像匹配的改进KAZE算法
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
挖掘机器人图像匹配算法研究
基于SIFT和LTP的图像匹配方法
基于降落图像匹配的嫦娥三号着陆点位置评估
基于无监督学习的SIFT鲁棒图像匹配算法