递归神经网络多目标跟踪技术

2017-11-20 09:12段龙云辛婷婷
电脑知识与技术 2017年26期
关键词:计算机视觉

段龙云+辛婷婷

摘要:多目标跟踪是计算机视觉领域的热点问题之一。多目标跟踪技术通过对特定目标特征的分析,获取目标在视频序列中的位置与区域变化,为后续数据分析、模式识别等应用提供便利。深度学习在视觉领域表现出了强大的能力,而基于典型的卷积神经网络(CNN)在视频跟踪领域因为卷积神经网络是基于空间深度的神经网络,对于处理具有时序信息的视频多目标跟踪困难重重,近年,因为递归神经网络(RNN)尤其是带有门结构的长段时间记忆网络(LSTM)在时序任务上显示出了突出的性能。不少研究者开始探索如何应用RNN来解决现有跟踪任务中存在的问题。该文介绍了RNN目标跟踪技术的研究背景,该领域的主要研究内容及最新研究进展,分析了近期提出几种较为著名的RNN目标跟踪算法,总结其优缺点并展望RNN目标跟踪技术未来的发展。

关键词:多目标跟踪;递归神经网络;计算机视觉;RNN目标跟踪算法

中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2017)26-0176-02

视频序列中,感兴趣目标运动轨迹及所占区域是非常重要的视觉信息,对于行为识别、三维重建、军事侦察、医疗辅助[1]等方面的计算机视觉应用而言,视频目标跟踪是必不可少的步骤。而在无约束环境中跟踪多个目标是非常具有挑战性的。即使经过几十年的研究,仍然远远没有达到准确的定位。其任务是定位视频序列中的所有感兴趣目标,并随时保持目标的定位。传统多目标跟踪算法主要有两个框架:一是先检测后将检测数据联合[2];二是基于模板学习训练与检测跟踪[3]。

随着深度学习的兴起,近年来因为RNN尤其是带有门结构的LSTM等在时序任务上显示出了突出的性能。不少研究者开始探索如何应用RNN来解决现有跟踪任务中存在的问题。本文将着重介绍两种利用深度学习中典型的递归神经网络在多目标跟踪领域的探索性方法。它们分别是基于传统多目标跟踪算法的第一类框架和第二类框架。

第一类框架下的递归神经网络多目标跟踪,称为递归神经网络数据联合多目标跟踪,例如文献[4]的方法,对于一个面临离散和连续变量,输入和输出未知基数以及视频序列的长度可变。在这方面的一个有趣的工作是Ondrúska和Posner(2016)最近的工作,它将深层的神经网络引入状态估计任务。通过第一类框架下的递归神经网络多目标跟踪,实现了现实情况下的多个目标的在线端到端模型学习的跟踪。

第二类框架下的递归神经网络多目标跟踪,称为递归神经网络相关性检测多目标跟踪[5](RTT)。为了发现可靠的组件,RTT采用多方向循环神经网络(RNNs)对四个不同角度的所有部分进行空间编码。多向RNN为强大的跟踪对象提供了以下优点:一是循环递归模型可以学习各部分之间的长距离上下文相关性,并进一步产生与零件相关的更准确的检测置信图;二是从多个方向编码可以显着减轻在各个方向发生的遮挡的负面影响;三是目标的生成表示在某种程度上是平移不变的,因为空间网络在局部部分上循环执行;四是与具有复杂结构的图形模型相比,多向RNN非常简单和容易实现。

1 递归神经网络(RNN)与长段时间记忆网络(LSTM)

1.1 递归神经网络(RNN)

RNN可以指代两种神经网络,递归神经网络以及循环神经网络,递归神经网络是为了解决日常现象中一些递归结构的存在而特别设计的网络,比如在图像处理中一个表示房子的图片中可以分为若干块小的零件图片,如窗户、门,但是这些代表窗户的图片也可能是飞机甚至是房子的一部分;比如在自然语言处理中出现的名词带的从句中又出现名词的情况。因此,递归神经网络是一种对网络结构的重复,重复的网络权值构成一个树状结构。而循环神经网络则更偏重于时序上的处理,因此是一个链式的连接。如图1所示。

如图1,在a的基础上加上b在时序上循环结构构成循环神经网络。

现在我们常说的递归神经结构网络RNN也就是上图中的循环神经结构,其主要应用是图片分割与注释,在自然语言处理中也有应用。但如果上文间隔过远,就有可能出现难以联想的情况。例如:“我在法国成长……此处省略100个字……我的法语说得很流利。”中要利用段落最前面的“法国”对段落最后的“法语”进行预测,因为提示信息“法国”距离“法语”间隔过远,RNN处理起来就比较困难。所以有人提出利用长段时间记忆网络(LSTM)来解决这个问题。

1.2 长段时间记忆网络(LSTM)

LSTM的改进结构如图2中c中与RNN的不同主要是存在控制存储状态的结构,其结构构成与作用为:先将这个重复结构叫做一个单元,把该单元的一次计算作为一拍,那么这个单元存在三组重要的变量:单元输入、单元输出以及单元状态,从直观来说,LSTM的作用是:

1) 根据上一拍单元的输出ht-1以及本拍的输入xt,计算出需要单元状态中需要遗忘的元素,这种控制是通过门(Gate, σ)实现的;

2) 根据上一拍输出ht-1与本拍输入xt选择需要在单元状态中新记忆的状态;

3) 根据单元状态和本拍输入,输出ht。

通过这样的操作,该单元就将需要记忆的信息通过单元状态的形式记录下来并且在神经元中进行传递,而每一次计算,神经元都可以根据当前的输入对单元状态进行修改。

2 递归神经网络数据联合多目标跟踪

深度学习在多目标跟踪方面主要的方法如下:一是受贝叶斯滤波思想的启发,给出一种RNN网络,能够执行多目标的跟踪任务,这些任务包括预测,数据关联,状态更新以及用图3结构来判断目标的出现和消失。用RNN进行数据联合多目标跟踪方法的优点:非模型,无需学习一些先验知识(目标动力学、杂波分布)。因此,它可以捕获线性(卡尔曼滤波器),非线性(比较粒子滤波器)和高阶依赖性;二是可以从数据中完全学到这样的一个模型:该模型是为包含目标的出现和消失的数据关联的组合问题而诞生的。利用RNN可以用来预测具有固定大小的输入和输出向量的序列,也可以推测具有不确定基数的无序集合;三是提出一种从生成模型中采樣以产生任意数量的方法;四是在模拟和实际数据上采用定性和定量的方式,都可以得到很好的结果。如图3,递归神经网络数据联合多目标跟踪方法框架把问题分成两个模块:1)状态预测和更新以及跟踪管理;2)数据联合。endprint

3 遞归神经网络相关性检测多目标跟踪(RTT)

RNN的框架与过程:

第二类框架下的RNN目标跟踪方法主要是利用多方向递归神经网络来建模和挖掘对整体跟踪有用的可靠目标部分,实际上是二维平面上的RNN建模,最终解决预测误差累积和传播导致的跟踪漂移问题。其本身也是对基于部分的跟踪方法和相关滤波方法的改进和探索。

(1) 首先对每一帧的候选区域进行网状分块,对每个分块提取HOG特征,最终相连获得基于块的特征:[X∈Rh×w×d];(2)得到分块特征以后,RTT利用前5帧训练多方向RNN来学习分块之间大范围的空间关联。通过在4个方向上的前向推进,RNN计算出每个分块的置信度,最终每个块的预测值组成了整个候选区域的置信图。受益于RNN的循环结构,每个分块的输出值都受到其他关联分块的影响,相比于仅仅考虑当前块的准确度更高,避免单个方向上遮挡等的影响,增加可靠目标部分在整体置信图中的影响。(3)由RNN得出置信图之后,RTT执行了另外一个过程。即训练相关滤波器来获得最终的跟踪结果。值得注意的是,在训练过程中RNN的置信图对不同块的滤波器做了加权,达到抑制背景中的相似物体,增强可靠部分的效果。(4) RTT提出了一个判断当前跟踪物体是否被遮挡的策略,用其判断是否更新。即计算目标区域的置信度和,并与历史置信度和的移动平均数做一个对比,低于一定比例,则认为受到遮挡,停止模型更新,防止引入噪声。

4 结论

视频目标跟踪技术是计算机视觉领域内研究的热点问题,由于目标运动轨迹及目标区域提供了重要的信息,因此视频目标跟踪技术是非常有研究价值的。对于第一类框架下的RNN多目标跟踪其通过设置神经网络,解决了在传统多目标跟踪过程中数据关联和轨迹估计的难点问题。对于第二类框架下的RNN多目标跟踪方法,RTT受制于参数数目的影响,只选用了参数较少的普通RNN结构。

总的来说,基于RNN的目标跟踪算法还有很大提升空间。此外,目前已有的深度学习目标跟踪方法还很难满足实时性的要求,如何设计网络和跟踪流程达到速度和效果的提升,还有很大的研究空间。

参考文献:

[1] Gu J, Ding X, Wang S, et al. Full body tracking-based human action recognition[C]. International Conference on Pattern Recognition. IEEE, 2009.

[2] Adam A, Rivlin E, Shimshoni I. Robust Fragments-based Tracking using the Integral Histogram[C] Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. IEEE, 2006.

[3] Kwon J, Lee K M. Tracking of a non-rigid object via patch-based dynamic appearance modeling and adaptive Basin Hopping Monte Carlo sampling[C].Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.

[4] Milan A, Rezatofighi S H, Dick A, et al. Online Multi-Target Tracking Using Recurrent Neural Networks[J]. AAAI,2016,10.

[5] Ondruska P, Posner I. Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks[J]. RSS Workshop on Limits and Potentials of Deep Learning in Robotics,2016,5.endprint

猜你喜欢
计算机视觉
基于深度卷积神经网络的物体识别算法
双目摄像头在识别物体大小方面的应用
危险气体罐车液位计算机视觉监控识别报警系统设计