人群密集场景中运动模式识别

2019-07-31 05:05康永欣袁丽英
哈尔滨理工大学学报 2019年3期

康永欣 袁丽英

摘 要:针对从人群密集场景中识别运动模式的问题,提出了距离依赖中餐馆连锁店过程混合模型。该模型是一种引入依赖关系的层次化非参贝叶斯模型,能够通过引进独立于数据观测值的距离依赖信息,准确建模自然分组的数据,从中挖掘共享的数据模式。给出了模型的建立过程,并通过吉布斯采样的方法对模型进行求解,同时展示了相关的实验结果。通过对纽约广场火车站监控场景数据集中47 866条片段轨迹的建模分析,证明了模型可以自动确定场景中运动模式的个数,从不完整的轨迹中以98%的正确度学习并表达运动模式,并且能够在不同的运动模式之间共享公共的子模式。

关键词:运动模式识别;人群密集场景;非参贝叶斯模型;吉布斯采样。

DOI:10.15938/j.jhust.2019.03.012

中图分类号: TP391.4

文献标志码: A

文章编号: 1007-2683(2019)03-0074-08

Abstract:To address the motion patterns learning task in crowded scenes, we propose a novel Distance Dependent Chinese Restaurant Franchise (DDCRF) mixture model, which is a hierarchical nonparametric Bayesian model based on dependencies. DDCRF can learn the latent patterns accurately by introducing the distance information which is dependent of the observations of data points. We detail the generative process and Gibbs sampling process of DDCRF, and then the results of experiments are shown. An extensive evaluation is performed on the dataset including 47,866 tracklets collected from the crowded New York Grand Central station,  indicating that our algorithm has the following advantages: deducing the number of latent motion patterns automatically, learning motion patterns precisely from these tracklets, and sharing constituent parts and subpatterns among different motion patterns.

Keywords:Motion pattern learning; Crowded scenes; Nonparametric Bayesian model; Gibbs sampling

0 引 言

隨着智慧城市的理念深入人心,监控摄像头遍及城市的每一个角落,对监控视频内容中的行为分析受到越来越多的关注[1-2]。在众多的场景中,公共区域人群密集场景的行为分析显得尤为重要,不仅可以提供实时的异常行为监测信息,而且可以为公共场所的规划和实时疏导提供有效的反馈和指导。对于像车站、机场、商场等监控视频的行为分析中,轨迹学习取得了显著效果[3-5],在这些场景中,通常很难得到目标物的完整轨迹,所以,轨迹片段经常被用作目标物的原始特征进行分析和处理。从监控视频中提取的轨迹片段,轨迹片段虽然较短,并不能描述一个目标在场景中所有的活动,但它包含了丰富的时空信息,并具有一定的语义表达能力。本文的目标是从这些轨迹片段中学习得到运动模式。这里所说的运动模式是指该场景中行人所经过的某些共同区域,如运动模式可以表述为:从入口a进入场景,经过场景中的某区域,从出口b离开场景。其中区域的大小和位置都与具体的场景以及具体的时间有关,无法人为指定,需要算法自动发掘。这些运动模式对监控视频的理解会有很大的帮助。

该任务有以下难点.

1)运动模式不固定。由于此类场景中行人较多,主观性较大,且处于远景监控状态,运动模式多样,依赖于人工观察很难给出有效的运动模式先验。

2)轨迹不完整。在行人密集场景下,运动物体之间的距离很近,相互遮挡情况频繁发生,大部分跟踪器容易丢失跟踪目标,跟踪时间不长,只能得到片段轨迹;

3)运动模式交互现象严重。由于场景复杂,众多的运动模式存在交叉重叠部分,普通的以轨迹点速度位置为度量的聚类学习方法很难有效区分交互的运动模式。

针对以上困难,现有算法只能解决某个单一方面的问题。比如,很多算法在学习人群密集场景中运动模式的时候,都假设目标物的轨迹在整个场景中是完全已知且连续的[6-8],然后取得了一定效果。这个假设只在简单场景中成立,在人群密集场景中,由于行人较多,又是远景监控,所以遮挡现象明显,跟踪器很难跟踪到目标的全轨迹。另外一些学者则看到了片段轨迹的应用价值,如参考文[9-11],Zhou B等在[12]中提到了随机场主题模型(RFT)建模的方法,这种方法将马尔科夫随机场作为先验约束LDA[13]模型,加强了轨迹片段之间的时空依赖关系。尽管Zhou B[12]等在人群密集场景的片段轨迹学习中取得了一定的进展,但是,RFT中的主题个数是要人工给定的,正如上文中所提到的,在多数的行人密集场景中,通过预先观察是很难给出一个有效的运动模式个数的。

受到以上算法的启发,本文提出了距离依赖中餐馆连锁店过程混合模型(DDCRF)来解决人群密集场景中运动模式学习的问题。首先,DDCRF是以狄里克雷过程作为先验,可以自动发掘场景运动模式的个数,不需要人工设定;其次,引入片段轨迹间的时空依赖关系作为中餐馆模型的距离依赖,能够从不完整的片段轨迹中准确的学习运动模式;同时,对模型进行了层次化扩展,使得不同的运动模式能过共享一些子模式,合理地解决了其它算法中由于运动模式交互而导致的运动模式无法区分的现象。

1 理论模型

为了学者能够更好的理解本文所提出的模型,在本章中先简要介绍模型的设计来源,然后重点介绍模型的生成过程和求解方法。

1.1 距离依赖中餐馆模型(DDCRP)

距离依赖中餐馆模型是由Blei D M[14]提出,是中餐馆模型(CRP)[15]的扩展,定义如下:

在距离依赖中餐馆过程中,每个顾客i进入餐館之后根据某种距离关系D选择一名顾客j作为邻座,记作ci=j,并坐在他身旁。把每个顾客看作一个节点,如果两个顾客比邻而坐,即相当于他们对应的节点之间有一条有向边把他们连接起来,多个连通的节点可以形成团簇,这种就坐方式形成了聚类效果。为了描述方便,引入餐桌的概念,把相互联通的顾客看作是坐在一张餐桌旁的顾客。如图1所示

将上述四种情况的似然值变化量Δp与对应的先验概率相乘得到后验分布,再从后验分布中采样得到ji点的新连接c(1)ji_new,若新的采样值为上述的情况3)或4),只要在第二层餐馆中对相应的顾客连接做采样即可。

至此,完成了DDCRF混合模型的学习算法的推导。

2 实验及结果

本章将DDCRF混合模型应用到行人密集场景下运动模式的学习中,该算法利用了轨迹片段之间的时空依赖关系,并且在不指定运动模式数目的情况下准确地发现场景中的运动模式,本章将描述实验步骤并给出实验结果分析。

2.1 任务描述

本实验的基本目的是:从监控视频中提取的轨迹片段如图 3所示,设计算法中学习得到如图 4所示的运动模式。这里所说的运动模式是指该场景中行人所经过的某些共同区域,如,其中的一种(图 4第2幅)运动模式可以表述为:从入口7进入场景,经过图中所示区域,从出口3离开场景。

行人密集场景轨迹数据集由[12]提供。该数据集包含一段场景为纽约火车站的视频,长度30分钟,分辨率760*480 。数据集中包括了使用简单的轨迹跟踪算法得到的47866条轨迹及部分出入口标注信息,其中有3%是有完整轨迹(即包含了整个场景下的完整轨迹和出入口信息),其余均为不完整轨迹,有23%是只有入口被标记到,有17%是只有出口信息被标注到,有57%出现在场景中的轨迹是无出入口标注的。

本文在以下实验中将为整个场景构建视觉字典,然后将每条轨迹编码成由视觉单词组成的视觉文档,用文档之间的距离来表示各个轨迹之间的时空依赖关系,从文档主题分析的角度理解轨迹的运动模式学习,场景中常见的运动模式通过本文的算法聚类得到的视觉主题来表示。

2.4 实验结果

本节中从两部分展示实验的结果,一部分是本文的算法从行人密集场景的片段轨迹中学习得到的运动模式的可视化效果定性分析,另一部分是通过以人工标记数据作为参考对聚类结果的准确度和完整度进行定量评价。

2.4.1 实验结果的定性分析

为了方便与相关文章结果的比较,采用与文[12]、[17]、[18]、[20]相同的可视化策略,在以上这些文章中字典是按照如下方式进行构建:整个场景被划分为多个网格,每个网格的大小是10*10,每个网格上存在4个单词,每个单词对应上下左右四个方向中的一个,根据本文所处理的场景,字典大小为76*48*4,将前面通过子轨迹构造的长度为1000的字典通过投影矩阵投影到该字典上,将学习到的主题也同样投影到这个字典上。通过这个处理,本文的方法得到的效果可以等价的可视化出来,方便与其他算法进行横向对比。

图5展示了本文算法得到的主题的可视化结果(左侧)与RFT[12](右侧)的对比,图5(a)为DDCRF自动求解得到的场景中的48个运动模式,其中白色框出的模式是文[12]没有发现的模式;图5(b)为RFT[12]算法给出的结果,运动模式个数为人工指定的30个。这里需要强调的是,本文算法是自动确定主题的个数的(48个主题),而对比与文[12]中得到的结果,本文的方法能够得到的模式中涵盖了所有文[13]得到的模式,并且能够自动发现一些RFT[13]中没有发现的模式,如图中黄框所示,甚至能够发现一些人工监控也很难发现的但是场景中确实存在的运动模式。

2.4.2 实验结果的定量评估

在定量评估部分,为了与同类算法进行比较,本文采用文[12]、[21]中提到的两个衡量标准:正确度和完整度。正确度是指在所有由两个不同类别的样本组成的样本对中,两个样本被算法聚入不同类别的情况占的比重;完整度是指所有由两个相同类别的样本组成的样本对中,两个样本被算法聚入相同团簇的情况所占的比重。为了在一定程度上消除手工标记的主观性,这里标记了三组数据,每组有2000对人工标注的轨迹对,并分别计算算法聚类结果的正确度和完整度,平均之后再与相关算法进行比较,如表1所示。相比于THDP[22],本文的算法能够得到更高的正确度和完整度;相比于RFT[12],本文的算法不仅能自动确定主题个数还能得到相对较高的完整度。

综上,实验结果表明在引入相同形式的时空依赖关系时,本文的算法能自动发现主题数目,同时能够得到相对较高的正确度和准确度。

3 结 论

为了解决人群密集场景中的运动模式学习问题,本文提出了一种新的基于距离依赖的层次化非参贝叶斯模型,距离依赖中餐馆连锁店过程混合模型。本文给出的求解方法能够自动地从有依赖关系的成组数据中学习其中共享的隐含模式。实验结果证明,本文的算法能够有效解决远景监控下人群密集场景的运动模式学习问题。本文的模型具有很强的扩展性,可以应用在文本分析、手写识别及视频分割等其他类似的序列数据的模式识别中。

參 考 文 献:

[1] 朱丽英,梁辰,张鸿洲. 基于运动目标的监控视频检索方法[J]. 计算机应用与软件,2011(12):96.

[2] 吕英丽,顾勇,张晓峰. 基于HMM监控视频的异常事件检测[J].数据采集与处理,2014(6):1030.

[3] KWON Y, KANG K, JIN J,et al. Hierarchically Linked Infinite Hiddenmarkov Model Based Trajectory Analysis and Semantic Region Retrieval in a Trajectory Dataset. Expert Systems with Applications, 2017(78):386.

[4] SHAO Z, LI Y. Integral Invariants for Space Motion Trajectory Matching and Recognition. Pattern Recognition, 2015,48(8):2418.

[5] MORRIS B T, TRIVEDI M M. A Survey of Visionbased Trajectory Learning and Analysis for Surveillance. IEEE transactions on circuits and systems for video technology, 2008,18(8):1114.

[6] WANG X, MA X, GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models. IEEE Transactions on pattern analysis and machine intelligence, 2009,31(3):539.

[7] HU W, XIAO X, FU Z, et al. A System for Learning Statistical Motion Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(9):1450.

[8] ERGEZER H, LEBLEBICIOGLU K. Anomaly Detection and Activity Perception Using Covariance Descriptor for Trajectories. In European Conference on Computer Vision, pages 2016:728.

[9] CHONGJING W, XU Z, YI Z, et al. Analyzing Motion Patterns in Crowded Scenes Via Automatic Tracklets Clustering[J]. china communications, 2013, 10(4): 144.

[10]SHAO J, CHANGE Loy C, WANG X. Sceneindependent Group Profiling in Crowd[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2219.

[11]ZHAO W, ZHANG Z, HUANG K. Joint Crowd Detection and Semantic Scene Modeling Using a Gestalt Lawsbased Similarity[C]//Image Processing (ICIP), 2016 IEEE International Conference on. IEEE, 2016: 1220.

[12]ZHOU B, WANG X, TANG X.Random Field Topic Model for Semantic Region Analysis in Crowded Scenes from Tracklets[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011: 3441.

[13]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993.

[14]BLEI D M, FRAZIER P I. Distance Dependent Chinese Restaurant Processes[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2461.

[15]FERGUSON T S. A Bayesian Analysis of Some Nonparametric Problems[J]. The annals of statistics, 1973: 209.

[16]TEH Y W, JORDAN M I, BEAL M J, et al. Sharing Clusters Among Related Groups: Hierarchical Dirichlet Processes[C]//Advances in neural information processing systems. 2005: 1385.

[17]EMONET R, VARADARAJAN J, ODOBEZ J M. Extracting and Locating Temporal Motifs in Video Scenes Using a Hierarchical Non Parametric Bayesian Model[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011: 3233.

[18]KUETTEL D, BREITENSTEIN M D, VAN Gool L, et al. What′s Going on Discovering Spatiotemporal Dependencies in Dynamic Scenes[C]//Computer Vision and Pattern

[19]Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 1951.

[20]WANG X, MA X,GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models[J]. IEEE Transactions on pattern analysis and machine intelligence, 2009, 31(3): 539.

[21]MOBERTS B, VILANOVA A, VAN Wijk J J. Evaluation of Fiber Clustering Methods for Diffusion Tensor Imaging[C]//Visualization, 2005. VIS 05. IEEE. IEEE, 2005: 65.

[22]WANG X, MA K T, NG G W, et al. Trajectory Analysis and Semantic Region Modeling Using a Nonparametricbayesian Model[C]//Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008: 1.

[23]ATEV S, MASOUD O, PAPANIKOLOPOULOS N. Learning Traffic Patterns at Intersections by Spectral Clustering of Motion Trajectories. In Intelligent Robots and Systems[C]// 2006 IEEE/RSJ International Conference on, IEEE, 2006:4851.

(編辑:关 毅)