基于场景和行人交互力的行人轨迹预测

2021-09-09 07:36彭涛黄子杰刘军平张自力胡智程

现代计算机 2021年19期

彭涛，黄子杰，刘军平，张自力，胡智程

(武汉纺织大学数学与计算机科学学院，武汉 430200)

0 引言

随着无人驾驶技术的逐渐成熟，随之而来的安全问题也被人们所关注。无人驾驶过程中行人的安全问题是无人驾驶的核心问题之一。行人轨迹的预测，可为紧急制动[1-3]提供可靠的依据。同时，行人轨迹预测可以在监控系统中预防危险活动[4-6]。然而，行人的活动充满了不确定性，行人在行走过程中与其他物体的互动是由常识和社会习俗驱动的，在互动的过程中，会有一种力量阻碍行人前往目的地，这种力量叫做社会力量[7]，如图1所示，它包括：

(1)行人之间的交互力[8-10]。

(2)行人与静态场景之间的交互力[11]。

(3)其他交互力[12]。

为了解决这个复杂环境下行人轨迹预测问题，在“Social-LSTM”中[13]，首次将深度学习模型和社交力量相结合应用于行人轨迹预测，该方法在一定程度上提升了行人轨迹预测的精度，但是未考虑场景信息。与此同时，为计算场景中所有行人的状态，导致模型的计算量大，实时性差[14]。

图1 场景中的行人需要遵守“社会法则”

此后，研究人员将基于循环神经网络不断改进预测结果[15-16]。例如Huynh等人提出了Scene-LSTM[17]，对“Social-LSTM”模型进行了改进。Matteo Lisotto等人也提出了一个新的池化层来改进模型，可生成对抗网络的引入，在一定程度上提升了模型的性能[18]。如Agrim等人提出的Social-GAN模型[19]。但是这些方法都有共同的问题：一是由于循环网络的使用，使得网络运行效率低，训练成本高。二是池化层的引入存在问题，无法正确表达行人之间的交互。

随着图网络技术的发展，图卷积神经网络为行人轨迹预测提供了新思路[20-21]。为更准确地预测行人轨迹，减少参数，Mohamed等人提出了Social-STGCNN框架[22]，在文中，他将行人轨迹建模为时空图，以行人为顶点，行人之间的交互力为边，进而构建权重矩阵。该方法不仅在原方法的基础上提高了计算速度，而且提高了预测精度。然而，在此框架中仍然未提及静态场景因素对行人运动轨迹的影响，所以预测的轨迹仍有偏差。

1 模型实现

1.1 整体模型

模型主要为行人特征提取模块、场景特征提取模块和预测模块。模型的详细描述如图2所示。

图2 模型流程图

1.2 行人特征提取

为得到行人运动轨迹的特征，本文使用了Mohamed等人提出的时空图卷积网络来提取行人特征图。不仅获取了行人的空间信息，还保留了行人的时间信息。

在特征提取模块，首先构建一组空间图形Gt=(Vt，Et)，其中t表示当前时间。Vt是顶点的集合，与行人的坐标相同，即:Vt=Xt。Xt定义如下：

(1)

同理，Et为图Gt中边的集合，它代表行人之间的函数关系。与Abduallah等人的工作类似，模型对不同距离行人之间的影响进行了加权，以进一步反映力的变化。权重用a表示，计算公式如下：

(2)

将行人轨迹绘制成图，然后利用图卷积神经网络对矩阵图进行处理，得到行人轨迹特征。

经过上述过程后，可获得空间行人轨迹特征。以此为基础，在空间特征图的基础上扩展时间轴，将多幅行人轨迹图进行时间维度连接，得到同一行人在两个时间段之间的时间特征，并将时间图与空间图组合成时空图卷积神经网络。

1.3 场景特征提取

在获取了行人特征图之后，为了提升准确度，本文添加了场景特征图。场景中不同区域的障碍物会在不同方向上对行人的运动产生阻力，从而产生了行人绕道的效果。因此，需要对场景中的不同区域进行阻力判断，以确定它是否会被大多数行人接受。

(1)构建点阵图。根据数据集中已有数据可以发现，场景中存在没有行人轨迹的地方，该区域可以用来表示不能进入或不能到达的位置。因此，可首先构筑场景点阵图。

(3)

式(3)中，n为行人数量，t为时间。Xpoint表示该时间段内所有行人经过此点的次数。NUMX则表示该段时间内所有行人的全部坐标点。

(3)获取场景特征图Nav。得到行人点阵图后，为每个场景内行人设定邻域，并根据邻域内点阵图的平均权重得到行人邻域内不同区域的权重图，如式(4)：

(4)

其中，m表示以该行人为中心的邻域。

(4)将场景特征图进行归一化处理，进而得到行人向邻域内不同方向前进的概率。

将场景转换为场景图的过程如图3所示。由于监视器对应的是同一个场景，对于场景中的行人，场景的影响只会随着静态障碍物的移动而改变，但是整个场景的整体倾向性不会因为行人的移动而改变。因此，在场景图中，只需要考虑空间坐标变化，而不需要考虑时间变化对场景的影响。也就是说，在处理场景特征时，不需要考虑时间序列对特征的影响。因此，将场景特征的处理置于时空图形卷积网络之外。

如图3所示，以某一点为中心获取一定范围内的场景图，并依据此图产生权重图。

百里香从末明了琵琶仙的感情，更没想到琵琵仙对铁头大哥用情如此之深，因此大感意外和失落。但他转念一想，琵琶仙初来蕲州身陷绝境之时，是铁头大哥出手相助，帮她安葬了客死他乡的爷爷，又将她荐到闹春楼唱曲谋生。知恩图报，情义无价，这样的女子更值得尊敬，岂能因为自己的一厢情愿而生怨意？果真如此，我百里香与无良小人又有何异？

图3 场景特征提取

通过上述操作，可以为行人设置一个一定大小的邻域，并利用平均池化层将邻域内所有的场景特征值进行平均处理，进而得到较为合理的场景特征图。

1.4 行人轨迹预测

通过两种特征的处理，可得到行人的运动特征和场景特征，然后使用时间外推卷积神经网络(TXP-CNN)进行轨迹预测。其中，TXP-CNN网络将上述两个特征进行卷积，生成一个新的以时间为因果序列的预测轨迹。

TCN=1DFCN+causalconvolutions

(5)

式(5)中，1D FCN为按每个T间隔作为一轮输入的全卷积神经网络，Causal Convolutions为对卷积结果扩张的因果卷积网络。

TXP-CNN对图的时间维进行操作，使用feature map作为预测的条件并进行扩展。由于它依赖于特征空间上的卷积操作，所以它的参数比递归操作要小。由于网络采用因果卷积，可以记录轨迹的时间信息，从而在降低参数的同时保留了时间特征。

(6)

如上为模型介绍。模型采用了两种不同的网络来处理行人之间的特征以及行人与场景之间的特征，进一步减少了由时间序列带来的计算和存储需求。

2 实验

2.1 数据集和测量指标

模型在两个行人轨迹数据集(ETH[23]和UCY[24])上进行测试。其中，ETH包括两种场景:ETH和HOTEL。UCY包括三种场景：UNIV、ZARA-01和ZARA-02。在场景中，共记录了1536名行人在该场景中进行的行走等社交活动。本文提出的训练方法和其他论文一样，使用一部分数据集进行实验，使用剩下的数据集进行测试，最后用剩下的4个数据集进行验证。数据集中的轨迹每0.4秒采样一次。在实验中，观察3.2秒的轨迹，即8帧，然后预测接下来4.8秒的轨迹，也就是12帧。

(7)

(8)

2.2 模型参数设置

模型由三部分组成：ST-GCN层、navi-pooling层和TXP-CNN层。模型使用PReLu作为的激活函数。模型的批容量设置为128，使用随机梯度下降(SGD)的方法对模型进行350次迭代。学习率设置为0.01。为了达到局部最优效果，模型在经过150次迭代后，将学习率修改为0.002。然后根据视频帧的图片大小，设置场景图的大小为400×320。为得到更准确的模型，对三个模块的层数进行了对比实验。实验表明，一层ST-GCN层、一层navi-pooling层和五层TXP-CNN层的性能最好。

2.3 消融实验

为了确定不同网络层数对模型的影响，模型进行了消融实验。实验发现ST-GCN模型中卷积层数的不同会影响行人轨迹的特征提取，TXP-CNN模型卷积层数的不同会影响模型的学习能力。在实验中，将两个神经网络分别设置为1层、3层和5层，选择ETH数据集进行组合实验，以获得效率和准确率最高的组合。实验结果如表1所示。实验使用单数据集进行消融实验，同时使用ADE/FDE作为参考指数。

表1 消融实验结果

表1中第一行中的数字表示ST-GCN的层数，第一列中的数字表示TXP-CNN的层数。使用ADE/FDE作为评估指标。由表1可知，当模型的层数过多时，模型的精度开始下降。同时，层数过少会影响实验结果，特征和学习过少会使实验结果不准确。因此，模型选择使用1层ST-GCN和5层TXP-CNN作为模型中的网络层数。

2.4 定量分析

表2与表3将模型与其他模型在ADE和FDE指标上的性能进行了比较。比较的对象包括Social-LSTM、SR-LSTM、Social-STGCNN、SS-LSTM、Social-BiGAT。从表2和表3可以发现：①总体性能最低的是Social-LSTM，原因是该方法只提取了少数特征，并且只在池化层中选取模型并与场景中的所有行人进行交互。②使用GAN网络连接后的预测结果精度由较大提升。③使用图卷积网络的模型精确度最高。

表2 对应模型的ADE值

表3 对应模型的FDE值

通过比较可以看出，对于FDE指标，与大多数方法相比，本文提出的模型的平均精度提高了约20%；但本文提出的方法在ADE指标上在HOTEL场景内的误差较大。

同时，本模型与STGCNN相比，在增加参数的情况下并其运算速度并未大幅降低。

表4 模型参数表

3 结语

本文使用现有的时空间图卷积神经网络方法提取行人之间的特征，并在此基础上增加场景特征。通过绘制场景图，形成当前场景的权重图，并为每个行人设置一个邻域来代表场景中静态障碍物对其产生的影响。然后使用TXP-CNN网络来预测轨迹。本文在ETH和UCY数据集上进行了实验，证明了该模型的优越性。另外，由于使用了残差网络和卷积网络，进一步降低了实验所需的参数。在未来，将进一步降低预测误差，并将预测目标从行人扩展到多个可移动物体的集合。