基于视频的无监督深度和车辆运动估计

2017-01-22 11:47

张江科技评论 2017年3期

可应用于自动驾驶领域

●创新点

给定一张图像，人类可以根据以往的视觉经验推断出 3D 景深，而如何让计算机从单张图片推断 3D结构一直是计算机视觉领域的难点和热点。现有的 CNN+Depth 或者CNN+SLAM 技术通常是直接利用深度图进行监督学习，以及利用帧间转移的 ground-truth pose 技术进行监督学习。然而，这类监督学习的方法需要的数据成本较高，难以获取大规模训练数据。在小数据集上训练，往往导致这些方法在未见过的场景下不能正常工作。目前，CNN与Depth以及 SLAM 的结合都停留在实验室阶段，由于自动驾驶面临复杂多变的道路场景，这些监督学习的方法都不太适用。美国加利福尼亚大学伯克利分校的研究人员采用了无监督的方法针对视频数据进行训练，从而对单张图片的深度以及连续帧之间的车辆运动进行估计，为 CNN 在自动驾驶领域的应用带来了新的启发。

●方法和结果

该研究组利用视频连续帧不同视角的几何信息作为监督信号，训练了一种端到端的单目图像深度估计和车辆运动估计构架，其中包括一个用于单一视角深度估计的CNN+Depth，以及用于连续帧间运动估计的 Pose CNN。该方法通过将当前帧图像结合预测的深度图，并将帧间转移投影到临近帧上，计算像素误差，从而对两个网络进行联合训练。在 KITTI 数据集上的评估结果显示，该方法和之前用 ground-truth pose或者 Depth 进行监督的方法性能是相当的，并且运动估计的结果和现有的通用 SLAM 方法性能相当。

应用前景

在自动驾驶领域，这种无监督的方法使大规模的训练成为可能，即使 pose 估计的精度不能满足实际应用，单张图像的深度图对特征点的选择也有很好的指导意义。此外，该方法可以解决 SLAM 技术中的重要问题，即如何滤除场景中的运动物体。研究者们相信这一技术可以应用到其他领域中去，在训练数据缺乏标记的情况下让机器学习发挥作用。

Source：Tinghui Zhou,Matthew Brown,Noah Snavely,et al.Unsupervised Learning of Depth and Ego-Motion from Video[A].Computer Vision and Pattern Recognition 2017[C],arXiv:1704.07813.