论文原文:RTM3D:Real-timeMonocular3DDetectionfromObject
KeypointsforAutonomousDriving
目前已有的一些 3D 检测器都是将 3D 边界框到 2D 边界框的几何约束作为重要组件。由于 2D 的边界框只有四条边,仅能提供四个几何约束,这就导致 2D 检测器的一点小错误会极大的影响 3D 检测器的效果。本文的方法通过预测图片中物体 3D 边界框的九个关键点,利用 3D 和 2D 透视图的几何关系恢复 3D 空间中的尺寸、位置和方向。通过这种方法,即使关键点的估计非常嘈杂,也可以稳定地预测对象的属性,使我们能够以较小的架构获得较快的检测速度。训练的方法仅使用对象的 3D 属性,而无需外部网络或监督数据。该方法是第一个用于单眼图像 3D 检测的实时系统,同时达到了 KITTI 基准的最新性能。代码将在 https://github.com/Banconxuan/RTM3D 上发布。
论文背景
3D 目标检测是自动驾驶中场景感知和运动预测的基本组件,目前的 3D 检测器都严重依赖于 3D 雷达扫描得到的位置信息。但基于雷达的系统非常昂贵而且不利于编码现在的车辆形状。而单目相机相对便宜更容易应用在现实场景中。本文的研究聚焦于单目 RGB 图片的 3D 目标检测。
单目 3D 目标检测方法大致可以按照训练数据类型被分为两类,一种利用复杂的特征,例如实例分割、车辆形状先验甚至是深度图在多阶段融合模块中选择最佳方案,这些额外的特征需要额外的标注工作来训练一些其他的独立网络,这会消耗大量的运算资源;另外一类方法仅将 2D 的边界框和 3D 物体的属性作为有监督数据,在这种情况下,一个直观的想法是建立一个深度回归网络以直接预测对象的 3D 信息,由于搜索空间较大,这可能会导致性能瓶颈。因此最近有一些工作将 3D 盒顶点的几何约束应用于 2D 盒边缘以细化或直接预测对象参数。但是,2D 边界框的四个边缘仅对恢复 3D 边界框提供了四个约束,而 3D 边界框的每个顶点可能对应于 2D 框中的任何边缘,这需要 4,096 个相同的计算才能得出一个结果。同时,当 2D 检测器的预测甚至有轻微误差时,强烈依赖 2D 框会导致 3D 检测性能急剧下降。因此,大多数这些方法都利用两阶段检测器来确保 2D 边界框预测的准确性,这限制了检测速度的上限。
本文提出了一个无需依赖 2D 检测器的一阶段单目 3D 检测器。首先,通过一个单阶段全卷积架构预测 9 个 2D 关键点,这些关键点包括 3D 边界框的 8 个顶点和中心点的投影点,这 9 个关键点在 3D 边界框上提供了 18 个几何约束。此外,本文还提出了一个全新的用于关键点检测的多尺度金字塔,可以通过软加权金字塔获得最终的关键点激活图。给定 9 个投影点后,下一步是通过对象的位置、尺寸和方向等从这些 3D 点的角度上进行参数化,使重投影误差最小。将重投影误差公式化为 se3 空间中多元方程的形式,可以准确有效地生成检测结果。作者讨论了不同先验信息对基于关键点的方法(如尺寸、方向和距离)的影响。获取此信息的前提条件是不要增加过多的计算,以免影响最终检测速度。本文对这些先验模型进行建模,并提出了一个整体能量函数以进一步改善 3D 估计。
本文的主要贡献有以下几点:
1.将单目 3D 检测转化为关键点检测问题,结合了几何约束来更准确和高效的生成 3D 物体的属性。
2.提出了一种新颖的单阶段多尺度 3D 关键点检测网络,该网络可为多尺度物体提供准确的投影点。
3.提出了一个整体能量函数,可以共同优化先验和 3D 对象信息。
4.根据 KITTI 基准进行评估,本文是第一种仅使用图像的实时 3D 检测方法,与其他方法在相同的运行时间下对比,具有更高的准确性。
论文模型