【泡泡图灵智库】单目 3D 目标检测的定位误差研究

泡泡图灵智库，带你精读机器人顶级会议文章

标题: Delving into Localization Errors for Monocular 3D Object Detection

作者：Xinzhu Ma , Yinmin Zhang , Dan Xu , Dongzhan Zhou ,Shuai Yi , Haojie Li , Wanli Ouyang

来源：CVPR2021

编译：cristin

审核: zhh

这是泡泡图灵智库推送的第750篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章Delving into Localization Errors for Monocular 3D Object Detection。

从单目图像估计 3D 边界框是自动驾驶的重要组成部分，而从此类数据中准确检测 3D 对象非常具有挑战性。在这项工作中，通过大量的诊断实验，我们量化了每个子任务引入的影响，发现“定位误差”是限制单目 3D 检测的重要因素。此外，我们还调查了本地化错误背后的根本原因，分析了它们可能带来的问题，并提出了三种策略。首先，我们重新审视 2D 边界框的中心与 3D 对象的投影中心之间的错位，这是导致定位精度低的重要因素。其次，我们观察到用现有技术准确定位远处物体几乎是不可能的，而这些样本会误导学习网络。为此，我们建议从训练集中删除此类样本，以提高检测器的整体性能。最后，我们还提出了一种新的面向 3D IoU 的损失，用于对象的大小估计，它不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验，所提出的方法实现了实时检测并大大优于以前的方法。

主要工作与贡献

本文的主要贡献如下：

首先，我们对单目 3D 检测进行了密集的诊断实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外，我们还量化了每个子任务的整体影响。

其次，我们调查了本地化错误背后的根本原因，分析了它可能带来的问题。因此，我们提出了三种针对注释、训练样本和优化损失的新策略，以减轻由定位错误引起的问题，从而提高检测能力。

算法流程

1.单目3D 目标检测统计

图1 对 KITTI 验证集进行评估。评估方式是中等设置下汽车类别的AP40。采样间隔为 10 m。例如，水平轴 20 处的对应值代表 15 m 和 25 m 之间所有样本的整体性能

1.1 观察一

图 1 中最显着的特征是使用地面实况定位时性能的飞跃，达到了与最先进的基于 LiDAR 的方法相似的水平，这表明定位误差是限制的关键因素。此外，除了深度估计之外，检测 3D目标的投影中心对于恢复对象的 3D 位置也起着重要作用。为此，我们重新审视了 2D 边界框的中心与 3D 对象的投影中心之间的错位。此外，我们还确认了在单目 3D 检测器中保留 2D 检测相关分支的必要性。这样，2D检测作为相关的辅助任务来帮助学习与3D检测共享的特征，这与[24]中丢弃2D检测的现有工作不同。

1.2 观察二

观察 2：图 1 中反映的一个明显趋势是检测精度相对于距离显着降低（非常近距离物体的低性能将在补充材料中讨论）。更重要的是，所有模型都不能准确预测超出一定距离目标。我们发现，由于不可避免的定位错误，使用现有技术几乎不可能准确地检测到远处的物体。在这种情况下，将这些样本添加到训练集中是否有益成为一个问题。事实上，“坏”样本和“易于检测”样本之间存在明显的领域差距，迫使网络从这些样本中学习会降低其对其他样本的代表能力，从而影响整体性能。基于以上观察，我们提出了两种方案。第一种方案从训练集中移除较远的样本，第二种方案减少这些样本的训练损失权重。

1.3 观察三

除了定位误差外，还有一些其他重要因素，例如尺寸估计、限制单目 3D 检测（即使我们使用 groundtruth 位置，仍有 27.4% 的改进空间）。该范围内的现有方法倾向于独立优化 3D 边界框的每个部分，[36, 37] 中的研究证实了该策略的有效性。然而，未能考虑每个损失项对最终度量（即 3D IoU）的贡献可能会导致次优优化。为进一步解决这个问题，我们提出了一种面向 IoU 的 3D 尺寸估计损失。新的 IoU 导向损失根据其贡献率动态调整样本级别中每一侧的损失权重到 3D IoU。

1.4 总结

总之，本文的主要贡献如下：首先，我们对单目 3D 检测进行了各种角度测试实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外，我们还量化了每个子任务的整体影响。其次，我们调查了定位错误背后的根本原因，分析了它可能带来的问题。因此，我们提出了三种针对注释、训练样本和优化损失的新策略，以减轻由定位错误引起的问题，从而提高检测能力。

2. 方法

给定 RGB 图像和相应的相机参数，我们的目标是在 3D 空间中对感兴趣的对象进行分类和定位。每个对象由其类别、2D 边界框 B2D 和 3D 边界框 B3D 表示。

2.1 网络结构

我们基于anchor-free的one-stage 检测器 CenterNet 构建了我们的基线模型。具体来说，我们使用标准 DLA-34 作为我们的基础网络，以实现更好的速度和准确性权衡。最重要的是，七个轻量级头（由一个 3×3 卷积层和一个 1×1 卷积层实现）用于 2D 检测和 3D 检测。更多设计选择和实现细节可以在补充材料中找到。

2.2 误差分析

在本节中，我们将探讨限制单目 3D 检测性能的因素。受 2D 检测领域的 CenterNet [44] 和 CornerNet [21] 的启发，我们通过用真实值替换每个预测并评估性能，对 KITTI 验证集上的不同预测项进行错误分析。具体来说，我们根据 [21, 44] 的将每个输出预测头替换为其真实标签值。如表 1 所示，如果我们将基线模型预测的投影 3D 中心 c w 替换为其ground-truth，准确率从11.12%提高到18.97%。另一方面，深度可以将准确率提高到 38.01%。如果我们同时考虑深度和投影中心，即用真实结果替换预测的 3D 位置 [x, y, z]3D，那么最明显的改进是单目3D检测精度低主要是定位误差造成的。另一方面，根据等式 1，深度估计和中心定位共同确定对象在 3D 世界空间中的位置。与单目图像的病态深度估计相比，提高中心检测的精度是一种更可行的方法。

表1.误差分析。左图：我们用真实值替换 3D 检测相关分支的输出。右：我们用预测结果替换了ground truth的值。在 KITTI val 集的中等设置下，用于 3D 检测的指标是 AP40。'项目。center' 表示图像平面上的投影 3D 中心 c w

表2 图像平面中心偏移（以像素为单位）引起的定位误差（以米为单位）

表2 显示了由不准确的中心检测引入的定位错误。此外，对于 [h, w, l]3D，KITTI 数据集中汽车的平均形状为 [1.53m, 1.63m, 3.53m]。假设所有其他量都是正确的并且定位误差与长度 l 对齐（导致最大容差），IoU 可以通过以下方式计算：

2.3 中心检测校正

为了估计粗中心 c，我们的设计很简单。特别是，我们 1) 使用投影的 3D 中心 c w 作为分支估计粗中心 c 的地面实况和 2) 强制我们的模型同时从 2D 检测中学习特征。这个简单的设计来自我们下面的分析。

分析 1：如图 4 所示，2D 边界框中心 c i 与 3D 边界框的投影中心 c w 之间存在错位。根据公式 1 中的公式，投影的 3D 中心 c w 应该是恢复 3D 对象中心 [x, y, z]3D 的关键。这里的关键问题是粗中心 c 的监督应该是什么。一些作品 [10, 36] 选择使用 2D 框中心 c i 作为其标签，这与 3D 对象中心无关，使得粗中心的不知道对象的 3D 几何形状。这里我们选择采用投影的 3D 中心 c w 作为粗中心 c 的真实值。这有助于估计粗略中心的分支了解 3D 几何，并且与估计 3D 对象中心的任务更相关，这是定位问题的关键（参见可视化补充材料中的 E 节）。

图2 2D 边界框的中心（蓝色）与图像平面中投影的 3D 中心（红色）之间未对齐的可视化。

分析2：注意SMOKE [24]也使用投影的3D中心c w 作为粗中心c的标签。然而，他们丢弃了与二维检测相关的分支，而我们保留了它们。在我们的设计中，由投影 3D 中心 c w 监督的粗中心 c 也用于估计 2D 边界框中心 ci。通过我们的设计，我们强制一个 2D 检测分支来估计真实 2D 中心和粗 2D 中心之间的偏移 oi = c i - c。这使我们的模型了解对象的几何信息。此外，另一个分支用于估计 2D 边界框的大小，以便共享特征可以学习一些由于透视投影而有利于深度估计的线索。通过这种方式，2D 检测作为辅助任务，有助于学习更好的 3D 感知特征。

2.4IoU 优化

最近，一些基于 LiDAR 的 3D 检测器 [41、43] 应用了面向 IoU 的优化 [32]。然而，确定物体的 3D 中心对于单目 3D 检测来说是一项非常具有挑战性的任务，定位误差通常达到几米（见第 4.4 节）。在这种情况下，如果我们直接应用基于 IoU 的损失函数，与定位相关的子任务（例如深度估计）将压倒其他任务（例如 3D 尺寸估计）。而且，单目图像的深度估计本身就是一个病态问题，这种矛盾会使训练过程崩溃。解开每个损失项并独立优化它们是另一种选择[36]，但这忽略了每个组件与最终结果的相关性。为了缓解这个问题，我们提出了一种面向 IoU 的 3D 尺寸估计优化。具体来说，假设除了 3D 尺寸 s = [h, w, l]3D 之外的所有预测项都是完全正确的，那么我们可以得到（推导的细节可以在补充材料中找到）：

实验结果

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。