打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【泡泡图灵智库】单目 3D 目标检测的定位误差研究

泡泡图灵智库,带你精读机器人顶级会议文章

标题: Delving into Localization Errors for Monocular 3D Object Detection

作者:Xinzhu Ma , Yinmin Zhang , Dan Xu , Dongzhan Zhou ,Shuai Yi , Haojie Li , Wanli Ouyang

来源:CVPR2021

编译:cristin

审核:   zhh

这是泡泡图灵智库推送的第750篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

      大家好,今天为大家带来的文章Delving into Localization Errors for Monocular 3D Object Detection。

        从单目图像估计 3D 边界框是自动驾驶的重要组成部分,而从此类数据中准确检测 3D 对象非常具有挑战性。在这项工作中,通过大量的诊断实验,我们量化了每个子任务引入的影响,发现“定位误差”是限制单目 3D 检测的重要因素。此外,我们还调查了本地化错误背后的根本原因,分析了它们可能带来的问题,并提出了三种策略。首先,我们重新审视 2D 边界框的中心与 3D 对象的投影中心之间的错位,这是导致定位精度低的重要因素。其次,我们观察到用现有技术准确定位远处物体几乎是不可能的,而这些样本会误导学习网络。为此,我们建议从训练集中删除此类样本,以提高检测器的整体性能。最后,我们还提出了一种新的面向 3D IoU 的损失,用于对象的大小估计,它不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验,所提出的方法实现了实时检测并大大优于以前的方法。

主要工作与贡献

本文的主要贡献如下:

首先,我们对单目 3D 检测进行了密集的诊断实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外,我们还量化了每个子任务的整体影响。 

其次,我们调查了本地化错误背后的根本原因,分析了它可能带来的问题。因此,我们提出了三种针对注释、训练样本和优化损失的新策略,以减轻由定位错误引起的问题,从而提高检测能力。

算法流程

1.单目3D 目标检测统计

图1  对 KITTI 验证集进行评估。评估方式是中等设置下汽车类别的AP40。采样间隔为 10 m。例如,水平轴 20 处的对应值代表 15 m 和 25 m 之间所有样本的整体性能

1.1 观察一

 图 1 中最显着的特征是使用地面实况定位时性能的飞跃,达到了与最先进的基于 LiDAR 的方法相似的水平,这表明定位误差是限制的关键因素。此外,除了深度估计之外,检测 3D目标的投影中心对于恢复对象的 3D 位置也起着重要作用。为此,我们重新审视了 2D 边界框的中心与 3D 对象的投影中心之间的错位。此外,我们还确认了在单目 3D 检测器中保留 2D 检测相关分支的必要性。这样,2D检测作为相关的辅助任务来帮助学习与3D检测共享的特征,这与[24]中丢弃2D检测的现有工作不同。

1.2 观察二

观察 2:图 1 中反映的一个明显趋势是检测精度相对于距离显着降低(非常近距离物体的低性能将在补充材料中讨论)。更重要的是,所有模型都不能准确预测超出一定距离目标。我们发现,由于不可避免的定位错误,使用现有技术几乎不可能准确地检测到远处的物体。在这种情况下,将这些样本添加到训练集中是否有益成为一个问题。事实上,“坏”样本和“易于检测”样本之间存在明显的领域差距,迫使网络从这些样本中学习会降低其对其他样本的代表能力,从而影响整体性能。基于以上观察,我们提出了两种方案。第一种方案从训练集中移除较远的样本,第二种方案减少这些样本的训练损失权重。

1.3 观察三

除了定位误差外,还有一些其他重要因素,例如尺寸估计、限制单目 3D 检测(即使我们使用 groundtruth 位置,仍有 27.4% 的改进空间)。该范围内的现有方法倾向于独立优化 3D 边界框的每个部分,[36, 37] 中的研究证实了该策略的有效性。然而,未能考虑每个损失项对最终度量(即 3D IoU)的贡献可能会导致次优优化。为进一步解决这个问题,我们提出了一种面向 IoU 的 3D 尺寸估计损失。新的 IoU 导向损失根据其贡献率动态调整样本级别中每一侧的损失权重到 3D IoU。

1.4 总结

总之,本文的主要贡献如下:首先,我们对单目 3D 检测进行了各种角度测试实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外,我们还量化了每个子任务的整体影响。其次,我们调查了定位错误背后的根本原因,分析了它可能带来的问题。因此,我们提出了三种针对注释、训练样本和优化损失的新策略,以减轻由定位错误引起的问题,从而提高检测能力。

2. 方法

        给定 RGB 图像和相应的相机参数,我们的目标是在 3D 空间中对感兴趣的对象进行分类和定位。每个对象由其类别、2D 边界框 B2D 和 3D 边界框 B3D 表示。

2.1 网络结构    

        我们基于anchor-free的one-stage 检测器 CenterNet 构建了我们的基线模型。具体来说,我们使用标准 DLA-34 作为我们的基础网络,以实现更好的速度和准确性权衡。最重要的是,七个轻量级头(由一个 3×3 卷积层和一个 1×1 卷积层实现)用于 2D 检测和 3D 检测。更多设计选择和实现细节可以在补充材料中找到。

2.2 误差分析

在本节中,我们将探讨限制单目 3D 检测性能的因素。受 2D 检测领域的 CenterNet [44] 和 CornerNet [21] 的启发,我们通过用真实值替换每个预测并评估性能,对 KITTI 验证集上的不同预测项进行错误分析。具体来说,我们根据 [21, 44] 的将每个输出预测头替换为其真实标签值。如表 1 所示,如果我们将基线模型预测的投影 3D 中心 c w 替换为 其ground-truth,准确率从11.12%提高到18.97%。另一方面,深度可以将准确率提高到 38.01%。如果我们同时考虑深度和投影中心,即用真实结果替换预测的 3D 位置 [x, y, z]3D,那么最明显的改进是 单目3D检测精度低主要是定位误差造成的。另一方面,根据等式 1,深度估计和中心定位共同确定对象在 3D 世界空间中的位置。与单目图像的病态深度估计相比,提高中心检测的精度是一种更可行的方法。

表1.误差分析。左图:我们用真实值替换 3D 检测相关分支的输出。右:我们用预测结果替换了ground truth的值。在 KITTI val 集的中等设置下,用于 3D 检测的指标是 AP40。'项目。center' 表示图像平面上的投影 3D 中心 c w

表2 图像平面中心偏移(以像素为单位)引起的定位误差(以米为单位)

表2 显示了由不准确的中心检测引入的定位错误。此外,对于 [h, w, l]3D,KITTI 数据集中汽车的平均形状为 [1.53m, 1.63m, 3.53m]。假设所有其他量都是正确的并且定位误差与长度 l 对齐(导致最大容差),IoU 可以通过以下方式计算:

2.3  中心检测校正

    为了估计粗中心 c,我们的设计很简单。特别是,我们 1) 使用投影的 3D 中心 c w 作为分支估计粗中心 c 的地面实况和 2) 强制我们的模型同时从 2D 检测中学习特征。这个简单的设计来自我们下面的分析。

分析 1:如图 4 所示,2D 边界框中心 c i 与 3D 边界框的投影中心 c w 之间存在错位。根据公式 1 中的公式,投影的 3D 中心 c w 应该是恢复 3D 对象中心 [x, y, z]3D 的关键。这里的关键问题是粗中心 c 的监督应该是什么。一些作品 [10, 36] 选择使用 2D 框中心 c i 作为其标签,这与 3D 对象中心无关,使得粗中心的 不知道对象的 3D 几何形状。这里我们选择采用投影的 3D 中心 c w 作为粗中心 c 的真实值。这有助于估计粗略中心的分支了解 3D 几何,并且与估计 3D 对象中心的任务更相关,这是定位问题的关键(参见可视化补充材料中的 E 节)。

图2 2D 边界框的中心(蓝色)与图像平面中投影的 3D 中心(红色)之间未对齐的可视化。

分析2:注意SMOKE [24]也使用投影的3D中心c w 作为粗中心c的标签。然而,他们丢弃了与二维检测相关的分支,而我们保留了它们。在我们的设计中,由投影 3D 中心 c w 监督的粗中心 c 也用于估计 2D 边界框中心 ci。通过我们的设计,我们强制一个 2D 检测分支来估计真实 2D 中心和粗 2D 中心之间的偏移 oi = c i - c。这使我们的模型了解对象的几何信息。此外,另一个分支用于估计 2D 边界框的大小,以便共享特征可以学习一些由于透视投影而有利于深度估计的线索。通过这种方式,2D 检测作为辅助任务,有助于学习更好的 3D 感知特征。

2.4IoU 优化

最近,一些基于 LiDAR 的 3D 检测器 [41、43] 应用了面向 IoU 的优化 [32]。然而,确定物体的 3D 中心对于单目 3D 检测来说是一项非常具有挑战性的任务,定位误差通常达到几米(见第 4.4 节)。在这种情况下,如果我们直接应用基于 IoU 的损失函数,与定位相关的子任务(例如深度估计)将压倒其他任务(例如 3D 尺寸估计)。而且,单目图像的深度估计本身就是一个病态问题,这种矛盾会使训练过程崩溃。解开每个损失项并独立优化它们是另一种选择[36],但这忽略了每个组件与最终结果的相关性。为了缓解这个问题,我们提出了一种面向 IoU 的 3D 尺寸估计优化。具体来说,假设除了 3D 尺寸 s = [h, w, l]3D 之外的所有预测项都是完全正确的,那么我们可以得到(推导的细节可以在补充材料中找到):

实验结果

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
万字长文浅析YOLOv1
自动驾驶汽车中的激光雷达和摄像头传感器融合
三万字硬核详解:yolov1、yolov2、yolov3、yolov4、yolov5、yolov7_yolo各版本区别
YOLO算法的原理与实现
计算机视觉——YOLO算法原理
什么是目标检测中的旋转敏感度错误?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服