打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
概率和几何深度:在透视中检测物体

作者:Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin

机构:CUHK-SenseTime Joint Lab, Shanghai AI Laboratory, Centre of Perceptual and Interactive Intelligence

来源:CoRL 2021

编译:闵称

审核:   Cristin

本文转载自泡泡机器人SLAM,文章仅用于学术分享。

摘要

大家好,今天为大家带来的文章是 Probabilistic and Geometric Depth: Detecting Objects in Perspective

三维目标检测对很多实际场景都是必需的,如自动驾驶辅助系统系统。单目三维目标检测,作为一种基于图像的算法,相比传统基于雷达方案(目前仍然无法取得满意的检测结果),提供了一种更经济的解决方案。本文第一个系统地研究了这一问题,我们观察到目前的单目三维目标检测可以简化为实例深度估计问题:不精确的实例深度估计阻碍了所有其他三维特性预测,限制了整体检测性能提高。再者,最近的算法直接基于孤立的实例或者像素直接估计深度,但是忽略了不同目标之间的几何关系。因此,我们构建了预测的目标之间的几何关系图,来促进深度预测。因为在这一病态的设定中,每个实例的深度估计通常是不精确的,我们结合概率表示来捕获不确定性。它提供了一个重要的指示信号来识别可靠的预测,并进一步指导深度的传播。尽管这一想法很简单,但是我们的方法PGD在KITTI和nuScenes基准上取得了显著的提升,在所有基于单目图像的算法中排第一,同时保持了实时的高效性。

 Code :https://github.com/open-mmlab/mmdetection3d

主要工作与贡献

本工作的主要贡献如下:

1 PGD结合概率表示来捕获深度估计的不确定性。我们首先将深度值划分为一系列离散的区间,然后通过分布的期望来计算深度值,如图1(a)所示。从分布中得到的top-k的置信度的平均值视作深度的不确定性。

2 为了建模几何关系,构建了一个深度传播图来利用上下文信息促进深度估计。每个实例深度的不确定性为实例深度传播提供了有效指引。利用这一整体机制,我们可以很容易地利用高置信度确定预测。更重要的是,利用基于图的协同机制可以更精确地预测深度,如图1(b)所示。

3 我们在简单的单目三维目标检测器FCOS3D上实现了提出方法PGD,在KITTI和nuScenes数据集上排名第一,并且速度很快,如图1(c)所示。

图1 PGD主要贡献

算法流程

图2 PGD框图:基于单目三维目标检测器FCOS3D,主要关注实例深度估计的难题。首先引入概率深度估计模块来建模不确定性,然后从深度传播图中得到几何深度,最后融合二者得到最终的深度预测值。

1.利用概率表示进行不确定性建模

如图2所示,首先进行直接深度回归得到DR.为了进行深度不确定性建模,我们将深度离散化。假设检测范围为0~Dmax,离散单位为U,那么可以得到C=|_Dmax/U_| +1 个分割点。若分割点的权重向量为ω,那么可以引入一个并行于直接回归head的模块,来生成概率图DPM

DP即概率的深度。它等价于计算概率分布的期望。除了DP,我们还可以从每个实例的深度分布中得到深度置信度值sd∈SD。实际应用中我们在U=10m的条件下计算深度值的top-2的平均置信度。在前向预测时,它会被乘以center-ness和分类值作为最终的ranking指标。

随后我们利用data-agnostic的单一参数 lambda的sigmoid值来融合DR和DP

2.从透视几何关系进行深度传播

2.1 透视关系

在一般的透视变换中,相机变换矩阵P为:

其中f为焦距,cu和cv图像垂直和水平中心,bx、by和bz指相对reference camera的基准线(KITTI中是非零的,nuScenes中为零)。这里使用一个焦距值,适用于绝大多数相机。一个camera坐标系的3D点x3D=(x,y,z,1)T可以投影到image上2D点为x2D=(u',v',1)T

为了简化结果,我们用v'来代替v+cv,v可以表示距离地平线的距离。然后可以得到:

这一关系对于u是相似的。考虑到所有物体都是在地面上,所有物体的底部中心的y是相似的,所以我们可以只考虑v的关系。若有两个物体1和2,他们中心的深度的关系为:

利用公式(6)我们可以根据3D中心高度的差别,在给定d1时得到d2。除此之外,我们可以利用物体的底部高度相似的近似关系,y2-y1可以被3D检测框的高度一半值的差值dP1->2=½(h3D1-h3D2)来代替。

在这一关系中,当h3D1=h3D2,v1d1=v2d2。这很好理解:当一个物体接近消失线时,其是非常远的。这一连接不同实例的关系是清晰的,但是也会导致错误。假设|(y2-y1)-½(h1-h2)|=δ,深度误差为△d=fδ/v2。当δ=0.1m,v2=50pixel时,△ d可能会大概为1.5m。虽然对于30m远的物体(v2=50)是可以接受的,我们同样需要一个机制来避免可能的大误差。

2.2基于图的深度传播

图3 如car 2这样难以精确预测深度的物体,依靠透视几何,沿着绿色箭头传播其他物体可靠的深度预测,可以从整体上下文中提高推理。

利用成对的透视关系,我们可以利用其他物体的线索来估计任一物体的深度。我们可以构建一个任一两个物体的双向边的直连图来表示深度传播,如图3所示。假设我们有N个预测的物体(P={1,2,...,n}),我们可以在给定dPj->i时预测物体i的深度dGi∈DG。考虑到计算的高效性和前面提到的可能的大误差,我们提出一种边修剪和门控机制来改进传播图。根据我们的观察,同一类别临近的物体可以很好的满足同一地面条件,因此我们选择以下三个最重要的因素来决定哪些边影响更大、更可靠,包括深度置信度sdj,2D距离值s2Dij,和类别相似度sclsij。后两个和整体的边值sej->i计算如下:

其中t2dij是物体i和j投射中心的2D距离,t2Dmax是图像对角长度,fi和fj是来自分类分支的两个物体的输出置信度向量,k是边修剪后保留的最大边数(top-k值的边被保留)。边的值被用于门控机制,因此每个顶点根据它们的重要性来作用于边:

需要注意的是从图中得到几何深度图DPG是不要学习的参数的。为了避免被其他学习部分影响,我们去掉了这一部分的梯度反向传播,只关注于如何结合DL和DG

2.3概率和几何深度估计

如上我们已经得到单独的深度DL和从基于图的上下文预测中得到深度DG,然后我们用一种学习的方式将二者互补融合。不同于在局部估计中data-agnostic的单一参数,考虑到他们动态的关系,结合二者是更复杂的。因此我们进一步引入一个分支来生成一个局部敏感的权重图来融合他们:

融合后的深度D可以在基准中取代直接回归的深度DR,用smooth L1损失端到端回归。请注意添加中间的约束可以使训练更稳定,但是不会带来效果提升。

实验结果

表一 KITTI验证集上三维目标检测结果

表2在nuScenes数据集上三维目标检测结果

图4 定性单目三维目标检测结果

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
一文带你读懂深度学习框架下的目标检测
干货|深度学习目标检测的主要问题和挑战!
Mask R-CNN
最新综述:基于深度学习方式的单目物体姿态估计与跟踪
自动驾驶中的三维目标检测综述
实战:基于深度学习和几何的3D边界框估计
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服