打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【泡泡图灵智库】Neural Ray Surfaces 自监督深度Ego-motion学习

标题:Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion

作者: Igor Vasiljevic,Vitor Guizilini,Rares Ambrus,Sudeep Pillai, Wolfram Burgard,Greg Shakhnarovich,Adrien Gaidon

来源:arXiv

编译 : Cirstan

审核:wyc

这是泡泡图灵智库推送的第 528 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

  大家好,今天为大家带来的文章是Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion

自监督学习已经成为深度和Ego-motion估计的有力工具,在基准数据集上产生了最先进的结果。然而,当前方法所共有的一个重要限制是假设已知的参数相机模型(通常是标准针孔几何结构),当应用于与此假设严重偏离的成像系统(例如折反射式相机或水下成像)时,会导致失败。在这项工作中,我们认为自我监控可以用来学习准确的深度和自我运动估计,而不需要事先知道相机的模型。受Grossberg和Nayar的几何模型的启发,我们引入了神经射线表面(NRS),一种表示像素投影光线的卷积网络,可以近似于各种相机。NRS是完全可区分的,可以从未标记的原始视频中端到端地学习。我们展示了NRS在视觉里程测量和深度估计的自我监督学习中的应用,这些视频是使用各种各样的摄像机系统(包括针孔、鱼眼和折反射)获得的。

贡献

·我们证明,无需事先了解摄像机系统,就可以直接从视频序列中学习像素投影模型。

·我们为未投影和投影操作设计了一个可微扩展,定义了一个通用的光线曲面模型,从而允许对给定目标任务的光线曲面进行端到端的学习。

·我们用我们提出的光线表面模型取代了自监督单目系统中的标准针孔模型,从而使我们能够学习许多相机类型的深度和姿态估计,包括第一次在折反射相机上。

算法流程

1. 基本原理

在一个自监督的单眼结构中,我们的目标是学习:(a)深度模型fd:I→D,它预测目标图像中每个像素p=[u,v]的深度值ˆD=fd(I(p));以及(b)自我运动模型fx:(It,IC)→Xt→C,预测了由Xt→c=(rt01)∈SE(3)给出的所有c∈c在目标图像与一组上下文图像Ic∈Ic之间的刚性变换,即视频序列中的相邻帧。

2.整体框架

在Grossberg和Nayar[14]的通用相机模型中,相机模型由一个光线曲面组成,光线曲面将每个像素与对应的方向相关联,从而在3D点和图像像素之间提供非参数关联。在这个模型中,虽然非投影是简单的,并且可以用封闭形式计算,但是投影运算没有封闭形式的解,并且是不可微的,这使得它不适合于基于学习的应用程序(图3b)。下面我们将描述这种通用相机模型的变体,它是可微的,因此可以在自监督单目环境下进行端到端学习。

图1 整体框架

我们遵循Rosebrock和Wahl[34]的符号:对于每个像素p=[u,v]T,我们引入一个对应的相机中心S(u,v)作为3D点,并引入一个酉光线曲面向量Q(u,v)∈R3,D(u,v)表示沿光线的景深。

在我们的实验中,我们假设摄像机是中心的,因此对于所有光线[32]和S(u,v)=S,∀(u,v)的相机中心是相同的。我们的完整培训管道如图2所示。我们修改了[12]中的自监督深度和自我运动框架,通过在深度网络中添加第二个解码器来预测Q=fr(I),从而产生射线表面估计fr:I→Q。

图2 对于(a)标准针孔;和(b)我们提出的神经射线表面,对于单像素pj,考虑目标和上下文ICI图像,无投影φ和投影π运算(方程式1)。(b)中的直箭头表示酉射线表面矢量Q(p),按比例绘制以便于可视化。在本例中,p1与pj相关,因为它满足等式9。

3.Softmax Approximation

为了将三维点投影到背景图像Ic上,我们需要为每个Pj∈ptt找到与表面射线最接近的方向rc→j=Pj−Sc的对应像素pi∈Ic。取每个方向rc→j与每个光线矢量ˆQi的点积,我们得到一个(H×W)2传感器,其中每个系数Mij=HˆQi,rc→ji=M(pi,Pj)表示ˆQiand rc→j之间的相似性。用这种表示法,我们提出的神经射线表面的投影是通过选择每个Pj的i*指数来实现的

4. Residual Ray Surface Template

为了避免这种随机初始化,我们可以学习一个剩余的射线表面ˆQr,它被添加到固定的射线表面模板Q0中,以生成ˆQ=Q0+λrˆQr。此模板的引入允许将几何先验注入到学习框架中,因为如果已知某种形式的相机校准(即使只是近似值),我们可以生成其对应的光线曲面,并将其用作使用学习的光线曲面残差进行进一步细化的起点。如果没有这样的信息可用,我们根据近似的“默认”校准参数初始化针孔模板,在固定距离处取消对平面的投影(方程式2)并对其曲面进行规格化。

对于稳定性,我们只使用模板Q0开始训练,并通过增加λr的值逐渐引入残差ˆQr。我们发现,即使在绝对非针孔设置下(即。,折反射相机)。基于每帧预测光线表面残差允许在多个数据集上进行训练(使用从不同相机获得的图像),并将预先训练的模型适应新的数据集。

此外,在某些设置中,即使使用单个相机(例如,混浊的水界面中的水下成像、镜头上的雨滴)也会出现帧到帧的变化,但在我们期望稳定的光线表面(即,所有图像来自相同的)的设置中,每帧预测可能会引入不需要的帧到帧的变化摄像机)。在实验部分,我们评估了一个收敛的KITTI模型的光线表面预测的稳定性,并找到最小的帧间变化。

主要结果

1.深度估计精度

图3 深度估计结果对比

图4 DashCam数据集深度估计结果

2.轨迹精度

图5 不同算法轨迹精度对比

图6 不同算法轨迹精度对比

3.水下深度估计

图7 水下深度估计

Abstract 

Self-supervised learning has emerged as a powerful tool for depth and ego-motion estimation, leading to state-of-the-art results on benchmark datasets. However , one significant limitation shared by current methods is the assumption of a known parametric camera model – usually the standard pinhole geometry – leading to failure when applied to imaging systems that deviate significantly from this assumption (e.g., catadioptric cameras or underwater imaging). Inthiswork, weshowthatself-supervisioncanbeused to learn accurate depth and ego-motion estimation without prior knowledge of the camera model. Inspired by the geometric model of Grossberg and Nayar, we introduce Neural Ray Surfaces (NRS), convolutional networks that represent pixel-wise projection rays, approximating a wide range of cameras. NRS are fully differentiable and can be learned end-to-end from unlabeled raw videos. We demonstrate the use of NRS for self-supervised learning of visual odometry and depth estimation from raw videos obtained using a wide variety of camera systems, including pinhole, fisheye,

and catadioptric.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【学术论文】基于自适应变步长欧拉法的NURBS曲面爬行波寻迹算法
331. 五轴数控加工光滑无干涉刀具路径规划措施
多视角几何5-相机模型-无穷远相机
有哪些种类的三维扫描仪?
比iPhone X更牛X的三维视觉技术
全面详解机器视觉三维成像方法及应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服