打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Attention meets Geometry:几何引导的时空注意一致性自监督单目深度估计
userphoto

2022.06.26 辽宁

关注

干货第一时间送达

作者丨paopaoslam
来源丨泡泡机器人SLAM
标题: ORB-SLAM with Near-infrared images and Optical Flow data
作者: Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam
机构: TUM
来源: 3DV 2021
编译: zhuhu
审核: zh
论文:https://arxiv.org/pdf/2110.08192v1.pdf
code:https://daoyig.github.io/attention_meets_geometry/

译者总结

将时间和空间的注意力机制相结合,解决了很多在时间,空间上的不一致性问题。

摘要

对于自监督单目深度预测框架来说,在时间上连续的图像上推断几何一致的密集3D场景仍然是具有挑战性的。本文探讨了日益流行的transformer框架,结合新颖的正则化的损失函数,如何在保持精度的同时提高深度一致性。我们提出了一个空间注意模块,它将粗略的深度预测与聚合局部几何信息相关联。一种新的时间注意机制进一步处理跨连续图像的全局上下文中的局部几何信息。此外,我们还引入了由光度循环一致性正则化的帧之间的几何约束。通过将我们提出的正则化和新的时空注意模块相结合,我们充分利用了单目框架之间的几何和基于外观的一致性。与以前的方法相比,这产生了几何意义上的注意力机制,并提高了时间深度、稳定性和准确性。

主要工作与贡献

在自监督的方法中,强制几何一致性约束通常会对模糊和平滑深度间断的深度精度产生负面影响。我们提出了时间一致性深度估计框架,称为TC-Depth。能够在时空注意力机制中显式学习用于深度估计的时间一致性,以及几何正则化,从而得到高准确度和前所未有的一致性。另外是消融实验也证明了在一致性和准确性上单独模块的贡献,和我们光度循环一致性和新颖的几何一致性是怎样显著提高注意力机制的。我们的贡献如下:
  1. 一项新的聚焦局部几何信息的空间注意力机制。
  2. 一种跨单目相机帧之间的时间注意力机制来保证全局一致性。
  3. 一种新的特征嵌入时空注意力机制融合几何制导的循环一致性正则化方案。
  4. 一种新的跨帧之间的时间一致性矩阵来确保深度一致性。

方法

TC-Depth的目标是以自监督的方式从单目图像序列中学习一致和准确的深度。我们联合使用了广泛使用的回归深度和相对相机姿势的范例,通过用预测的密集深度和姿势向后翘曲将相邻帧扭曲到共同的中心视图后,使图像重建损失最小化。
框架如下图所示,在位姿回归方面,使用的是和之前工作一样的策略[15,43]. 之后是对特征编码器进行拓展,用于匹配在bottleneck中的attention模块中的像素。编码器中的特征嵌入也额外增加了辅助单尺度深度解码器,该辅助单尺度深度解码器为时空注意模块产生的粗略的初始深度估计。
受光流方法的启发,在经过最终的深度解码器之前,将编码的输入特征与空间注意力机制一起聚集时间上一致的场景内容。

注意力机制

卷积神经网络受感受野的约束,禁止从空间长距离输入特征相关连。Transformers在NLP中提出,用来关联那些有一定语义相关性但是在句子结构上相距甚远的句项。注意力机制的定义如下:
近期的transformers和自注意力和交叉注意力的性能已经完全优于CNN,通过这些得到了我们的时空注意力模块。

空间注意力层

在[23]中提出的自我注意将同一图像中的信息关联起来,以注意场景中视觉上相似的部分。注意力模块中的点积可以从3D场景中几何距离较远的部分引入一些特征聚合,这可能不是稠密深度回归任务所需要的。
利用粗预测的初始深度估计来阐述有3D空间感知的自注意力模块。已知内参K和一对特征点坐标,和对应的深度。首先可以将像素反投影到3d空间。
之后则可以将空间注意力阐述为:
其中可以看作是key和query。这里可以解释为通过3D空间相关性的3D位置编码。

时间注意力层

受到光流关联层和最近稠密匹配的启发,通过自监督训练方案的时间图像序列输入,我们提出了一种新的跨帧时间注意力机制。因此,给出一组来自连续图像输入的三元组特征映射,我们可以迭代地选择其中一个作为查询,其余作为关键特征,然后使用Softmax获取关键查询相似度。则有如下定义:

时空注意力机制

我们提出的时空注意模型的独特形式可以明确地关联几何意义和空间连贯的特征-通过首先通过空间注意-同时提供跨后续帧的时间关联。图4分别可视化了查询像素的空间和时间注意力。空间注意力聚集了场景中几何上一致的部分(请注意,在对象边缘对背景的注意力梯度很大)。基于外表的时间注意将全局信息联系起来,这在朴素的方法中可能是困难和不精确的。使用我们的附加几何约束,注意力非常集中和空间连贯,就像两个非常有挑战性的例子所说明的那样,结构很薄,物体很动态。

正则几何一致性

尺度不变性一致性深度损失

如果在投影到同一摄影机视图后约束帧之间的绝对深度或视差值,则会缩小或放大整个场景深度比例。尺度不变性已经被提出,但是并不能为显示小对准误差的深度值提供强梯度。因此,我们在公式中加入了正则化的部分,用于限制帧间的深度预测。

从光度一致性得到循环掩膜

聚合不同视图上的像素平均几何损失会违反场景结构,因为遮挡区域会影响损失计算,从而导致边缘模糊和深度精度降低。为了避免这个问题,已经提出了像素级最小深度误差。然而,定量和定性评估表明,该策略虽然主要解决了遮挡区域的问题,但通常也排除了场景中的主要区域。这些区域可能由于相邻深度图的不精确变换而具有很大的不一致性。最小操作符可以掩盖场景的大区域(见图5),这会损害训练信号。
取而代之的是,我们提出了一种新的掩蔽方案,该方案利用了照片一致性的假设。为此,将中心目标图像投影变换到相邻源帧的视图,然后再次变换回。则我们的循环掩膜可表示为:

损失函数定义

我们的模型是用一组基于内容的图像重建和深度图的几何特性的损失项来训练的。

运动一致性损失

手指去的启发,我们简化了自监督深度预测网络Monodepth2, 让其成为一个teacher,我们定义了一个掩膜,其中在预测和teacher之间区别较大的部分也许可以指明运动物体。之后会和光度误差相结合:
这个部分的运动一致性损失项能够帮助student模块从弱tracher学习,因为:

广度误差

在图像之间的光度误差定义如下:
自动遮罩说明对象以与相机自我运动相同的速度和方向移动。

边缘感知平滑度损失函数

边缘感知顺滑度在之前的工作中一样,用均值归一化的逆深度作为局部平滑深度估计:

几何误差 

在之前提及的那种,我们设计了一种几何损失来鼓励帧之间一致的深度预测,这不仅缓解了深度预测尺度的惩罚问题,而且利用了循环一致性(Eq.。5)通过以下方式处理遮挡:

参考损失

为了训练单阶段辅助深度解码器用于空间注意力机制的获取,我们将其与整个框架的最终深度预测的差异降低至最小:

时间一致性度量

我们建议在通过投影变换在3D中对齐多个k帧之后,直接测量预测深度输出的一致性,其中k被选择在{3,5,7}(对于室外驾驶场景,较长的序列通常没有足够的视觉重叠)。为了将来自的所有预测转换到它的公共参照系中,我们使用真实值深度和姿态。单目方法(具有尺度模糊性)首先与相同的中值尺度比对齐。我们的时间一致性度量(TCM)衡量估计的像素深度和多帧之间的GT之间的跟踪差异。

实验

结论,讨论及未来工作

据我们所知,我们首次提出了一个充分利用时空域来预测自监督一致深度估计的模型,该模型引入了一个独特的、新颖的基于几何和外观信息的注意模型。我们的方法TC-Depth已经证明,几何约束和周期一致性正则化相结合,可以通过引导时空注意聚合来进一步提高这种一致性。未来时间一致性深度估计的研究现在可以客观地与新的时间一致性度量(TCM)进行比较。

Reference

[15]Cl ́ ement Godard, Oisin Mac Aodha, Michael Firman, and Gabriel J Brostow. Digging into self-supervised monocular depth estimation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3828–3838, 2019.
[43]Jamie Watson, Oisin Mac Aodha, Victor Prisacariu, Gabriel Brostow, and Michael Firman. The temporal opportunist: Self-supervised multi-frame monocular depth. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1164–1174, 2021.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
注意力机制如何助力GAN生成更高质量的图像?
一文搞懂ArcGIS变化检测深度学习模型
CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块
【团队新作】基于交互感知的时空金字塔注意力机制神经网络的行为分类
CVPR 2021 | 神经网络如何进行深度估计?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服