uDepth：Pixel 4 上的实时 3D 深度感应

视频介绍：uDepth：Pixel 4 上的实时 3D 深度感应

确定场景 3D 信息的能力称为深度感应，对于开发人员和用户来说都是一种宝贵的工具。深度传感是计算机视觉研究的一个非常活跃的领域，最近的创新范围从肖像模式和AR等应用到透明物体检测等基本传感创新。典型的基于 RGB 的立体深度感测技术可能计算量很大，在低纹理区域会受到影响，并且在极低光条件下完全失败。

因为人脸解锁Pixel 4 上的功能必须在黑暗中高速运行，因此需要采用不同的方法。为此，Pixel 4 的正面包含一个实时红外 (IR) 主动立体深度传感器，称为 uDepth。这项技术是 Pixel 4 上的一项关键计算机视觉功能，可帮助身份验证系统识别用户，同时还可以防止欺骗攻击。它还支持许多新颖的功能，例如事后照片修饰、基于深度的场景分割、背景模糊、人像效果和 3D 照片。

最近，我们在Camera2上提供了对 uDepth 作为 API 的访问，使用Pixel Neural Core、两个 IR 摄像头和一个 IR 模式投影仪来提供时间同步的深度帧（在DEPTH16) 30Hz。Google 相机应用程序使用此 API 为在 Pixel 4 上拍摄的自拍照带来改进的深度功能。在这篇文章中，我们广泛地解释了 uDepth 的工作原理，详细说明了底层算法，并讨论了应用程序以及 Pixel 4 的示例结果。

概述立体深度感测

所有立体相机系统都使用视差重建深度。要观察这种效果，请看一个物体，闭上一只眼睛，然后切换闭上的那只眼睛。物体的表观位置会移动，更近的物体似乎移动得更多。uDepth 是密集本地立体声家族的一部分匹配技术，通过计算来估计每个像素的视差。这些技术评估由一台相机形成的图像中每个像素周围的区域，并尝试在来自第二台相机的相应图像中找到相似的区域。正确校准后，生成的重建是metric，这意味着它们表示真实的物理距离。

为了处理无纹理区域并应对低光条件，我们使用了“主动立体”设置，它将红外图案投射到立体红外摄像机检测到的场景中。这种方法使低纹理区域更容易识别，改善结果并减少系统的计算要求。

是什么让 uDepth 与众不同？

立体感测系统的计算量可能非常大，而以 30Hz 运行的传感器必须在保持高质量的同时实现低功耗，这一点至关重要。uDepth 利用许多关键见解来实现这一目标。

一个这样的见解是，给定一对彼此相似的区域，这些区域的大多数对应子集也相似。例如，给定两个相似的 8x8 像素块，很可能该对中每个成员的左上角 4x4 子区域也相似。这会通知 uDepth 管道的初始化过程，该过程通过比较每个图像中的非重叠图块并选择最相似的图块来构建深度建议金字塔。此过程从 1x1 瓦片开始，并分层累积支持，直到生成初始低分辨率深度图。

初始化后，我们应用一种新技术进行神经深度细化支持 Pixel 4 上的规则网格图案照明器。典型的主动立体系统会投射伪随机网格图案以帮助消除场景中的匹配，但 uDepth 也能够支持重复网格图案。这种模式中的重复结构会产生在立体对中看起来相似的区域，这可能导致不正确的匹配。我们使用轻量级（75k 参数）卷积架构缓解了这个问题，使用 IR 亮度和邻居信息来调整不正确的匹配——每帧不到 1.5 毫秒。

在神经深度细化之后，良好的深度估计从相邻的瓦片迭代传播。这个和接下来的管道步骤利用了 uDepth 成功的另一个关键洞察力——自然场景通常是局部平面的，只有很小的非平面偏差。这使我们能够找到覆盖场景的平面瓦片，然后才可以为瓦片中的每个像素细化单独的深度，从而大大减少计算负载。

最后，从相邻平面假设中选择最佳匹配，如果找不到好的匹配，则进行亚像素细化和无效。

当手机严重跌落时，可能会导致立体摄像头的出厂校准偏离摄像头的实际位置。为确保在实际使用过程中获得高质量的结果，uDepth 系统具有自校准功能。评分程序会评估每个深度图像的校准错误迹象，并建立对设备状态的信心。如果检测到错误校准，则从当前场景重新生成校准参数。这遵循由特征检测和对应、子像素细化（利用点轮廓）和束调整组成的管道。

计算摄影

的深度来自 uDepth 传感器的原始数据设计为准确和公制，这是面部解锁的基本要求。人像模式和 3D 照片等计算摄影应用有非常不同的需求。在这些用例中，实现视频帧速率并不重要，但在彩色相机的整个视场中，深度应该平滑、边缘对齐且完整。

为了实现这一点，我们训练了一个端到端的深度学习架构，该架构增强了原始 uDepth 数据，推断出完整、密集的 3D 深度图。我们结合使用 RGB 图像、人物分割和原始深度，以及强制使用每个输入的信息的dropout 方案。

为了获得地面实况，我们利用了一个体积捕捉系统，该系统可以使用配备 331 个定制彩色 LED 灯、一组高分辨率相机和一组定制高分辨率深度传感器的测地球来生成接近照片级真实感的人物模型. 我们将 Pixel 4 手机添加到设置中，并将它们与其余硬件（灯光和相机）同步。生成的训练数据由真实图像和来自 Pixel 4 相机视点的合成渲染组成。

将所有

这些组件放在一起后，uDepth 会生成 30Hz 的深度流（通过 Camera2 曝光）和平滑的、经过后期处理的摄影深度图（当您拍摄支持深度的自拍时通过 Google 相机应用程序曝光））。我们系统生成的平滑、密集、每像素深度适用于启用社交媒体深度功能的每个 Pixel 4 自拍照，并可用于社交媒体的散景和 3D 照片等后期捕捉效果。

最后，我们很高兴为您提供一个演示应用程序，它可以从 uDepth 中可视化实时点云——在此处下载（此应用程序仅用于演示和研究目的，不用于商业用途；Google 不会提供任何支持或更新）。此演示应用程序可从您的 Pixel 4 设备可视化 3D 点云。由于深度图是时间同步的，并且与 RGB 图像在同一坐标系中，因此可以显示 3D 场景的纹理视图，如下面的示例可视化所示：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。