立体视觉匹配（Stereo Matching/stereo correspondence）

该问题的任务是从双目相机所获取的左眼图像和右眼图像中恢复出逐像素点的深度。由于双目相机中的平行极线约束，该问题又转化为左右眼图之间的逐像素匹配问题。

受限于训练数据的数量，同时也因为可能未找到该问题下的最佳网络结构，深度学习中的端到端的训练方法在立体视觉匹配上的表现依然未超过传统方法。这里的端到端的训练方法指的是：直接对输入图片进行一系列卷积以及一系列反卷积来回归出输出图像。由于获得双目图像的ground truth深度数据本身就是一个难题，目前立体视觉匹配两个主要benchmark Middlebury和KITTI上也分别只有数十对和数百对的训练数据，对训练端到端的深度估计网络还远远不够。

为了解决这个难题，TUMCremers团队在另一篇论文中讨论了如何生成足够且靠谱的训练数据用以训练深度估计网络：A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation， Nikolaus Mayer, Eddy Ilg, Philip H?usser, Philipp Fischer,Daniel Cremers, Alexey Dosovitskiy, Thomas Brox。该论文使用开源的3D Creation Suite Blender渲染出一系列带有复杂运动模式的物体的双目图片，由于渲染过程是从3D到2D且物体及场景的三维模型已知，生成ground truth的深度图变得非常容易。生成的训练数据集中包含35,000对训练样本，训练得到的深度估计网络在KITTI上的排名也比较靠前，但离第一名传统方法Displet仍有相当一段距离。这里值得一提的是，虽然该网络使用人工合成的数据集进行训练，它在真实数据集上似乎具有良好的泛化能力。随着训练数据的不断完善，深度网络在几个重要的低层视觉问题上是否会超越以及如何超越传统方法，又或者能给传统解法带来什么样的启发，我们拭目以待。

CVPR在疯狂的深度学习热潮中依然保持着对传统能量优化问题的重视。其中一个重要原因可能是，尽管深度神经网络在中高层视觉中已所向披靡，但其在底层视觉的一些问题中仍未超越传统方法，例如去噪、光流、以及立体视觉匹配。

http://www.xuebuyuan.com/1541954.html

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。