CVPR'25最佳论文候选公布, 涵盖AIGC/SLAM等 (附参会群)

轻松参会 · 公众号 · · 2025-06-05 08:56

正文

请到「今天看啥」查看全文

4.FoundationStereo: Zero-Shot Stereo Matching

论文链接：https://arxiv.org/abs/2501.09898
项目主页：https://nvlabs.github.io/FoundationStereo/

本文指出，尽管深度立体匹配方法在通过特定领域微调后已在多个基准数据集上取得显著进展，但在零样本泛化能力（zero-shot generalization）方面仍面临挑战，这一能力是计算机视觉中其他基础模型的重要标志。

为解决这一问题，作者提出了 FoundationStereo，一个专为立体深度估计任务设计的基础模型（foundation model），目标是在无需微调的情况下实现强大的跨领域泛化能力。

具体做法包括：

构建大规模训练数据集：收集了一个包含 100万对立体图像的大规模高真实感合成数据集，具有高度多样性；
引入自动数据筛选机制：通过自我筛选（self-curation）流程自动剔除模糊或含糊样本，以提升训练数据质量；
设计可扩展网络结构组件：

引入side-tuning特征主干网络，利用视觉基础模型中的单目视觉先验知识来缩小模拟数据与真实数据之间的差距；
采用长距离上下文推理模块以提升代价体（cost volume）的过滤能力。

综合以上设计，FoundationStereo在多个领域中都展现出强大的鲁棒性与准确性，在零样本立体深度估计任务中树立了新的性能标杆。

关键词：立体匹配；深度估计

5.VGGT: Visual Geometry Grounded Transformer

论文链接：https://arxiv.org/abs/2503.11651
项目主页：https://vgg-t.github.io/

本文介绍了VGGT，一种前馈神经网络，能够从单张、少量或大量视图中直接推理出场景的所有关键三维属性，包括相机参数、点图、深度图和三维点轨迹。与传统在单一任务上进行专门设计的3D视觉模型相比，VGGT是一种更简洁高效的统一方法，无需依赖后续的几何优化处理，在不到一秒内即可完成图像重建，并在性能上超越了依赖后处理的现有方法。该网络在多个三维任务上均达到了当前最优水平，如相机参数估计、多视图深度估计、稠密点云重建和三维点追踪。

此外，实验证明，预训练的VGGT作为特征骨干网络还能显著提升下游任务表现，包括非刚性点追踪和前馈式新视角合成等。

关键词：3D视觉；三维重建

6.MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

论文链接：https://arxiv.org/abs/2412.04463
项目主页：https://mega-sam.github.io/

本文提出了一种系统，能够从动态场景的普通单目视频中准确、快速且鲁棒地估计相机参数和深度图。传统的结构光束法（SfM）和单目SLAM方法通常依赖于具有大量视差且主要为静态场景的视频输入，在不满足这些条件时，容易产生错误估计。

尽管近年来基于神经网络的方法试图解决这些问题，但这些方法要么计算成本高，要么在处理具有不受控相机运动或未知视野的动态视频时表现不稳定。本文展示了一种深度视觉SLAM框架的出人意料的有效性：通过在训练和推理机制上的精细改进，该系统可以扩展到真实世界中复杂动态场景的视频，即使这些视频几乎没有视差、相机路径不受限制。

大量在合成和真实视频上的实验表明，该系统在相机姿态和深度估计方面的准确性和鲁棒性明显优于现有和同期工作，同时运行速度更快或相当。

关键词：SLAM