正文
4. GlobustVP: Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World
论文链接
:https://arxiv.org/abs/2505.04788
项目主页
:https://github.com/WU-CVGL/GlobustVP
简要介绍
:由西湖大学、浙江大学等机构提出的GlobustVP引入了凸松弛技术,首次解决了曼哈顿世界中消失点(VP)估计的全局优化问题。GlobustVP采用“软”关联方案,通过截断多选择误差实现VP位置和线-VP关联的联合估计,将原始问题转化为凸半定规划(SDP)问题。提出的迭代求解器独立搜索每个VP及其相关线,结合曼哈顿世界的正交性约束进行局部优化。实验表明,GlobustVP在合成和现实世界数据上实现了效率、鲁棒性和全局最优性的良好平衡,优于传统局部和全局方法。这项工作为SLAM、相机标定和结构理解等3D视觉任务提供了高效的VP估计方案。
5. FoundationStereo: Zero-Shot Stereo Matching
论文链接
:https://arxiv.org/abs/2501.09898
项目主页
:https://nvlabs.github.io/FoundationStereo/
简要介绍
:由NVIDIA提出的FoundationStereo是一个针对立体深度估计的基础模型,专注于零样本泛化能力。研究团队构建了包含100万对立体图像的大规模合成数据集,并通过自动自我筛选去除模糊样本。模型采用侧调特征骨干,从视觉基础模型中引入丰富的单目先验,缓解了仿真到现实的差距,并设计了长距离上下文推理以优化成本体过滤。FoundationStereo在多样化场景(室内/室外、复杂光照等)中展现了强大的鲁棒性和精度,建立了零样本立体深度估计的新标准,为增强现实和机器人导航等应用提供了可靠的深度估计方案。
6. Zero-Shot Monocular Scene Flow Estimation in the Wild
论文链接
:https://arxiv.org/abs/2501.10357
项目主页
:https://research.nvidia.com/labs/lpr/zero_msf/
简要介绍
:由NVIDIA和布朗大学合作提出的零样本单目场景流估计模型解决了场景流估计的泛化难题。模型联合估计几何和运动,通过点云和3D运动偏移的表示形式避免了传统深度+光流参数化的局限性。研究团队利用包含100万标注样本的多样化合成数据集,并通过尺度对齐机制整合度量和相对数据集。模型在DAVIS和RoboTAP等未见数据集上展现了强大的零样本泛化能力,显著优于现有单目场景流方法。这项工作通过联合训练几何和运动,提升了动态场景的3D感知能力,为增强现实和机器人应用提供了实用性。
图像编辑与生成
7. AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
论文链接