首页   

戴森机器人实验室发布SuperPrimitive:三维重建&视觉里程计&深度补全轻松搞定!

3D视觉工坊  ·  · 2 月前

来源:3D视觉工坊

添加微信:dddvision,备注:三维重建,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

一句话总结:使用2.5D图像区域(非像素级)完成场景3D重建。

这篇文章提出了SuperPrimitive来使用图像分割区域完成三维重建。SuperPrimitive通过前端神经网络高效构建,该前端包括两个单图像神经网络,分别用于提取图像分割和表面法线预测。还通过后端进行多视角、迭代、基于优化的场景级联对齐。前端/后端的组合结合了基于多视图的优化方法的灵活性和先验驱动系统中常见的观测效率。SuperPrimitive可以应用于三个任务:深度补全、少视角三维重建、单目稠密里程计。

下面一起来阅读一下这项工作~


为感谢大家一路以来的支持,新年到来之际!工坊特别举办了一次抽奖活动。希望在未来的日子里,大家能继续陪伴我们继续前行,我们也将持续为大家带来更加优质的内容。

活动详情

奖品设置:

  • 一等奖:机械键盘+免费加入知识星球 3名
  • 二等奖:视觉SLAM十四讲+免费加入知识星球 6名
  • 三等奖:免费加入3D视觉工坊知识星球 18名

开奖时间:2月9日 21:00(大年30晚9点)

参与活动

本次活动一共有3个公众号参与,每个公众号都分配有:一等奖各一名,二等奖各两名,三等奖各六名。

关注任一公众号,后台回复抽奖,自动弹出抽奖助手长图,长按图片进入抽奖助手小程序,即可参与,正式开奖后,中奖的读者会收到通知,到时,请中奖的读者记得填写您的姓名、地址、电话我们会将实体礼物寄送给您。

友情提示公众号关注得越多,参与抽奖次数越多,中奖的概率就越大哦!

3DCV

▲点击上方卡片参与抽奖

简介:3DCV公众号,由多位名大厂算法工程师共同打造,主要专注3D视觉产业落地。包括3D视觉传感器、3D视觉系统集成设备、缺陷检测设备、SLAM产品、自动驾驶传感器模组落地。

计算机视觉工坊

▲点击上方卡片参与抽奖

简介:计算机视觉工坊公众号,主要专注3D视觉、计算机视觉算法、SLAM、三维点云处理、三维重建、自动驾驶、图像处理等领域技术干货分享。

3D视觉工坊

▲点击上方卡片参与抽奖

简介:3D视觉工坊公众号,由多位国内外顶尖高校硕博士共同打造,主要专注3D视觉,包括工业3D视觉、自动驾驶、SLAM算法。

奖品详情

一等奖:机械革命耀K330机械键盘

二等奖:视觉SLAM十四讲

三等奖:3D视觉从入门到精通知识星球

再次友情提示公众号关注得越多,参与抽奖次数越多,中奖的概率就越大哦,快来参与吧!

1. 论文信息

标题:SuperPrimitive: Scene Reconstruction at a Primitive Level

作者:Kirill Mazur, Gwangbin Bae, Andrew J. Davison

机构:帝国理工学院戴森机器人实验室

原文链接:https://arxiv.org/abs/2312.05889

官方主页:https://makezur.github.io/SuperPrimitive/

2. 摘要

联合相机姿态和密集几何估计是一项具有挑战性的问题,因为它涉及计算复杂性和固有的视觉歧义。大多数密集增量重建系统直接在图像像素上操作,并利用多视角几何线索解算它们的三维位置。这样的像素级方法容易受到歧义或多视一致性违规的影响(例如,由于无纹理或镜面表面引起)。

我们通过一种新的图像表示解决了这个问题,我们称之为"SuperPrimitive"。SuperPrimitive通过将图像分割成语义相关的局部区域,并通过先进的单图像神经网络预测的估计表面法线方向来增强它们。这为每个SuperPrimitive提供了局部几何估计,而它们的相对位置则根据多视角观察进行调整。

我们通过解决三个三维重建任务来展示我们新表示的多功能性:深度补全、少视角运动结构和单目密集视觉里程计。

3. 效果展示

具有SuperPrimitive的多视图几何: 通过将输入帧划分为配备有估计的表面法线方向的图像分割(左下方),从输入帧中提取SuperPrimitive。每个SuperPrimitive在相应的图像分割中引入稠密重建,直到先验未知的尺度。浅蓝色显示了不同的可能重建。然后,尺度与相对相机姿态一起进行联合优化,以适应多视图光度限制(以绿色和红色显示)。参考帧的密集重建结果显示在顶部。

SuperPrimitive根据两个未定位的补充帧估计目标帧的稠密几何。

当前相机姿态显示为绿色,关键帧姿态显示为蓝色,最新关键帧的稠密几何形状被可视化为点云。

4. 主要贡献

(1)SuperPrimitve在现实场景中熟练处理zero-shot深度补全任务,与专为深度补全定制的最先进方法性能匹配;

(2)SuperPrimitve利用有限的非结构化图像集促进联合姿态和深度估计,在缺乏全局先验的情况下甚至超越了最接近的竞争对手;

(3)SuperPrimitve在具有挑战性的TUM数据集上胜过先前的单目视觉里程计系统,并在各种领域表现出鲁棒性。

5. 具体原理

这项工作首先利用SAM来预测最小分割,确定能具有强相关几何关系的图像区域。核心思想是在每个分割内从单个视角估计局部几何,并通过多视图光度一致性优化分割的相对定位。这些几何增强的最小图像分割被称为SuperPrimitve。

之后,为了进行局部几何估计,采用表面法线预测网络,并在每个图像分割内通过简单的积分得到深度。深度种子作为可优化参数,通过多视图线索或深度完成实验的显式深度种子进行优化。这项方法结合前端神经网络提供的强先验与后端多视图优化提供的灵活性和一致性。

SuperPrimitve提取:

(左)前端处理器通过将图像分割成一组图像区域,并为分割区域内的每个图像像素估算表面法线方向来提取SuperPrimitve。

(右)从图像中提取的突出显示的SuperPrimitve通过将它们的估算法线和颜色地图并排显示来可视化。一些SuperPrimitve有些类似于对象级分割,但其他的SuperPrimitve往往代表更低级别的图像分割。

原始图像对齐与多视图姿态估计

将超级基元作为密集多视图几何和姿态估计的基石,将基于优化的思维方式与学习的单视图先验相结合。通过图像对齐阶段,仅依赖于光度信息,利用多视图光度一致性优化问题联合估计深度种子和相对图像姿态。整个系统无需目标图像被原始化,也不需要预先建立的对应关系。

单目视觉里程计

作者设计了一种新颖的单目视觉里程计系统,直接在基元上操作。通过逐步构建基元的局部三维地图,并以基元为单位对新帧进行跟踪。采用基于关键帧的方法,使用滑动窗口进行映射,同时保持地图的几何一致性。初始化通过运动结构方法,避免了单目增量式SfM或SLAM系统中的困难。而在跟踪和建图阶段,通过光度一致性优化问题,采用Lucas-Kanade跟踪方法进行新帧姿态估计。建图阶段确保关键帧滑动窗口内的几何一致性,通过解决所有关键帧的联合光度成本来完成。最后再使用高斯牛顿优化,获得高性能增益。

6. 实验结果

实验部分分为三个子节,分别介绍了模型在稀疏深度补全、少视图SfM和单目视觉里程计三个任务上的性能。

6.1 稀疏深度完成

在稀疏深度补全任务中,在真实场景 VOID 基准数据集上进行测试。该数据集包含由 RealSense D435i 摄像机捕获的视频序列,以及通过外部视觉惯性结构运动系统获取的稀疏度量深度。实验结果表明,该方法在零预训练的情况下表现出色,与最近的一种先进方法相媲美,特别是在零样本泛化的情境下。

6.2 少视图SfM

在少视图SfM任务中,使用 ScanNet 数据集进行评估。实验选择了每个测试序列中每200帧作为参考帧,其他帧作为辅助视图。结果显示,通过观察少量辅助视图,该方法的几何估计迅速饱和,相较于 DeepV2D,该方法在没有使用外部跟踪或初始相对姿态估计的情况下仍表现出一致的改进。

6.3 单目视觉里程计

在单目视觉里程计任务中,对 TUM RGBD 数据集进行了评估列。通过比较平均轨迹误差(ATE),结果表明,尽管方法简单,但在所有轨迹上的性能都优于其他方法。实验还展示了在 TUM 数据集上的重建效果。

7. 总结

这篇文章提出了SuperPrimitive来展示了如何将构建强单图像先验的最新进展纳入姿态和密集几何估计问题。SuperPrimitive表明,结合这些先验知识减少了对复杂的手工试探法的需求,并为相对容易地进行单目重建铺平了道路。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

推荐文章
生物经纬  ·  倒计时1天 | ...  ·  1 年前  
宝宝司令  ·  孩子挑食是为啥?原因都在这里了!  ·  4 年前  
家园的约定  ·  12月23日家园播报 星期天 周末愉快!  ·  5 年前  
传感器技术  ·  【流量计专业群】赶紧加入吧!  ·  6 年前  
© 2022 51好读
删除内容请联系邮箱 2879853325@qq.com