176倍加速！347 FPS！超快的3D高斯SLAM来了！（微信文章未删减版）

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

基于GS的SLAM方法利用与3D高斯属性相关联的基于点的表示，并采用光栅化流水线来渲染图像，实现了快速渲染速度和优质图像。然而，原始的基于GS的场景表示需要大量的3D高斯椭球来维持高保真度重建，导致内存使用量和存储需求高。基于GS的SLAM系统通常需要超过500MB来表示一个小型房间大小的场景。此外，基于GS的SLAM系统的运行速度明显比基于NeRF的方法慢，这阻碍了资源受限设备的实际部署。

为此，这篇文章提出了一种紧凑的3D高斯场景表示方法，以解决基于GS的SLAM系统中高内存需求和慢训练速度问题。这项工作显著提高了存储效率，同时提供了高质量的重建、快速训练速度和实时渲染能力。

首先，作者设计了一种新颖的基于滑动窗口的在线掩模方法，用于移除SLAM系统运行期间创建的数百万个冗余和不必要的3D高斯椭球。通过提出的掩模方法，学习了紧凑的3D高斯场景表示，实现了更快的渲染速度和高效的内存使用，因为计算复杂度与3D高斯点的数量成线性比例关系。其次，作者观察到大多数高斯点在尺度和旋转属性上都表现出相似的几何信息。为此，设计了一种基于码本的方法来压缩每个高斯点的几何信息。它学习发现场景中共享的相似性和几何信息。作者仅为每个3D高斯椭球存储码本索引，获得了紧凑的场景表示。第三，与其他SLAM系统相比，基于GS的SLAM的相机跟踪精度相对较低。提出了一种具有重投影损失的全局BA方法，以实现强健和准确的姿态估计。该方法维护全局关键帧数据库，并使用所有历史观测进行束调整，可以有效消除累积误差。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Compact 3D Gaussian Splatting For Dense Visual SLAM

作者：Tianchen Deng, Yaohui Chen, Leyan Zhang, Jianfei Yang, Shenghai Yuan, Danwei Wang, Weidong Chen

机构：上海交通大学、南洋理工大学

原文链接：https://arxiv.org/abs/2403.11247

2. 摘要

最近的研究表明，基于3D高斯的SLAM能够实现高质量的重建、准确的姿态估计和实时的场景渲染。然而，这些方法建立在大量冗余的3D高斯椭球上，导致内存和存储成本高，训练速度慢。为了解决这个限制，我们提出了一种紧凑的3D高斯喷涂SLAM系统，减少了高斯椭球的数量和参数大小。首先提出了基于滑动窗口的掩模策略，以减少冗余的椭球。然后我们观察到，大多数3D高斯椭球的协方差矩阵（几何）非常相似，这促使我们提出了一种新颖的几何码书来压缩3D高斯的几何属性，即参数。通过全局捆绑调整方法和重投影损失实现了鲁棒和准确的姿态估计。大量实验证明，我们的方法在保持场景表示的最新技术（SOTA）质量的同时实现了更快的训练和渲染速度。

3. 效果展示

这项工作在保持SOTA图像重建性能的同时，最大限度地减少了存储和加速了渲染。所提出的框架在不影响性能的前提下消除了不必要的3D高斯椭球。

Replica数据集上的渲染可视化结果，包括渲染PSNR和FPS。与其他方法相比，这项工作可以实现更快的渲染速度和高质量的图像重建性能。

4. 主要贡献

（1）提出了一种新颖的基于GS的SLAM系统，具有紧凑的高斯场景表示，实现了快速训练和渲染速度、准确的姿态估计，并显著提高了存储效率。

（2）提出了一种新颖的基于滑动窗口的在线掩模方法，用于在训练期间移除多余的高斯椭球数量，同时在性能方面实现了高保真度。

（3）观察和分析了3D高斯椭球的几何相似性，并提出了一种基于码本的方法，在SLAM系统运行期间高效地恢复每个高斯点的几何信息。提出了一种基于关键帧的全局BA方法，具有重投影损失，以改善相机跟踪的相对低性能。

（4）在不同数据集上进行了全面的实验，并实现了近176%的渲染速度提高和超过1.97倍的内存使用压缩。

5. 具体原理是啥？

整个系统的Pipeline： 系统的输入是当前的RGB-D帧。通过初始化3D高斯地图构建来启动SLAM系统。然后，通过添加新的高斯并使用可学习的掩模来减少多余的3D高斯椭球来更新3D高斯地图。还采用基于码书的矢量量化方法来压缩场景表示。对于相机跟踪，维护一个全局关键帧数据库用于全局BA，并使用重投影损失进行鲁棒姿态估计。

左图显示了可学习的掩码策略。 执行锥体选择和滑动窗口重置，以在保持重建准确性的同时删除冗余的高斯椭球体。虚线表示已移除的3D高斯椭球体。右侧图显示了在SLAM系统运行期间高斯椭球体数量的变化。 这两条曲线显示了系统在有掩码和无掩码情况下的区别，掩码策略实现了3D高斯数量的1.97×压缩。

R-VQ过程用于表示高斯椭球的尺度和旋转。 在第一阶段，对尺度和旋转向量进行聚类，并随机选择与最接近的代码的码书初始化。在随后的阶段，原始向量与第一阶段结果之间的残差存储在另一个码书中。这个迭代过程一直持续到最终阶段，每个阶段集体选择的索引和码书提供了原始向量的表示。

6. 实验结果

相机跟踪结果。 在表2、3、4中，与其他SOTA方法在不同数据集上的相机姿态估计进行比较。在合成数据集Replica上，可以看到成功地减少了基于GS的SLAM系统（SplaTAM）的轨迹误差，并实现了更精确和鲁棒的姿态估计。ScanNet数据集是一个真实世界的数据集，其RGB图像具有高运动模糊的深度传感器信息不足。在表3中，该方法表现优于基于GS的SLAM系统，并且与先前的基于NeRF的SLAM系统类似。在表4中，展示了TUM RGB-D数据集上的实验结果。可以看到，该方法仍然优于其他基于GS或基于NeRF的方法，轨迹误差几乎减少了10%。我们的实验证明了我们提出的重投影损失的有效性，即使去除了一些高斯椭球体，也可以提高姿态估计的准确性。

高斯重建结果。 在表5中，展示了Replica数据集在8个场景中的渲染质量。该方法实现了与SplaTAM类似的PSNR、SSIM和LPIPS。比基于NeRF的基线方法（如Vox-Fusion、NICE-SLAM、Co-SLAM和ESLAM）取得了更好的结果。

实时性能和内存使用情况。 表6说明了该方法和其他基于GS和NeRF的SLAM系统在Replica房间0场景和ScanNet 0000场景上的运行时性能和内存使用情况。与基于GS的SLAM系统相比，该方法显着提高了训练速度（快33%），这对于在线SLAM系统非常重要，这要归功于紧凑的3D高斯场景表示方法。还评估了渲染速度、解码器参数和SOTA方法的内存。与基于NeRF的SLAM系统相比，在Replica数据集上实现了414.45 FPS的渲染速度，比这些方法快100倍。需要注意的是，该系统中没有使用任何神经网络解码器，这导致解码器的可学习参数为零。与基于GS的SLAM系统相比，该方法在内存使用量上也减少了150%，渲染速度快了176%，这要归功于提出的紧凑的3D高斯场景表示方法。

7. 总结

这篇文章提出了一种新颖的基于GS的SLAM系统，采用紧凑的3D高斯场景表示，减少了冗余高斯椭球的数量而不降低性能。所提出的滑动窗口掩模方法和几何码本提高了场景表示的紧凑性，实现了更快的训练和渲染速度，以及显著减少的内存使用量。所提出的全局捆绑调整与重投影损失进一步提高了相机跟踪精度和场景表示。大量实验证明，该工作提供了一种全面的密集视觉SLAM系统，实现了高保真性能、快速训练、紧凑性和实时渲染。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	配套标定源码	高精度标定板(玻璃or大理石)
添加小助理：cv3d007或者QYong2014 咨询更多

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~