一种适用于动态环境的实时RGB-D SLAM系统-电子发烧友网

近期用于视觉SLAM的3D高斯泼溅（3DGS）技术在跟踪和高保真建图方面取得了显著进展。然而，其顺序优化框架以及对动态物体的敏感性限制了其在现实场景中的实时性能和鲁棒性。为此，我们提出了UP-SLAM，这是一种适用于动态环境的实时RGB-D SLAM系统。实验结果表明，UP-SLAM在定位精度方面（高出59.8%）和渲染质量方面（峰值信噪比高出4.57分贝）均优于最先进的方法，同时保持实时性能，并在动态环境中生成可重复使用且无伪影的静态地图。

? 文章：

UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

? 作者：

Wancai Zheng, Linlin Ou, Jiajie He, Libo Zhou, Xinyi Yu, Yan Wei

? 论文链接：

https://arxiv.org/abs/2505.22335

? 编译：

INDEMIND

01 本文核心内容

视觉SLAM是具身智能和虚拟现实的核心技术。传统的SLAM算法通常假设环境是静态的，这促进了众多有效系统的开发。然而，这种假设限制了SLAM在动态现实环境中的适用性，从而阻碍了机器人技术及相关领域的进步。近期的SLAM方法利用物体检测和多视图几何理论来降低动态物体的影响。尽管这些方法增强了系统在动态环境中的鲁棒性，但它们严重依赖于对动态物体的先验知识以及检测算法的可靠性。高保真场景表示技术的进步，如神经辐射场（NeRF）和3D高斯泼溅（3DGS），激发了将不确定性建模引入3D重建的探索。

近期的研究表明，纳入不确定性预测能够显著增强对瞬态场景元素的鲁棒性。这些具有不确定性感知能力的模型即使在间歇性遮挡的情况下也能实现高质量的重建。然而，这些方法依赖于有利条件，例如精确的相机姿态和稀疏的视角，这在使用连续帧输入的SLAM系统中很难实现。为了解决这些挑战，我们提出了一种名为UP-SLAM的实时RGB-D SLAM系统，用于动态环境中的稳健姿态估计和静态场景重建。

我们的方法将3DGS压缩为由多个浅层多层感知机（MLP）编码的结构化锚点。引入概率八叉树以实现锚点的自适应调整，从而删除由动态物体引起的冗余锚点。此外，通过将运动掩码生成与地图优化解耦，UP-SLAM实现了同步跟踪和建图，支持实时定位。在跟踪过程中，我们提出了一种无需训练、基于优化的多模态一致性估计方法，该方法融合了几何线索与DINO特征，以实现有效的动态物体识别。在映射过程中，为了进一步增强动态条件下的重建效果，设计了一种利用正弦位置编码的时间编码器，将帧间信息嵌入到多层感知机（MLP）中，从而提高表示能力。此外，动态对象在不同帧中不一致的外观和运动为不确定性预测提供了有价值的线索。因此，将鲁棒的DINO特征输入到浅层MLP中进行逐像素不确定性估计，从而实现连续的运动掩码细化，并增强重建的鲁棒性。

本文的贡献可概括为：

?提出了一种不确定性感知的并行跟踪与映射框架，无需依赖预定义的语义标注即可有效减轻动态干扰，从而构建高质量、无伪影的静态地图。

?提出了一种具有概率八叉树的自适应结构化3DGS场景表示，支持在动态环境中自动分配或修剪高斯基元。这种方法提高了定位精度并减小了模型大小。

?将方法整合到ORB-SLAM3中，并在多个数据集上进行了全面评估。此外，还引入了一种在动态环境中评估渲染质量的协议。

?项目地址：https://aczheng-cai.github.io/up_slam.github.io/

02 方法架构

图2展示了UP-SLAM系统的概览。

UP-SLAM以一系列RGB和深度图像作为输入，并采用并行化的跟踪和建图架构来提高整体效率。在跟踪线程中，系统执行实时定位并生成用于建图的关键帧。动态区域检测由来自建图线程的多模态残差引导，从而实现稳健且实时的跟踪。建图线程采用概率锚点来构建自适应结构化的3DGS表示，这在减小模型大小的同时提高了重建质量。为了在动态环境中提高建图质量，从DINOv2中提取的稳健2D视觉特征被蒸馏到3DGS表示中以构建多模态残差，这些残差监督浅层MLP进行逐像素不确定性预测，并实现运动掩码的持续优化。

03 实验结果

1. 实验设置

为了证明所提方法的优势，我们将它与16种方法进行了比较，这些方法按以下类别划分：

（a）经典SLAM方法：ORB-SLAM3；

（b）经典动态SLAM方法：ReFusion、DynaSLAM、EM-Fusion；

（c）基于NeRF的SLAM方法：iMAP、NICE-SLAM、Vox-Fusion、Co-SLAM、ESLAM；

（d）基于NeRF的动态SLAM：RoDyn-SLAM；

（e）基于3DGS的SLAM：Photo-SLAM、GS-SLAM、SplaTAM；

（f）基于3DGS的动态SLAM方法：DG-SLAM、Gassidy、WildGS-SLAM。

所有方法均使用动态数据集进行评估，具体包括TUMRGB-D数据集、波恩RGB-D数据集以及MoCapRGB-D数据集，此外还使用了一个静态环境数据集ScanNet数据集。对于非开源方法，我们报告原始结果；对于开源方法，我们报告五次运行的平均结果。加粗字体表示最佳结果，下划线表示次优结果。我们从每个类别中选取了具有代表性的基线方法。

2. 跟踪性能评估

动态场景

与DG-SLAM相比，我们的方法在定位精度上平均提高了59.8%。值得注意的是，如表2所示，其平均定位精度提高了84.7%，这主要是因为DG-SLAM基于历史几何信息实现了开放集能力，但在复杂的动态环境中不够稳健。尽管DynaSLAM在表3中表现良好，这是由于其预定义的动态物体处理策略，但在表1、2中出现了明显的漂移。这种性能下降源于这些数据集中存在大量难以预先定义的动态物体，尤其是在表2和雨伞（Umb.）序列中。

静态场景

在公开的静态ScanNet数据集上对UP-SLAM进行评估，以检验其鲁棒性。虽然动态物体识别被用于提高动态环境中的SLAM系统的鲁棒性，但识别不准确可能会对静态场景中的定位精度产生不利影响。如表5所示，我们的方法在定位精度上比为静态环境设计的SLAM系统平均提高了10.2%。此外，它还实现了8.1%的提升。与同样适用于动态场景的DG-SLAM相比，平均改进情况。结果表明，我们的方法在静态和动态环境中均保持了强劲的性能。

3. 映射性能评估

如表6所示，我们的方法在渲染质量方面取得了显著提升，峰值信噪比（PSNR）平均提高了5.47分贝。Photo-SLAM的渲染质量与WildGSSLAM相当，这主要得益于其在低动态序列（例如Ball_track和Mv_box2）中的鲁棒性。然而，在高度动态的环境中，定位失败削弱了渲染结果的实际意义。此外，DG-SLAM缺乏稳健的高斯基元初始化策略，导致重建不完整，显著降低了渲染质量。图4提供了渲染结果的视觉比较。两种静态SLAM方法，SplaTAM和Photo-SLAM，无法生成静态地图。DG-SLAM和单目动态SLAM方法WildGS-SLAM均存在不同程度的失败。相比之下，UP-SLAM能够有效去除动态物体，并构建出高保真、无伪影的静态地图。