0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种适用于动态环境的实时RGB-D SLAM系统

INDEMIND ? 来源:INDEMIND ? 2025-07-04 15:14 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期用于视觉SLAM的3D高斯泼溅(3DGS)技术在跟踪和高保真建图方面取得了显著进展。然而,其顺序优化框架以及对动态物体的敏感性限制了其在现实场景中的实时性能和鲁棒性。为此,我们提出了UP-SLAM,这是一种适用于动态环境的实时RGB-D SLAM系统。实验结果表明,UP-SLAM在定位精度方面(高出59.8%)和渲染质量方面(峰值信噪比高出4.57分贝)均优于最先进的方法,同时保持实时性能,并在动态环境中生成可重复使用且无伪影的静态地图。

? 文章:

UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

? 作者:

Wancai Zheng, Linlin Ou, Jiajie He, Libo Zhou, Xinyi Yu, Yan Wei

? 论文链接:

https://arxiv.org/abs/2505.22335

? 编译:

INDEMIND

01 本文核心内容

视觉SLAM是具身智能和虚拟现实的核心技术。传统的SLAM算法通常假设环境是静态的,这促进了众多有效系统的开发。然而,这种假设限制了SLAM在动态现实环境中的适用性,从而阻碍了机器人技术及相关领域的进步。近期的SLAM方法利用物体检测和多视图几何理论来降低动态物体的影响。尽管这些方法增强了系统在动态环境中的鲁棒性,但它们严重依赖于对动态物体的先验知识以及检测算法的可靠性。高保真场景表示技术的进步,如神经辐射场(NeRF)和3D高斯泼溅(3DGS),激发了将不确定性建模引入3D重建的探索。

近期的研究表明,纳入不确定性预测能够显著增强对瞬态场景元素的鲁棒性。这些具有不确定性感知能力的模型即使在间歇性遮挡的情况下也能实现高质量的重建。然而,这些方法依赖于有利条件,例如精确的相机姿态和稀疏的视角,这在使用连续帧输入的SLAM系统中很难实现。为了解决这些挑战,我们提出了一种名为UP-SLAM的实时RGB-D SLAM系统,用于动态环境中的稳健姿态估计和静态场景重建。

我们的方法将3DGS压缩为由多个浅层多层感知机(MLP)编码的结构化锚点。引入概率八叉树以实现锚点的自适应调整,从而删除由动态物体引起的冗余锚点。此外,通过将运动掩码生成与地图优化解耦,UP-SLAM实现了同步跟踪和建图,支持实时定位。在跟踪过程中,我们提出了一种无需训练、基于优化的多模态一致性估计方法,该方法融合了几何线索与DINO特征,以实现有效的动态物体识别。在映射过程中,为了进一步增强动态条件下的重建效果,设计了一种利用正弦位置编码的时间编码器,将帧间信息嵌入到多层感知机(MLP)中,从而提高表示能力。此外,动态对象在不同帧中不一致的外观和运动为不确定性预测提供了有价值的线索。因此,将鲁棒的DINO特征输入到浅层MLP中进行逐像素不确定性估计,从而实现连续的运动掩码细化,并增强重建的鲁棒性。

本文的贡献可概括为:

?提出了一种不确定性感知的并行跟踪与映射框架,无需依赖预定义的语义标注即可有效减轻动态干扰,从而构建高质量、无伪影的静态地图。

?提出了一种具有概率八叉树的自适应结构化3DGS场景表示,支持在动态环境中自动分配或修剪高斯基元。这种方法提高了定位精度并减小了模型大小。

?将方法整合到ORB-SLAM3中,并在多个数据集上进行了全面评估。此外,还引入了一种在动态环境中评估渲染质量的协议。

?项目地址:https://aczheng-cai.github.io/up_slam.github.io/

02 方法架构

图2展示了UP-SLAM系统的概览。

be73f46a-52e3-11f0-b715-92fbcf53809c.png

UP-SLAM以一系列RGB和深度图像作为输入,并采用并行化的跟踪和建图架构来提高整体效率。在跟踪线程中,系统执行实时定位并生成用于建图的关键帧。动态区域检测由来自建图线程的多模态残差引导,从而实现稳健且实时的跟踪。建图线程采用概率锚点来构建自适应结构化的3DGS表示,这在减小模型大小的同时提高了重建质量。为了在动态环境中提高建图质量,从DINOv2中提取的稳健2D视觉特征被蒸馏到3DGS表示中以构建多模态残差,这些残差监督浅层MLP进行逐像素不确定性预测,并实现运动掩码的持续优化。

03 实验结果

1. 实验设置

为了证明所提方法的优势,我们将它与16种方法进行了比较,这些方法按以下类别划分:

(a)经典SLAM方法:ORB-SLAM3;

(b)经典动态SLAM方法:ReFusion、DynaSLAM、EM-Fusion;

(c)基于NeRF的SLAM方法:iMAP、NICE-SLAM、Vox-Fusion、Co-SLAM、ESLAM;

(d)基于NeRF的动态SLAM:RoDyn-SLAM;

(e)基于3DGS的SLAM:Photo-SLAM、GS-SLAM、SplaTAM;

(f)基于3DGS的动态SLAM方法:DG-SLAM、Gassidy、WildGS-SLAM。

所有方法均使用动态数据集进行评估,具体包括TUMRGB-D数据集、波恩RGB-D数据集以及MoCapRGB-D数据集,此外还使用了一个静态环境数据集ScanNet数据集。对于非开源方法,我们报告原始结果;对于开源方法,我们报告五次运行的平均结果。加粗字体表示最佳结果,下划线表示次优结果。我们从每个类别中选取了具有代表性的基线方法。

2. 跟踪性能评估

动态场景

与DG-SLAM相比,我们的方法在定位精度上平均提高了59.8%。值得注意的是,如表2所示,其平均定位精度提高了84.7%,这主要是因为DG-SLAM基于历史几何信息实现了开放集能力,但在复杂的动态环境中不够稳健。尽管DynaSLAM在表3中表现良好,这是由于其预定义的动态物体处理策略,但在表1、2中出现了明显的漂移。这种性能下降源于这些数据集中存在大量难以预先定义的动态物体,尤其是在表2和雨伞(Umb.)序列中。

be84e9f0-52e3-11f0-b715-92fbcf53809c.png

be90c9dc-52e3-11f0-b715-92fbcf53809c.png

静态场景

在公开的静态ScanNet数据集上对UP-SLAM进行评估,以检验其鲁棒性。虽然动态物体识别被用于提高动态环境中的SLAM系统的鲁棒性,但识别不准确可能会对静态场景中的定位精度产生不利影响。如表5所示,我们的方法在定位精度上比为静态环境设计的SLAM系统平均提高了10.2%。此外,它还实现了8.1%的提升。与同样适用于动态场景的DG-SLAM相比,平均改进情况。结果表明,我们的方法在静态和动态环境中均保持了强劲的性能。

bea155fe-52e3-11f0-b715-92fbcf53809c.png

3. 映射性能评估

如表6所示,我们的方法在渲染质量方面取得了显著提升,峰值信噪比(PSNR)平均提高了5.47分贝。Photo-SLAM的渲染质量与WildGSSLAM相当,这主要得益于其在低动态序列(例如Ball_track和Mv_box2)中的鲁棒性。然而,在高度动态的环境中,定位失败削弱了渲染结果的实际意义。此外,DG-SLAM缺乏稳健的高斯基元初始化策略,导致重建不完整,显著降低了渲染质量。图4提供了渲染结果的视觉比较。两种静态SLAM方法,SplaTAM和Photo-SLAM,无法生成静态地图。DG-SLAM和单目动态SLAM方法WildGS-SLAM均存在不同程度的失败。相比之下,UP-SLAM能够有效去除动态物体,并构建出高保真、无伪影的静态地图。

beaf125c-52e3-11f0-b715-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565
  • SLAM
    +关注

    关注

    24

    文章

    444

    浏览量

    32548
  • 视觉
    +关注

    关注

    1

    文章

    163

    浏览量

    24409
  • 3维动态环境

    关注

    0

    文章

    2

    浏览量

    868

原文标题:高精度、高鲁棒!面向动态环境的实时视觉SLAM,动态、静态环境双提升!

文章出处:【微信号:gh_c87a2bc99401,微信公众号:INDEMIND】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种适用于模拟/数字混合信号环境的接地技术

    本文分享了一种适用于模拟/数字混合信号环境的接地技术。
    发表于 04-25 07:46

    一种适用于室内复杂环境的高精度、环境自适应性强的定位算法

    摘要对于室内复杂环境来说, 适用于室外定位的 GPS 系统和蜂窝移动网络在室内中的定位精度明显恶化, 无法满足室内用户精确定位的需求。因此, 研究一种
    发表于 08-18 08:12

    如何去开发款基于RGB-D相机与机械臂的三维重建无序抓取系统

    基于RGB-D相机与机械臂的三维重建无序抓取系统有哪些关键技术?如何去开发款基于RGB-D相机与机械臂的三维重建无序抓取系统?基于
    发表于 09-08 06:12

    一种适用于嵌入式系统的模块动态加载技术

    嵌入式系统中的模块动态加载技术摘要提出一种适用于嵌入式系统的模块动态加载技术,设计实现简单,占用
    发表于 12-20 06:32

    RGB-D图像是什么

    RGB-D图像其实是两幅图像。
    的头像 发表于 11-01 11:46 ?1.9w次阅读

    一种适用于动态场景的SLAM方法

    同时定位与地图构建(SLAM)作为机器人领域的硏究热点,近年来取得了快速发展,但多数SLAM方法未考虑应用场景中的动态或可移动目标。针对该问题,提出一种
    发表于 03-18 10:39 ?21次下载
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b>场景的<b class='flag-5'>SLAM</b>方法

    用于SLAM的神经隐含可扩展编码

    我们提出了NICE-SLAM个密集的RGB-D SLAM系统,它具有实时性、可扩展性、预测性
    的头像 发表于 01-30 11:19 ?1038次阅读

    用于快速高保真RGB-D表面重建的神经特征网格优化的GO-Surf

    我们提出了GO-Surf,一种直接的特征网格优化方法,用于RGB-D序列中准确和快速地重建表面。
    的头像 发表于 03-17 16:35 ?1037次阅读

    用于神经场SLAM的矢量化对象建图

    vMAP 是一种基于神经场的对象级密集 SLAM 系统,可根据 RGB-D 输入流实时自动构建对象级场景模型。
    的头像 发表于 06-15 09:29 ?1160次阅读
    <b class='flag-5'>用于</b>神经场<b class='flag-5'>SLAM</b>的矢量化对象建图

    动态环境下的实时语义RGB-D SLAM系统

    大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了动态环境
    的头像 发表于 08-25 16:49 ?1111次阅读
    <b class='flag-5'>一</b>个<b class='flag-5'>动态</b><b class='flag-5'>环境</b>下的<b class='flag-5'>实时</b>语义<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>

    一种适用于动态场景的多层次地图构建算法

    本文提出了一种适用于动态场景的多层次地图构建算法,如图1所示的系统框架。首先,利用YOLOX[8]获取场景的语义信息,采用多目标跟踪算法对漏检进行补偿,利用DBSCAN密度聚类算法和深
    发表于 08-28 10:56 ?1055次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b>场景的多层次地图构建算法

    一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统

    提出了一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统,该系统由完整的前端和后端模块组成,包括里程计、回环检测、子图融
    的头像 发表于 11-29 10:35 ?978次阅读
    <b class='flag-5'>一种</b>基于<b class='flag-5'>RGB-D</b>图像序列的协同隐式神经同步定位与建图(<b class='flag-5'>SLAM</b>)<b class='flag-5'>系统</b>

    常用的RGB-D SLAM解决方案

    BundleFusion是一种稠密的实时室内场景三维重建算法框架。输入为RGB-D相机采集的并且是对齐好的RGB图像和深度图的数据流。输出为重建好的稠密三维场景模型。
    的头像 发表于 04-16 09:37 ?1604次阅读
    常用的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>解决方案

    一种适用于动态环境实时视觉SLAM系统

    既能保证效率和精度,又无需GPU,行业第个达到此目标的视觉动态SLAM系统
    的头像 发表于 09-30 14:35 ?1392次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b><b class='flag-5'>环境</b>的<b class='flag-5'>实时</b>视觉<b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>

    一种适用于动态环境的3DGS-SLAM系统

    当前基于神经辐射场(NeRF)或3D高斯泼溅(3DGS)的SLAM方法在重建静态3D场景方面表现出色,但在动态环境中的跟踪和重建方面却面临着
    的头像 发表于 06-13 10:10 ?370次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b><b class='flag-5'>环境</b>的3DGS-<b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>