0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种以图像为中心的3D感知模型BIP3D

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-03-17 13:44 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

?项目主页:

https://linxuewu.github.io/BIP3D-page/

?论文地址:

https://arxiv.org/abs/2411.14869

概述

在具身智能系统中,3D感知算法是一个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研究价值。现有主流算法主要依赖于点云作为输入 (point-centric) ,尽管点云提供了精确的几何信息,但由于其存在稀疏、噪声、数据量较少等问题,仍然限制了感知算法的性能。

在本研究中,我们提出了一种新颖的以图像为中心 (image-centric) 的3D感知模型——BIP3D,该模型利用具有显式3D位置编码的表达性图像特征,以克服point-centric的方法的局限性。具体而言,我们利用预训练的2D视觉基础模型来增强语义理解,并引入了一个空间增强模块来提升空间理解能力。这些模块共同使BIP3D能够实现多视角、多模态特征融合以及端到端的3D感知。BIP3D在多个开源数据集上获得了卓越的性能,大幅领先现有算法。

BIP3D架构:基于Vision Foundation Model的多模态感知模型

9fbe5152-fe77-11ef-9310-92fbcf53809c.png

图1 BIP3D模型架构图

模型结构上,BIP3D主要包括6个模块(图1 (a) 所示):

1)text encoder:用于编码文本特征,当采用decoder-only VLM作为基座时,则用text tokenizer代替;

2)image encoder:用于编码多视角图像,输出多视角多尺度图像特征;

3)depth encoder:用于编码多视角深度图像,输出深度特征图,和图像特征保持pixel对齐,BIP3D支持纯RGB输入,因此depth encoder为可插拔模块;

4)feature enhancer:用于融合图像特征和文本特征;

5)spatial enhancer:利用相机模型对图像特征加上3D位置编码,同时融合深度特征;

6)decoder:基于spatial enhancer输出的3D特征和文本特征,结合任务目标进行解码;本文主要研究3D感知任务,因此采用了基于deformable aggregation的多视角特征融合算子来实现3D detection和grounding任务。

BIP3D的结构设计使其可以无缝衔接现有vision foundation model,本文采用Grounding-DINO作为基座来初始化BIP3D,以此获得更好的泛化性、更快的收敛速度以及更高的感知精度。除了Grounding-DINO以外,也可以采用VLM类模型(如Qwen-VL)作为基座。

Spatial Enhancer:相机建模、3D编码与深度特征融合

连接2D图像和3D空间最重要的一步就是相机建模,我们首先利用图像特征进行深度分布估计,得到一系列带深度的视点及其概率,将这些视点通过相机模型投影到统一的3D空间,并对投影后的3D坐标进行高维映射,拿到3D point embedding,并将这些3D point embedding联合所预测的概率分布进行加权求和,作为最终的3D position embedding。当模型接收深度图作为输入之一时,我们还会再深度估计时引入深度特征,以获得更精确的深度分布,并在最终输出的时候将深度特征和图像特征进行融合,作为decoder的输入。

我们的3D位置编码可以提供很好的几何信息,其特征空间的余弦距离和3D空间的欧氏距离具有显著的正相关性,如下图所示。

3D Perception Decoder:多视图融合和文本特征融合

我们采用query-based detector的结构,如图1 (d) 所示。首先生成一系列视角相关的bbox3d queries,并使用Deformable Aggregation算子实现任意视角数据的特征融合;为了实现open-set detection和grounding,还加入了text cross-attention。该decoder输出9 DoF的3d bounding bbox及其高维特征,高维特征和文本特征的余弦距离用来表示置信度。考虑到9 DoF存在方向和尺寸歧义性,我们采用Wasserstein distance作为bbox3d的回归损失函数。其次我们还加入了文本特征和query之间的对比损失,采用余弦距离和focal loss。具体实现见论文和代码。

实验结果

表1对比于BIP3D和point-centric方法的参数量分布情况,可以看出point-centric方法的主要参数量集中在3D encoder,而BIP3D集中在2D encoder,这是point-centric和image-centric的主要区别之一。

a03b565c-fe77-11ef-9310-92fbcf53809c.png

表1参数量分布对比

BIP3D在3D检测和3D grounding上的性能显著超越了现有方法,各项指标上都超过了EmbodiedScan的baseline。并且,当仅输入图像时,在没有深度图加持的情况下,BIP3D依然能获得不错的感知能力。

a04bbba0-fe77-11ef-9310-92fbcf53809c.png

表2 3D检测结果对比

a06276c4-fe77-11ef-9310-92fbcf53809c.png

表3 3D Grounding结果对比

我们还证明了,BIP3D这种image-centric的网络架构可以很好的发挥出vision foundation model的作用,如表4所示。

a07fd87c-fe77-11ef-9310-92fbcf53809c.png

表4 VFM的作用

更多的实验结果可见huggingface主页和论文。

总结与展望

在本研究中,我们提出了一种以图像为中心的3D感知模型——BIP3D。该模型克服了点云数据的局限性,并充分利用了2D基础模型的能力,从而在3D感知性能上实现了显著提升。BIP3D支持多视角图像、深度图和文本作为输入,使其能够执行3D目标检测和3D视觉定位任务。我们在EmbodiedScan基准测试中展示了BIP3D的优越性。然而,BIP3D仍有广阔的探索空间,以下是未来工作的几个方向:(1) 进一步优化网络架构和训练方案,以实现更卓越的感知性能。(2) 将BIP3D应用于动态场景,实现联合检测与跟踪。(3) 引入更多感知任务,如实例分割、占据空间估计和抓取姿态估计。(4) 在BIP3D网络框架下,改进decoder以支持更高级的任务,如action和3d reasoning。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2961

    浏览量

    111078
  • 相机
    +关注

    关注

    4

    文章

    1479

    浏览量

    54758
  • 感知模型
    +关注

    关注

    0

    文章

    3

    浏览量

    5757
  • 具身智能
    +关注

    关注

    0

    文章

    153

    浏览量

    511

原文标题:CVPR 2025|BIP3D: 连接图像和3D空间,提升具身智能的空间感知能力

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    #硬声创作季 #3D打印 3D打印技术及应用-3.3.1 水杯模型设计-1

    3D打印
    水管工
    发布于 :2022年10月21日 17:05:01

    #硬声创作季 #3D打印 3D打印技术及应用-3.3.1 水杯模型设计-2

    3D打印
    水管工
    发布于 :2022年10月21日 17:05:30

    Labview中如何导入3D模型

    Labview中如何导入3D模型,例如3Dmax生成的模型。尝试过用.STL格式导入Labview。但是3D
    发表于 01-26 13:13

    求教,关于AD9.4 3D模型显示的问题

    最近下载了个AD9.4,参照网上的教程已经在元器件封装库里,给部分封装导入了相应的*STEP的3D模型,现在遇到的问题是,打开元器件封装库(*lib),
    发表于 05-08 17:16

    3D模型文件格式之OBJ详解

    Visualizer"开发的一种标准3D模型文件格式,很适合用于3D软件模型之间的互导,也可以通过Maya读写。比如你在
    发表于 04-27 17:02

    浩辰3D软件中如何创建槽特征?3D模型设计教程!

    ,然后单击新槽(2) 的路径,最后单击放置新槽 (3)。 可以每次个或每个围栏个地添加更多槽,或者选择多个路径来同时创建多个槽。以上就是小编为大家梳理的浩辰
    发表于 09-28 16:16

    浩辰3D软件入门教程:如何比较3D模型

    。浩辰3D软件不仅提供了完备的零件、装配、仿真、工程图、钣金、焊接等数十设计模块,还提供了「比较模型」和「比较图纸」功能,让这过程高效且精确。01「比较
    发表于 12-15 13:45

    AD的3D模型绘制功能介绍

    共提供了4类型,类型1常规型,类型2时圆柱体模型,类型3是外部模型,类型4是球体模型。我们根
    发表于 01-14 16:48

    浩辰3D的「3D打印」你会用吗?3D打印教程

    设计。由浩辰CAD公司研发的浩辰3D作为从产品设计到制造全流程的高端3D设计软件,不仅能够提供完备的2D+3D体化解决方案,还能站式集成
    发表于 05-27 19:05

    STEP与WRL 3D模型的区别

    “ KiCad 7支持两格式的3D模型:STEP和WRL。本文简述了STEP与WRL的区别,以及这两格式在哪些场合应用更合理。 ” 简介 这两
    发表于 06-16 11:26

    3D图像引擎,3D图像引擎原理

    3D图像引擎,3D图像引擎原理 产生的背景和定义 随着计算机软、硬件突飞猛进的发展,计算机图形学在各个行业的应用也得
    发表于 03-26 15:54 ?1517次阅读

    3D模型

    3D模型, 淘宝网上买的3D元器件库需要的自行下载
    发表于 11-04 15:36 ?0次下载

    基于3D打印的原理及应用

    3D打印原理:分层打印(2D)与层叠堆砌(3D), 3D打印(3DP)即快速成型技术的一种,它是
    发表于 09-23 10:19 ?20次下载

    PCB 3D模型和PCB 3D模型尺寸资料免费下载

    本文档的主要内容详细介绍的是PCB 3D模型和PCB 3D模型尺寸资料免费下载。
    发表于 11-12 08:00 ?0次下载
    PCB <b class='flag-5'>3D</b><b class='flag-5'>模型</b>和PCB <b class='flag-5'>3D</b><b class='flag-5'>模型</b>尺寸资料免费下载

    华为基于AI技术实现3D图像数字服务

    华为3D建模服务(3D Modeling Kit)是华为在图形图像领域又技术开放,面向有3D模型
    的头像 发表于 08-12 14:50 ?5420次阅读