0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个用于6D姿态估计和跟踪的统一基础模型

3D视觉工坊 ? 来源:3D视觉工坊 ? 2023-12-19 09:58 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0. 笔者个人体会

今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose,是一个用于 6D 姿态估计和跟踪的统一基础模型。只要给出CAD模型或少量参考图像,FoundationPose就可以在测试时立即应用于新物体,无需任何微调,关键是各项指标明显优于专为每个任务设计的SOTA方案。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

FoundationPose实现了新物体的6D姿态估计和跟踪,支持基于模型和无模型设置。在这四个任务中的每一个上,FoundationPose都优于专用任务的SOTA方案。(·表示仅RGB,×表示RGBD)。这里也推荐工坊推出的新课程《单目深度估计方法:算法梳理与代码实现》。

adfd5652-9dfa-11ee-8b88-92fbcf53809c.jpg

2. 具体原理是什么?

为减少大规模训练的人工工作,FoundationPose利用3D模型数据库、大型语言模型和扩散模型等新技术,开发了一种新的合成数据生成Pipeline。为了弥补无模型和基于模型的设置之间的差距,FoundationPose利用以对象为中心的神经场来进行随后的渲染和新视图RGBD渲染。

对于姿态估计,首先在物体周围均匀地初始化全局姿态,然后通过细化网络对其进行细化。最后将改进的位姿转发给姿态选择模块,预测位姿的分数,输出得分最高的位姿。

ae1028e0-9dfa-11ee-8b88-92fbcf53809c.jpg

3. 和其他SOTA方法对比如何?

YCB-Video数据集上Model-free方案的位姿估计定量结果对比。

ae219558-9dfa-11ee-8b88-92fbcf53809c.jpg

YCB-Video数据集上位姿跟踪的定量对比。这里也推荐工坊推出的新课程《单目深度估计方法:算法梳理与代码实现》。

ae35a2aa-9dfa-11ee-8b88-92fbcf53809c.jpg

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

4. 论文信息

标题:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

作者:Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield

机构:NVIDIA

原文链接:https://arxiv.org/abs/2312.08344

代码链接:https://github.com/NVlabs/FoundationPose








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5353

    浏览量

    106861
  • RGB
    RGB
    +关注

    关注

    4

    文章

    810

    浏览量

    60250

原文标题:通用性超强!同时实现6D位姿估计和跟踪!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用树莓派+OpenCV实现姿态估计和面部特征点追踪?

    大家好,这是树莓派和OpenCV的连载专题。使用树莓派与OpenCV实现姿态估计和面部特征点追踪使用树莓派与OpenCV实现面部和运动追踪的云台系统使用树莓派和OpenCV实现手部
    的头像 发表于 08-13 17:44 ?229次阅读
    如何使用树莓派+OpenCV实现<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>和面部特征点追踪?

    如何在树莓派 AI HAT+上进行YOLO姿态估计

    大家好,接下来会为大家开树莓派5和YOLO的连载专题。内容包括四部分:在树莓派5上使用YOLO进行物体和动物识别-入门指南在树莓派5上开启YOLO姿态
    的头像 发表于 07-20 20:34 ?179次阅读
    如何在树莓派 AI HAT+上进行YOLO<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>?

    在树莓派5上开启YOLO姿态估计识别之旅!

    大家好,接下来会为大家开树莓派5和YOLO的连载文章。内容包括四部分:在树莓派5上使用YOLO进行物体和动物识别-入门指南在树莓派5上开启YOLO人体姿态
    的头像 发表于 07-18 15:31 ?363次阅读
    在树莓派5上开启YOLO<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>识别之旅!

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这问题,本文将探讨大模型推理显存和
    发表于 07-03 19:43

    商汤科技日日新V6模型斩获“双料第项国内榜首,全球第

    卫冕“双冠”! 通用语言能力并列国内榜首、多模态能力全球最强,商汤「日日新V6」近期斩获“双料第”。 5月28日,权威大模型测评机构SuperCLUE《中文大模型基准测评2025年5
    的头像 发表于 05-30 11:13 ?1002次阅读
    商汤科技日日新V<b class='flag-5'>6</b>大<b class='flag-5'>模型</b>斩获“双料第<b class='flag-5'>一</b>” <b class='flag-5'>一</b>项国内榜首,<b class='flag-5'>一</b><b class='flag-5'>个</b>全球第<b class='flag-5'>一</b>

    基于RV1126开发板的人脸姿态估计算法开发

    人脸姿态估计是通过对张人脸图像进行分析,获得脸部朝向的角度信息。姿态估计是多姿态问题中较为关键
    的头像 发表于 04-14 17:21 ?1734次阅读
    基于RV1126开发板的人脸<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>算法开发

    使用人体姿势估算-3d-0001模型执行human_pose_estimation_demo.exe时遇到错误怎么解决?

    已OpenVINO 工具套件 2020.3 安装。 下载并转换 人体姿势估算-3d-0001 模型。 构建 人类姿态估算 C++ 演示 应用程序。 运行演示时遇到错误: [ ERROR ] expected to have 2
    发表于 03-05 07:45

    M1携手6D Technologies云原生BSS平台实现转型

    ,M1 Limited的预付费和Maxx服务已成功迁移至尖端数字BSS平台6D Technologies Canvas。 在15月的时间里,6D Technologies将M1的所有预付费和Maxx
    的头像 发表于 01-15 15:42 ?505次阅读

    Todoist键时间跟踪

    过三简单的步骤将您的Todoist工作区连接到TMetric时间跟踪应用。通过单击鼠标跟踪执行任务所花费的时间。为项目获取广泛而精确的报告。 添加计时器按钮到Todoist任务中 完成这三
    的头像 发表于 01-03 11:08 ?523次阅读
    Todoist<b class='flag-5'>一</b>键时间<b class='flag-5'>跟踪</b>

    KerasHub统一、全面的预训练模型

    深度学习领域正在迅速发展,在处理各种类型的任务中,预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这动向的前沿。Keras 拥有专用的内容库,如用于
    的头像 发表于 12-20 10:32 ?556次阅读

    CNN, RNN, GNN和Transformer模型统一表示和泛化误差理论分析

    背景介绍 本文是基于我们之前的 RPN(Reconciled Polynomial Network)研究的后续工作。在此前的研究中,我们提出了 RPN 这通用模型架构,其包含三组件函数:数据扩展
    的头像 发表于 12-06 11:31 ?1590次阅读
    CNN, RNN, GNN和Transformer<b class='flag-5'>模型</b>的<b class='flag-5'>统一</b>表示和泛化误差理论分析

    ov华米联手打造OneLink统一链接平台

    小米应用商店近日携手华为、OPPO、vivo等主流手机厂商,共同推出了名为OneLink的统一链接平台。这平台旨在简化开发者在应用分发和推广过程中的工作流程,提供更为便捷和
    的头像 发表于 11-18 15:01 ?1328次阅读

    常见人体姿态评估显示方式的两种方式

    ,基于Deeplabv3+ 与ResNet34构建的一个人体语义分割模型。 火柴人 主要是基于关键点的人体姿态评估显示方式,基于YOLOv8等人体姿态评估的关键点
    的头像 发表于 11-11 11:21 ?762次阅读
    常见人体<b class='flag-5'>姿态</b>评估显示方式的两种方式

    如何利用TPA2012D2的输出端和阻抗值4OHM的喇叭建cadence仿真模型

    最近想用tlv320aic3106加tpa2012d2设计音频设备,但是不太懂各个传输路径上应该加什么样的滤波电容,想请教下如何利用TPA2012
    发表于 11-07 07:42

    光学跟踪测量系统如何工作的

    姿态等参数,实现对目标物体的精确跟踪和测量。其工作原理主要包括以下几个步骤: 光源发射:光学跟踪测量系统首先需要光源,
    的头像 发表于 08-29 17:26 ?1659次阅读