一个用于6D姿态估计和跟踪的统一基础模型-电子发烧友网

0. 笔者个人体会

今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose，是一个用于 6D 姿态估计和跟踪的统一基础模型。只要给出CAD模型或少量参考图像，FoundationPose就可以在测试时立即应用于新物体，无需任何微调，关键是各项指标明显优于专为每个任务设计的SOTA方案。

下面一起来阅读一下这项工作，文末附论文和代码链接~

1. 效果展示

FoundationPose实现了新物体的6D姿态估计和跟踪，支持基于模型和无模型设置。在这四个任务中的每一个上，FoundationPose都优于专用任务的SOTA方案。(·表示仅RGB，×表示RGBD)。这里也推荐工坊推出的新课程《单目深度估计方法：算法梳理与代码实现》。

2. 具体原理是什么？

为减少大规模训练的人工工作，FoundationPose利用3D模型数据库、大型语言模型和扩散模型等新技术，开发了一种新的合成数据生成Pipeline。为了弥补无模型和基于模型的设置之间的差距，FoundationPose利用以对象为中心的神经场来进行随后的渲染和新视图RGBD渲染。

对于姿态估计，首先在物体周围均匀地初始化全局姿态，然后通过细化网络对其进行细化。最后将改进的位姿转发给姿态选择模块，预测位姿的分数，输出得分最高的位姿。