0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA Cosmos模型训练通用机器人

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-08-05 16:22 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型(如NVIDIA Cosmos)以及数据生成蓝图(如Isaac GR00T-Mimic与GR00T-Dreams)来克服这一挑战。

本期 NVIDIA 机器人研究与开发摘要 (R?D?) 将介绍如何通过世界基础模型实现可扩展的合成数据生成与机器人模型训练工作流,具体包括:

DreamGen:Isaac GR00T-Dreams blueprint的研究基础。

GR00T N1:开源基础模型,使机器人能够通过真实数据、人类演示和合成数据学习跨任务与形态的通用技能。

通过视频进行潜在动作预训练:无监督的学习方法,无需人工动作标注,就能从大规模视频中学习机器人相关动作。

仿真与现实协同训练:结合仿真环境与真实世界机器人数据的训练方法,可构建更具鲁棒性和适应性的机器人策略。

机器人世界基础模型

NVIDIA Cosmos 世界基础模型经过数百万小时真实世界数据训练,能够预测未来世界状态,并基于单张输入图像生成视频序列。这项技术使机器人和自动驾驶车辆具备预判未来事件的能力,这种预测能力对于合成数据生成流程至关重要,有助于快速创建多样化、高保真的训练数据。这一方法大幅加速了机器人的学习过程,提升了模型的鲁棒性,并将原本需要数月人工投入的开发时间缩短至仅数小时。

DreamGen

DreamGen 是一种合成数据生成流程。机器人学习需要收集大规模人类远程操作数据,成本高昂且耗费人力,而 DreamGen 就有助于解决这一问题,它是 Isaac GR00T-Dreams 的基础,这一蓝图可借助世界基础模型生成海量的合成机器人轨迹数据。

传统的机器人基础模型在面对每一项新任务和新环境时,都需要大量人工演示,这种方式不具备可扩展性。而基于仿真的替代方案则经常受到“仿真到现实”差距的困扰,且需要大量人工工程投入。

DreamGen 通过世界基础模型突破这些限制,仅需极少量人工干预即可生成高真实性、多样化的训练数据。该方法实现了机器人学习的规模化扩展,并能在不同行为模式、环境场景及机器人形态间实现泛化。

6c23f238-7119-11f0-a18e-92fbcf53809c.jpg

图 1. 通过 DreamGen 实现泛化

DreamGen 技术流程包含四个核心步骤:

1. 世界基础模型的后训练:

利用少量真实演示数据,将Cosmos-Predict2等世界基础模型适配至目标机器人。Cosmos-Predict2 能够通过文本生成高质量图像(文本到图像),并通过图像或视频生成视觉仿真内容(视频到世界)。

2. 生成合成视频:

基于经过后训练的模型,通过图像和语言提示,为新任务与新环境创建多样化、逼真的机器人视频。

3. 提取伪动作:

应用潜在动作模型或逆动力学模型 (IDM),将这些视频转换为带标签的动作序列(神经轨迹)。

4. 训练机器人策略:

利用生成的合成轨迹训练视觉运动策略,使机器人能够执行新行为,并能泛化至未见过的场景。

6c468c08-7119-11f0-a18e-92fbcf53809c.jpg

图 2. DreamGen 工作流概览

DreamGen Bench

DreamGen Bench 是一个专门设计的基准测试,用于评估视频生成模型在适配特定机器人形态时的效果,同时考察这些模型对刚体物理规律的内化程度,以及向新物体、新行为和新环境的泛化能力。该基准测试对四个领先的世界基础模型进行测试,分别是 NVIDIA Cosmos、WAN 2.1、混元和 CogVideoX,并衡量两项关键指标:

指令遵循:评估生成视频是否准确反映任务指令(如"拿起洋葱"),采用 Qwen-VL-2.5 等视觉语言模型和人工标注进行双重验证。

物理规律遵循:通过 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真实性,确保视频符合真实世界物理规律。

如图 3 所示,我们发现,在 DreamGen 基准测试中得分较高的模型(即能够生成更真实且符合指令的合成数据的模型),在用于机器人真实操作任务的训练和测试时,也有更优的性能表现。这种正相关关系表明,投入研发更强大的世界基础模型,不仅能提升合成训练数据的质量,还能直接转化为实际应用中能力更强、适应性更优的机器人。

6c59faea-7119-11f0-a18e-92fbcf53809c.jpg

图 3. DreamGen Bench 与 RoboCasa 之间的性能正相关

Isaac GR00T-Dreams

基于 DreamGen 研究的 Isaac GR00T-Dreams,是一套用于生成大规模机器人动作合成轨迹数据集的工作流。这些数据集可用于实体机器人的训练,与收集真实世界动作数据相比,能节省大量时间和人力投入。

GR00T-Dreams 借助 Cosmos Predict2 世界基础模型和Cosmos Reason来为不同任务和环境生成数据。Cosmos Reason 模型包含多模态大型语言模型,能针对用户提示生成基于物理原理的响应。

通用机器人训练模型与工作流

视觉语言动作 (VLA) 模型可以通过世界基础模型生成的数据进行后训练,从而在未知环境中实现新的行为和操作。

NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成训练数据,仅用 36 小时就开发出了GR00T N1的升级版本GR00T N1.5。如果采用人工收集数据的方式,这个过程需要近三个月时间。

GR00T N1 是全球首个面向通用人形机器人的开源基础模型,标志着机器人和 AI 领域的重大突破。该模型采用受人类认知启发的双系统架构,统一了视觉、语言和动作,使机器人能够理解指令、感知环境并执行复杂的多步骤任务。

GR00T N1 以通过视频进行潜在动作预训练 (LAPA) 等技术为基础,能够从无标签的人类视频中学习,同时它还采用了仿真与现实协同训练等方法,通过融合合成数据与真实世界数据来增强模型的泛化能力。本文后续将详细介绍 LAPA 和仿真与现实协同训练技术。通过整合这些创新成果,GR00T N1 不仅能够遵循指令、执行任务,更在复杂且不断变化的环境中,为通用人形机器人的能力设立了新标杆。

GR00T N1.5 是基于 GR00T N1 升级的通用人形机器人开源基础模型,其特点是采用了经过优化的视觉语言模型,该模型训练数据包括真实数据、仿真数据和 DreamGen 生成的合成数据的多样化组合。

通过架构优化与数据质量提升,GR00T N1.5 实现了三大核心突破:提升任务成功率、增强语言理解能力、增强对新物体与任务的泛化能力,从而成为更稳定可靠、适应性更强的先进机器人操作解决方案。

通过视频进行潜在动作预训练

通过视频进行潜在动作预训练 (LAPA) 是一种用于视觉-语言-动作 (VLA) 模型预训练的无监督方法,无需使用成本高昂且需人工标注的机器人动作数据。LAPA 不依赖大规模带标注的数据集,这类数据集的收集既昂贵又耗时,而是利用超过 181,000 个未标注的互联网视频来学习有效的特征表示。

这种方法在真实世界任务中,相比先进模型实现了 6.22% 的性能提升,且预训练效率提高了 30 倍以上,这使得具备可扩展性和稳健性的机器人学习变得更加便捷高效。

LAPA 工作流分为三个阶段:

潜在动作量化:Vector Quantized Variational AutoEncoder (VQ-VAE) 模型通过分析视频帧之间的转换,学习离散的“潜在动作”,从而构建一套基础行为词汇(例如抓取、倾倒)。潜在动作是低维度的习得表征,可概括复杂的机器人行为或运动,便于对高维度动作进行控制或模仿。

潜在预训练:利用行为克隆对 VLM 进行预训练,使其能基于视频观察结果和语言指令,预测第一阶段得到的这些潜在动作。行为克隆是一种模型学习方法,通过将观察结果映射到动作,利用演示数据中的示例来复制或模仿动作。

机器人后训练:之后,使用小型带标签数据集对预训练模型进行后训练,使其适配实体机器人,将潜在动作映射为物理指令。

6c6d40f0-7119-11f0-a18e-92fbcf53809c.jpg

图 4. 潜在动作预训练概览

仿真与现实协同训练工作流

机器人策略训练面临两大关键挑战:一是收集真实世界数据的成本高昂;二是存在“现实差距”,仅在仿真环境中训练的策略,往往难以在真实物理环境中良好运行。

仿真与现实协同训练工作将少量真实世界机器人演示数据与大量仿真数据相结合,有效解决了这些问题。这种方法能够训练出鲁棒策略,同时有效降低成本并弥合现实差距。

6c7cb238-7119-11f0-a18e-92fbcf53809c.jpg

图 5.仿真与现实协同训练工作流概览

该工作流的关键步骤如下:

任务与场景设置:搭建真实世界任务场景,并选择与任务无关的先验仿真数据集。

数据准备:在数据准备阶段,从实体机器人收集真实世界演示数据,同时生成额外的仿真演示数据。这些仿真数据既包括与真实任务高度匹配的、具有任务针对性的“digital cousins”数据,也包括多样化的、与任务无关的先验仿真数据。

协同训练参数调优:随后,将这些不同来源的数据按优化后的协同训练比例进行融合,重点在于对齐摄像头视角并最大化仿真数据的多样性(而非追求照片级真实感)。最后阶段包括批量采样,以及利用真实数据和仿真数据进行策略协同训练,最终得到可部署在机器人上的稳健策略。

6c961318-7119-11f0-a18e-92fbcf53809c.jpg

图 6. 仿真与现实任务对比示意图

如图 7 所示,增加真实演示数据的数量,能提升仅使用真实数据训练策略,以及经过协同训练策略的成功率。即使使用 400 组真实演示数据,协同训练策略的表现仍始终优于仅用真实数据训练的策略,平均提升幅度达 38%。这表明,即便在数据充足的场景中,仿真与现实协同训练依然能带来显著成效。

6ca89484-7119-11f0-a18e-92fbcf53809c.jpg

图 7. 协同训练策略与纯真实数据策略性能对比图

生态系统应用

领先的机器人公司正在采用 NVIDIA 研究中心开发的工作流来加速研发进程。GR00T N 系列模型的早期采用者包括:

AeiRobot:应用该模型使工业机器人能够理解自然语言指令,完成复杂分拣放置任务。

Foxlink:利用模型提升工业机械臂的作业灵活性与操作效率。

光轮智能:通过模型验证合成数据,加速人形机器人在工厂场景的部署进程。

NEURA Robotics:评估模型性能以加速家庭自动化系统的研发。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29865

    浏览量

    214111
  • NVIDIA
    +关注

    关注

    14

    文章

    5333

    浏览量

    106749
  • AI
    AI
    +关注

    关注

    88

    文章

    35612

    浏览量

    281881

原文标题:R?D?:利用 NVIDIA 研究中心的工作流和世界基础模型训练通用机器人

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac 机器人平台利用最新的生成式 AI 和先进的仿真技术,加速 AI 机器人技术的发展

    观众展示了用于人形机器人学习的通用基础模型 Project GR00T(代表通用机器人 00 技术)。Project GR00T 利用
    的头像 发表于 06-04 18:00 ?8181次阅读
    <b class='flag-5'>NVIDIA</b> Isaac <b class='flag-5'>机器人</b>平台<b class='flag-5'>利用</b>最新的生成式 AI 和先进的仿真技术,加速 AI <b class='flag-5'>机器人</b>技术的发展

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台 随着人工智能在语言处理和计算机视觉领域取得突破,机器人技术仍面临现实场景泛化能力的挑战。这一困境的核心在于高质量机器人
    的头像 发表于 03-12 11:42 ?1174次阅读
    AgiBot World Colosseo:构建<b class='flag-5'>通用机器人</b>智能的规模化数据平台

    Al大模型机器人

    丰富的知识储备。它们可以涵盖各种领域的知识,并能够回答相关问题。灵活性与通用性: AI大模型机器人具有很强的灵活性和通用性,能够处理各种类型的任务和问题。持续学习和改进: 这些
    发表于 07-05 08:52

    工业机器人由哪些主要部件构成

    随着中国制造业转型步伐的加快,机器人的使用越来越频繁,作为工厂里的技术工程师必需了解机器人的相关技术,那么通用机器人由什么部件组成呢?
    发表于 05-13 07:45

    工业喷涂机器人实训系统相关资料分享

    性,易于维护和操作方便。喷涂机器人由于实际工作环境要求防爆,其他与通用机器人没有区别,考虑环境问题,采用通用机器
    发表于 07-01 11:41

    工业喷涂机器人实训系统设计

    产量的多变性,易于维护和操作方便。喷涂机器人由于实际工作环境要求防爆,其他与通用机器人没有区别,考虑环境问题,
    发表于 07-01 10:26

    dfrobotGMR通用机器人扩展板简介

    GMR板全称 通用机器人扩展板, 是一块专为家用机器人平台(HCR)设计的集成电路板。
    的头像 发表于 12-26 09:10 ?1904次阅读
    dfrobotGMR<b class='flag-5'>通用机器人</b>扩展板简介

    通用机器人什么时候上线

    通用性只是通用机器人的应用表象,隐变量才是其科学本质。不能解决隐变量的干扰,就不可能使其具备通用性。
    发表于 06-18 11:05 ?782次阅读

    NVIDIA发布一款人形机器人通用基础模型—Project GR00T

    NVIDIA 于今日发布人形机器人通用基础模型 Project GR00T,旨在进一步推动其在机器人和具身智能方面的突破。
    的头像 发表于 03-20 10:00 ?1245次阅读

    逐际动力携手英伟达Isaac平台, 助力通用机器人研发

    在近日举行的年度计算机视觉与模式识别会议(CVPR)上,英伟达发布了其最新版本的NVIDIA Isaac Sim。与此同时,逐际动力也宣布将采用这一升级版的Isaac平台,以强化学习和提升通用机器人的泛化能力为核心目标,推动机器人
    的头像 发表于 06-21 09:34 ?2869次阅读

    地瓜机器人发布一系列通用机器人套件

    在“机器人+”浪潮的推动下,地瓜机器人近日隆重推出了一系列面向未来的软硬件产品组合,旨在赋能新一代通用机器人的发展。此次发布的亮点包括旭日5智能计算芯片、RDK X5机器人开发者套件以
    的头像 发表于 09-25 15:56 ?895次阅读

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和
    的头像 发表于 01-08 10:39 ?619次阅读

    NVIDIA发布Cosmos?平台,助力物理AI系统发展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平台,该平台专为自动驾驶汽车(AV)和机器人等物理AI系统而设计,旨在推动这些领域的快速发展。
    的头像 发表于 01-08 15:36 ?663次阅读

    英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosm
    的头像 发表于 01-14 11:04 ?1392次阅读
    英伟达推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解决智驾与<b class='flag-5'>机器人</b>具身智能<b class='flag-5'>训练</b>数据问题

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的
    的头像 发表于 07-14 11:49 ?333次阅读
    通过<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增强<b class='flag-5'>机器人</b>学习