0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过NVIDIA Cosmos模型增强机器人学习

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-07-14 11:49 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练数据来掌握诸如组装和检查之类的技能,而手动演示的方式难以扩展。基于NVIDIA Cosmos构建的NVIDIA Isaac GR00T-Dreams blueprint,可以通过单张图像和语言提示生成海量的合成轨迹数据,能够有效解决这一难题。

利用 Cosmos 世界基础模型 (WFMs) 和生成式 AI,开发者可以快速创建用于训练诸如NVIDIA Isaac GR00T N1.5(全球首个面向人形机器人推理和技能的开源基础模型)等模型的数据。

本文将介绍 Isaac GR00T-Dreams blueprint,详述其先进功能及其在开发 Isaac GR00T N1.5 基础模型中的作用。

GR00T-Dreams blueprint 概览

Isaac GR00T-Dreams blueprint 是用于生成大量合成轨迹数据的参考工作流,生成的数据可以用于教会人形机器人在新环境中执行新动作。

借助这一蓝图,机器人仅需极少量的人类演示数据,就能够泛化各种行为,并适应新的环境。因此,一个小型人类演示团队就能创造出以往需要数千人才能产出的训练数据量。

GR00T-Dreams blueprint 是对Isaac GR00T-Mimic blueprint的补充。通过使用NVIDIA Omniverse和 Cosmos Transfer-1 WFM 扩展已知任务的现有演示数据,GR00T-Mimic 可帮助机器人培养深度熟练程度,并成为这些特定技能的专家。GR00T-Dreams 采用 Cosmos Predict-2 和 Cosmos Reason 为新任务和环境生成全新数据,致力于使机器人成为具有广泛适应性的通用机器人。

GR00T-Dreams blueprint 工作流

该蓝图为训练通用机器人提供强大的“现实到现实 (real-to-real)”数据工作流,使用真实机器人数据创建合成轨迹,然后用于训练物理机器人。这种方法显著减少了对大量人类演示的需求。具体步骤如下:

8a78bc1e-5e3b-11f0-baa5-92fbcf53809c.jpg

图 1. GR00T-Dreams blueprint 架构

第一步:利用人类演示进行后训练

首先,开发者收集用于人形机器人在单一环境中执行单一任务(如抓取与放置)的一组有限的人类远程操作轨迹。然后利用这些真实世界数据对 Cosmos Predict-2 世界基础模型进行后训练。这一步骤可让模型学习该机器人特有的特定移动能力和功能约束。

第二步:生成“梦境”

接下来,开发者向经过微调的 Cosmos 模型输入初始图像和基于文本的新指令,要求生成的机器人执行相应动作。这会促使生成式模型创建大量多样化和新颖的任务场景或未来世界状态(也称为“梦境”),例如打开、关闭、整理物体、清洁和分类等。这些场景以 2D 视频的形式创建。

第三步:推理和过滤

生成大量“梦境”后,Cosmos Reason 模型可用于评估每个“梦境”的质量和成功率。它会过滤掉“不好的梦境”,也就是描绘不成功或有缺陷的任务尝试,确保仅让高质量和相关的场景进入下一阶段。

第四步:提取神经轨迹

选中的“梦境”最初只是 2D 视频中的像素,随后利用逆动力学模型 (IDM) 生成 3D 动作轨迹。IDM是用于动作标记的生成式 AI 模型,该模型通过输入 2D 视频中的两个图像帧,即“之前”和“之后”的画面,预测出这两个画面之间发生的一系列动作。

这一步骤将“梦境”视频中的视觉信息转化为机器人能够学习的可操作数据。这些已添加 3D 动作数据的 2D 视频被称为神经轨迹。

第五步:训练视觉运动策略

最后,这些神经轨迹作为大规模的合成数据集,用于训练视觉运动策略,既可以与真实世界数据协同训练以增强性能,也可以仅通过对这些数据进行训练,来实现对新行为和不可见环境的泛化。

用于机器人学习的高级功能

GR00T-Dreams 为机器人学习提供了先进的功能,包括新行为、新环境等。

新行为:即使仅有单一任务(例如抓取与放置)的训练数据,机器人也能从语言指令中学习新动作。

由 GR00T-Dreams 支持的机器人打开笔记本电脑的神经轨迹和真实机器人 (Fourier GR-1) 执行情况

新环境:即使世界模型仅在一个实验室环境中训练过,机器人也能够泛化到完全未见过的环境。

由 GR00T-Dreams 支持的机器人将橘子放入碗中的神经轨迹和真实机器人 (Fourier GR-1) 执行情况

多种机器人类型:适用于从人形机器人到机械臂(如 Franka 和 SO-100)等不同类型的机器人,并支持多种摄像头视图。

由 GR00T-Dreams 支持的 Franka 机械臂和 SO-100 机械臂执行不同操作任务

针对复杂任务增强学习:为具有挑战性的接触密集型任务,比如操作可变形物体(折叠)或使用工具(锤击)等增强训练数据,形成从初始真实画面开始的“真实到真实”工作流。

由 GR00T-Dreams 支持的机器人锤击操作的神经轨迹和真实机器人 (Fourier GR-1) 执行情况

使用 GR00T-Dreams

对 GR00T N1.5 进行后训练

可以使用 GR00T-Dreams 对视觉语言动作 (VLA) 模型进行后训练,以在未见过的环境中实现新行为和操作。

NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成训练数据,仅用 36 小时就完成了 GR00T N1.5 的开发。如果使用人工收集人类数据,这一过程需要近三个月的时间。

GR00T N1.5 是 GR00T N1 的首次更新,GR00T N1 是全球首个面向通用人形机器人推理和技能的开源基础模型。这个跨形态模型可以接收语言和图像等多模态输入,在多样化的环境中执行操作任务。

GR00T N1.5 的新功能:

提高对语言指令的理解准确性

借助 Isaac GR00T-Dreams,增强对新物体和新环境的泛化能力

通过 Eagle 2.5 提供更好的空间理解和开放世界视觉定位,提升视觉语言基础

在材料处理和制造任务中成功率更高

开源的 NVIDIA 物理 AI 数据集

NVIDIA 扩展了其开源物理AI数据集。该数据集是 Hugging Face 上下载量最多的机器人数据集,最初于 2025 年 3 月推出,如今新增了数千条机器人轨迹,包括 Unitree G1 机器人的首批真实训练数据和 24,000 条仿真远程操作轨迹。

该数据集还包含各种操作任务的合成仿真数据,在开发 GR00T N1.5 的过程中发挥了重要的作用。

GR00T N 模型在机器人生态系统的应用

GR00T N 模型已经被很多生态合作伙伴采用,包括 AeiRobot、Foxlink、光轮智能和 NEURA Robotics 等。

AeiRobot 利用这一模型使其工业机器人能够理解自然语言,从而完成复杂的抓取与放置任务。Foxlink 利用这一模型提高其工业机械臂的灵活性和效率。光轮智能借助这一模型验证合成数据,以加快人形机器人在工厂中的部署。NEURA Robotics 正在评估这一模型,以加速其家用自动化系统的开发。

开始加速机器人学习

Isaac GR00T-Dreams blueprint 是用于生成大量合成轨迹数据的参考工作流,这些数据可用于教会人形机器人在新环境中执行新动作。这一蓝图使机器人仅需极少量的人类演示数据,就能够泛化各种行为,并适应新的环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106632
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565
  • 人形机器人
    +关注

    关注

    7

    文章

    750

    浏览量

    17671

原文标题:通过世界基础模型生成的合成轨迹数据增强机器人学习

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA展示机器人领域的研究成果

    在今年的机器人科学与系统会议 (RSS) 上,NVIDIA 研究中心展示了一系列推动机器人学习的研究成果,展示了在仿真、现实世界迁移和决策制定领域的突破。
    的头像 发表于 07-23 10:43 ?373次阅读

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有
    的头像 发表于 07-14 15:29 ?734次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab可用环境与强化<b class='flag-5'>学习</b>脚本使用指南

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 开源其物理 AI 平台 NVIDIA Cosmos 中的关键模型——NVIDIA C
    的头像 发表于 07-09 10:17 ?212次阅读

    NVIDIA Isaac Sim和Isaac Lab现已推出早期开发者预览版

    NVIDIA 发布了机器人仿真参考应用 Isaac Sim 和机器人学习框架 Isaac Lab 的开发者预览版。开发者现在可以通过 GitHub 访问早期版本,抢先体验先进功能,用于
    的头像 发表于 07-04 14:23 ?572次阅读

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期发布了 Cosmos Reason-1 的 7B 和 56B 两款多模态大语言模型 (MLLM),它们经过了“物理 AI 监督微调”和“物理 AI 强化学习”两个阶段
    的头像 发表于 06-04 13:43 ?344次阅读

    NVIDIA Isaac Sim与NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了机器人仿真参考应用 NVIDIA Isaac Sim 和机器人学习框架 NVIDIA
    的头像 发表于 05-28 10:06 ?646次阅读

    NVIDIA Cosmos加速机器人和自动驾驶汽车物理AI发展

    NVIDIA Cosmos 通过可预测未来世界状态的世界基础模型加速物理 AI 的发展。
    的头像 发表于 04-24 11:01 ?607次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>加速<b class='flag-5'>机器人</b>和自动驾驶汽车物理AI发展

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    模型可实现物理 AI 的预测、可控世界生成和推理。 两款全新Blueprint为机器人和自动驾驶汽车后训练提供海量物理 AI 合成数据生成技术。 1X、Agility Robotics
    的头像 发表于 03-20 19:01 ?929次阅读

    深度解读英伟达Newton机器人平台:技术革新与跨界生态构建

    Newton是由NVIDIA、Google DeepMind和Disney Research开发的开源、可扩展的物理引擎,旨在推进机器人学习和开发。 Newton建立在 NVIDIA Warp
    的头像 发表于 03-20 15:15 ?1808次阅读
    深度解读英伟达Newton<b class='flag-5'>机器人</b>平台:技术革新与跨界生态构建

    英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosm
    的头像 发表于 01-14 11:04 ?1361次阅读
    英伟达推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解决智驾与<b class='flag-5'>机器人</b>具身智能训练数据问题

    NVIDIA发布Cosmos平台,加速物理AI开发

    )和机器人等物理AI系统的快速发展。 Cosmos平台的核心在于其强大的生成式世界基础模型,能够模拟和预测复杂环境中的各种物理现象。结合高级tokenizer,Cosmos能够高效地处
    的头像 发表于 01-13 11:06 ?826次阅读

    NVIDIA发布Cosmos?平台,助力物理AI系统发展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平台,该平台专为自动驾驶汽车(AV)和机器人等物理AI系统而设计,旨在推动这些领域的快速发展。
    的头像 发表于 01-08 15:36 ?646次阅读

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和
    的头像 发表于 01-08 10:39 ?597次阅读

    NVIDIA发布全新AI和仿真工具以及工作流

    NVIDIA 在本周于德国慕尼黑举行的机器人学习大会(CoRL)上发布了全新 AI 和仿真工具以及工作流。机器人开发者可以使用这些工具和工作流,大大加快 AI 机器人(包括人形
    的头像 发表于 11-09 11:52 ?975次阅读

    麻省理工学院推出新型机器人训练模型

    近日,据TechCrunch报道,麻省理工学院的研究团队展示了一种创新的机器人训练模型,该模型突破了传统模仿学习方法的局限,不再依赖标准数据集,而是借鉴了大型语言
    的头像 发表于 11-04 14:56 ?984次阅读