利用NVIDIA Cosmos模型训练通用机器人-电子发烧友网

机器人领域的一大核心挑战在于如何让机器人掌握新任务，而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型（如NVIDIA Cosmos）以及数据生成蓝图（如Isaac GR00T-Mimic与GR00T-Dreams）来克服这一挑战。

本期 NVIDIA 机器人研究与开发摘要 (R?D?) 将介绍如何通过世界基础模型实现可扩展的合成数据生成与机器人模型训练工作流，具体包括：

DreamGen：Isaac GR00T-Dreams blueprint的研究基础。

GR00T N1：开源基础模型，使机器人能够通过真实数据、人类演示和合成数据学习跨任务与形态的通用技能。

通过视频进行潜在动作预训练：无监督的学习方法，无需人工动作标注，就能从大规模视频中学习机器人相关动作。

仿真与现实协同训练：结合仿真环境与真实世界机器人数据的训练方法，可构建更具鲁棒性和适应性的机器人策略。

机器人世界基础模型

NVIDIA Cosmos 世界基础模型经过数百万小时真实世界数据训练，能够预测未来世界状态，并基于单张输入图像生成视频序列。这项技术使机器人和自动驾驶车辆具备预判未来事件的能力，这种预测能力对于合成数据生成流程至关重要，有助于快速创建多样化、高保真的训练数据。这一方法大幅加速了机器人的学习过程，提升了模型的鲁棒性，并将原本需要数月人工投入的开发时间缩短至仅数小时。

DreamGen

DreamGen 是一种合成数据生成流程。机器人学习需要收集大规模人类远程操作数据，成本高昂且耗费人力，而 DreamGen 就有助于解决这一问题，它是 Isaac GR00T-Dreams 的基础，这一蓝图可借助世界基础模型生成海量的合成机器人轨迹数据。

传统的机器人基础模型在面对每一项新任务和新环境时，都需要大量人工演示，这种方式不具备可扩展性。而基于仿真的替代方案则经常受到“仿真到现实”差距的困扰，且需要大量人工工程投入。

DreamGen 通过世界基础模型突破这些限制，仅需极少量人工干预即可生成高真实性、多样化的训练数据。该方法实现了机器人学习的规模化扩展，并能在不同行为模式、环境场景及机器人形态间实现泛化。

图 1. 通过 DreamGen 实现泛化

DreamGen 技术流程包含四个核心步骤：

1. 世界基础模型的后训练：

利用少量真实演示数据，将Cosmos-Predict2等世界基础模型适配至目标机器人。Cosmos-Predict2 能够通过文本生成高质量图像（文本到图像），并通过图像或视频生成视觉仿真内容（视频到世界）。

2. 生成合成视频：

基于经过后训练的模型，通过图像和语言提示，为新任务与新环境创建多样化、逼真的机器人视频。

3. 提取伪动作：

应用潜在动作模型或逆动力学模型 (IDM)，将这些视频转换为带标签的动作序列（神经轨迹）。

4. 训练机器人策略：

利用生成的合成轨迹训练视觉运动策略，使机器人能够执行新行为，并能泛化至未见过的场景。

图 2. DreamGen 工作流概览

DreamGen Bench

DreamGen Bench 是一个专门设计的基准测试，用于评估视频生成模型在适配特定机器人形态时的效果，同时考察这些模型对刚体物理规律的内化程度，以及向新物体、新行为和新环境的泛化能力。该基准测试对四个领先的世界基础模型进行测试，分别是 NVIDIA Cosmos、WAN 2.1、混元和 CogVideoX，并衡量两项关键指标：

指令遵循：评估生成视频是否准确反映任务指令（如"拿起洋葱"），采用 Qwen-VL-2.5 等视觉语言模型和人工标注进行双重验证。

物理规律遵循：通过 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真实性，确保视频符合真实世界物理规律。

如图 3 所示，我们发现，在 DreamGen 基准测试中得分较高的模型（即能够生成更真实且符合指令的合成数据的模型），在用于机器人真实操作任务的训练和测试时，也有更优的性能表现。这种正相关关系表明，投入研发更强大的世界基础模型，不仅能提升合成训练数据的质量，还能直接转化为实际应用中能力更强、适应性更优的机器人。

图 3. DreamGen Bench 与 RoboCasa 之间的性能正相关

Isaac GR00T-Dreams

基于 DreamGen 研究的 Isaac GR00T-Dreams，是一套用于生成大规模机器人动作合成轨迹数据集的工作流。这些数据集可用于实体机器人的训练，与收集真实世界动作数据相比，能节省大量时间和人力投入。

GR00T-Dreams 借助 Cosmos Predict2 世界基础模型和Cosmos Reason来为不同任务和环境生成数据。Cosmos Reason 模型包含多模态大型语言模型，能针对用户提示生成基于物理原理的响应。

通用机器人训练模型与工作流

视觉语言动作 (VLA) 模型可以通过世界基础模型生成的数据进行后训练，从而在未知环境中实现新的行为和操作。

NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成训练数据，仅用 36 小时就开发出了GR00T N1的升级版本GR00T N1.5。如果采用人工收集数据的方式，这个过程需要近三个月时间。

GR00T N1 是全球首个面向通用人形机器人的开源基础模型，标志着机器人和 AI 领域的重大突破。该模型采用受人类认知启发的双系统架构，统一了视觉、语言和动作，使机器人能够理解指令、感知环境并执行复杂的多步骤任务。

GR00T N1 以通过视频进行潜在动作预训练 (LAPA) 等技术为基础，能够从无标签的人类视频中学习，同时它还采用了仿真与现实协同训练等方法，通过融合合成数据与真实世界数据来增强模型的泛化能力。本文后续将详细介绍 LAPA 和仿真与现实协同训练技术。通过整合这些创新成果，GR00T N1 不仅能够遵循指令、执行任务，更在复杂且不断变化的环境中，为通用人形机器人的能力设立了新标杆。

GR00T N1.5 是基于 GR00T N1 升级的通用人形机器人开源基础模型，其特点是采用了经过优化的视觉语言模型，该模型训练数据包括真实数据、仿真数据和 DreamGen 生成的合成数据的多样化组合。

通过架构优化与数据质量提升，GR00T N1.5 实现了三大核心突破：提升任务成功率、增强语言理解能力、增强对新物体与任务的泛化能力，从而成为更稳定可靠、适应性更强的先进机器人操作解决方案。

通过视频进行潜在动作预训练

通过视频进行潜在动作预训练 (LAPA) 是一种用于视觉-语言-动作 (VLA) 模型预训练的无监督方法，无需使用成本高昂且需人工标注的机器人动作数据。LAPA 不依赖大规模带标注的数据集，这类数据集的收集既昂贵又耗时，而是利用超过 181,000 个未标注的互联网视频来学习有效的特征表示。

这种方法在真实世界任务中，相比先进模型实现了 6.22% 的性能提升，且预训练效率提高了 30 倍以上，这使得具备可扩展性和稳健性的机器人学习变得更加便捷高效。

LAPA 工作流分为三个阶段：

潜在动作量化：Vector Quantized Variational AutoEncoder (VQ-VAE) 模型通过分析视频帧之间的转换，学习离散的“潜在动作”，从而构建一套基础行为词汇（例如抓取、倾倒）。潜在动作是低维度的习得表征，可概括复杂的机器人行为或运动，便于对高维度动作进行控制或模仿。

潜在预训练：利用行为克隆对 VLM 进行预训练，使其能基于视频观察结果和语言指令，预测第一阶段得到的这些潜在动作。行为克隆是一种模型学习方法，通过将观察结果映射到动作，利用演示数据中的示例来复制或模仿动作。

机器人后训练：之后，使用小型带标签数据集对预训练模型进行后训练，使其适配实体机器人，将潜在动作映射为物理指令。