0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于大规模人类操作数据预训练的VLA模型H-RDT

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-08-21 09:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

H-RDT人类的“本能”,机器人的“捷径利用人类数据增强机器人操作能力

近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR/AR头显和3D视觉技术的显著进步,当前只需极低成本即可采集大量带有精确人手关节标注的第一人称人类操作视频

为此,我们提出基于大规模人类操作数据预训练的VLA模型H-RDT(Human to Robotics Diffusion Transformer)。实验表明,H-RDT在仿真和真实场景中的多种本体上表现优异,对比主流VLA模型具有明显优势。H-RDT模型曾参加CVPR 2025 RoboTwin双臂机器人比赛获真机赛冠军和仿真赛亚军。

? 论文题目:

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

?论文链接:

https://arxiv.org/abs/2507.23523

?项目主页:

https://embodiedfoundation.github.io/hrdt

H-RDT 架构

e17884ba-7cf2-11f0-a18e-92fbcf53809c.jpg

H-RDT是一个具有20亿参数的扩散Transformer,使用流匹配来建模双臂机器人的复杂动作分布。H-RDT采用两阶段训练范式:1)在大规模第一人称人类数据上预训练;2)通过模块化动作编解码器在机器人数据上进行微调,实现跨本体迁移。

人类动作表征设计

我们采用较为精细的3D手部姿态表示方法,将动作编码为紧凑的48维向量,以捕捉关键的双手灵巧操作信息:

双手手腕位姿 (Bilateral Wrist Pose) :

(1)左右手的3D位置(3×2)与6D姿态(6×2),共计18维;

(2)与机器人控制中的末端执行器 (End-Effector) 控制参数对齐;

十个手指的指尖位置 (Fingertip Position) :

(1)每个手五根手指,各提取一个三维坐标,总共10×3=30维;

(2)用于表达手指张合、握持形态等细粒度操作意图。

总计:18(手腕)+30(指尖)=48维动作表示

这种表征策略的优势体现在三个方面:

(1)动作通用性强:该表示可以视作覆盖大多数操作型机器人的“上层动作空间”,能覆盖如双臂7-DoF机械臂、并联夹爪等控制参数;

(2)保留人类操作的关键特征:指尖相对位置、手腕旋转、抓取姿态等都被编码在其中,保留了对操控几何和力学要素的刻画能力;

(3)提供显式的动力学参数:相比于point flow等表征方式,无需额外增加动力学映射,更为聚焦操作语义。

模型结构

H-RDT构建了一个五模块组成的DiT (Diffusion Transformer) 框架,负责从多模态感知输入生成机器人控制序列:

视觉编码器 (DinoV2+SigLIP) :提取RGB观测的视觉特征;配有MLP Adapter映射到transformer嵌入空间。

语言编码器 (T5-XXL) :编码自然语言任务指令;同样通过MLP Adapter接入主干。

模块化动作编/解码器:编码器对机器人状态向量与噪声动作轨迹分别编码;解码器将输出特征解码为Action Chunk,其在微调阶段对不同本体重新初始化。

Transformer主干(类LLaMA3架构):使用SwiGLU激活与RMSNorm;使用解耦交叉注意力分别对视觉和语言信息进行融合;流时间 (τ) 通过AdaLN注入。

两阶段训练范式

阶段一:人类数据预训练

第一阶段使用EgoDex数据集,以48维人手动作表征对H-RDT进行预训练。EgoDex数据集包括338 K+条轨迹、涵盖194项不同操作任务,全面覆盖了人类操作策略、物体交互方式以及双手协作。

阶段二:跨本体微调

第二阶段对特定机器人本体微调时,需重新初始化动作编码器和解码器子模块以适应不同本体,其余模块使用预训练权重进行微调。

e18f8ff2-7cf2-11f0-a18e-92fbcf53809c.png

流匹配训练方法

H-RDT采用流匹配 (Flow Matching) 来生成动作,相较于传统的扩散建模,该方法提供了更优的训练稳定性和推理效率。

①训练目标:学习一个将高斯噪声连续映射为目标动作序列的向量场;

②流程设计:

其中

e1a74c00-7cf2-11f0-a18e-92fbcf53809c.svg

表示当前“动作点”在高斯噪声与真实动作之间线性插值。

③训练损失:

e1b6958e-7cf2-11f0-a18e-92fbcf53809c.svg

其中是e1c6f50a-7cf2-11f0-a18e-92fbcf53809c.svg要学习的向量场,e1dd2e92-7cf2-11f0-a18e-92fbcf53809c.svg是图像、状态和语言的上下文条件。

④推理阶段:使用ODE求解器积分向量场路径,实现稳定高效的动作生成。

实验结果

真机实验

我们在三种真实机器人上进行多任务训练,用于验证模型的跨本体迁移能力与实际部署的鲁棒性。

1)Aloha-Agilex-2.0实验

两项任务均采用基于子任务的评分体系,全部完成视为完全成功。各方法各任务均测试25次。

任务1叠毛巾:测试模型连续折叠柔性物体的能力。

实验结果如下表所示,H-RDT的完全成功率为52%,RDT为40%,未经人类数据预训练的模型成功率为0。

e269bef2-7cf2-11f0-a18e-92fbcf53809c.png

任务2将杯子放到杯垫上:该任务测试模型的空间推理能力,要求模型根据杯子的自动选择合适的手去抓杯子(左侧杯子必须用左手抓,右侧杯子必须用右手抓)。

实验结果如下表所示,H-RDT的完全成功率为64%,RDT为28%,未经人类数据预训练的模型成功率为20%。

e2db5526-7cf2-11f0-a18e-92fbcf53809c.png

2)双臂ARX5小样本实验

我们设计了一个极具挑战的任务:在双臂ARX5机器人上完成113个不同的抓取放置任务,每个任务仅提供1到5个示范样本。

e2ee7228-7cf2-11f0-a18e-92fbcf53809c.jpg

实验结果如下表所示,H-RDT成功率达到了41.6%,而π0仅为31.2%,RDT为16%,未经人类数据预训练的模型17.6%。

e30448b4-7cf2-11f0-a18e-92fbcf53809c.png

3)双臂UR5+UMI实验

我们在双臂UR5机器人上评估了H-RDT,人类演示数据通过UMI收集。任务为双手协作放置外卖袋,细分为四个连续步骤:右手抓取 → 右手放置 → 左手抓取 → 左手放置。

e317f940-7cf2-11f0-a18e-92fbcf53809c.jpg

实验结果如下表所示,H-RDT完全成功率达到58.0%,远超RDT(29%)、 π0(31%)、未经人类数据预训练的版本(16%)。

e329cb98-7cf2-11f0-a18e-92fbcf53809c.png

仿真测试

我们在仿真环境RoboTwin 2.0上进行了全面测试,包括单任务和多任务设置:

单任务实验:在RoboTwin 2.0基准测试的13项操作任务上评估单任务性能。每项任务使用简单模式下收集的50个演示样本进行训练,并在两种模式下评估:包括简单模式(干净桌面)与困难模式(随机光照、杂乱环境)。

H-RDT在简单模式下取得了最高68.7%的平均成功率,在困难模式下为25.6%,显著优于其他方法;且在简单和困难模式下均大幅超越未经人类数据预训练的版本 (w/o human) ,证明了利用人类操作数据预训练的有效性。

e33a93ec-7cf2-11f0-a18e-92fbcf53809c.jpg

多任务实验:在RoboTwin 2.0的45项任务上进行多任务实验,使用在困难模式下收集的约2250个演示样本进行训练,评估了10项任务子集。实验结果如下表所示。

e34d8dda-7cf2-11f0-a18e-92fbcf53809c.png

在多任务场景中,H-RDT取得了高达87.2%的平均成功率,显著优于RDT(28.8%)、π0(48.4%)和未经人类数据预训练的版本w/o human(67.2%)。H-RDT相较于未经人类数据预训练版本w/o human平均成功率提高了20.0%,明显大于在单任务场景。这表明,在多任务场景中,利用人类操作数据进行预训练能提供更好的性能。

跨本体泛化:为进一步验证H-RDT的跨本体迁移能力,在仿真环境中对两种不同的机器人本体Aloha-Agilex-1.0和Franka-Panda进行了多任务实验,实验结果如下图所示。

e361ab80-7cf2-11f0-a18e-92fbcf53809c.png

H-RDT在两种机器人上均表现出很强的性能,在 Aloha-Agilex-1.0上达到87.2%的成功率,在Franka-Panda上达到62.9%的成功率,在两个机器人上均显著优于基线方法。

总结与展望

本文提出H-RDT模型,使用具有3D手部位姿标注的第一人称人类操作视频预训练以增强双臂机器人的操作能力。展望未来,面对数据采集成本高、模型泛化困难等挑战,人类操作数据凭借其极低的采集成本和丰富的操作语义,将成为机器人策略学习不可忽视的新“宝藏”。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29985

    浏览量

    214729
  • 仿真
    +关注

    关注

    52

    文章

    4320

    浏览量

    136345
  • 模型
    +关注

    关注

    1

    文章

    3555

    浏览量

    50798

原文标题:开发者说|H-RDT:基于人类操作数据的跨本体机器人学习

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【大语言模型:原理与工程实践】大语言模型训练

    增长。DeepMind在相关论文中指出,模型大小和训练Token数应以相似速率增长,以确保最佳性能。因此,构建与模型规模相匹配的
    发表于 05-07 17:10

    使用ADO操作数据

    使用ADO操作数据库要运行程序必须将数据库文件demo.mdb与可执行文件放在一起,如果在vc开发环境中运行,则需要将该数据库文件放在工程目录下
    发表于 10-15 11:41

    使用DAO操作数据

    使用DAO操作数据库要运行程序必须将数据库文件course.mdb与可执行文件放在一起,如果在vc开发环境中运行,则需要将该数据库文件放在工程目录下
    发表于 10-15 11:42

    pymysql怎么简单的操作数据

    pymysql简单操作数据
    发表于 05-01 07:33

    python的操作数据

    python操作数据
    发表于 05-20 12:11

    C#教程之Linq操作数组集合

    C#教程之Linq操作数组集合,很好的C#资料,快来学习吧。
    发表于 04-20 15:27 ?5次下载

    驾驶操作数据采集系统设计研究

    驾驶操作数据采集系统设计研究
    发表于 01-22 21:11 ?12次下载

    《Dot.NET数据库开发技术》操作数据

    《Dot.NET数据库开发技术》操作数据
    发表于 02-07 15:11 ?0次下载

    附加固件下载固件以操作数据记录器其他数据范围。

    附加固件下载固件以操作数据记录器其他数据范围。
    发表于 06-06 08:16 ?5次下载
    附加固件下载固件以<b class='flag-5'>操作数据</b>记录器其他<b class='flag-5'>数据</b>范围。

    如何向大规模训练语言模型中融入知识?

    本文关注于向大规模训练语言模型(如RoBERTa、BERT等)中融入知识。
    的头像 发表于 06-23 15:07 ?4807次阅读
    如何向<b class='flag-5'>大规模</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>语言<b class='flag-5'>模型</b>中融入知识?

    PLC编程中的操作数是什么

    操作数是指等待CPU处理的数据,也是指等待处理的数据所在的内存地址。操作数包括标识符和标识参数,标识符分为主标识符和辅助标识符。 (1)标识符(存储
    发表于 12-20 10:13 ?8801次阅读

    文本训练模型架构及相关数据

    多模态训练数据通常来源于大规模的模态间对齐样本对。由于时序维度的存在,视频当中包含了比图片更加丰富而冗余的信息。因此,收集大规模的视频-
    的头像 发表于 07-01 11:08 ?2494次阅读

    PyTorch教程11.9之使用Transformer进行大规模训练

    电子发烧友网站提供《PyTorch教程11.9之使用Transformer进行大规模训练.pdf》资料免费下载
    发表于 06-05 15:07 ?0次下载
    PyTorch教程11.9之使用Transformer进行<b class='flag-5'>大规模</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>

    扫描操作数的信号上升沿

    使用“扫描操作数的信号上升沿”指令,可以确定所指定操作数)的信号状态是否从“0”变为“1”。
    的头像 发表于 06-27 09:39 ?3279次阅读
    扫描<b class='flag-5'>操作数</b>的信号上升沿

    西门子博途:扫描操作数的信号下降沿

    使用“扫描操作数的信号下降沿”指令,可以确定所指定操作数)的信号状态是否从“1”变为“0”。
    的头像 发表于 07-17 10:51 ?3646次阅读
    西门子博途:扫描<b class='flag-5'>操作数</b>的信号下降沿