0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于扩散模型的视频生成框架RoboTransfer

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-07-09 14:02 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

RoboTransfer

几何约束&条件可控视频生成

具身数据合成新范式

机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟到现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。

我们提出RoboTransfer一基于扩散模型的视频生成框架,旨在合成高保真且符合物理规律的机器人操作演示数据。该框架创新性地融合深度-表面法向的几何约束与多视角特征建模,确保生成视频具备高度几何一致性与真实感。通过拆分控制条件设计,实现对操作场景元素(如背景替换、物体外观)的精细控制。结合物理仿真器重构空间布局与交互状态,实现多样化、可拓展的高保真数据合成。

RoboTransfer通过数据驱动的生成式Ai技术,建立机器人操作数据合成新范式,提供高质量、可扩展的演示数据,助力具身智能突破通用性与泛化性边界。

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异 (即sim-to-real gap) ,导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。因此如何高效获取、生成和利用高质量的具身数据,已成为当前机器人学习领域的核心挑战之一。

近日,地平线、极佳科技与中国科学院自动化研究所等单位提出RoboTransfer,基于扩散模型的视频生成框架,可以用于扩充机器人策略模型的训练数据。得益于合成数据的多样性,下游策略模型能够在新场景下取得251%的显著提升,大幅提升策略模型的泛化性,为具身智能的通用性与泛化性奠定了坚实的基础。

?论文链接:

https://arxiv.org/pdf/2505.23171

? 项目主页:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿学习 (Imitation Learning) 已成为机器人操作领域的重要方法之一。通过让机器人“模仿”专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然而,这类方法通常依赖大量高质量的真实机器人演示数据,而数据采集过程成本高、周期长,严重制约了其扩展性和泛化能力。

为了解决上述问题,本项工作提出了RoboTransfer,一种基于扩散模型 (diffusion model) 的视频生成框架,旨在实现高质量的机器人操作场景数据合成。不同于传统的仿真方法或现有生成模型,RoboTransfer融合了多视角几何信息,并对场景中的关键组成成分(如背景、物体属性等)实现了显式控制。具体而言,RoboTransfer通过引入跨视角特征交互机制以及全局深度图与法向图作为条件输入,确保生成视频在多个视角下的几何一致性。此外,该框架支持细粒度的编辑控制,例如更换背景、替换目标物体等,从而能够灵活地生成多样化、结构合理的视觉数据。

实验结果表明,RoboTransfer能够生成具有高几何一致性和视觉质量的多视角视频序列。此外,使用RoboTransfer合成数据训练的机器人视觉策略模型,在标准测试任务中表现出显著提升的性能:在更换前景物体的场景下取得了33.3%的成功率相对提升,在更具挑战性的场景下(同时更换前景背景)更是达到了251%的显著提升。

RoboTransfer的整体框图如下,为了在视频生成过程中保证多视角之间的一致性,RoboTransfer引入了多视角一致性建模机制,使得生成过程能够联合不同视角的信息进行推理,从而提升生成结果的空间连贯性与视觉合理性。

此外,在控制条件的设计方面,RoboTransfer通过将控制信号解耦为几何信息与外观(纹理)信息两个部分,实现了对生成内容的细粒度控制。具体来说,在几何控制方面,采用深度图 (depth map) 和表面法向图 (surface normal map) 等具有强结构约束的表示方式,来引导生成视频中物体的三维空间结构,确保在不同视角下生成内容的几何一致性。而在外观控制方面,模型利用参考背景图像和目标物体的参考图像作为输入条件,这些图像经过编码后能够有效保留原始场景的色彩、纹理以及上下文信息,从而在生成过程中维持物体外观的细节还原能力。

在实验部分,RoboTransfer证明可以通过real-to-real,以及sim-to-real两种方式实现数据增广,并训练下游的策略模型提升其性能。

real-to-real数据增广

基于真机采集的真实视频数据,可从中提取结构化信息作为控制条件,通过调整背景桌面与前景物体的控制参数,实现新场景数据的合成。如下图所示,左侧为真实采集的数据及其对应的结构化信息,右侧为合成结果,实验表明RoboTransfer能够灵活地实现背景桌布的替换。

改变前景:下图所示第一行为真机采集数据,第二行为深度图,第三行为法向图,第四行为前景物体的控制条件,第五行为合成数据,第六行为背景桌布控制条件。以下实验结果表明RoboTransfer可以实现对前景物体外表编辑的功能,丰富生成数据的多样性,提升策略模型的训练质量。

sim-to-real数据增广

RoboTransfer不仅可以改变真机数据的前景和背景,还可以实现对仿真数据的重新渲染。利用仿真数据中的结构化信息以及真实场景的物体和背景作为控制条件,RoboTransfer可以将仿真数据的转化为逼真的真实数据,极大地降低sim-to-real之间的gap,为通用机器人的训练提供了一个新的范式。以下是两个不同的仿真场景重新渲染的实验结果,左侧是叠碗,右侧是放置杯子,其中第一行为仿真采集数据,第二行为深度图,第三行为法向图,第四行为合成数据,第五行为背景参考图。

对比实验结果

与其他SOTA方法的对比可以发现,RoboTransfer在时序一致性以及多视角之间的一致性上都要显著优于其他方法。

定量实验的实验结果如下表所示,实验表明对于生成数据的前背景增广可以显著提升策略模型在新场景下的成功率,其中对于前背景完全改变的新场景,前背景的数据增广能够让策略模型获得251%的性能提升。

c2a14bca-57f5-11f0-baa5-92fbcf53809c.png

表1:数据增广对于策略模型在不同setting下的提升

总体来说,该方法构建了数据处理流程,可以生成包含几何和外观控制条件的三元组数据,以训练基于扩散模型的机器人数据合成框架RoboTransfer。实验和评估结果显示,RoboTransfer能够生成具有多视角一致、几何一致的数据,并且可以根据参考图像修改前景和背景纹理。生成的数据用于训练机器人操作策略,从而显著提升了策略模型的泛化能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29829

    浏览量

    213542
  • 视频
    +关注

    关注

    6

    文章

    1975

    浏览量

    74030
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565

原文标题:开发者说|RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    4K、多模态、长视频:AI视频生成的下个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可
    的头像 发表于 06-16 00:13 ?6438次阅读

    《AI Agent 应用与项目实战》----- 学习如何开发视频应用

    开发视频内容生成Agent。 访问语聚AI平台官网 ,进行注册或登录。 在平台首页,了解语聚AI的功能和应用场景,特别是其支持的视频生成相关的AI
    发表于 03-05 19:52

    字节跳动即将推出多模态视频生成模型OmniHuman

    字节跳动旗下站式AI创作平台即梦AI即将迎来重大更新,全新多模态视频生成模型OmniHuman即将上线。这款模型是字节跳动自研的闭源模型
    的头像 发表于 02-08 10:53 ?806次阅读

    阿里云通义万相2.1视频生成模型震撼发布

    近日,阿里云旗下的通义万相迎来了重要升级,正式推出了全新的万相2.1视频生成模型。这创新成果标志着阿里云在视频生成技术领域的又次重大突破
    的头像 发表于 01-13 10:00 ?872次阅读

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关
    的头像 发表于 12-20 14:23 ?565次阅读

    中国电信发布自研视频生成模型

    ,中国电信隆重发布了首个由央企全自研的视频生成模型。该模型采用了创新的“VAST(Video As Storyboard from Text)二阶段视频生成技术”,实现了从文本描述到
    的头像 发表于 12-13 15:40 ?582次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着异曲同工之妙
    的头像 发表于 12-12 09:40 ?759次阅读

    OpenAI开放Sora视频生成模型

    升级,准备迎接广大用户的深入探索与广泛应用。 据官方公告介绍,Sora Turbo作为Sora的升级版本,具备强大的视频生成能力。它能够根据用户的文本提示,快速创建出最长达20秒的高清视频片段。更令人惊喜的是,Sora Turbo还能针对同
    的头像 发表于 12-10 11:16 ?770次阅读

    腾讯混元大模型上线并开源文生视频能力

    近日,腾讯宣布其混元大模型正式上线,并开源了项令人瞩目的能力——文生视频。该大模型参数量高达130亿,支持中英文双语输入,为用户提供了更为便捷和多样化的
    的头像 发表于 12-04 14:06 ?593次阅读

    字节跳动自研视频生成模型Seaweed开放

    近日,字节跳动旗下的AI内容平台即梦AI传来新消息,宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这举措标志着字节跳动在AI视频领域迈出了坚实的
    的头像 发表于 11-11 14:31 ?739次阅读

    智谱视频生成模型清影升级,开启有声电影新时代

    近日,智谱公司的视频生成模型产品——清影,迎来了重要升级。此次升级后,清影能够支持生成10秒、4K分辨率、60帧的超高清视频,并且极大地提升了人物表演的细节表现。这
    的头像 发表于 11-11 11:40 ?783次阅读

    今日看点丨Vishay裁员800人,关闭上海等三家工厂;字节跳动发布两款视频生成模型

    企业市场开启邀测。 ? 火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,能更充分地压缩编码视频与文本,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、
    发表于 09-25 15:48 ?969次阅读

    火山引擎推出豆包·视频生成模型

    在近期举办的2024火山引擎AI创新巡展上,火山引擎总裁谭待隆重推出了豆包·视频生成模型,这举措标志着火山引擎在视频内容生成领域迈出了重要
    的头像 发表于 09-25 14:11 ?676次阅读

    阿里通义将发布视频生成模型

    在即将召开的云栖大会上,阿里通义将震撼发布其自主研发的视频生成模型。目前,用户已可通过通义App频道及通义万相PC端预约体验这创新功能,尽管具体使用尚未开放。
    的头像 发表于 09-19 17:01 ?639次阅读

    阿里首推AI视频生成利器Tora:指尖画圈,自由操控物体运动轨迹

    近日,阿里巴巴团队震撼发布了项革命性的创新成果——Tora,个前所未有的AI视频生成框架。Tora深度融合了文本、视觉与轨迹条件,依托其独创的轨迹导向
    的头像 发表于 08-06 16:41 ?1480次阅读