0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MoDem解决了视觉强化学习领域的三个挑战

OpenCV学堂 ? 来源:新智元 ? 2023-01-05 11:24 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 负责视觉和强化学习领域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚间,这篇推文的阅读量已经达到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。

有多优秀呢?

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

链接小编就放在下面啦,有兴趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。

然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。

首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:

大样本复杂性(Large sample complexity)

高维状态和动作空间探索(Exploration in high-dimensional state and action space)

同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他们提出了一个三阶段算法:

BC预训练策略

使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要

通过在线互动微调世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

红色线条为MoDem在各项任务中的表现

在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1191

    浏览量

    42158
  • Meta
    +关注

    关注

    0

    文章

    308

    浏览量

    11958
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11672

原文标题:Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行
    的头像 发表于 07-14 15:29 ?878次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    怎么结合嵌入式,Linux,和FPGA三个方向达到一均衡发展?

    在嵌入式领域,不少人都怀揣着让嵌入式、Linux 和 FPGA 三个方向实现均衡发展的梦想,然而实践中却面临诸多挑战。就像备受瞩目的全栈工程师稚晖君,他从大学玩单片机起步,凭借将智能算法融入嵌入式而
    的头像 发表于 06-25 10:08 ?380次阅读
    怎么结合嵌入式,Linux,和FPGA<b class='flag-5'>三个</b>方向达到一<b class='flag-5'>个</b>均衡发展?

    华为发布天才少年挑战课题发布 五大主题方向课题放榜

    ?: ?智能联接与计算?:涉及自主智能无线通信架构、昇腾强化学习系统等关键技术研究。 ?基础研究与创新?:包括大模型安全关键技术、智能成像/编辑技术等研究。 ?智能终端?:聚焦于世界模型理论突破、基于计算机视觉的多
    的头像 发表于 06-16 19:23 ?797次阅读

    18常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 ?618次阅读
    18<b class='flag-5'>个</b>常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    Linux系统中最重要的三个命令

    Linux剑客是Linux系统中最重要的三个命令,它们以其强大的功能和广泛的应用场景而闻名。这三个工具的组合使用几乎可以完美应对Shell中的数据分析场景,因此被统称为Linux
    的头像 发表于 03-03 10:37 ?505次阅读

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 ?701次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    150℃无压烧结银最简单三个步骤

    的热点。在材料科学与电子工程领域,烧结技术作为连接与成型的关键工艺之一,始终占据着举足轻重的地位。接下来,我们将详细介绍150℃无压烧结银AS9378TB的最简单三个步骤,以便读者和客户能够快速理解并
    发表于 02-23 16:31

    【「具身智能机器人系统」阅读体验】+初品的体验

    动态互动的。 该理论强调智能行为源于智能体的物理存在和行为能力,智能体必须具备感知环境并在其中执行任务的能力。具身智能的实现涵盖了机器学习、人工智能、机器人学、计算机视觉、自然语言处理及强化学习
    发表于 12-20 19:17

    Kimi发布视觉思考模型k1,展现卓越基础科学能力

    近日,Kimi公司正式发布其最新的视觉思考模型——k1。这款模型基于先进的强化学习技术构建,原生支持端到端的图像理解和思维链技术,为用户提供全新的
    的头像 发表于 12-17 09:59 ?848次阅读

    如何在化学和材料科学领域开展有影响力的人工智能研究?(

    部分编译后的内容:4.如何解决科学问题?在掌握上述的工具和视角后,我们将提出一些建议,帮助您在化学领域选择具有影响力的研究课题,并介绍机器学习
    的头像 发表于 12-03 01:02 ?530次阅读
    如何在<b class='flag-5'>化学</b>和材料科学<b class='flag-5'>领域</b>开展有影响力的人工智能研究?(<b class='flag-5'>三</b>)

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    领域的研究与发展。令人瞩目的是,边塞科技的创始人吴翼已正式加入该实验室,并担任首席科学家一职。 吴翼在其个人社交平台上对这一变动进行了回应。他表示,自己最近接受了蚂蚁集团的邀请,负责大模型强化学习领域的研究工
    的头像 发表于 11-22 11:14 ?1692次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一流行的开源机器
    的头像 发表于 11-05 17:34 ?1111次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现
    的头像 发表于 09-30 16:16 ?760次阅读

    基本理想电路元件的三个特征是什么

    基本理想电路元件是构成电路的基本单元,它们具有三个基本特征:电压-电流关系、能量转换和电路参数。以下是对这三个特征的分析: 电压-电流关系 理想电路元件的电压-电流关系是其最基本的特征之一。这种关系
    的头像 发表于 08-25 09:38 ?2505次阅读

    相交流电源是三个什么组成

    相交流电源是一种广泛应用于工业和民用领域的电力系统,其主要由三个交流电源组成,每个电源的相位相差120度。这种电源系统具有许多优点,如传输效率高、功率密度大、稳定性好等。 一、相交
    的头像 发表于 08-23 15:10 ?2275次阅读