0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器人接入大模型直接听懂人话,日常操作轻松完成!

CVer ? 来源:量子位(QbitAI) ? 2023-07-11 14:31 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

李飞飞团队具身智能最新成果来了:

大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。

42ef34d6-1fa9-11ee-962d-dac502259ad0.png

从此,人类可以很随意地用自然语言给机器人下达指令,如:

打开上面的抽屉,小心花瓶!

430c81c6-1fa9-11ee-962d-dac502259ad0.gif

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。

480c09b2-1fa9-11ee-962d-dac502259ad0.gif

然后重点来了,真实世界中的机器人在未经“训练”的情况下,就能直接执行这个任务。

4b43432a-1fa9-11ee-962d-dac502259ad0.gif

新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。

可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。

4e6515ec-1fa9-11ee-962d-dac502259ad0.gif

目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。

4fd5cbba-1fa9-11ee-962d-dac502259ad0.png

论文地址:
https://voxposer.github.io/voxposer.pdf
项目主页:
https://voxposer.github.io/

一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。

4ffd5dba-1fa9-11ee-962d-dac502259ad0.png

具体到机器人研究界也有同行表示:给运动规划领域开辟了新世界。

5009c104-1fa9-11ee-962d-dac502259ad0.png

还有本来没看到AI危险性的人,因为这项AI结合机器人的研究而改变看法。

501ed6de-1fa9-11ee-962d-dac502259ad0.png

机器人如何直接听懂人话?

李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。

502fe406-1fa9-11ee-962d-dac502259ad0.png

首先,给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令。

接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map。

5072ff8e-1fa9-11ee-962d-dac502259ad0.png

所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既标记了“在哪里行动”,也标记了“如何行动”。

509f2276-1fa9-11ee-962d-dac502259ad0.png

如此一来,再搬出动作规划器,将生成的3D地图作为其目标函数,便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。

更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。

在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:

50f7ae78-1fa9-11ee-962d-dac502259ad0.png

它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。

510f2ba2-1fa9-11ee-962d-dac502259ad0.png

还是以开头的例子举,抽屉就是“吸引”的,花瓶是“排斥”的。

当然,这些值如何生成,就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划。

因此,VoxPoser有着很强的抗干扰能力。

?

51468480-1fa9-11ee-962d-dac502259ad0.gif

?△ 将废纸放进蓝色托盘

以下分别是VoxPoser在真实和模拟环境中的表现(衡量指标为平均成功率):

575ebaae-1fa9-11ee-962d-dac502259ad0.png

可以看到,无论是哪种环境哪种情况(有无干扰、指令是否可见),它都显著高于基于原语的基线任务。

最后,作者还惊喜地发现,VoxPoser产生了4个“涌现能力”:

(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;

(2)行为常识推理,比如在摆餐具的任务中,告诉机器人“我是左撇子”,它就能通过上下文理解其含义;

(3)细粒度校正,比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作;

(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。

578669e6-1fa9-11ee-962d-dac502259ad0.png

李飞飞:计算机视觉的3颗北极星

大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:

具身智能(Embodied AI)

视觉推理(Visual Reasoning)

场景理解(Scene Understanding)

57ab97ac-1fa9-11ee-962d-dac502259ad0.png

李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

57bf5a6c-1fa9-11ee-962d-dac502259ad0.png

除李飞飞外,参与本次研究的还有清华姚班校友吴佳俊,博士毕业于MIT,现为斯坦福大学助理教授。

论文一作Wenlong Huang现为斯坦福博士生,在谷歌实习期间参与了PaLM-E研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29961

    浏览量

    214551
  • 语言模型
    +关注

    关注

    0

    文章

    565

    浏览量

    10881
  • 大模型
    +关注

    关注

    2

    文章

    3244

    浏览量

    4237

原文标题:李飞飞团队「具身智能」新成果!机器人接入大模型直接听懂人话,日常操作轻松完成!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业机器人的特点

    生产可以提高产品品质。通过设定相同的程序,机器人可实现重复操作,保证了产品的标准化;在精细化生产方面,工业机器人可实现低于0.1毫米的运动精度,可以完成精细的雕刻工作。提高产出 由于
    发表于 07-26 11:22

    RDK × 腿臂机器人:这只 “机械汪” 竟会说人话、走花路!

    ,基于RDKX3平台进行AI大模型算法开发,提出了一种融合AI大模型的创新性解决方案,提升腿臂机器人的综合性能。-项目首先强化了机器人的多模态感知能力,利用雷达、摄像
    的头像 发表于 07-01 20:27 ?677次阅读
    RDK × 腿臂<b class='flag-5'>机器人</b>:这只 “机械汪” 竟会说<b class='flag-5'>人话</b>、走花路!

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR260机器人开发套件 Kria KR260-
    发表于 05-13 15:02

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    的cv_bridge库,可以轻松实现ROS图像消息与OpenCV格式的转换,这在实际开发中极为便利。 视觉巡线与二维码识别的应用 视觉巡线是机器人自主导航的经典案例,书中从仿真到真实机器人
    发表于 05-03 19:41

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    ROS的全称:Robot Operating System 机器人操作系统 ROS的 目的 :ROS支持通用库,是通信总线,协调多个传感器 为了解决机器人里各厂商模块不通用的问题,让机器人
    发表于 04-30 01:05

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    识别联调。 进迭时空致力于为智能机器人提供完整全栈优化的RISC-V AI软硬件解决方案,第一代RISC-V AI CPU芯片K1已完成AI视觉感知、AI语音处理、自动避障、路径规划、运动控制等
    发表于 04-25 17:59

    智能机器人加速进化:AI大模型与传感器的双重buff加成

    发布的追觅S50系列扫地机器人也成为市面上首批搭载DeepSeek-R1的智能清洁类产品。 对于普通消费者而言,AI大模型不再只是聊天机器人、内容生成的工具,而是逐渐升级为日常生活中可
    的头像 发表于 03-07 17:58 ?517次阅读
    智能<b class='flag-5'>机器人</b>加速进化:AI大<b class='flag-5'>模型</b>与传感器的双重buff加成

    普渡机器人接入DeepSeek满血版模型

    自2月20日起,普渡机器人正式接入DeepSeek满血版模型机器人智能语音交互能力迎来智能化升级里程碑!此次升级中,首批搭载该模型的贝拉P
    的头像 发表于 02-20 16:50 ?969次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    非常重要的地位。 先说这个自主机器人的计算系统。计算系统是自主机器人的关键部件。自主机器人通过智能计算系统与物理世界交互,自主地完成任务。通常会包括几个关键的模块,分别是传感模块,感知
    发表于 01-04 19:22

    【「具身智能机器人系统」阅读体验】2.具身智能机器人模型

    、医疗、服务等领域的应用前景更加广阔,也使得人类能够更轻松地借助机器完成复杂工作。我深刻认识到,大模型技术正在从根本上改变我们对机器人能力的
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    与未来,涵盖如基于行为的人工智能、生物启发的进化人工智能及认知机器人技术的发展。这一历史背景为随后的大模型驱动的具身智能讨论奠定了基础,随着人工智能模型复杂性和能力的不断提升,这一主题也变得愈加
    发表于 12-28 21:12

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    研读《具身智能机器人系统》第7-9章,我被书中对大模型机器人技术融合的深入分析所吸引。第7章详细阐述了ChatGPT for Robotics的核心技术创新:它摒弃了传统的分层控制架构,创造性地
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+初品的体验

    提高机器人的自适应性和自主性,赋能机器人在多种场景中的应用。例如在家庭自动化领域,具身智能机器人能够感知家庭成员的日常习惯和需求,自动执行清洁、整理或其他家务任务。它们通过观察家庭成员
    发表于 12-20 19:17

    构建语音控制机器人 - 线性模型机器学习

    2024-07-31 |Annabel Ng 在该项目的[上一篇博客文章]中,我介绍了运行机器人电机、处理音频信号和调节电压所需的电路的基础知识。然而,机器人还没有完全完成!尽管机器人
    的头像 发表于 10-02 16:31 ?658次阅读
    构建语音控制<b class='flag-5'>机器人</b> - 线性<b class='flag-5'>模型</b>和<b class='flag-5'>机器</b>学习

    工业机器人常用的编程方式

    机器人完成特定的任务。编程可以手动完成,也可以通过计算机辅助设计(CAD)软件自动生成。编程方式的选择取决于任务的复杂性、机器人的类型、以及所需的灵活性和效率。 1. 手动编程 1.1
    的头像 发表于 09-04 09:26 ?2983次阅读