0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook关于自主智能体的最新研究成果——目标驱动自主学习

工业互联网前线 ? 来源:未知 ? 作者:李倩 ? 2018-05-11 10:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写,文中介绍了 Facebook 关于自主智能体的最新研究成果——目标驱动自主学习,并且还宣布了开源 EmbodiedQA 和 House3D 数据集.

大多数能够与人类进行互动的自主智能体(Autonomous agents)都存在一些共同点:它们并不是那么自给自足(Self-sufficient)。例如,一个智能音箱(Smart speaker)虽然可以通过语音接口与人类进行交流并采取一些动作(比如订购产品),但是它却无法感知周围环境。而另一方面,割草机器人虽然具备动作(割草)和感知(通过传感器)能力,但是它除了不断闪烁灯光或者发送错误信息以外,还无法实现与主人的自由交流。

如果不同时具备三个重要的关键因素——感知、沟通和动作,那么自主智能体就无法成为一个全面的助理,而这其中的空白代沟还需要人类参与进来弥补。然而这个问题对于目前的智能体来说似乎并不是什么大毛病,例如,Roomba 机器人如果忽略了通知你有把椅子阻碍了它的清洁路线,这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改变我们的生活,那么自主系统还需要变得更加自给自足。

训练人工智能系统时要扔下婴儿车

为了给那些对人类微观管理依赖程度较低且更具通用性的系统铺平道路,Facebook 人工智能研究院(FAIR)开发了一系列用于训练和测试自主智能体的虚拟环境,以及能够学习智能探索那些环境的新型智能体。这些智能体将被用来作为模拟机器人而使用,它们是 Facebook 与佐治亚理工学院的研究员合作创建的。使用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多,因为这需要花费数千台机器来匹配基于 AI 训练的运行速度。Facebook F8 会议上关于通过 AI 提高内容的可访问性的主题演讲中简单介绍过这项工作。

FAIR 的目标是指导系统根据长期计划采取多种动作,同时还要努力完成所给定的任务。为了取得成功,这些智能体必须在它们的环境中行动,综合使用感知、导航和沟通的能力去寻找出给定问题的答案,然后使用简单自然的语言转达这些答案。对于 AI 来说,这是一个极具挑战性的问题,如果一旦实现就是朝着自治水平迈出了一步,并且该智能体的适应性也将足以在非结构化的人造世界中发挥作用。

为了测试这种目标导向(Goal-driven)的方法,FAIR 和佐治亚理工学院联合提出了一个多步骤 AI 任务,称为「具体化问答(Embodied Question Answering)」或者「EmbodiedQA」。与聊天机器人或者智能音箱相比,此智能体必须在物理环境(尽管是虚拟环境)中去学习和运行,因此称为「具体化的(Embodied)」。当智能体被问及单一问题时,例如「车子是什么颜色的?」或「我的钥匙落在了哪个房间里?」,智能体必须能够理解书面语言,然后用第一人称相机去感知周围环境,探索 3D 的室内环境直到找到答案。并且为了使得智能体的自主性更加完善,它还将通过自然语言的方式回复该答案以完成自己的使命。

FAIR 提出了一项新的 AI 任务——具体化问答(Embodied Question Answering)。上图中在一个 3D 环境中的某个随机位置产生一个智能体,并给出一个问题(车是什么颜色的?)。为了回答这个问题,智能体必须借助智能导航以探索环境,通过第一人称(以自我为中心)的视觉收集信息,然后回答问题(橙色)。

FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主(智能体在没有人类引导和干预的情况下实现了自主活动)和不熟悉的环境结合起来增加了整个任务的挑战性。智能体要在随机的、数以百计的不同楼层平面图(每个平面都是仿照现实家庭进行建模)中运行,而且不具有在该环境中实践运行过所带来的增益,也不曾在类似的地图上运行过。更难的是,为了回答提出的问题,智能体必须移动,因为问题中的对象也许无法立即看到。

在工作中学习

为了训练和评估这些智能体,所需的虚拟环境不仅仅要具备交互功能,还要具备多样化和数量充足的特性,以避免智能体在相同环境中反复运行,这对自主智能体的发展而言是一个更加巨大的挑战。FAIR 的解决方案称为 House3D,它是由 45000 个手动创建的模拟室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创建的,但是 House3D 作为一个完全可导航的位置集合(Fully navigable set of locations),使得智能体能够同时探索数千个房间,这比起在现实生活空间中训练具有复杂机械结构的机器人要来得快得多。它也使得我们可以进行可重复性的科学实验。并且 House3D 还进行了开源,目前可以在 GitHub 上获取。

为了在 House3D 中每次都能进行独特的寻宝活动,智能体必须在完成任务的过程中学习一系列核心能力——从对室内物体的识别(沙发、椅子等)到对问题的语言理解。

第一种习得的能力是主动感知(Active perception),或者是智能控制前面像素的能力,因为一开始目标对象不太可能会刚好位于智能体的视线范围内(图像通过一个 224x224 分辨率的 RGB 模拟摄像头采集)。因此,智能体不是被动地感知问题中提及的对象(固定图像数据集中就是如此),而是通过探索周围环境主动将目标对象寻找出来。

这项研究的一个创新点在于实现了导航的模块化方法,该方法将导航任务划分成了两个部分。规划者(Planner)负责选择移动的方向,例如向左移动,而控制器(Controller)则负责确定在该方向需要移动多远。这种策略避免了智能体在移动前需要去创建长远而又详细的路径规划,因为这么干会导致更多的错误和更弱的适应性。此外规划者-控制器(Planner-Controller)这套设置也更适合于强化学习,在这里智能体将根据积极或者消极的反馈来动态调整其导航。

FAIR 的智能体将导航任务分解为一个规划者(PLNR)模块和一个控制器(CTRL)模块。规划者从卷积神经网络(CNN)获得输入,然后决定所采取的动作。同时控制器将决定继续执行该动作的时间步变量——从而实现方向和速度之间的解耦合。这使得规划者能够在更短的时间内进行更有效的操作,从而减轻了训练难度。

下一步,智能体必须学会常识推理,然后在一个新的但是却并非完全陌生的环境中去发挥作用。尽管人们可能知道车库往往位于房屋的周围,因此可以通过外部门进入,但是 AI 系统却需要自己去学习这些知识。随着在不同的模拟家庭中成功达到目标,智能体必须发展出这种常识,以缩短寻找指定对象然后回答相关问题所花费的时间。

作为常识积累的后续阶段,智能体还要学习语言基础,或者是学习如何把单词(比如针对对象的描述)与特定的动作联系起来。例如,当为了找到可能位于车库中的汽车而搜索车库时,智能体不会被迫查看每个可能的空间,直到它找到与车库对应的一组像素为止。恰恰相反,智能体使用「车库」作为一个行动的指令,然后直接去找到外部门,从而更加高效地定位它的目标。

最后,因为 FAIR 的目标是超越繁琐的、逐步的人为监督,从微弱和远期的目标驱动奖励中学习,所以智能体必须学会的最重要的能力之一是「功劳分配(Credit assignment)」,这意味着智能体能够知道自己一路上所做的行为哪些是正确的而哪些又是错误的。例如,如果询问「多少个房间里有椅子?」,然后智能体并没有被明确告知需要检查每一个房间,甚至没有被告知要从家中含有椅子的区域开始计算。智能体能够凭借自己的力量去探索和回答问题,而不需要借助人类提供的详细的逐步计划。因此,从它是否正确回答的一个微弱信号来看,它必须自行学习其数百项相互依赖的行动中是哪一项导致了成功。为了增强传统的强化学习,FAIR 使用模仿学习(Imitation learning,比较智能体的运动与到达目标的可能最短路径)和奖励塑造(Reward shaping,通过「变得更近」和「变得更远」信号随时间变化而改进智能体的表现)来允许智能体把它真正使命拼凑起来,即便该使命在开始时并不明晰。

让自主系统更加自主

经过训练的 EmbodiedQA 智能体与标准序列模型基准(一个 LSTM 导航器)相比,表现的相当合理。

视频比较了 FAIR 开发的智能体(名称为 ACT+Q-RL)与基准的性能表现(名称为 LSTM+Q)。视频地址

和 House3D 一样,FAIR 收集的 EmbodiedQA 数据将进行开源,并且旨在启发更广泛的 AI 研究社区内的其它项目。为了给其他研究人员提供完整的背景,FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的能力与远程遥控智能体进行了对比,这些远程遥控智能体由人类(通过亚马逊的 Mechanical Turk 平台)进行操控,从而建立了专家级别的基准导航示例。由此产生的数据集包括,与 750 个独特的、多房间的环境相关的合成产生问题(Synthetically generated questions)。智能体(和人类)准确性的故障以及我们使用的问答生成引擎也将成为 EQA v1 开源版本中的一部分,该版本在不久的将来可以获取到。

虽然 EmbodiedQA 是只涵盖了一种目标驱动的自主任务,但是它却代表了人工智能的高难度(因为它将各种各样的子任务合并成了一个任务),并且有机会探索采取「行动」的新学习范式,这是成功的先决条件。无法做出决策的智能体——在这种情况下,通过在现实家庭中导航,确定它们收集到了相关的数据,然后传达它们发现的内容——这种智能体在我们的实验中是无法完成任务的。

这种挑战是艰巨的,因为它至关重要。在短期内,目标驱动的算法可以使用自动化来改善 AR 和 VR 的体验,为可用的接口选项添加直观的语音交互。但这种基于行为的目标驱动方法的长期影响可能会延伸到自主性上。从数字助理可以根据单一命令(例如,不仅可以预约医生,还可以重新安排冲突的会议)执行一系列家务事,到灾难响应机器人遵循来自第一响应者的简单语音命令,这种适应性的自动化可能会对我们的生活产生重大影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29939

    浏览量

    214457
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    57141
  • 智能体
    +关注

    关注

    1

    文章

    330

    浏览量

    11172

原文标题:Facebook 最新研究:自主学习一个会和世界互动的智能体

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI智能的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能
    的头像 发表于 07-24 11:04 ?173次阅读

    NVIDIA展示机器人领域的研究成果

    在今年的机器人科学与系统会议 (RSS) 上,NVIDIA 研究中心展示了一系列推动机器人学习研究成果,展示了在仿真、现实世界迁移和决策制定领域的突破。
    的头像 发表于 07-23 10:43 ?495次阅读

    从大模型到智能:企业级智能如何搭建

    自主决策能力的数字化代理,其核心特征包括环境感知、自主决策、持续学习和多模态交互。构建智能需要融合认知科学、计算机科学和管理学的跨学科知识
    的头像 发表于 07-21 15:46 ?180次阅读
    从大模型到<b class='flag-5'>智能</b><b class='flag-5'>体</b>:企业级<b class='flag-5'>智能</b><b class='flag-5'>体</b>如何搭建

    Nullmax端到端自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在端到端自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 ?655次阅读
    Nullmax端到端自动驾驶最新<b class='flag-5'>研究成果</b>入选ICCV 2025

    后摩智能与高校合作研究成果荣获ISCA 2025最佳论文奖

    近日,北京后摩智能科技有限公司与北京大学集成电路学院孙广宇长聘副教授团队、上海交通大学张宸助理教授团队、香港科技大学谢源讲席教授团队、东南大学司鑫副教授团队及阿里巴巴达摩院合作的研究成果
    的头像 发表于 07-05 11:21 ?1023次阅读

    NVIDIA在ICRA 2025展示多项最新研究成果

    在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果
    的头像 发表于 06-06 14:56 ?776次阅读

    佛山智能装备院与华数机器人在具身智能工业机器人领域的研究成果

    近日,佛山智能装备技术研究院(简称“佛山智能装备院”)与佛山华数机器人有限公司(简称“华数机器人”)在具身智能工业机器人领域的研究成果“Ad
    的头像 发表于 04-09 15:40 ?625次阅读
    佛山<b class='flag-5'>智能</b>装备院与华数机器人在具身<b class='flag-5'>智能</b>工业机器人领域的<b class='flag-5'>研究成果</b>

    华大电子获评北京市“双自主”企业,创新实力领跑国产安全芯片赛道

    升级再添标杆案例。?? 创新驱动 技术自主化筑牢创新根基 在数字经济与智能化浪潮下,华大电子以“自主可控”为发展主线,聚焦通信、金融、物联网、车联网等关键领域,加速技术
    的头像 发表于 04-08 15:17 ?1611次阅读

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    AI智能包含哪些组件

    AI 智能是先进的 AI 系统,旨在根据高级目标自主进行推理,制定计划并执行复杂任务。
    的头像 发表于 03-04 13:45 ?1093次阅读
    AI<b class='flag-5'>智能</b><b class='flag-5'>体</b>包含哪些组件

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表
    发表于 12-20 19:17

    Microsoft Copilot Studio自主智能功能现已推出预览版

    Microsoft Power Platform 正以其卓越的成就,引领着技术与业务融合的浪潮。智能 Copilot 副驾驶与 PowerPlatform 自主智能的深度融合,标志着
    的头像 发表于 11-29 16:43 ?993次阅读

    微软Copilot Studio新功能:支持定制Agent 赋能用户构建自主智能

    微软宣布重大更新,用户可通过Microsoft Copilot Studio构建自主智能。麦肯锡、汤森路透等全球知名企业己利用智能,实现
    的头像 发表于 11-10 09:59 ?1457次阅读
    微软Copilot Studio新功能:支持定制Agent 赋能用户构建<b class='flag-5'>自主</b><b class='flag-5'>智能</b><b class='flag-5'>体</b>

    SynSense时识科技与海南大学联合研究成果发布

    近日,SynSense时识科技与海南大学联合在影响因子高达7.7的国际知名期刊《Computers in Biology and Medicine》上发表了最新研究成果,展示了如何用低维信号通用类脑
    的头像 发表于 10-23 14:40 ?963次阅读
    SynSense时识科技与海南大学联合<b class='flag-5'>研究成果</b>发布

    中移芯昇发布智能可信城市蜂窝物联网基础设施研究成果

    8月23日,雄安新区RISC-V产业发展交流促进会顺利召开,芯昇科技有限公司(以下简称“中移芯昇”)总经理肖青发布智能可信城市蜂窝物联网基础设施研究成果,为雄安新区建设新型智慧城市赋能增效。该成果
    的头像 发表于 08-31 08:03 ?1026次阅读
    中移芯昇发布<b class='flag-5'>智能</b>可信城市蜂窝物联网基础设施<b class='flag-5'>研究成果</b>