Facebook关于自主智能体的最新研究成果——目标驱动自主学习-电子发烧友网

本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写，文中介绍了 Facebook 关于自主智能体的最新研究成果——目标驱动自主学习，并且还宣布了开源 EmbodiedQA 和 House3D 数据集.

大多数能够与人类进行互动的自主智能体（Autonomous agents）都存在一些共同点：它们并不是那么自给自足（Self-sufficient）。例如，一个智能音箱（Smart speaker）虽然可以通过语音接口与人类进行交流并采取一些动作（比如订购产品），但是它却无法感知周围环境。而另一方面，割草机器人虽然具备动作（割草）和感知（通过传感器）能力，但是它除了不断闪烁灯光或者发送错误信息以外，还无法实现与主人的自由交流。

如果不同时具备三个重要的关键因素——感知、沟通和动作，那么自主智能体就无法成为一个全面的助理，而这其中的空白代沟还需要人类参与进来弥补。然而这个问题对于目前的智能体来说似乎并不是什么大毛病，例如，Roomba 机器人如果忽略了通知你有把椅子阻碍了它的清洁路线，这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改变我们的生活，那么自主系统还需要变得更加自给自足。

训练人工智能系统时要扔下婴儿车

为了给那些对人类微观管理依赖程度较低且更具通用性的系统铺平道路，Facebook 人工智能研究院（FAIR）开发了一系列用于训练和测试自主智能体的虚拟环境，以及能够学习智能探索那些环境的新型智能体。这些智能体将被用来作为模拟机器人而使用，它们是 Facebook 与佐治亚理工学院的研究员合作创建的。使用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多，因为这需要花费数千台机器来匹配基于 AI 训练的运行速度。Facebook F8 会议上关于通过 AI 提高内容的可访问性的主题演讲中简单介绍过这项工作。

FAIR 的目标是指导系统根据长期计划采取多种动作，同时还要努力完成所给定的任务。为了取得成功，这些智能体必须在它们的环境中行动，综合使用感知、导航和沟通的能力去寻找出给定问题的答案，然后使用简单自然的语言转达这些答案。对于 AI 来说，这是一个极具挑战性的问题，如果一旦实现就是朝着自治水平迈出了一步，并且该智能体的适应性也将足以在非结构化的人造世界中发挥作用。

为了测试这种目标导向（Goal-driven）的方法，FAIR 和佐治亚理工学院联合提出了一个多步骤 AI 任务，称为「具体化问答（Embodied Question Answering）」或者「EmbodiedQA」。与聊天机器人或者智能音箱相比，此智能体必须在物理环境（尽管是虚拟环境）中去学习和运行，因此称为「具体化的（Embodied）」。当智能体被问及单一问题时，例如「车子是什么颜色的？」或「我的钥匙落在了哪个房间里？」，智能体必须能够理解书面语言，然后用第一人称相机去感知周围环境，探索 3D 的室内环境直到找到答案。并且为了使得智能体的自主性更加完善，它还将通过自然语言的方式回复该答案以完成自己的使命。

FAIR 提出了一项新的 AI 任务——具体化问答（Embodied Question Answering）。上图中在一个 3D 环境中的某个随机位置产生一个智能体，并给出一个问题（车是什么颜色的？）。为了回答这个问题，智能体必须借助智能导航以探索环境，通过第一人称（以自我为中心）的视觉收集信息，然后回答问题（橙色）。

FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主（智能体在没有人类引导和干预的情况下实现了自主活动）和不熟悉的环境结合起来增加了整个任务的挑战性。智能体要在随机的、数以百计的不同楼层平面图（每个平面都是仿照现实家庭进行建模）中运行，而且不具有在该环境中实践运行过所带来的增益，也不曾在类似的地图上运行过。更难的是，为了回答提出的问题，智能体必须移动，因为问题中的对象也许无法立即看到。

在工作中学习

为了训练和评估这些智能体，所需的虚拟环境不仅仅要具备交互功能，还要具备多样化和数量充足的特性，以避免智能体在相同环境中反复运行，这对自主智能体的发展而言是一个更加巨大的挑战。FAIR 的解决方案称为 House3D，它是由 45000 个手动创建的模拟室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创建的，但是 House3D 作为一个完全可导航的位置集合（Fully navigable set of locations），使得智能体能够同时探索数千个房间，这比起在现实生活空间中训练具有复杂机械结构的机器人要来得快得多。它也使得我们可以进行可重复性的科学实验。并且 House3D 还进行了开源，目前可以在 GitHub 上获取。

为了在 House3D 中每次都能进行独特的寻宝活动，智能体必须在完成任务的过程中学习一系列核心能力——从对室内物体的识别（沙发、椅子等）到对问题的语言理解。

第一种习得的能力是主动感知（Active perception），或者是智能控制前面像素的能力，因为一开始目标对象不太可能会刚好位于智能体的视线范围内（图像通过一个 224x224 分辨率的 RGB 模拟摄像头采集）。因此，智能体不是被动地感知问题中提及的对象（固定图像数据集中就是如此），而是通过探索周围环境主动将目标对象寻找出来。

这项研究的一个创新点在于实现了导航的模块化方法，该方法将导航任务划分成了两个部分。规划者（Planner）负责选择移动的方向，例如向左移动，而控制器（Controller）则负责确定在该方向需要移动多远。这种策略避免了智能体在移动前需要去创建长远而又详细的路径规划，因为这么干会导致更多的错误和更弱的适应性。此外规划者-控制器（Planner-Controller）这套设置也更适合于强化学习，在这里智能体将根据积极或者消极的反馈来动态调整其导航。

FAIR 的智能体将导航任务分解为一个规划者（PLNR）模块和一个控制器（CTRL）模块。规划者从卷积神经网络（CNN）获得输入，然后决定所采取的动作。同时控制器将决定继续执行该动作的时间步变量——从而实现方向和速度之间的解耦合。这使得规划者能够在更短的时间内进行更有效的操作，从而减轻了训练难度。

下一步，智能体必须学会常识推理，然后在一个新的但是却并非完全陌生的环境中去发挥作用。尽管人们可能知道车库往往位于房屋的周围，因此可以通过外部门进入，但是 AI 系统却需要自己去学习这些知识。随着在不同的模拟家庭中成功达到目标，智能体必须发展出这种常识，以缩短寻找指定对象然后回答相关问题所花费的时间。

作为常识积累的后续阶段，智能体还要学习语言基础，或者是学习如何把单词（比如针对对象的描述）与特定的动作联系起来。例如，当为了找到可能位于车库中的汽车而搜索车库时，智能体不会被迫查看每个可能的空间，直到它找到与车库对应的一组像素为止。恰恰相反，智能体使用「车库」作为一个行动的指令，然后直接去找到外部门，从而更加高效地定位它的目标。

最后，因为 FAIR 的目标是超越繁琐的、逐步的人为监督，从微弱和远期的目标驱动奖励中学习，所以智能体必须学会的最重要的能力之一是「功劳分配（Credit assignment）」，这意味着智能体能够知道自己一路上所做的行为哪些是正确的而哪些又是错误的。例如，如果询问「多少个房间里有椅子？」，然后智能体并没有被明确告知需要检查每一个房间，甚至没有被告知要从家中含有椅子的区域开始计算。智能体能够凭借自己的力量去探索和回答问题，而不需要借助人类提供的详细的逐步计划。因此，从它是否正确回答的一个微弱信号来看，它必须自行学习其数百项相互依赖的行动中是哪一项导致了成功。为了增强传统的强化学习，FAIR 使用模仿学习（Imitation learning，比较智能体的运动与到达目标的可能最短路径）和奖励塑造（Reward shaping，通过「变得更近」和「变得更远」信号随时间变化而改进智能体的表现）来允许智能体把它真正使命拼凑起来，即便该使命在开始时并不明晰。

让自主系统更加自主

经过训练的 EmbodiedQA 智能体与标准序列模型基准（一个 LSTM 导航器）相比，表现的相当合理。

该视频比较了 FAIR 开发的智能体（名称为 ACT+Q-RL）与基准的性能表现（名称为 LSTM+Q）。视频地址

和 House3D 一样，FAIR 收集的 EmbodiedQA 数据将进行开源，并且旨在启发更广泛的 AI 研究社区内的其它项目。为了给其他研究人员提供完整的背景，FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的能力与远程遥控智能体进行了对比，这些远程遥控智能体由人类（通过亚马逊的 Mechanical Turk 平台）进行操控，从而建立了专家级别的基准导航示例。由此产生的数据集包括，与 750 个独特的、多房间的环境相关的合成产生问题（Synthetically generated questions）。智能体（和人类）准确性的故障以及我们使用的问答生成引擎也将成为 EQA v1 开源版本中的一部分，该版本在不久的将来可以获取到。

虽然 EmbodiedQA 是只涵盖了一种目标驱动的自主任务，但是它却代表了人工智能的高难度（因为它将各种各样的子任务合并成了一个任务），并且有机会探索采取「行动」的新学习范式，这是成功的先决条件。无法做出决策的智能体——在这种情况下，通过在现实家庭中导航，确定它们收集到了相关的数据，然后传达它们发现的内容——这种智能体在我们的实验中是无法完成任务的。

这种挑战是艰巨的，因为它至关重要。在短期内，目标驱动的算法可以使用自动化来改善 AR 和 VR 的体验，为可用的接口选项添加直观的语音交互。但这种基于行为的目标驱动方法的长期影响可能会延伸到自主性上。从数字助理可以根据单一命令（例如，不仅可以预约医生，还可以重新安排冲突的会议）执行一系列家务事，到灾难响应机器人遵循来自第一响应者的简单语音命令，这种适应性的自动化可能会对我们的生活产生重大影响。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉