0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI公布MADDPG代码,让智能体学习合作、竞争和交流

zhKF_jqr_AI ? 来源:未知 ? 作者:李建兵 ? 2018-03-16 14:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能体(agent)互相争夺资源的多智能体环境是通向强人工智能(AGI)的必经之路。多智能体环境具有两种优越的特质:首先,它具备自然的考验——环境的难易程度取决于竞争对手的技能(如果你正与自己的克隆体对抗,环境则完全符合你的技术水平)。其次,多智能体环境没有稳定的平衡,即无论一个智能体多么聪明,想变得更聪明总是有困难的。这种环境与传统模式有很大的不同,在达到目标之前需要进行更多研究。

OpenAI开发了一种名为MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)的新算法,用于实现多智能体环境中的集中式学习和分散式执行,让智能体学习互相合作、互相竞争。

用MADDPG算法训练四个红色圆点追逐两个绿色圆点,红色圆点已经学会彼此合作追逐同一个绿色圆点,以获得更高的奖励。与此同时,绿色圆点学会了“分头行动”,其中一个被红点追逐,其他的则试图接近蓝色圆点获得奖励,同时避开红色圆点

MADDPG对强化学习算法DDPG进行扩展,从actor-critic(玩家-评委)强化学习技术中获得灵感;其他团队也正探索这些想法的变体和并行实现。

研究人员将模拟中的每个智能体看作“actor”(玩家),每个玩家从评委那里获得建议,让它们在训练过程中选择应该加强哪些动作的训练。在传统环境中,评委尝试预测在某一特定情况下一种动作的价值(即我们期待未来获得的奖励),从而让玩家更新策略。这种方法比直接使用奖励更稳定,奖励会导致较大的差异。为了能让智能体进行全局合作,研究者改进了评委,使它们能够访问智能体的观察和行动,如下图所示。

测试时,智能体无需具备中间的评委;它们根据观察以及对其他智能体行为的预测,做出动作。由于一个中心化的评委是为每个智能体独立学习的,这种方法也可以用来模拟多智能体之间的任意奖励结构,包括拥有相反奖励的对抗案例。

OpenAI研究者在多个任务上测试了他们的方法,结果均优于DDPG上的表现。在上图的动画中,从上至下可以看到:两个智能体试图前往特定位置,并且学习分散,向对手隐藏真实的目的地;一个智能体将位置信息传递给另一个智能体,其他三个智能体协调前往此处,并且不会碰撞。

使用MADDPG训练的红色圆点比用DDPG训练的智能体行为更复杂。在上面的动画中可以看到,用MADDPG技术训练的智能体和用DDPG训练的智能体都试图穿过绿色的圆圈追逐绿色的小圆点,同时不撞到黑色障碍物。新方法训练出来的智能体抓到的绿色圆点更多,也比用DDPG方法训练出的动作更协调。

传统强化学习的困境

传统的分散式强化学习方法,如DDPG、actor-critic学习、深度Q学习等,都难以在多智能体环境中学习,因为在每个时间段,每个智能体都要尝试学习预测其他智能体的行为,同时还要分析自己的行为。在竞争的情况下尤其如此。MADDPG采用集中的critic为智能体提供有关同类的观察和潜在行为的信息,将不可预测的环境转化为可预测环境。

使用梯度策略的方法会带来更多挑战:因为当奖励不一致时,这种方法所得到的结果差别很大。另外,在提高稳定性的同时,增加critic仍然不能解决一些环境问题,例如合作交流。这样看来在培训期间考虑其他智能体的行为对于学习协作策略是很重要的。

最初的研究

在开发MADDPG之前,当使用分散技术时,研究人员注意到如果speaker所发出的关于去哪里不一致的消息,那么listener常常会忽略speaker,智能体将把有关speaker的所有权中设置为0。一旦发生这种情况,就很难恢复训练,因为没有任何反馈,speaker永远不会知道自己所说是否正确。为了解决这个问题,他们研究了最近一个分层强化学习项目中所提到的技术,该技术可以让强制让listener在决策过程中考虑speaker的消息。这种修复方法并不奏效,因为它虽然强制listener关注speaker,但并不能帮助listener决定说出什么相关的内容。通过帮助speaker学习哪些信息可能与其他智能体的位置信息有关,集中式的critic方法有助于应对这些挑战。想了解更多结果,可点击视频观看:

下一步

智能体建模在人工智能的研究中已经有了丰富的成果,但之前的很多研究都只考虑了短时间内简单的游戏。深度学习能让我们处理复杂的视觉输入,强化学习为我们提供了长时间学习行为的工具。现在我们可以用这些功能一次性训练多个代理,而无需了解环境的变化(即环境在每个时间段发生的变化),我们可以解决更广泛的包括交流和语言的高维度信息,同时从环境的高维信息中学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35787

    浏览量

    282617

原文标题:OpenAI公布MADDPG代码,让智能体学习合作、竞争和交流

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OpenAI发布新智能!实现在线购物和创建PPT演示文稿

    电子发烧友原创 章鹰 7月17日,美国OpenAI公司为其聊天机器人ChatGPT推出了一款人工智能,可以完成复杂的任务,这家微软支持的人工智能初创公司希望在AI竞赛中领先于
    的头像 发表于 07-20 00:05 ?5760次阅读
    <b class='flag-5'>OpenAI</b>发布新<b class='flag-5'>智能</b><b class='flag-5'>体</b>!实现在线购物和创建PPT演示文稿

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    云电云安“智能”领跑安防行业

      随着安防逐渐IT化及国内安防厂商精工制造的崛起,产品的互联互通及产品的工业设计逐渐成为市场竞争的重头戏。2015年伊始,云电信息在市场提出“智能”的新主张,作为行业的领先者,在“智能
    发表于 03-30 11:35

    一种基于聚类和竞争克隆机制的多智能免疫算法

    包含分布式电源的配电网无功优化matlab源代码代码按照高水平文章复现,保证正确,可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力,提出了一种基于聚类和竞争克隆机制的多智能
    发表于 12-29 06:50

    OpenAI分析机器学习的进化策略

    OpenAI总监Ilya Sutskever昨天在EmTech Digital大会上介绍了人工智能领域下一个可能的爆发点。OpenAI是一家独立研究机构,EmTech Digital是MIT
    发表于 09-30 13:09 ?0次下载

    基于强化学习MADDPG算法原理及实现

    之前接触的强化学习算法都是单个智能的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能
    的头像 发表于 11-02 16:18 ?2.2w次阅读

    OpenAI与新闻集团签署内容合作协议

    人工智能领域的领军企业OpenAI近日宣布,已与美国传媒巨头新闻集团(News Corp)达成多年全球合作伙伴关系。
    的头像 发表于 05-24 09:45 ?662次阅读

    苹果与OpenAI自2023年中开始接触,微软担心合作竞争

    据悉,苹果有意在定于今年6月11日凌晨1点举行的WWDC 2024全球开发者大会上公开与OpenAI合作事宜。此外,除了计划引入OpenAI的ChatGPT聊天服务至iOS外,苹果并借机邀请
    的头像 发表于 05-30 10:18 ?846次阅读

    苹果宣布与OpenAI构建合作伙伴关系

    近日,苹果公司宣布与人工智能领域的领军企业OpenAI达成合作伙伴关系,计划将OpenAI的ChatGPT技术整合至其产品中。
    的头像 发表于 06-12 16:15 ?1111次阅读

    OpenAI公布2025年目标,AGI位列首位

    ,Altman正式公布OpenAI的2025年目标清单。其中,通用人工智能(AGI)的开发被置于首要位置,这体现了OpenAI对于实现真正智能
    的头像 发表于 01-02 11:03 ?974次阅读

    OpenAI公布2025年发展目标

    OpenAI的首席执行官Sam Altman近日在社交媒体上公布了公司2025年的发展目标。这些目标不仅反映了OpenAI对未来的展望,也体现了其致力于推动人工智能领域发展的决心。 在
    的头像 发表于 01-03 10:40 ?766次阅读

    OpenAI将发布更智能GPT模型及AI智能工具

    OpenAI近日透露了其未来发展的重要动向。据OpenAI首席产品官凯文·维尔(Kevin Weil)介绍,公司计划推出更智能的GPT o3模型,并首次亮相AI智能
    的头像 发表于 01-24 13:54 ?608次阅读

    OpenAI发布深度研究智能功能

    近日,OpenAI正式推出了面向深度研究领域的智能产品——深度研究(Deep Research)功能。这一创新功能旨在支持多领域的高强度知识工作者,提升他们的工作效率和研究质量。 深度研究功能由
    的头像 发表于 02-05 15:05 ?666次阅读

    OpenAI对DeepSeek持开放竞争态度

    近日,OpenAI首席执行官奥尔特曼在一次公开场合明确表示,OpenAI不会对中国AI初创企业杭州深度求索人工智能基础技术研究有限公司(简称DeepSeek)采取法律诉讼行动。 奥尔特曼在表态中强调
    的头像 发表于 02-05 15:29 ?631次阅读

    Figure AI宣布终止与OpenAI合作,专注内部研发

    近日,人形机器人领域的独角兽企业Figure AI宣布了一个重要决定:因已取得“重大突破”,将终止与OpenAI合作,并专注于内部人工智能技术的研发。这一决定距离Figure AI宣布
    的头像 发表于 02-06 14:33 ?690次阅读