0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind团队游戏新突破,AI和人类进行组队

8g3K_AI_Thinker ? 来源:未知 ? 作者:胡薇 ? 2018-07-05 09:51 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们还时常感叹两年前 AlphaGo 的一举成名,今天Deep Mind 的另一个游戏项目获得新的突破。不仅和人类进行一对一作战,还可以进行团队作战,与人类进行组队。

Deep Mind 在周二发表推文 “ 我们最新的工作演示了如何在一个复杂的第一人称多人游戏中实现多人游戏的性能,甚至可以与人类队友进行合作!”Deep Mind 开发了创新和强化学习技术,是人工智能系统在夺旗游戏中达到人类的水平,不仅各个人工智能独立行动,同时学会配合,进行团队战。Deep Mind 表示这项工作凸显了多智能体培训对促进人工智能发展的潜力。不得不说,在看完模拟游戏的视频确实觉得挺有意思的,今天人工智能头条就为大家介绍这个首款具有“团队精神” 的智能代理。

▌背景

Quake III Arena Capture the Flag——Quake III Arena 中文名称:雷神之锤III竞技场,是 1999 年在 PC 上推出的 一款FPS(第一人称射击类游戏)大作。Capture the flag 简称 CTF,CTF 在Quake 3 里分成蓝红两边在通常是一个对称的(也有不对称的)地图中竞赛。

竞赛的目的是将对方的旗子带回来,并且碰触未被移动过的我方旗子,我队就得一分,称作一个 capture。一般会设定两个要素,得分的极限以及时间极限,先到达分数极限的队伍获胜,若是两队势均力敌而难以得分,则通常会由时间的设定来结束一个游戏(match)。在夺旗模式中,杀死对手得1分,自己非正常死亡扣1分,夺取对方旗子得3分,杀死夺旗者得2分,重新拿到己方旗子得1分,成功夺取一次旗子(将旗子送回己方基地中)得5分。

▌前言

掌握多人视频游戏中涉及的策略,战术理解和团队配合一直是AI研究的关键性挑战。如今,随着强化学习的不断发展,DeepMind 提出的的智能代理能够在雷神之锤 III竞技场夺旗游戏(Quake III Arena Capture the Flag) 中实现人类玩家的水平。

该游戏涉及复杂的多智能体环境,也是一个典型的 3D第一人称视角的多人游戏。DeepMind 提出的智能代理展示了与人工智能体及人类玩家合作的能力。

下面我们将解读 DeppMind 最新的这篇博文,进一步了解这个 AI 智能体背后的技术及其在游戏中的表现。

所谓的多智能体学习的设置:指的是多个单智能体必须独立行动,并学会与其他智能体进行互动与合作。通过共适适应智能体,世界在不断变化,因而这是一个非常困难的问题。

我们的智能代理面临的挑战是直接从原始像素中进行学习并产生动作,这种复杂性使得第一人称视角的多人游戏,成为AI社区的一个硕果累累且活跃的研究领域。

在这项工作中,我们关注的游戏是 Quake III Arena(雷神之锤 III 竞技场,我们从美学的角度对游戏进行部分修改,但所有游戏机制都保持不变。)Quake III Arena是现代许多第一人称视频游戏的基础,并吸引了具备长期竞争力的电子竞技场景。

我们训练了一些能够单独学习并采取行动的智能代理,但它们必须要能够在游戏中共同协作,以便抵御其他智能体 (不论是人工智能体还是人类游戏玩家) 的攻击。

在这里CTF的规则很简单,但其具有复杂的动态性。两队的游戏玩家要在给定的地图上竞争,目标是在保护己方旗帜不被夺走的同时,夺取对方的旗帜。为了获得战术优势,玩家可以射击对方战队的玩家,并将它们送回复活点 (spawn point)。游戏时长为五分钟,最终拥有旗帜最多的队伍将获胜。

从多智能代理的角度来看,CTF既要求玩家们能与己方队友妥善合作,又要与敌方玩家相互竞争,同时还要灵活应变可能遇到的游戏风格的转变。

为了让这件事情更有意思,在这项工作中我们考虑CTF游戏的一种变体,其中每场游戏中的地图布局都会发生变化。因此,我们的智能代理必须要学会一种通用的策略,而非记住某种游戏地图的布局。此外,为了保证游戏竞争环境的公平,我们的智能体需要以与人类玩家类似的方式体验CTF游戏世界:即通过观察图像的像素流,模拟游戏控制器并采取相应的行动。

▌FTW 智能体

夺旗游戏是在程序生成的不同环境中进行的,因此智能体必须能够泛化到未知的地图。智能体必须从零开始学习如何在未知的环境中进行观察,行动,合作及竞争,每场游戏都是一个单独的强化信号:他们的团队是否获得胜利。这是一个具有挑战性的学习问题,其解决方案主要基于强化学习的三个基本概念:

我们不是训练一个单独的智能体,而是训练一群的智能体。他们互相学习,合作,甚至竞争,彼此成为队友或对手,以便适应多样化的游戏方式。

智能体们都需要各自学习自身内部的奖励信号,这将促使智能体能够生成自身内部的目标,如夺取一面旗帜。双重优化过程 (two-tier) 可直接优化智能体内部的获胜奖励,并基于内部奖励,运用强化学习方法来进一步地学习智能体的游戏策略。

智能体分别以快速和慢速两种时间尺度开始游戏,这有助于提高它们使用内存和生成一致动作序列的能力。

FTW(for the win) 智能体的结构示意图

该智能体的结构结合了快速和慢速时间尺度上的循环神经网络(Fast RNN & Slow RNN),其中包括一个共享记忆模块,并学习从游戏点到内部的奖励转换。

由此产生的智能体,我们称之为For The Win(FTW) 智能体,它学会了以非常高的标准玩CTF。更重要的是,该智能体学习到的游戏策略对地图的大小,队友的数量以及团队中的其他玩家都是稳健鲁棒的。

▌FTW的性能

下面演示了探索一些室外环境的游戏(其中FTW智能体互相竞争),以及一些智能体与人类玩家在室内环境中一起玩的游戏。

交互式的CTF 游戏浏览器,具有室内和室外的程序生成环境游戏

室外环境的游戏是 FTW 智能体之间的游戏,而室内环境下则是混合了人类玩家和 FTW 智能体的游戏。

在原文中通过6个不同场景,每个场景下3个不同角度的摄像头为大家呈现更多的游戏过程,如果大家希望看到所有场景与角度的视频,可以通过文章最后的原文链接进行查看。

我们进行了一场包括 40 名人类玩家的游戏比赛,在比赛中人类和智能体随机配对,既有可能成为对手,也可能成为队友。

在早前的一场 CTF 测试赛中,比赛双方是经过训练的智能体与人类玩家组成的队伍

经过训练学习,FTW 智能体已经比强大的基线方法更强大,并且超过了人类玩家的胜率。事实上,在一份对游戏参与者的调查报告中显示它们比人类玩家更具有合作性。

智能体在训练中的表现

FTW智能体的 Elo 评级 -- 获胜概率超过了人类玩家和 Self-play + RS、Self-play 等基线方法。

此外,我们不仅仅只对智能体进行了性能评估,还进一步探索了这些智能体的行为及内部表征的复杂度。

▌FTW的表征

为了理解智能体内部是如何表征游戏状态,我们观察并在平面上绘制智能体中神经网络的激活模式。下图中的点表示游戏中的情形,邻近的点表示相似的激活模式。这些点根据不同的 CTF 游戏状态进行相应地着色,这些状态包括:智能体在哪个房间?旗帜的状态怎样?可以看到哪些队友和对手?我们观察到同样颜色的簇表示该智能体以相似的方式表示类似的高级游戏状态。

智能体是如何表征游戏世界状态?智能体将不同情况下相同的游戏状态进行相似的表征。训练后的智能体甚至能够直接用一些人工神经元来编码特定情况。

我们的智能体从未得知任何的游戏规则,却能够学习基本的游戏概念并有效地发展对CTF游戏的直观认识。实际上,我们可以发现,智能体中某些特定的神经元可直接对最重要的游戏状态进行编码,例如当智能体的旗帜被夺走时,某个神经元就会被激活;或者当智能体的队友夺取旗帜时,某个神经元就将被激活等。我们的论文提供了进一步的分析,涉及的内容包括智能体在游戏过程中是如何利用记忆和视觉注意力机制的。

▌FTW的行为

除了丰富的游戏状态表征外,智能体在游戏中又是如何采取行动的呢?

首先,需要注意的是我们的智能体有非常快的反应时间及非常准确的命中率,这能解释它们在游戏中的卓越表现。人为地减少反应时间并降低命中率后,这仅是智能体获得成功的其中一个因素。

训练后,我们人为地减少反应时间和降低命中率,智能体所取得的游戏表现。即使是与人类玩家保持相近的反应时间和准确率,我们的智能体的游戏表现也优于人类玩家。

通过无监督学习的方式,我们在智能体和人类的原型行为之间建立联系,研究发现实际上智能体能够学习了类似人类的行为,例如跟随队友并敌方的基地扎营等行为。

已训练的智能体所展示的三个行为示例行为

在训练过程中,这些行为是伴随着强化学习和群体级进化而出现的。随着智能体以更加互补的方式进行学习合作,诸如在训练初期跟随队友的类似行为将逐渐变少。

FTW 智能体群体的训练进展

左上角展示了 30 个智能体在训练和互相演化过程中的 Elo 评级评分。右上角展示了这些演化事件的遗传树。底部展示了智能体训练过程中知识、内部奖励和行为概率的情况。

▌结束语

研究界最近在星际争霸II 和 Dota 2这样的复杂游戏中做了非常令人印象深刻的工作,虽然我们的研究侧重于夺旗游戏,但研究贡献是具有普遍性的,我们很高兴看到其他人如何在不同的复杂环境中建立我们的技术。在未来,我们还希望进一步改进目前的强化学习和基于人口的培训方法。总的来说,我们认为这项工作突出了多智能体培训推动人工智能发展的潜力

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251570

原文标题:DeepMind在团队游戏领域取得新突破,AI和人类一起游戏真是越来越6了

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA AI助力科学研究领域持续突破

    随着 AI 技术的广泛应用,AI 正在成为科学研究的引擎。NVIDIA 作为重要的技术推手,持续驱动着 AI 系统解锁更多领域的科学突破
    的头像 发表于 08-05 16:30 ?420次阅读

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    如今的 “AI驱动”。 AI在科学发现中的创新应用,体现在对科研全流程的重构,从数据采集、假说生成到实验验证,AI能高效处理海量信息,发现人类难以察觉的规律。 “
    发表于 07-28 13:54

    制作团队如何借助NVIDIA RTX AI让创意成真

    艺术家和开发者已经在利用生成式 AI 简化工作、突破创意边界,无论是探索概念、设计虚拟世界还是构建智能应用。借助 RTX AI PC,用户能够将最新、最强大的模型和工具,以及强大的 AI
    的头像 发表于 07-09 16:28 ?359次阅读

    八天三次收购!AMD收购AI芯片制造商Untether AI团队,刺激创新

    speedAI产品和imAIgine软件开发工具包的贩卖与支持,同时Untether AI团队成员都将加入AMD,助力AMD研发指令周期更快、能效率更佳的AI芯片。 AMD收购AI
    的头像 发表于 06-08 07:01 ?5487次阅读
    八天三次收购!AMD收购<b class='flag-5'>AI</b>芯片制造商Untether <b class='flag-5'>AI</b><b class='flag-5'>团队</b>,刺激创新

    巨人网络与阿里云深化AI合作

    基础,巨人网络与阿里云此次深化合作,旨在探索AI游戏领域的更多可能性。巨人网络表示,公司正在积极研究AI的通用泛化能力、多模态内容理解与生成,以及AI Agent解决复杂问题的边界能
    的头像 发表于 02-14 14:06 ?636次阅读

    DeepMind创始人预计年内有AI设计药物进入临床试验

    近日,英国人工智能公司DeepMind的创始人兼首席执行官德米斯·哈萨比斯(Demis Hassabis)透露,预计在今年年底前,将有人工智能(AI)设计的药物进入临床试验阶段。
    的头像 发表于 01-24 15:46 ?2297次阅读

    百度文库AI功能MAU突破9000万

    百度文库AI功能MAU突破9000万,AI DAU年同比增长230%。
    的头像 发表于 01-22 10:28 ?797次阅读

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌已将AI Studio团队整体转移至
    的头像 发表于 01-13 14:40 ?825次阅读

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    AI智能体搭建完毕后,它能和一个人类小朋友类似,根据已经获知的信息采取恰当的行动。那它又能应对什么场景呢? 目前,AI Agent的应用正在跨越多个领域,逐步进行一些简单的处理操作,
    发表于 01-13 11:04

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越人类的智力。 马斯克在X平台上明确表示,
    的头像 发表于 12-28 14:23 ?828次阅读

    巨人网络发布“千影”大模型,加速“游戏+AI”布局

    近日,巨人网络在2024年度中国游戏产业年会上,正式推出了名为“千影?QianYing”的有声游戏生成大模型。这一创新举措标志着巨人网络在“游戏+AI”赛道上的又一重要布局。 “千影
    的头像 发表于 12-16 09:45 ?1623次阅读

    AI智能体逼真模拟人类行为

    近日,据外媒最新报道,斯坦福大学、华盛顿大学与Google DeepMind的科研团队携手合作,成功开发出一种能够高度逼真模拟人类行为的AI智能体。 该智能体的构建得益于研究
    的头像 发表于 11-26 10:24 ?925次阅读

    谷歌Vertex AI助力企业生成式AI应用

    DeepMind 在模型技术方面积极探索创新,尤其着力于 Gemini 和 Imagen 的改进。我们的企业 AI 平台 Vertex AI 也推出了数十项突破性功能。
    的头像 发表于 09-09 15:59 ?1018次阅读

    恒讯科技分析:使用显卡云服务器进行游戏开发有哪些优势和劣势?

    常有利的。这种高性能计算可以显著缩短开发周期,提高开发效率。 2、可扩展性:云服务的资源可以按需分配和扩展,这意味着开发团队可以根据项目需求灵活调整资源,而无需进行大量的前期投资。 3、即时渲染和测试: 游戏开发者可以利用显
    的头像 发表于 09-04 13:20 ?716次阅读

    谷歌研究人员推出革命性首个AI驱动游戏引擎

    在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透到我们生活的每一个角落,从自动驾驶汽车到智能家居,无一不彰显着其巨大的潜力和无限可能。而最近,谷歌研究团队的一项突破性成果更是将AI
    的头像 发表于 08-29 17:21 ?917次阅读