0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind又出AI大招

机器人技术与应用 ? 来源:机器人技术与应用 ? 作者:机器人技术与应用 ? 2021-03-11 15:58 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepMind 公司因为研制出会下棋的人工智能AlphaGo和AlphaZero而声名鹊起,如今他们将注意力转向了另一种棋盘游戏:强权外交(Diplomacy),也被称为外交或者外交风云,是经典的桌面游戏之一。该游戏与围棋不同,它是七人游戏,需要游戏玩家既竞争又合作,并且每回合玩家都会同时进行移动,因此,每个玩家都必须推理其他玩家的想法,非常复杂。

研制一个能玩外交游戏的人工智能软件,DeepMind公司的计算机专家Andrea Tacchetti表示:“与游戏Go或国际象棋相比,这是一个本质上不同的问题。” 去年12月,Tacchetti和合作者在NeurIPS会议上就其系统发表了一篇论文,该论文介绍了能玩外交游戏的AI系统策略。

“外交”是一种策略游戏,在欧洲地图上划分为75个省。玩家建立并动员军队占领各省,直到控制了大部分补给中心的玩家获胜。玩家每回合写下自己的行动,然后执行。他们可以攻击或防御对方玩家,或者支援对方玩家的进攻和防御,建立联盟。在完整版中,玩家可以协商,为了方便人工智能研究,DeepMind公司使用了简单版的“No Press”策略,不需要人工智能软件发布策略与其他玩家进行沟通。

从历史上看,人工智能使用人工制定的策略来发挥决策作用。2019年,蒙特利尔研究所的Mila通过使用深度学习系统取得了胜利。他们基于150000个人类游戏的数据集,训练了一个称为DipNet的神经网络来模仿人类。DeepMind从DipNet版本开始,使用强化学习(一种反复试验)来完善它。但是,仅通过反复试验来探索可能性会带来问题。因此,他们调整了强化学习算法。在训练过程中,他们在每一步中都对对手的可能举动进行采样,计算出在这些情况下平均效果最佳的行动,然后训练自己的权重以偏向于此行动。经过训练,它跳过了采样过程,仅根据其学习的知识进行工作。Tacchetti说:“我们论文的信息是:我们可以在这样的环境中进行强化学习。” 他们设计的一个AI玩家与六个DipNet的AI赢了30%的时间(有14%的机会)。一个DipNet对抗他们的七个,仅赢得了3%的时间。

今年4月,Facebook将在ICLR会议上发表一篇论文,描述他们在“No Press”版本的外交游戏中的研究成果。他们建立了类似DipNet的网络,但是没有添加强化学习的元素,而是添加了一个“SearchBot”搜索玩家策略,SearchBot通过玩几回合来评估玩家的每种潜在策略(假设每个人都根据神经网络的首选选择后续行动)。策略不是一个最佳行动组合,而是由50个可能行动组成的一组概率(由神经网络建议)。

在真实游戏中进行这样的探索会减慢SearchBot的速度,但可以使它更优于DipNet。SearchBot在外交游戏网站上与人类进行了匿名比赛,在玩家中排名前2%。Facebook的计算机专家、论文的共同作者亚当·勒勒(Adam Lerer)说:“这是第一个被证明具有能与人类竞争的机器人。”

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49223

    浏览量

    251607
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11674
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    11680

原文标题:DeepMind又出AI大招

文章出处:【微信号:robotmagazine,微信公众号:机器人技术与应用】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI视频分析和算法集合

    AI
    jf_02235694
    发布于 :2025年07月23日 16:10:12

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI、腾讯
    发表于 07-09 18:30

    AI岸桥理货系统高效精准

    AI
    jf_60141436
    发布于 :2025年05月30日 11:49:13

    湖南重大招商引资驻京工作专班莅临ALVA调研

    近日,湖南省央企对接合作暨重大招商引资驻京工作专班主任郑建新一行赴 ALVA Systems 考察调研。
    的头像 发表于 04-16 10:14 ?500次阅读

    AI 时代开启,企业跟风做 AI 产品是明智之举?

    AI
    华成工控
    发布于 :2025年04月10日 17:28:44

    英伟达GTC2025亮点:NVIDIA、Alphabet 和谷歌携手开启代理式与物理AI的未来

    、优化能源电网等。在 NVIDIA GTC 全球 AI 大会上,来自 Google DeepMind、Isomorphic Labs、I
    的头像 发表于 03-21 15:10 ?1274次阅读
    英伟达GTC2025亮点:NVIDIA、Alphabet 和谷歌携手开启代理式与物理<b class='flag-5'>AI</b>的未来

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    []() 2025年3月19日——Banana Pi 今日正式发布 BPI-AI2N & BPI-AI2N Carrier,基于瑞萨电子(Renesas)同步发布的最新的高性能处理器
    发表于 03-19 17:54

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发一个视频应用。AI Agent是一种智能应用,能够根据用户需求和环境变化做出相应响应。通常基于深度
    发表于 03-05 19:52

    求助,使用reality AI建立内容后,出现部分no reference to 的报错

    将对应的predict文件导入后,出现了如下报错 然后将自己生成的代码放到官方发的那个姿态传感的项目中又可以跑。 将官方的rai文件倒过来又出现no reference to 报错
    发表于 02-14 20:48

    DeepMind创始人预计年内有AI设计药物进入临床试验

    近日,英国人工智能公司DeepMind的创始人兼首席执行官德米斯·哈萨比斯(Demis Hassabis)透露,预计在今年年底前,将有人工智能(AI)设计的药物进入临床试验阶段。
    的头像 发表于 01-24 15:46 ?2298次阅读

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌已将AI Studio团队整体转移至DeepMi
    的头像 发表于 01-13 14:40 ?826次阅读

    谷歌Vertex AI助力企业生成式AI应用

    DeepMind 在模型技术方面积极探索创新,尤其着力于 Gemini 和 Imagen 的改进。我们的企业 AI 平台 Vertex AI 也推出了数十项突破性功能。
    的头像 发表于 09-09 15:59 ?1025次阅读