0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么?

DPVg_AI_era ? 来源:lp ? 2019-04-19 09:29 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在上周末彻底攻陷了Dota人类顶级职业战队OG后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

OpenAIFive是第一个在电子竞技游戏中击败世界冠军的人工智能,在上周末与2-0大败世界冠军Dota2团队OG,这是AI第一次在直播中击败了电子竞技专家。

OG和OpenAI开发组

本次比赛还得出了两个惊人的发现:

尽管训练的时候专注于击败其他疯狂电脑,但OpenAIFive在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI

总决赛让OpenAI的科学家可以回答一个重要的研究问题:OpenAIFive在多大程度、以何种方式能够被确定的打败?并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署

彻底攻陷了人类顶级职业玩家后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

为什么选择Dota?

OpenAIFive的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想(例如分层强化学习)。

OpenAIFive将世界视为一堆必须破译的数字。它使用相同的通用学习代码,无论这些数字代表Dota游戏(约20,000个数字)或机器人手(约200个)的状态

为了构建OpenAIFive,研究人员创建了一个名为Rapid的系统,以前所未有的规模运行PPO。结果超出了研究人员最大的期望,产生出了世界级的Dota机器人,没有触及任何基本的性能限制。

当今的监督学习算法之所以能有如此强大功能,是以大量经验为代价的,这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。

研究人员表示,从今天开始OpenAIFive将不会继续打比赛,但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。

算力

OpenAIFive这次的胜利是由于一次重大变化:训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展,之后将绝大部分算力用于培训单一的OpenAIFive模型,相当于延长了训练时间。

总的来说,当前版本的OpenAIFive已经消耗了800petaflop/s-days,并且在10个实时月内获得了45000年的游戏经验,平均每天获得250年的模拟经验。OpenAIFive的总决赛版本与TI版本相比,胜率为99.9%。

迁移学习

尽管模型大小和游戏规则发生了变化,但目前版本的OpenAIFive自2018年6月以来一直在不断训练。在每种情况下,研究人员都能够将模型转移并继续培训,这对于其他领域的监督学习来说是一个开放的挑战。

据悉,这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。

更多Dota英雄

研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显,于是假设对更多英雄来说也是如此,随后开始大量尝试整合新英雄。

研究人员花了几个星期的时间训练英雄池,最多达到了25个英雄。将这些英雄带到大约5kMMR(大约95%的Dota玩家)。尽管在进步,但学习速度还不够快,无法在总决赛之前达到职业水平。

研究人员没有太多时间调查原因,但他们认为可能需要更好的匹配扩展的英雄池,需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后,学习新英雄的难度是多么大!

协同模式

它实际上感觉很好;我的毒蛇在某些时候为我献出了生命。他试图帮助我,想着“我确定她知道她在做什么”然后显然我没有。但是,你知道,他相信我。对于[人类]队友,我并没有那么多.-无论如何

在总决赛期间,研究人员展示了OpenAI Five与人类一起在团队中的表现,两队的成员都是2个真人带3个智能体

OpenAIFive与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景:人工智能系统能够和人类协作并增强人类体验。

玩家认为从机器人队友哪里感受到了战友之情,并从这些先进的系统中学到了很多东西,整体来说是一种有趣的体验。

值得注意的是,OpenAIFive展示了zero-shot迁移学习,与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上,研究人员考虑在国际上进行协同作案韩比赛,但认为需要专门的训练。

OpenAI Five Arena

目前研究人员还不知道OpenAIFive在多大程度上能够通过更机智的策略被击败,所以研究人员推出了OpenAIFiveArena。这是一项公开的实验,任何人都可以跟OpenAIFive组队或者对战。

竞技场于4月18日星期四太平洋标准时间下午6点开放,并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册,所有游戏的结果将自动报告给竞技场公共排行榜。

下一步干什么

一旦研究人员审查了OpenAIFiveArena的结果,研究人员将发布对OpenAIFive的更多技术分析,之后将继续使用OpenAI中的Dota2环境。

研究人员已经看到过去两年在监督学习能力方面取得了快速进展,并认为Dota2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面,持续提供帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251547
  • 深度学习
    +关注

    关注

    73

    文章

    5569

    浏览量

    123089
  • 迁移学习
    +关注

    关注

    0

    文章

    74

    浏览量

    5756

原文标题:官方揭秘OpenAI Five如何打败人类:迁移学习+海量训练,10个月训练4.5万年

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型训练的理想
    的头像 发表于 03-18 10:08 ?323次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    OpenAI简化大模型选择:萨姆·奥特曼制定路线图

    OpenAI的首席执行官萨姆·奥特曼(Sam Altman)近期为公司的GPT-4.5和GPT-5大模型开发制定了一项重要的路线图,旨在极大地简化和优化用户及开发人员在选择AI模型时的体验。 在当
    的头像 发表于 02-18 09:12 ?543次阅读

    Figure AI宣布终止与OpenAI合作,专注内部研发

    近日,人形机器人领域的独角兽企业Figure AI宣布了一个重要决定:因已取得“重大突破”,将终止与OpenAI的合作,并专注于内部人工智能技术的研发。这一决定距离Figure AI宣布
    的头像 发表于 02-06 14:33 ?686次阅读

    OpenAI CEO访印,共商AI战略

    、模型和应用程序这三个关键领域。阿什维尼·维什瑙部长表示,OpenAI对于与印度在这三方面展开合作表现出了浓厚的兴趣。 GPU作为人工智能领域的重要基础设施,对于提升AI模型的训练和推理能力具有至关重要的作用。而
    的头像 发表于 02-06 10:10 ?468次阅读

    OpenAI进军传媒,苹果暂停AI新闻功能

    技术支持的地方新闻编辑室”。这一举措标志着OpenAI正式涉足传媒领域,意图通过AI技术推动新闻业的创新与发展。 与此同时,苹果公司在AI新闻功能方面却遭遇了挫折。面对外界关于AI能力
    的头像 发表于 01-21 10:10 ?523次阅读

    OpenAI GPT-5开发滞后:训练成本高昂

    近日,据最新消息,OpenAI在推进其备受期待的下一代旗舰模型GPT-5的开发进程上遇到了困难。由于计算成本高昂且高质量训练数据稀缺,GPT-5的开发已经落后于原定计划半年之久。 据悉,OpenAI
    的头像 发表于 12-23 11:04 ?1027次阅读

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 ?836次阅读

    训练AI大模型需要什么样的gpu

    训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时,需要根据具体需求进行权
    的头像 发表于 12-03 10:10 ?738次阅读

    如何训练自己的AI大模型

    训练自己的AI大模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的AI模型
    的头像 发表于 10-23 15:07 ?5339次阅读

    端到端InfiniBand网络解决LLM训练瓶颈

    ChatGPT对技术的影响引发了对人工智能未来的预测,尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4,使各个领域取得了显著的发展。 这些AI进步是通过大规模模型训练实现
    的头像 发表于 10-23 11:26 ?3890次阅读
    端到端InfiniBand网络解决LLM<b class='flag-5'>训练</b>瓶颈

    ai模型训练需要什么配置

    较小的数据集和简单的计算任务,如数据预处理、模型评估等。因此,选择一款高性能的CPU对于提高AI模型训练的整体效率至关重要。 推荐选择Intel Core i7或更高性能的处理器,或者
    的头像 发表于 10-17 18:10 ?4221次阅读