0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何测试强化学习智能体适应性

EdXK_AI_News ? 来源:cg ? 2018-12-24 09:29 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。

似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。

OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1809

    文章

    49164

    浏览量

    250743
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11642

原文标题:OpenAI提出能测试强化学习智能体适应性的新方法

文章出处:【微信号:AI_News,微信公众号:人工智能快报】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 ?750次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    4644芯片在商业航天与特种工业中的低温环境适应性研究

    在现代电子技术的广泛应用中,商业航天和特种工业领域对于电子元件的环境适应性提出了极为苛刻的要求。本文以国科安芯研发的 ASP4644S 芯片为例,深入探讨其在-55℃极端低温条件下的运行性能、技术
    的头像 发表于 06-14 16:22 ?355次阅读
    4644芯片在商业航天与特种工业中的低温环境<b class='flag-5'>适应性</b>研究

    SMA接口在汽车电子复杂环境下的适应性剖析

    德索SMA接口在汽车电子复杂环境下既具备一定的适应性优势,也面临诸多挑战。通过持续的技术创新与工艺改进,德索有望进一步提升SMA接口在汽车电子领域的适应性与可靠,为汽车电子技术的发展提供有力支持。
    的头像 发表于 06-04 09:04 ?364次阅读
    SMA接口在汽车电子复杂环境下的<b class='flag-5'>适应性</b>剖析

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 ?511次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    频率适应性、抗干扰大揭秘:BNC 型射频连接头的独特优势

    在电子设备不断向小型化、高性能化发展的今天,BNC型射频连接头的频率适应性和抗干扰优势愈发凸显。它为设备的高效运行提供了可靠的连接保障,减少了因信号问题导致的设备故障和数据传输错误。无论是在科研
    的头像 发表于 04-21 11:12 ?326次阅读
    频率<b class='flag-5'>适应性</b>、抗干扰<b class='flag-5'>性</b>大揭秘:BNC 型射频连接头的独特优势

    频率适应性、抗干扰大揭秘:BNC 型射频插座的独特优势

    BNC型射频连接头以其卓越的频率适应性和抗干扰,成为众多射频连接应用场景中的理想选择。深入了解并合理运用这些优势,能够助力工程师和技术人员更好地构建稳定、高效的电子系统。
    的头像 发表于 04-15 10:21 ?232次阅读
    频率<b class='flag-5'>适应性</b>、抗干扰<b class='flag-5'>性</b>大揭秘:BNC 型射频插座的独特优势

    M12 航空插座型号深度剖析:根据环境适应性与耐用选型

    在选型M12航空插座时,需综合考虑环境适应性与耐用等多方面因素。德索精密工业丰富的产品型号与先进技术,能够满足不同使用环境与插拔频次要求。只有精准匹配德索的产品,才能充分发挥M12航空插座的性能优势,保障设备长期稳定运行。
    的头像 发表于 04-12 09:35 ?267次阅读
    M12 航空插座型号深度剖析:根据环境<b class='flag-5'>适应性</b>与耐用<b class='flag-5'>性</b>选型

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    高低温测试箱:解锁电子产品环境适应性的秘密武器

    高低温测试箱模拟极端环境评估电子产品适应性,确保稳定运行,助制造商发现不足并优化产品。其高度自动化智能化,提供准确测试报告,对提升产品质量、缩短研发周期等发挥重要作用。在当今快速发展的
    的头像 发表于 02-11 14:05 ?1019次阅读
    高低温<b class='flag-5'>测试</b>箱:解锁电子产品环境<b class='flag-5'>适应性</b>的秘密武器

    振弦式应变计的环境适应性与性能分析

    ,不同的工作环境对应变计的性能提出了不同的要求。南京峟思将针对振弦式应变计的环境适应性和性能进行详细分析。一、振弦式应变计的环境适应性振弦式应变计适用于长期埋设在水工结构物或其
    的头像 发表于 01-16 13:19 ?490次阅读
    振弦式应变计的环境<b class='flag-5'>适应性</b>与性能分析

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能的自主、处理复杂环境互动的能力及确保行为的伦理和安全。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表
    发表于 12-20 19:17

    BNC插座弯式适应性怎样

    德索工程师说道BNC插座弯式在适应性方面具有显著的优势,这些优势主要体现在空间利用、布线灵活性、信号传输质量以及应用场景的广泛等多个方面。以下是对BNC插座弯式适应性的详细分析:   BNC插座
    的头像 发表于 12-07 16:22 ?442次阅读
    BNC插座弯式<b class='flag-5'>适应性</b>怎样

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    近日,专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉,此次交易完成后,边塞科技将保持独立运营,而原投资人已全部退出。 与此同时,蚂蚁集团近期宣布成立强化学习实验室,旨在推动大模型强化学习
    的头像 发表于 11-22 11:14 ?1640次阅读

    贴片电阻选型:全面考量技术参数与环境适应性

    贴片电阻选型:全面考量技术参数与环境适应性
    的头像 发表于 11-16 11:24 ?1061次阅读

    如何使用 PyTorch 进行强化学习

    的计算图和自动微分功能,非常适合实现复杂的强化学习算法。 1. 环境(Environment) 在强化学习中,环境是一个抽象的概念,它定义了智能(agent)可以执行的动作(acti
    的头像 发表于 11-05 17:34 ?1089次阅读