0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AlphaGo首席研究员谈强化学习十大黄金法则!

DPVg_AI_era ? 来源:未知 ? 作者:李倩 ? 2018-09-17 08:41 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看,也许能少走点弯路。

近日,在南非斯泰伦博斯举行的Deep Learning Indaba活动上,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上,引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议,非常值得开发者机器学习爱好者参考学习。一起看看他是怎么说的吧!

1、在评估中产生进步

客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究:确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究:提出假设,在宽泛的条件下验证假设,与相似结果对比,而不是与最先进的结果对比。重要的是对结果的理解,而不是追求排名。

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论:要广泛验证,建立现实的机器学习环境。

4、 信任智能体的经验

经验(包括观察、动作、奖励)是指深度学习的数据。信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。

5、状态是主观的

智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

6、控制数据流

智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

8、从想象的经验中进行学习

想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。

9、加强函数逼近器

差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。

第二代:浅度学习。手动控制特征,学习预测。

第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。

第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108412
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11642
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    11645

原文标题:AlphaGo首席研究员亲授!十张PPT,十大强化学习黄金法则!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中国信通院发布“2025云计算十大关键词”

    日前,中国信通院正式发布“2025云计算十大关键词”,中国信通院云计算与大数据研究所所长何宝宏对“2025云计算十大关键词”进行了解读。十大关键词分别是:超大规模智算集群、大模型推理云
    的头像 发表于 07-30 10:53 ?1707次阅读
    中国信通院发布“2025云计算<b class='flag-5'>十大</b>关键词”

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 ?750次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    中国科学院西安光机所在计算成像可解释性深度学习重建方法取得进展

    Computational Visual Media(简称CMVJ,IF:17.3),该期刊影响因子位居JCR计算机学科软件工程类期刊首位。西安光机所李宝鹏高级工程师为论文第一作者,西安光机所马彩文研究员和西安交通大学谢琦副教授为共同通信作者。西安光机所樊学武研究员、赵惠
    的头像 发表于 06-09 09:27 ?273次阅读
    中国科学院西安光机所在计算成像可解释性深度<b class='flag-5'>学习</b>重建方法取得进展

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 ?513次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    分立器件可靠性:从工业死机到汽车故障的隐形防线

    本文聚焦分立器件可靠性,指出35%电子设备失效源于选型不当。解析可靠性三大核心指标(标准认证、参数分析、实测验证)及选型三大黄金法则,强调避免常温参数忽视、盲目进口等误区。合科泰器件适配多场景,助力提升设备稳定性与性价比。
    的头像 发表于 04-23 13:16 ?285次阅读
    分立器件可靠性:从工业死机到汽车故障的隐形防线

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 ?664次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    年度电解槽十大品牌+年度制氢十大供应商,稳石氢能荣获两大奖项!

    此前,2024年10月16日,由国能网与国能能源研究院联合举办的第九届新能源行业品牌盛典(GPBC)圆满召开,稳石氢能荣获2024年度·氢能行业品牌榜“年度电解槽十大品牌”与“年度制氢十大供应商”两大奖项!
    的头像 发表于 01-24 14:53 ?808次阅读

    华为发布2025智能光伏十大趋势

    华为数字能源以“融合创新,智构未来,加速光伏成为主力能源”为主题,举办2025智能光伏十大趋势发布会。华为数字能源智能光伏产品线总裁周涛发布了智能光伏十大趋势和重磅白皮书,为光储产业的高质量发展提供前瞻性支持。
    的头像 发表于 01-06 17:12 ?956次阅读

    如何在化学和材料科学领域开展有影响力的人工智能研究?(三)

    第三部分编译后的内容:4.如何解决科学问题?在掌握了上述的工具和视角后,我们将提出一些建议,帮助您在化学领域选择具有影响力的研究课题,并介绍机器学习问题的高层次结构。最后,我们将概述机器学习
    的头像 发表于 12-03 01:02 ?512次阅读
    如何在<b class='flag-5'>化学</b>和材料科学领域开展有影响力的人工智能<b class='flag-5'>研究</b>?(三)

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    领域的研究与发展。令人瞩目的是,边塞科技的创始人吴翼已正式加入该实验室,并担任首席科学家一职。 吴翼在其个人社交平台上对这一变动进行了回应。他表示,自己最近接受了蚂蚁集团的邀请,负责大模型强化学习领域的
    的头像 发表于 11-22 11:14 ?1643次阅读

    全国5G新基建智慧灯杆建设十大代表性案例

    全国5G新基建智慧灯杆建设十大代表性案例
    的头像 发表于 11-07 12:50 ?1383次阅读
    全国5G新基建智慧灯杆建设<b class='flag-5'>十大</b>代表性案例

    选择精科睿进行 PCBA 代工代料有以下十大理由

    选择精科睿进行 PCBA 代工代料有以下十大理由:
    的头像 发表于 11-06 10:21 ?545次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习库,
    的头像 发表于 11-05 17:34 ?1089次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 ?740次阅读

    年预言:Chiplet的使命

    来源: 晶上世界 无论是人工智能深度学习、大数据实时分析,还是超算中心的复杂模拟,都对芯片算力提出了前所未有的需求。大算力时代,如何驾驭数据洪流? 中国科学院计算技术研究所韩银和研究员为我们揭示了
    的头像 发表于 08-27 11:09 ?836次阅读
    <b class='flag-5'>十</b>年预言:Chiplet的使命