0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用PyTorch实现了基本的RL算法

DPVg_AI_era ? 来源:lq ? 2019-06-07 15:36 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天和大家分享Reddit上的一个热帖,楼主用PyTorch实现了基本的RL算法,而且每个算法都在一个文件夹中完成,即使没有GPU,每个算法也可以在30秒内完成训练。

近日,有开发人员用PyTorch实现了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。这个帖子在Reddit论坛上获得了195个赞并引发了热议,一起来看一下吧。

特点如下:

每个算法都在一个文件中完成。

每个算法的长度可达100~150行代码。

即使没有GPU,每个算法也可以在30秒内完成训练。

Envs固定在“CartPole-v1”上,你只需关注执行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放内存和目标网络)

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪声和软目标更新)

6. A3C(116行)

7. 有什么建议吗?

依赖配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

评论中,不少朋友表示了对楼主的认可和感谢:

Dump7留言:“可以!这是我见过的最美的东西之一。我不是一个能用框架编写NN的人。但我正在努力。这将在很大程度上帮助到我。谢谢你做了这个。但是你能为基本的CNN和RNN制作这样的单一文件代码吗?”

CodeReclaimers表示:“谢谢你分享这个——我知道把代码简化到最少是很费事的。特别好的是,你的代码将依赖配置控制在最低限度。通常都是,我去寻找可以学习的例子,要花至少30多分钟来收集所有依赖配置,结果发现我的平台上少了一些关键的东西。”

Reddit上的讨论:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github资源:

https://github.com/seungeunrho/minimalRL

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4720

    浏览量

    95954
  • 代码
    +关注

    关注

    30

    文章

    4908

    浏览量

    71248
  • pytorch
    +关注

    关注

    2

    文章

    810

    浏览量

    14099

原文标题:6行代码搞定基本的RL算法,速度围观Reddit高赞帖

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    易于理解和实践,全部代码均在JupyterNotebook环境中实现,仅依赖基础库进行算法构建。代码库组织结构如下:├──1_simple_rl.ipynb├──
    的头像 发表于 04-23 13:22 ?657次阅读
    18个常用的强化学习<b class='flag-5'>算法</b>整理:从基础方法到高级模型的理论技术与代码<b class='flag-5'>实现</b>

    FOC 算法实现永磁同步电机调整指南

    本文档介绍使用 FOC 算法实现永磁同步电机 (Permanent Magnet SynchronousMotor,PMSM)调整所需的步骤和设置,该算法如 AN1078《PMSM
    发表于 03-03 01:53

    PID控制算法的C语言实现:PID算法原理

    在工业应用中 PID 及其衍生算法是应用最广泛的算法之一,是当之无愧的万能算法,如果能够熟练掌握 PID 算法的设计与实现过程,对于一般的研
    发表于 02-26 15:24

    操作指南:pytorch云服务器怎么设置?

    设置PyTorch云服务器需选择云平台,创建合适的GPU实例,安装操作系统、Python及Anaconda,创建虚拟环境,根据CUDA版本安装PyTorch,配置环境变量,最后验证安装。过程中需考虑
    的头像 发表于 02-08 10:33 ?411次阅读

    利用Arm Kleidi技术实现PyTorch优化

    PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来,Arm 与合作伙伴通力协作,持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 技术提升 Arm
    的头像 发表于 12-23 09:19 ?1199次阅读
    利用Arm Kleidi技术<b class='flag-5'>实现</b><b class='flag-5'>PyTorch</b>优化

    PyTorch 2.5.1: Bugs修复版发布

    ,以提升用户体验。 二,PyTorch 2.5.1 的主要修内容 1,RPM 和 arm64 发行版支持: 2.5.1 版本修复基于 RPM 的发行版和 arm64 发行版中的一些问题,这些修复使得
    的头像 发表于 12-03 16:11 ?1718次阅读
    <b class='flag-5'>PyTorch</b> 2.5.1: Bugs修复版发布

    FacenetPytorch人脸识别方案--基于米尔全志T527开发板

    、facenet_pytorch算法实现人脸识别深度神经网络1.简介Facenet-PyTorch是一个基于PyTorch框架
    的头像 发表于 11-28 15:12 ?1008次阅读
    FacenetPytorch人脸识别方案--基于米尔全志T527开发板

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块。 随着逆全球化趋势的出现,过去的研发
    发表于 11-21 17:05

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+一本介绍基础硬件算法模块实现的好书

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块,本书的内容比较对本人胃口。 我们先来
    发表于 11-20 13:42

    PyTorch 数据加载与处理方法

    PyTorch 是一个流行的开源机器学习库,它提供强大的工具来构建和训练深度学习模型。在构建模型之前,一个重要的步骤是加载和处理数据。 1. PyTorch 数据加载基础 在 PyTorch
    的头像 发表于 11-05 17:37 ?1036次阅读

    如何在 PyTorch 中训练模型

    PyTorch 是一个流行的开源机器学习库,广泛用于计算机视觉和自然语言处理等领域。它提供强大的计算图功能和动态图特性,使得模型的构建和调试变得更加灵活和直观。 数据准备 在训练模型之前,首先需要
    的头像 发表于 11-05 17:36 ?991次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习库,它提供灵活
    的头像 发表于 11-05 17:34 ?1117次阅读

    Pytorch深度学习训练的方法

    掌握这 17 种方法,最省力的方式,加速你的 Pytorch 深度学习训练。
    的头像 发表于 10-28 14:05 ?740次阅读
    <b class='flag-5'>Pytorch</b>深度学习训练的方法

    TMS320C31 DSP实现声码器和短波调制解调器算法

    电子发烧友网站提供《TMS320C31 DSP实现声码器和短波调制解调器算法.pdf》资料免费下载
    发表于 10-28 10:10 ?0次下载
    <b class='flag-5'>用</b>TMS320C31 DSP<b class='flag-5'>实现</b>声码器和短波调制解调器<b class='flag-5'>算法</b>

    新手小白怎么通过云服务器跑pytorch

    安装PyTorch的步骤可以根据不同的操作系统和需求有所差异,通过云服务器运行PyTorch的过程主要包括选择GPU云服务器平台、配置服务器环境、部署和运行PyTorch模型、优化性能等步骤。
    的头像 发表于 09-25 11:35 ?609次阅读