0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑和DeepMind联合发布堪称AI界的MapReduce

中科院长春光机所 ? 来源:新智元、reddit ? 作者:新智元、reddit ? 2021-06-26 15:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【新智元导读】AI模型进入大数据时代,单机早已不能满足训练模型的要求,最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad,堪称AI界的MapReduce。

正如吴恩达所言,当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加,在大规模数据下进行分布式训练也逐渐变得普遍,而如何在大规模数据、大模型的情况下进行计算,还是一个挑战。

分布式学习过程也会使实现过程复杂化,这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题,尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中,来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题,Launchpad 是一种编程模型,它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan,毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构,这样图中的每个节点都代表一个服务,即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用,将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信,并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式,Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示,每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段: 设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段,处理这个数据结构以分配资源、地址等,并启动指定服务; 然后执行阶段运行服务,例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的,它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现,包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富,足以容纳各种各样的分布式系统,包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中,并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说,Launchpad 是一个实用的、用户友好的、表达性强的框架,用于机器学习研究人员和实践者详细说明分布式系统,作者表示,这个框架能够处理日益复杂的机器学习模型。其他框架

2020年,DeepMind 发布过一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动,生成他们自己的训练数据,这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加,这促使设计了一个系统,使智能体与环境实例相互作用,迅速积累经验。DeepMind 断言,将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体,这就是 Acme 框架的用武之地。

DeepMind研究员写道,「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体,这些智能体可以在不同规模的执行中运行,包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型,而无需担心DevOps,或者为常见任务(如容错或实验跟踪)编写代码。更快的分布式训练,智能的超参优化,实验跟踪和可视化。

一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod,以Horovod为起点,研究人员运用了多年的专业知识和经验,使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架,由Uber 构建并开源,目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点,如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等,而 Horovod 则让深度学习变得更加美好,随着规模增大,Horovod 性能基本是线性增加的,损失远小于 TensorFlow。

2019年,字节跳动AI lab开源了一款高性能分布式框架BytePS,在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用户只要在代码中引用BytePS的插件,就可以获得高性能的分布式训练。BytePS的核心逻辑,则实现在BytePS core里。具体的通信细节,完全由BytePS完成,用户完全不需要操心。

来源:reddit

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108421
  • AI
    AI
    +关注

    关注

    88

    文章

    35518

    浏览量

    281441
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134905

原文标题:一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

文章出处:【微信号:cas-ciomp,微信公众号:中科院长春光机所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技与新华医院联合发布AI儿童全科医生”

    近日,知名三级甲等医院上海交通大学医学院附属新华医院奉贤院区正式起航。 在开业仪式上,新华医院联合商汤医疗重磅发布基于商汤“深思考”日日新大医·医疗大模型的AI?儿童全科医生,为基层儿科医生诊疗
    的头像 发表于 07-01 15:05 ?2172次阅读
    商汤科技与新华医院<b class='flag-5'>联合发布</b>“<b class='flag-5'>AI</b>儿童全科医生”

    上汽集团与华为联合发布新品牌“SAIC尚

    4月16日,在鸿蒙智行新品发布会上,上汽集团与华为联合发布了全新品牌“SAIC尚”。上汽集团总裁贾健旭与华为常务董事、终端BG董事长余承东携手登台,揭晓这一最新战略合作成果,标志着双方在智能汽车领域的合作进入实质性落地阶段。
    的头像 发表于 04-16 17:55 ?610次阅读

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎?

    Cloud 客户开放,将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。 ? 在核心亮点层面,Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片,能够有力支持大规模思考
    的头像 发表于 04-12 00:57 ?2575次阅读

    英伟达GTC2025亮点:NVIDIA、Alphabet 和谷歌携手开启代理式与物理AI的未来

    联合计划涵盖基础设施和开源模型优化,在机器人、药物研发等领域取得巨大进展 具有长期合作伙伴关系的 NVIDIA、Alphabet 和谷歌宣布了多项新计划,旨在推动 AI 发展、普及 AI
    的头像 发表于 03-21 15:10 ?1232次阅读
    英伟达GTC2025亮点:NVIDIA、Alphabet 和<b class='flag-5'>谷歌</b>携手开启代理式与物理<b class='flag-5'>AI</b>的未来

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    []() 2025年3月19日——Banana Pi 今日正式发布 BPI-AI2N & BPI-AI2N Carrier,基于瑞萨电子(Renesas)同步发布的最新的高性能
    发表于 03-19 17:54

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌
    的头像 发表于 01-13 14:40 ?784次阅读

    黑芝麻智能与RockAI发布AI Agent解决方案

    黑芝麻智能与RockAI联合发布基于武当C1200家族芯片的AI Agent解决方案,该方案将部署于未来的智能座舱应用中。
    的头像 发表于 01-10 16:33 ?884次阅读

    云天励飞联合发布AI智能眼镜

    近日,云天励飞在互动平台上宣布,公司与闪极科技、LOHO眼镜品牌携手合作,共同推出了全新的AI智能眼镜。这款眼镜不仅集成了云天励飞自研的大模型“云天天书”,还充分展现了公司在AI技术领域的深厚积累
    的头像 发表于 12-26 11:05 ?1220次阅读

    东软与中国信通院联合发布数据报告

    近日,东软与中国信息通信研究院产业与规划研究所联合发布《数据要素价值实现路径洞察报告》。报告阐述了数据作为形成新质生产力的优质生产要素,以其独特的价值增值方式促进科技革命和产业变革,提升全要素生产率。
    的头像 发表于 12-25 09:28 ?556次阅读

    开放原子与Eclipse两基金会联合发布EPL-2.0许可证中译文

    中国首家开源基金会开放原子开源基金会与欧洲最大的开源组织Eclipse基金会今天联合发布了双方认可的Eclipse公共许可证第2.0版中译文。
    的头像 发表于 12-23 11:26 ?832次阅读

    谷歌与三星联合发布Android XR操作系统

    系统整合了谷歌在人工智能、增强现实(AR)以及虚拟现实(VR)领域的技术积累,充分展现了谷歌在技术创新方面的实力。通过这一系统,用户将能够享受到更加逼真、生动的虚拟世界,以及更加智能、便捷的操作体验。 此次发布的Android
    的头像 发表于 12-16 10:08 ?612次阅读

    spark为什么比mapreduce快?

    spark为什么比mapreduce快? 首先澄清几个误区: 1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的 2;DAG计算模型
    的头像 发表于 09-06 09:45 ?554次阅读

    壁仞科技与软通动力联合发布创新AI PC产品

    在广州市黄埔区中新知识城举办的“H?I? AI探索峰会”上,壁仞科技与软通动力携手共创辉煌,联合发布了全新的AI PC(AIPC)产品,这一里程碑式的合作标志着AI技术在企业应用领域的
    的头像 发表于 09-02 16:07 ?827次阅读

    谷歌任命原Character.AI首席执行官为Gemini联合技术负责人

    近日,谷歌宣布了一项重要人事任命,原Character.AI联合创始人兼首席执行官诺姆·沙泽尔(Noam Shazeer)已重返谷歌,并将担任其人工智能新项目“Gemini”的
    的头像 发表于 08-26 11:06 ?843次阅读

    谷歌Pixel 9系列发布会:AI技术领先,Gemini AI成焦点

    8月14日,谷歌在景山城总部举行了一场备受瞩目的新品发布会,提前于苹果iPhone 16系列发布,展示了Pixel 9系列手机及其搭载的全新AI功能,这一举措迅速吸引了业界的广泛关注。
    的头像 发表于 08-15 15:22 ?1801次阅读