0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的深度学习框架

jf_23871869 ? 来源:刘力 ? 作者:刘力 ? 2025-04-25 11:43 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:算力魔方创始人/英特尔创新大使刘力

CNN时代AI模型的参数规模都在百万级别,仅需在单张消费类显卡上即可完成训练。例如,以业界知名的CNN模型:ResNet50为例,模型参数量是约为 25.63M,在ImageNet1K数据集上,使用单张消费类显卡RTX-4090只需大约35~40个小时,即可完成ResNet50模型的预训练。在大模型时代,由于大模型参数规模庞大,无法跟CNN时代的小模型一样在单张显卡上完成训练,需要构建多张AI加速卡的集群才能完成AI大模型的预训练。例如:DeepSeek-V3在其技术报告中介绍,DeepSeek-V3的模型参数量为671B,需要278万8千个H800 GPU小时才能完成预训练,换句话说,在有1万张H800的GPU集群上,需要训练278.8个小时。

wKgZPGgJvI6AK6v3AAR6CZcI17A083.png

包含1万张H800的AI数据中心包括:带H800的服务器节点、网络、存储、电源、散热等,一般来说,总建设预算在15亿美金左右。以从AWS上租用1万张H800为例,每小时的租金大约为12.3万美金/小时。以训练DeepSeek-V3为例,

训练效率每提升1%,相当于节约278.8*1%*12.3=34.3万美金,

即240万人民币的租金。所以,在大模型时代,如何充分利用分布式的GPU集群算力,是深度学习框架首先需要考虑的点。

要充分利用分布式的GPU集群算力,就需要充分使用复杂的并行策略,

包括数据并行、张量并行、参数分片并行、流水线并行、序列并行、专家并行等;并且还要提升GPU与GPU,服务器节点与服务器节点间的通讯效率;除此之外,还要考虑AI数据中心不同算力芯片的适配;前沿模型快速发展时,对新型模型的支持等等...若要求AI模型科学家既要

熟知模型结构,还要深入了解芯片特点、硬件架构、并行策略、调度逻辑等等

,这会使得大模型的开发和性能优化的

技术门槛变得非常高

,大大制约了大模型的开发和训练效率。针对上述需求和痛点,

飞桨新一代框架3.0

应运而生,该版本提供了丰富的深度学习相关的各种开发接口

表示层:专注于计算图的表达与转换,通过高可扩展中间表示PIR,实现动转静、自动微分、自动并行、算子组合以及计算图优化等核心功能;

调度层:负责对代码或计算图进行智能编排与高效调度,支持动态图和静态图两种不同的执行模式;

算子层:神经网络编译器CINN和算子库PHI共同构成,涵盖了张量定义、算子定义、算子自动融合和算子内核实现等关键功能;

适配层:则用于实现与底层芯片适配,包括设备管理、算子适配、通信适配以及编译接入等功能。

wKgZO2gJvJWAa-4eAAumNKFn45A615.png

飞桨框架3.0凭借强大的功能和优化的设计,

帮助算法工程师和科研人员以更低的成本进行算法创新,

并实现产业应用。以百度文心大模型为例,飞桨框架3.0在训练、推理等方面为文心大模型提供端到端优化,训练方面重点提升训练吞吐、训练有效率和收敛效率,集群训练有效率超过98%;推理部署方面通过注意力机制量化推理、通用投机解码等技术提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技术创新和产业应用。

飞桨框架3.0 Github仓:https://github.com/PaddlePaddle/Paddle。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方?”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5564

    浏览量

    122930
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4147
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1826
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    宁畅与与百度文心大模型展开深度技术合作

    近日,百度正式开源文心大模型4.5系列模型。作为文心开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,文心4.5开源系列全部基于飞桨深度
    的头像 发表于 07-07 16:26 ?290次阅读

    模型推理显存和计算量估计方法研究

    ,如乘法、加法等; (2)根据各层计算操作的类型和复杂度,确定每层所需的计算量; (3)将各层计算量相加,得到模型总的计算量。 基于硬件加速的算力估计 随着硬件加速技术的发展,许多深度学习框架
    发表于 07-03 19:43

    百度飞桨框架3.0正式版发布

    模型训练成本高?推理效率低?硬件适配难? 4月1日,百度发布 飞桨框架3.0正式版 !五大特性专为大模型设计。 作为大模型时代的Infra
    的头像 发表于 04-02 19:03 ?771次阅读
    百度飞桨<b class='flag-5'>框架</b>3.0正式版发布

    在OpenVINO?工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO? 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    Triton编译器在机器学习中的应用

    多种深度学习框架,如TensorFlow、PyTorch、ONNX等,使得开发者能够轻松地将不同框架下训练的模型部署到GPU上。 2. Tr
    的头像 发表于 12-24 18:13 ?1052次阅读

    大语言模型开发框架是什么

    大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言模型开发框架
    的头像 发表于 12-06 10:28 ?565次阅读

    深度学习模型的鲁棒性优化

    深度学习模型的鲁棒性优化是一个复杂但至关重要的任务,它涉及多个方面的技术和策略。以下是一些关键的优化方法: 一、数据预处理与增强 数据清洗 :去除数据中的噪声和异常值,这是提高模型鲁棒
    的头像 发表于 11-11 10:25 ?1296次阅读

    GPU深度学习应用案例

    GPU在深度学习中的应用广泛且重要,以下是一些GPU深度学习应用案例: 一、图像识别 图像识别是深度学习
    的头像 发表于 10-27 11:13 ?1479次阅读

    FPGA加速深度学习模型的案例

    FPGA(现场可编程门阵列)加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习
    的头像 发表于 10-25 09:22 ?1303次阅读

    AI大模型深度学习的关系

    AI大模型深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大
    的头像 发表于 10-23 15:25 ?2974次阅读

    【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

    今天阅读了《大模型时代的基础架构》前两章,还是比较轻松舒适的;再就是本书知识和我的工作领域没有任何关联,一切都是新鲜的,似乎每读一页都会有所收获,这种快乐的学习过程感觉也挺不错的。 第一章开始介绍了
    发表于 10-10 10:36

    【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

    国庆前就收到《大模型时代的基础架构》一书,感谢电子发烧友论坛。欢度国庆之余,今天才静下心来体验此书,书不厚,200余页,彩色图例,印刷精美! 当初申请此书,主要是看到副标题“大模型算力中心建设指南
    发表于 10-08 10:40

    FPGA做深度学习能走多远?

    并行计算的能力,可以在硬件层面并行处理大量数据。这种并行处理能力使得 FPGA 在执行深度学习算法时速度远超传统处理器,能够提供更低的延迟和更高的吞吐量,从而加速模型训练和推理过程,满足实时性要求较高
    发表于 09-27 20:53

    模型时代的算力需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算力,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型算力中心建设指南

    基于TOGAF方法论,剖析业界知名案例的设计方案。 全书总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发
    发表于 08-16 18:33