0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

壁仞科技支持DeepSeek-V3满血版训练推理

壁仞科技Birentech ? 来源:壁仞科技Birentech ? 2025-03-04 14:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理,实现国产大模型与国产GPU的深度融合优化,开启国产算力新篇章。

01.首个国产化Megatron-LM

深度适配方案

DeepSeek业界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性,但并未开放训练代码,且Megatron-LM初期也未支持DeepSeek-V3。壁仞科技充分利用自研的Megatron-LM-BR插件、训练框架BR-PyTorch以及高性能加速库suDNN、suBLAS、suCCL等,在Megatron-LM框架上率先支持了这些新特性。针对DeepSeek-V3预训练,壁仞支持四大并行策略(TP/EP/PP/DP)灵活组合,较原生方案(TP1PP16EP64DP2)更容易适应不同规模节点的灵活扩展。实现"Attention-MoE异构TP"技术,大幅降低了Attention显存需求。

02.突破海外GPU高度依赖,

实现关键技术国产替代

DeepSeek基于海外GPU做了大量算法和软硬件协同优化,其实现高度依赖海外GPU微架构、NVLink互连、IB交换机等。基于自研BIREN大算力TCore、高速互连BLink等技术,壁仞科技在DeepSeek开源周之前就已经实现了FlashMLA、DeepGEMM、DeepEP等核心模块类似功能和优化技术,并进行了软硬协同深度优化,端到端打通了训练全流程,实现了关键技术的国产自主可控。

03.业界首创显存优化双擎技术,

实现满血版高效训练

DeepSeek-V3满血版有671B参数,官方推荐方案至少需要1024个H800(TP1PP16EP64DP1)才能进行全参训练。为了应对显存挑战,壁仞科技自主创新Async Offload、GPU-based Chunk Optimizer等精度无损的显存优化技术,将大量激活值及优化器状态异步卸载至CPU内存,实现仅需4096GB显存(8-16台单机8卡GPU机器)即可支持DeepSeek-V3全参高效训练。与此同时,通过巧妙地重叠计算与通信,上述显存优化技术几乎没有带来训练性能的损失。另外支持智能重计算策略,自动识别显存瓶颈层,实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术,实现算力开销和显存节约的最佳均衡。

04.业界首创"虚拟层+动态重排"技术,

大幅降低流水线气泡

DeepSeek的DualPipe技术能掩盖部分传输开销及大幅降低流水线气泡,但DualPipe需要GPU微架构层面对计算单元进行精确控制才能实现计算和通信的高效并发,相比1F1B,DualPipe需要增加1倍的模型权重及部分激活值显存消耗。相比1F1B,Interleave with Virtual Pipeline技术可以在不增加显存消耗的情况下大幅降低流水线气泡,但是要求每个PP Stage的layer数是均衡的。DeepSeek-V3有61个Layer,PP8/PP16都无法均衡切分Layer导致无法使能Virtual Pipeline,壁仞科技业界首创"虚拟层+动态重排"技术,通过插入3个虚拟层实现64层均匀切分,重排部分层实现负载均衡,避免流水线等待,最终实现高效PP并行。

05.融合算子加速体系,

释放国产GPU性能潜力

针对DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等关键耗时算子,壁仞科技基于其GPU架构特点做了极致的图算/通算融合优化,从多计算操作极致的片上融合,张量处理器与矢量处理器极致异步融合,多级缓存的流水融合,到计算与通信融合,并进一步引入自动化的Kernel Selection技术,基于硬件计算/通信/访存建模的CostModel针对不同工作负载自适应选择最优内核实现,将芯片综合能效发挥到极致。

06.整合关键技术模块,实现DeepSeek-

V3满血版端到端高效预训练

壁仞科技壁砺TM系列产品如壁砺TM106M、106B等产品具备高算力、高能效、高通用性等优势,训推一体,已在多个行业完成大规模商业化落地,其中在中国电信落地了国内少有的真正实现市场化建设和运营的国产千卡集群,连续训练30天不中断,断点续训小于5分钟,支持客户完成大模型训练,稳定性、性能、精度各项指标达到客户要求。此次基于壁砺TM106系列产品,壁仞科技快速高效完成了DeepSeek-V3各项关键技术落地,基于RedPajama-Data-1T-Sample主流开源数据集实现了端到端高效预训练,Loss收敛正常。

07.实现W4A16细粒度量化技术,支持

DeepSeek-V3/R1满血版高效推理

壁仞科技在此前已经支持了BF16、INT8等版本的DeepSeek-V3/R1满血版推理,此次新提出W4A16等细粒度混合量化技术,进一步降低了处理延时,提升了总吞吐。另外针对DeepSeek官方最新发布的推理系统参考架构,壁仞科技已初步实现了分布式EP以及PD分离架构,将进一步提供更高性价比的推理集群解决方案。

08.One More Thing

业界首创大模型弹性训推一体架构,

实现集群最佳利用效率

DeepSeek 开放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系统参考方案,为行业展示了如何实现高性能、低成本的分布式推理集群。其提到“由于白天的服务负荷高,晚上的服务负荷低,因此我们实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练”,在计算推理成本时,其将释放给训练使用的资源排除在外,因此降低了推理成本(大概20%= 100% - 226节点/278节点)。但如何实现训练和推理任务高效共享资源呢?

此前在落地千卡集群时,壁仞科技已业界首创了大模型3D并行训练任务自动弹性伸缩机制,可以在大模型训练任务不中断的情况下,根据集群的资源情况自动进行在线扩缩容。根据业务流量情况自动进行削峰填谷,对大模型推理服务进行实例缩容、扩容,相应的训练任务则自动进行扩容、缩容。通过这套弹性训推一体架构,可以将集群资源的使用率保持在近100%,大幅降低资源空闲浪费成本。

壁仞科技打造了软硬一体、全栈优化、异构协同、开源开放的大规模智算集群全栈解决方案,凭借其技术创新能力和商业化落地成果,先后获得环球时报新质生产力产业实践“人工智能”示范标杆等多个权威技术奖项,技术方案和产品已在运营商、智算中心、行业AI、金融、电力等多个行业规模落地。此次通过八大核心技术赋能DeepSeek-V3满血版全栈式训练推理,进一步提升壁仞科技软硬一体、开箱即用的产品实力,支持客户利用好DeepSeek的新质生产力实现业务创新落地!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131666
  • 开源
    +关注

    关注

    3

    文章

    3755

    浏览量

    43984
  • 壁仞科技
    +关注

    关注

    1

    文章

    70

    浏览量

    3202
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1830

原文标题:【智算新突破】壁仞科技八大核心技术赋能DeepSeek-V3满血版全栈式训练和推理

文章出处:【微信号:Birentech,微信公众号:壁仞科技Birentech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    剖析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型(MoE)的起源与发展,到 DeepSeek-
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后
    发表于 06-09 14:38

    科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,科技宣布完成旗舰版Qwen3-235B-A22B模型的训练
    的头像 发表于 05-16 16:23 ?459次阅读

    科技完成阿里巴巴通义千问Qwen3全系列模型支持

    4月29日,阿里巴巴通义千问发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,
    的头像 发表于 04-30 15:19 ?844次阅读

    科大讯飞深度解析DeepSeek-V3/R1推理系统成本

    本篇分析来自科大讯飞技术团队,深度解析了DeepSeek-V3 / R1 推理系统成本,旨在助力开发者实现高性价比的MoE集群部署方案。感谢讯飞研究院副院长&AI工程院常务副院长龙明康、AI工程院AI云平台研发部总监李珍松、讯飞星辰MaaS团队的研究对本文的贡献。
    的头像 发表于 04-15 13:46 ?2750次阅读
    科大讯飞深度解析<b class='flag-5'>DeepSeek-V3</b>/R1<b class='flag-5'>推理</b>系统成本

    实战教程 用满血DeepSeek-V3 671B自动编写俄罗斯方块游戏

    。 本文将从零开始详细介绍使用满血版的DeepSeek-V3 671B模型 + 官方推荐的Roo Code插件为您打造AI编程智能体的全过程。 一,开发环境准备 本文的软硬件环境如下: 操作系统
    的头像 发表于 02-19 16:23 ?2280次阅读
    实战教程 用<b class='flag-5'>满血</b>版<b class='flag-5'>DeepSeek-V3</b> 671B自动编写俄罗斯方块游戏

    DeepSeek V3昇思MindSpore版本上线开源社区

    近日,基于昇腾AI硬件与昇思MindSpore AI框架版本的DeepSeek-V3完成开发支持并上线昇思开源社区,面向开发者提供开箱即用的预训练推理能力,并已成功在大规模集群上预
    的头像 发表于 02-18 10:12 ?1287次阅读
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>V3</b>昇思MindSpore版本上线开源社区

    了解DeepSeek-V3DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3
    发表于 02-14 02:08

    讯飞开放平台支持DeepSeek

    今天,DeepSeek全系大模型正式上线讯飞开放平台(包括DeepSeek-V3DeepSeek-R1),支持公有云API调用、一键部署专属模型!
    的头像 发表于 02-11 09:27 ?1455次阅读

    科技顺利部署DeepSeek R1千问蒸馏模型

    DeepSeek 的国内算力支持队伍进一步壮大:来自上海的科技顺利部署DeepSeek-R1-Distill千问蒸馏模型(1.5B/7B
    的头像 发表于 02-08 16:56 ?1893次阅读

    昆仑芯率先完成Deepseek训练推理全版本适配

    本文是昆仑芯适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑芯P800上进行DeepSeek-V3/R1推理训练的深度文章,干货满满、持续关注!
    的头像 发表于 02-06 15:13 ?1547次阅读
    昆仑芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>训练</b><b class='flag-5'>推理</b>全版本适配

    AMD将DeepSeek-V3模型集成至Instinct MI300X GPU

    AMD近日宣布了一项重要进展,成功将全新的DeepSeek-V3模型集成到其Instinct MI300X GPU上。这一举措标志着AMD在AI推理优化方面迈出了重要一步。 据了解
    的头像 发表于 02-06 09:41 ?595次阅读

    AMD集成DeepSeek-V3模型至Instinct MI300X GPU

    AMD近日宣布了一项重要的技术进展,即将全新的DeepSeek-V3模型成功集成到其旗舰级GPU产品——Instinct MI300X上。这一举措标志着AMD在人工智能推理领域迈出了坚实的一步
    的头像 发表于 02-05 13:58 ?565次阅读

    谈谈DeepSeek-v3提到的基础设施演进

    DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一
    的头像 发表于 01-02 10:04 ?997次阅读
    谈谈<b class='flag-5'>DeepSeek-v3</b>提到的基础设施演进