0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

摩尔线程 ? 来源:摩尔线程 ? 2025-02-27 14:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。不仅如此,摩尔线程还基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能,充分展示了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为 V3/R1的训练与推理提供强大动力。这两个重要的开源仓库均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。升级的MUTLASS高性能线性代数模板库支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。同时摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并快速适配DeepSeek的各个开源仓库,旨在为更多GPU开发者赋能。摩尔线程始终致力于推动开源生态的发展,通过技术开放与生态共建,加速国产全功能GPU在AI计算领域的规模化应用,为更多用户提供更智能、高效的解决方案。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131675
  • 开源
    +关注

    关注

    3

    文章

    3755

    浏览量

    43992
  • 摩尔线程
    +关注

    关注

    2

    文章

    242

    浏览量

    5456
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1836

原文标题:原生FP8计算 + MUTLASS|摩尔线程高效完成DeepSeek开源库FlashMLA和DeepGEMM的适配

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔
    的头像 发表于 03-31 11:34 ?667次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU成功<b class='flag-5'>适配</b><b class='flag-5'>Deepseek</b>-V3-0324大模型

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持。
    的头像 发表于 03-07 17:48 ?793次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>支持阿里云通义千问QwQ-32B<b class='flag-5'>开源</b>模型

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek
    的头像 发表于 03-04 10:06 ?548次阅读

    摩尔线程支持DeepSeek开源通信DeepEP和并行算法DualPipe

    DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信
    的头像 发表于 02-28 15:58 ?551次阅读

    云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA

    2 月 24 日,DeepSeek"开源周"正式启动,并发布首个代码FlashMLA……
    的头像 发表于 02-27 11:06 ?429次阅读
    云天励飞DeepEdge10<b class='flag-5'>适配</b><b class='flag-5'>DeepSeek</b><b class='flag-5'>开源</b>周“首个大招”:<b class='flag-5'>FlashMLA</b>

    DeepSeek宣布开源DeepGEMM

    DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的,具有细粒度缩放功能,在Deepseek开源周的第三天Deepsee
    的头像 发表于 02-26 15:33 ?916次阅读

    DeepSeek扔的第二枚开源王炸是什么

    DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。 ? 在25日,也就是DeepSeek
    的头像 发表于 02-26 11:05 ?849次阅读
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>开源</b>王炸是什么

    沐曦GPU跑通DeepSeek开源代码FlashMLA

    今日,DeepSeek正式启动"开源周"计划,首发代码FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2
    的头像 发表于 02-25 16:25 ?935次阅读

    摩尔线程图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程“全功能”图形显卡MTT S80,不仅游戏渲染性能强大,能玩《黑神话:悟空》,现在还能本地部署DeepSeek R1蒸馏模型。搭配最新发布的MUSA SDK RC3.1.1版本,开发者直接用
    的头像 发表于 02-21 15:46 ?2462次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>图形显卡MTT S80实现<b class='flag-5'>DeepSeek</b>模型部署

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    。 据悉,DeepSeek开源模型在多语言理解与复杂推理任务中一直表现出卓越的性能,其V3、R1等系列模型更是备受业界关注。而此次摩尔线程所实现的D
    的头像 发表于 02-06 13:49 ?861次阅读

    摩尔线程开源高性能线性代数模板MUTLASS

    近日,摩尔线程宣布开源高性能线性代数模板MUTLASS,以便开发者能够更高效针对摩尔线程全功能
    的头像 发表于 11-13 11:53 ?819次阅读

    摩尔线程完成股改,筹备上市

    近日,摩尔线程智能科技(北京)股份有限公司(简称“摩尔线程”)宣布已完成股改,并正积极筹备上市。据国家企业信用信息公示系统最新查询结果显示,
    的头像 发表于 11-12 14:15 ?1234次阅读

    摩尔线程GPU与超图软件大模型适配:共筑国产地理空间AI新生态

    10月24日,摩尔线程公司宣布与超图软件达成重要合作里程碑。经过双方的严格测试,摩尔线程的MTT S/X系列全功能GPU已成功与超图软件最新发布的大模型系列产品
    的头像 发表于 10-24 11:29 ?1499次阅读

    摩尔线程与超图软件完成产品兼容认证

    10月24日,摩尔线程官方正式对外宣布,其MTT S/X系列全功能GPU已成功与超图软件最新发布的大模型系列产品完成产品兼容认证。这一消息的发布标志着双方在GPU与软件适配方面的合作取
    的头像 发表于 10-24 10:25 ?1052次阅读

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程
    的头像 发表于 08-27 16:19 ?869次阅读