0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Neoverse N2平台实现DeepSeek-R1满血版部署

Arm社区 ? 来源:Arm社区 ? 2025-07-03 14:37 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在成本效率方面颇具优势。Arm 携手合作伙伴,在 Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1 满血版的部署,目前已可提供线上服务。

在基于 Neoverse N2 平台设计的服务器级 CPU 上,通过对软硬件架构的合理适配,以及出色调优来充分发挥平台的计算能力和内存带宽,能够以 INT8 的量化版本提供业界可用的词元 (token) 生成速度,并以更具竞争力的性价比为中小微企业提供业界顶尖的 LLM 服务。

在部署 DeepSeek 大模型过程中,Arm 结合底层架构特性进行了深度优化:模型本身跨多 ?NUMA(非统一内存访问)节点以交错 (interleave) 方式加载,以便充分利用所有内存带宽;除 INT8 量化外,通过开启 KV 量化,以及激活 Flash Attention 机制,以此进一步降低计算量和压缩内存占用。通过技术团队的努力,DeepSeek 满血版的整体性能相较优化前提升了 67%。工程团队后续也会持续投入,提高多节点上的计算并发度及带宽利用率,并通过开发者社区不断完善 Arm 架构的软件生态。

细究 DeepSeek 的模型架构创新,它针对大模型运行时的痛点进行计算、内存访问和算法流水线上的效率提升,比如 MLA 和 FP8 训练和推理减少了内存占用和带宽需求,DeepSeekMoE 降低了计算强度、提高计算效率,DualPipe 提高了多计算节点间的通信和计算效率。这些工程优化思维与 Arm 一贯倡导的高能效设计目标不谋而合,也使得在纯 CPU 平台上运行如此大规模的模型成为可能。

Arm 平台致力于助力合作伙伴提高性能,并降低总体拥有成本 (TCO),在 Neoverse N2 平台运行 DeepSeek 大模型推理也淋漓尽致地体现了这一原则。在为中小微企业提供大模型服务时,并发需求降低,成本敏感度提高。在基于 Neoverse N2 平台上运行的 DeepSeek-R1 为他们提供了一个更为均衡的选择。相较传统多卡 GPU/加速器平台,这能极大地降低订阅服务成本,使用户能以较低代价快速启动业务部署。下图是两种方案订阅服务的价格对比:

826368a6-532f-11f0-b715-92fbcf53809c.png

搭载 Neoverse N2 平台的服务器平台能把部署成本降低约八倍。此外,对数据中心来说,在 CPU 上部署 LLM 也能充分利用在线的空闲算力,提高整体资源利用率。与此同时,基于 Neoverse N2 平台的服务器功耗仅为传统八卡 GPU 服务器的 1/12,能极大地降低数据中心的能耗压力。

如此大规模的模型(6,710亿参数)能够在数据中心服务器级 CPU 上运行,并迅速上线为客户提供快速部署,得益于 Neoverse 平台对 AI 推理负载的一贯思考和设计,包括 2 x 128 位的可伸缩向量扩展 (SVE2) 特性、BF16/INT8 数据格式支持,以及点积和矩阵乘法等指令的支持,加之多通道高带宽内存配置,和低延迟 CMN 互联等等。

随着 AI 领域的飞速发展,LLM 在持续的工程创新和优化之下应用领域不断变广。Arm 将持续通过 Neoverse 平台为行业赋能,并在这一新的技术纪元中引领变革。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9373

    浏览量

    378559
  • 人工智能
    +关注

    关注

    1809

    文章

    49151

    浏览量

    250613
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1826

原文标题:在 Arm Neoverse N2 平台上以更优成本、更低功耗,充分释放 DeepSeek-R1 满血版性能

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用OpenVINO运行DeepSeek-R1蒸馏模型

    DeepSeek-R1在春节期间引发了全球科技界的热度,DeepSeek-R1 是由 DeepSeek 开发的开源推理模型,用于解决需要逻辑推理、数学问题解决和实时决策的任务。
    的头像 发表于 03-12 13:45 ?1492次阅读
    如何使用OpenVINO运行<b class='flag-5'>DeepSeek-R1</b>蒸馏模型

    在英特尔哪吒开发套件上部署DeepSeek-R1实现方式

    随着人工智能技术的快速发展,企业对 AI 模型的部署方式有了更多选择。本地部署 DeepSeek-R1 模型具有以下显著优势,使其成为许多企业和开发者的首选。
    的头像 发表于 03-12 13:38 ?608次阅读
    在英特尔哪吒开发套件上<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>的<b class='flag-5'>实现</b>方式

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效能跃迁、多模态
    发表于 02-27 16:45

    行芯完成DeepSeek-R1大模型本地化部署

    近日,行芯正式宣布完成 DeepSeek-R1 大模型本地化部署实现在多场景、多产品中应用。解锁“芯”玩法,开启“芯”未来!
    的头像 发表于 02-24 15:17 ?931次阅读

    思必驰接入DeepSeek-R1满血版大模型

    2月21日,思必驰DFM-2东风中枢大模型已完成671B满血版的 DeepSeek-R1部署,在稳定性和可靠性方面凸显优势,用户不掉线,使用
    的头像 发表于 02-21 16:55 ?645次阅读

    Infinix AI接入DeepSeek-R1满血

    传音控股旗下Infinix品牌正式宣布接入DeepSeek-R1满血版,2月26日起支持XOS 14.5及以上版本的Infinix机型可通过升级使用,3月份将发布的全新NOTE系列也将接入De
    的头像 发表于 02-21 16:08 ?847次阅读

    省内领先!南京率先引入DeepSeek满血

    。 ? ? ? 满血DeepSeek-R1部署(671B) ? 01 2024年10月,市数据局前瞻性的开展了智算的大规模扩容布局(20P); 02 2025年2
    的头像 发表于 02-19 13:55 ?873次阅读
    省内领先!南京率先引入<b class='flag-5'>DeepSeek</b><b class='flag-5'>满血</b>版

    宇芯基于T527成功部署DeepSeek-R1

    近日,宇芯成功在全志T527 Linux系统上本地部署并运行了DeepSeek-R1 1.5B模型。
    的头像 发表于 02-15 09:06 ?1148次阅读
    宇芯基于T527成功<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>

    免费!「DeepSeek-R1 671B满血版」不卡、不限次!问小白火速支援

    直接用的 DeepSeek-R1 671B 满血版! 问小白「DeepSeek-R1 671B 满血版」主打一个不卡、零延迟、不限次、全免费、随便用。 简单了解了一下,这个问小白的背后
    的头像 发表于 02-14 11:30 ?1448次阅读
    免费!「<b class='flag-5'>DeepSeek-R1</b> 671B<b class='flag-5'>满血</b>版」不卡、不限次!问小白火速支援

    探讨DeepSeek-R1满血版的推理部署与优化策略

    TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束, 比较认同的是章老师的一个观点: “推理框架很有可能就此
    的头像 发表于 02-14 10:19 ?1571次阅读
    探讨<b class='flag-5'>DeepSeek-R1</b><b class='flag-5'>满血</b>版的推理<b class='flag-5'>部署</b>与优化策略

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    场景 针对逻辑推理、符号操作、数学解题的深度优化 2. 关键能力对比 能力维度 DeepSeek-V3 DeepSeek-R1 数学推理 基础数学问题处理 显著强化(复杂方程、几何证明、符号运算) 代码
    发表于 02-14 02:08

    OPPO Find N5接入DeepSeek-R1,语音操控更便捷

    DeepSeek-R1后,OPPO Find N5将展现出多项领先的体验优势。用户无需下载和进行复杂的操作步骤,只需通过小布助手即可轻松语音唤醒DeepSeek实现智能交互的便捷高效
    的头像 发表于 02-12 10:12 ?604次阅读

    OPPO Find N5将接入DeepSeek-R1,可直接语音使用

    全球最薄折叠旗舰OPPO Find N5 将正式接入 DeepSeek-R1,并可通过语音唤醒直接使用,首批购买用户即可率先体验。Find N5将于本月正式发布。 ? 接入DeepSeek-R
    发表于 02-08 17:39 ?447次阅读

    DeepSeek-R1本地部署指南,开启你的AI探索之旅

    的进一步使用。 论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 1|0一、什么是
    的头像 发表于 02-08 10:30 ?5690次阅读
    <b class='flag-5'>DeepSeek-R1</b>本地<b class='flag-5'>部署</b>指南,开启你的AI探索之旅

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自发布以来吸引了众多用户关注,为了让 deepin 用户更好地体验这一前沿技术,UOS AI 现已适配接入 DeepSeek-R1 端侧模型!无需忍受服务器崩溃,两步即可在本地独享 DeepSeek-R1
    的头像 发表于 02-08 09:52 ?1170次阅读