0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4倍

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-08-22 15:59 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM) 创新浪潮的加速。近日发布的 Dynamo 0.4 提供了一系列新功能,旨在规模化、低成本地部署此类模型,其核心功能包括性能优化、可观察性和基于服务等级目标 (SLO) 的自动扩展。

Dynamo 0.4 的主要亮点包括:

在 NVIDIA Blackwell 上通过 PD 分离将性能提升 4 倍

提供针对 NVIDIA 高性能计算平台的大规模专家并行部署指南

新的 prefill-decode (PD) 配置工具,简化 PD 分离架构设置

支持基于 SLO 的 PD 自动扩展,并集成 Kubernetes

内置可观察性指标,支持实时性能监测

通过实时请求重定向和早期故障检测提升系统韧性

通过下文了解更多关于这些更新的信息。

Dynamo 0.4 如何通过PD 分离将推理性能提高至 4 倍

Dynamo 0.4 大幅提升了 NVIDIA Blackwell 上的 PD 分离服务性能。在 NVIDIA Blackwell 架构 GPU 上使用 Dynamo 和 TensorRT-LLM 运行新的 OpenAI gpt-oss-120b 模型,能够在不降低吞吐量的情况下,将长输入序列(常见于智能体工作流、代码生成和摘要任务)场景下的交互速度(Token / 秒 / 用户)至高提速 4 倍。

此外,在 NVIDIA 高性能计算平台上基于 TensorRT-LLM 和 Dynamo 运行 DeepSeek-R1 671B 模型,能够在不增加推理成本的情况下,将吞吐量(Token / 秒 / GPU)提升 2.5 倍。

ef0358fc-7e7e-11f0-a18e-92fbcf53809c.png

图 1. PD 分离服务解决了 prefill 与 decode 之间的资源竞争问题,能够在不增加 GPU 预算的情况下显著提升性能。

(注:图中结果仅供技术探讨和参考,并且不代表最大吞吐量或最小延迟性能。复制此链接至浏览器查看最新推理性能:https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference)

图中的性能提升来源于使用 Dynamo 进行的 PD 分离服务,该架构将模型推理的 prefill 和 decode 阶段分离到独立的 GPU 上。通过分离这两个阶段,Dynamo 能够根据每个阶段的具体需求灵活分配 GPU 资源和模型并行策略,从而大幅提高整体效率。

我们十分高兴能够发布这些脚本,使社区能够复现这些结果并充分发挥 PD 分离服务架构的成本效益。参见以下 GitHub 链接:

使用 Dynamo 和 TensorRT-LLM 部署 OpenAI gpt-oss-120b:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

使用 Dynamo 和 TensorRT-LLM 部署 DeepSeek-R1 671B:

https://github.com/ai-dynamo/dynamo/tree/main/components/backends/trtllm/performance_sweeps

为了帮助研究者、工程师和企业探索 PD 分离服务架构下的 MoE 模型部署优势,我们还提供了详尽的部署指南,分步指导用户在多节点环境中使用 Dynamo 部署 DeepSeek-R1 (结合 SGLang) 和 Llama4 Maverick (结合 TensorRT-LLM)。参见以下 GitHub 链接:

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技术博客 1:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-gb200.md

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技术博客 2:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-h100.md

使用 Dynamo 和 TRT-LLM 部署 Llama4 Maverick:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/llama4_plus_eagle.md

如何简化消除 PD 分离最佳配置的大量猜测和试错的工作

我们从采用 PD 分离服务的推理团队了解的主要挑战之一,是如何估算预期吞吐量收益,并确定适合其特定部署的正确配置。具体而言,用户反馈难以决定分配 prefill 和 decode 阶段的 GPU 数量,以及在满足目标 SLO 前提下,如何选择模型并行策略。

为此,我们推出AIConfigurator,这是一个专为推荐最佳 PD 分离配置和模型并行策略设计的新工具,根据特定模型和 GPU 预算满足 SLO 要求。

ef1212ac-7e7e-11f0-a18e-92fbcf53809c.png

ef1e28d0-7e7e-11f0-a18e-92fbcf53809c.png

图 2.AIConfigurator CLI 控制面板的截图,它可视化了吞吐量与延迟间的权衡及 PD 分离的收益。在相似的延迟水平下,使用 PD 分离架构将 Qwen3-32B 模型部署在 512 个 GPU 组成的集群中,可使吞吐量提高至 2.36 倍。

AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算内满足用户定义的 SLO,并最大化每个 GPU 的吞吐量,然后自动生成可无缝部署到 Dynamo 的后端配置。

AIConfigurator 支持命令行界面 (CLI) 和网页界面,初期支持 NVIDIA Hopper 上的 TensorRT-LLM。未来版本将陆续支持更多推理框架和 NVIDIA 硬件。

如何在不对 GPU 过度或不足配置的情况下,持续满足推理 SLO

在今年 5 月的 0.2 版本中,我们推出了首版规划器 (Planner),专为生成式 AI 推理和 PD 分离设计的 GPU 自动扩展引擎。它能够通过监测 prefill 队列和 decode 内存使用情况,智能增减推理工作节点,最大化 GPU 利用率并最小化推理成本。

在 0.4 版本中,我们进一步完善了 Planner,新增基于 SLO 的自动扩展功能,使推理团队不仅能够降低成本,还能稳定地满足严格的性能指标,例如首 Token 延迟 (TTFT)、Token 间延迟 (ITL)。

与传统的响应式扩展系统不同,新的基于 SLO 的 Planner 采用前瞻性策略:

使用部署前性能分析,理解不同模型并行和批处理配置下的部署表现。

基于 SLO 推荐最具成本效益的引擎配置。

使用 ARIMA 或 Prophet 等先进的时间序列模型预测未来流量模式。

计算在预测需求下满足 SLA 目标所需的最小 PD 工作节点数量。

持续评估流量模式并动态调整 PD 工作节点以持续满足目标 SLA。

Planner 的与众不同之处在于能够预测输入 / 输出序列长度变化的影响,并在出现瓶颈前,主动扩展资源规模。

基于 SLO 的 Planner 使推理团队能够:

把控用户体验和基础设施成本

在不过度或不足配制资源的前提下维持 SLA 性能

无需手动调优即可优化 GPU 使用率

Planner 原生集成 Kubernetes,便于已经采用容器化基础设施的企业能够轻松部署 Dynamo,并使用 Planner 扩展其 AI 工作负载。此版本加入了对 vLLM 的支持,未来将持续支持更多推理框架。。

如何追踪实时推理可观察性指标

可观察性在大规模分布式推理环境中至关重要,使工程团队能够监测系统健康状况、诊断性能瓶颈并满足严格的 SLO,根据 SLO 的要求不断实时优化延迟、吞吐量和 GPU 利用率。

ef2fd3dc-7e7e-11f0-a18e-92fbcf53809c.jpg

图 3. 显示 Dynamo 采集的关键性能指标的 Grafana操作面板

在新发布的 Dynamo 0.4 中,事件、控制和数据平面的 Dynamo 工作节点和组件会输出关键的可观察性指标,包括:

每秒平均请求数和请求持续时间

平均的首 Token 延迟 (TTFT) 和 Token 间延迟 (ITL)

平均输入和输出序列长度

GPU 利用率和功耗

这些指标通过开源的 Prometheus 工具采集,无需进行定制开发即可轻松集成到 Grafana 等开源监测和可观察性工具中。

本版本还包含一个 API,供工程团队和解决方案架构师定义和输出适配其服务环境的自定义指标,进一步提高了灵活性和可扩展性。

Dynamo 0.4 中的可观察性基础为后续版本奠定了基础,未来将引入更具细粒度、针对特定用例的指标,包括与 PD 分离相关的指标。

Dynamo 0.4 如何提升系统弹性和早期故障检测能力

大规模部署前沿推理 MoE 模型需要支持数百 GPU 的多节点环境。在此类部署中,任何软硬件组件的故障(无论持续时间多短)都会中断整个系统的运行,并导致用户请求延迟或失败,进而影响业务运营,损害用户体验。

Dynamo 0.4 版本引入了实时请求重定向(inflight request re-routing)等容错和弹性功能。在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。经过此次更新,Dynamo 会在请求执行中动态重定向,保留中间计算结果并直接转发至在线 GPU,从而消除冗余工作。

ef3a515e-7e7e-11f0-a18e-92fbcf53809c.jpg

图 4. 生成过程中未启用(图片上半部)和启用(图片下半部)实时请求重定向的系统工作流差异示意图。

此外,此版本引入了更快的故障检测机制。在之前的版本中,etcd(Dynamo 控制平面中的关键组件)负责检测离线工作节点并向系统广播其状态。但这会引发几秒钟的延迟,在此期间请求仍可能被路由到离线工作节点。新版本在 Dynamo 智能路由器 (Smart Router) 中引入了早期故障检测功能,使其能够绕过 etcd 并响应关键健康信号,缩短了故障检测到恢复的时间窗口,显著减少了失败请求。

如何参与 Dynamo 开发者社区互动

欢迎您加入我们的 Discord 社区 (https://discord.gg/ZXRE8epz),来与其他开发者交流、分享反馈并获得实时支持。如果您对我们的开发方向感兴趣,请访问官方 Dynamo GitHub 开源资源库 (https://github.com/ai-dynamo/dynamo)。我们欢迎社区的贡献、问题反馈和想法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5363

    浏览量

    106911
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4985

    浏览量

    132220
  • 开源
    +关注

    关注

    3

    文章

    3793

    浏览量

    44167
  • 模型
    +关注

    关注

    1

    文章

    3554

    浏览量

    50778

原文标题:Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自动扩展和实时可观察性

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1最小延迟场景中的性能纪录

    本文探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的头像 发表于 07-02 19:31 ?2450次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU优化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1<b class='flag-5'>在</b>最小延迟场景中的<b class='flag-5'>性能</b>纪录

    Supermicro推出直接液冷优化的NVIDIA Blackwell解决方案

    ,宣布推出高性能的SuperCluster。这一端对端AI数据中心解决方案采用NVIDIA Blackwell平台,专为兆级参数规模的生成式AI时代所设计。全新SuperCluster将可大幅增加液冷
    发表于 11-25 10:39 ?865次阅读
    Supermicro推出直接液冷优化的<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b>解决方案

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    人工智能模型规模和复杂性呈指数级增长,对先进计算能力和内存容量的需求变得至关重要。Blackwell图形处理器架构通过
    发表于 05-13 17:16

     华为云MongoDB弹性伸缩能力提升100

    的高性能并非一蹴而就,这与华为云深厚的技术积累息息相关。   10数据重构性能提升,得益于数据复制功能卸载到分布式共享存储。分布式存储
    发表于 08-03 13:00

    Blackwell GB100能否超级计算机和AI市场保持领先优势?

    NVIDIA 下一代 Blackwell GB100 传采用芯片堆栈设计提升效能和效率,但也面临工艺和封装的挑战,能否超级计算机和 AI
    的头像 发表于 10-24 17:43 ?1722次阅读

    NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX Sup
    的头像 发表于 03-21 09:49 ?1481次阅读

    NVIDIA Hot Chips 大会展示提升数据中心性能和能效的创新技术

    处理器及系统架构师领域的深度技术盛会,Hot Chips 已经成为价值万亿美元的数据中心计算市场的一个重要论坛。 本周举行的 Hot Chips 2024 NVIDIA 的高
    的头像 发表于 08-28 16:38 ?749次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>在</b> Hot Chips 大会展示<b class='flag-5'>提升</b>数据中心<b class='flag-5'>性能</b>和能效的创新技术

    NVIDIA未来1年的Blackwell订单已全部售罄

    10月12日资讯显示,Blackwell无疑已成为NVIDIA历史上极为成功的产品典范,其市场需求量已攀升至前所未有的高峰。   凭借全球AI算力领域的领先地位,Blackwell
    的头像 发表于 10-12 16:20 ?1157次阅读

    NVIDIA Blackwell平台带来性能跃升

    Blackwell 完成的每一项测试,都为各项 AI 应用树立了训练性能新标杆。
    的头像 发表于 11-19 14:24 ?757次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本; NVIDI
    的头像 发表于 03-20 15:03 ?752次阅读

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 ?982次阅读

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief
    的头像 发表于 03-20 18:35 ?1005次阅读

    英伟达GTC2025亮点:NVIDIA Blackwell加速计算机辅助工程软件,实现实时数字孪生性能数量级提升

    、Altair、Cadence、Siemens 和 Synopsys 等在内的领先计算机辅助工程(CAE)软件供应商正在使用 NVIDIA Blackwell 平台加速其仿真工具,速度提升高达 50
    的头像 发表于 03-21 15:12 ?814次阅读

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    融合设计专业知识与加速计算,推动科技创新、实现能效和工程生产力方面的突破性进展,引领全球生活新范式 内容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系统,求解器的速度
    的头像 发表于 03-24 10:14 ?869次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo
    的头像 发表于 07-28 14:31 ?473次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Dynamo</b>新增对亚马逊云科技服务的支持