0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-07-04 14:38 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorRT-LLM作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。TensorRT-LLM 提供了一个全面的开源 SDK,用于加速和优化 LLM 推理,包含了最新极致优化的计算 Kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等,从而在 NVIDIA GPU 上实现突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架构,提供了直观简洁的模型定义 API,便于定义和构建新模型,显著减少了代码量,同时大幅降低了 debugging 难度,进一步优化了模型部署流程,提升了开发者的使用体验。

本文将介绍如何在魔搭社区使用 TensorRT-LLM 加速优化 Qwen3 系列模型推理部署。

Qwen3 模型

通义千问 Qwen3 是阿里巴巴开发并开源的混合推理大语言模型 (LLM),Qwen3 开源模型系列包含两款混合专家模型 (MoE) 235B-A22B(总参数 2,350 亿,激活参数 220 亿)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。作为中国首个混合推理模型,Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等权威评测集上均获得出色的表现(信息来源于阿里巴巴官方微信公众号),在推理、指令遵循、Agent 能力、多语言支持等方面均大幅增强,是全球领先的开源模型。

Qwen 系列开源模型因其突出的模型能力、丰富的模型尺寸和持续更新的生态,在开源社区直接使用、二次开发和落地应用上都有着极其深刻的影响力。

近期 Qwen3 还进一步补齐了开源序列中的 Embedding 和 Rerank 模型,强大的模型矩阵全面覆盖从复杂推理、Agent 任务到轻量级部署的需求,进一步巩固和加强了整个 Qwen 开源生态。

ModelScope 魔搭社区

ModelScope 魔搭作为中国最大最活跃的开源模型社区,旨在打造下一代开源的模型即服务共享平台,为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单。

超过 1,600 万开发者可以在 ModelScope 轻松下载和部署模型,快速体验模型效果,并通过云端 AI 环境实现在线推理与训练,无需复杂的本地配置。同时,ModelScope 支持多种灵活的部署方式,包括云端、本地及设备端部署,助力开发者以更低的成本和更高的效率推动 AI 技术的应用落地。

除了模型和数据集的托管和灵活调用部署,ModelScope 还提供特色功能社区。比如在ModelScope MCP 广场中上线将近 4,000 多个 MCP server,能够帮助广大开发者更好的通过标准化工具接口,实现模型智能边界的外拓,让魔搭的开源模型生态能更好的与 MCP 生态产生更多的碰撞与化学效应(介绍来源于魔搭社区)。

利用 TensorRT-LLM 加速优化Qwen3 模型推理部署

在 Qwen3 开源发布的同时,TensorRT-LLM 便已实现支持相关系列模型的推理加速优化部署。针对 Qwen3 推理加速优化,TensorRT-LLM 支持的重要特性包括:

模型并行:支持 TP (Tensor Parallelism),EP (Expert Parallelism) 和 Attention DP (Data Parallelism) 等多机多卡并行方式,满足大尺寸模型的并行切分以及高服务级别目标的需求。

量化:除了原生 BF16 数据类型之外,现已支持 per-tensor FP8 量化与 blockwise FP8 量化的支持。通过低精度量化显著降低显存和算力需求,在保证模型整体精度的同时进一步提升推理部署的延迟和整体吞吐。其中,BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通过 ModelScope 相关页面进行访问和下载(例如:Qwen3-235B-A22B-FP8),FP8 per-tensor 量化模型 checkpoint 可通过NVIDIA TensorRT-Model-Optimizer工具进行量化处理得到。

Prefill-Decode 分离式部署:通过将 LLM 的 prefill 和 decode 阶段解耦在不同的 executors 执行,可以自由调整 PD 比例、并行方式乃至异构 GPU 型号,以进一步提升推理系统整体的灵活性和性价比,并综合调整 TTFT 及 TPOT 等 SLO 级别。

下面将快速介绍如何通过 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服务(以 Qwen3-235B-A22B 在单机 8 卡 GPU 上推理为例)。

1. 安装 TensorRT-LLM

当前可通过多种方式来进行 TensorRT-LLM 的安装。

pip 安装

(Optional) pip3 install torch==2.7.0torchvision torchaudio--index-url https://download.pytorch.org/whl/cu128
sudo apt-get-y install libopenmpi-dev&&pip3 install--upgrade pip setuptools && pip3 install tensorrt_llm

使用预编译好的 NGC 容器镜像

源码编译容器镜像:下载 TensorRT-LLM github 源代码后,在代码主目录运行编译命令

make-C docker release_build

2. 从 ModelScope 下载模型 checkpoint

# Using modelscope cmd tool to download
pipinstall modelscope
modelscopedownload --model Qwen/Qwen3-235B-A22B
# or using git clone
gitlfs install
gitclone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git

3. 使用 trtllm-serve 命令进行推理服务部署

# Setup LLM API configuration file
cat>./extra-llm-api-config.yml<

4. 请求服务测试:部署完成后便可通过标准 OpenAI API 进行推理服务请求发送,例如如下 curl 命令

curl http://localhost:8000/v1/completions 
 -H "Content-Type: application/json" 
 -d '{
  "model":"Qwen3-235B-A22B/",
  "prompt":"Please describe what is Qwen.",
  "max_tokens":128,
  "temperature":0
 }'

在上述已实现的各项优化特性之外,针对 Qwen3 系列模型,TensorRT-LLM 还在不断研发和探索新的优化方法,包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度 (W4AFP8 / NVFP4) 等等,期待您紧密关注 TensorRT-LLM 最新进展。

总结

除了 Qwen3 系列模型,TensorRT-LLM 现已支持 ModelScope 社区主流的生成式 AI 大模型,模型列表请参考 TensorRT-LLM Support Matrix 和 ModelScope 社区 TensorRT-LLM 专题页。

通过双方在生成式 AI 模型软件加速库层面的技术合作,使用性能强大、敏捷灵活的软件栈,能够大大简化开发者快速进行大模型的原型验证与产品研发部署的工作流,并获得极致推理部署性能,进一步加快大模型的广泛落地和应用生态。

作者

金国强

NVIDIA 资深解决方案架构师,主要负责深度学习生成式 AI 领域模型训练、推理优化以及大模型开发与应用云端落地等技术方向合作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106634
  • 开源
    +关注

    关注

    3

    文章

    3754

    浏览量

    43968
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50566

原文标题:在魔搭社区使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式发布新一代Qwen大语言模型系列Qwen3Qwen3-MoE),在模型规模
    的头像 发表于 05-07 14:44 ?768次阅读
    在openEuler上基于vLLM Ascend<b class='flag-5'>部署</b><b class='flag-5'>Qwen3</b>

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源
    的头像 发表于 05-08 11:45 ?1409次阅读
    NVIDIA使用<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b><b class='flag-5'>模型</b>的最佳实践

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 ?705次阅读
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b><b class='flag-5'>部署</b>TTS应用的最佳实践

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第18期:2025.06.30--2025.07.4

    CherryUSB 驱动 RNDIS 模块详解 5、米尔TI AM62x开发板如何部署流媒体服务实现监控功能 6、如何在社区使用
    发表于 07-04 19:37

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速优化最新的大语言模型(Large Language Mode
    的头像 发表于 10-27 20:05 ?1552次阅读
    现已公开发布!欢迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> <b class='flag-5'>优化</b>大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型TensorRT-LLM
    的头像 发表于 04-28 10:36 ?1064次阅读

    社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。
    的头像 发表于 08-23 15:48 ?1183次阅读

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT Model
    的头像 发表于 11-19 14:29 ?1359次阅读
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b><b class='flag-5'>优化</b>

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的
    的头像 发表于 12-17 17:47 ?941次阅读

    在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-L
    的头像 发表于 12-25 17:31 ?800次阅读
    在NVIDIA <b class='flag-5'>TensorRT-LLM</b>中启用ReDrafter的一些变化

    壁仞科技完成阿里巴巴通义千问Qwen3系列模型支持

    4月29日,阿里巴巴通义千问发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,壁仞科技完成全
    的头像 发表于 04-30 15:19 ?842次阅读

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式发布并全部开源8款混合推理模型。作为Qwen系列中的最新一代大型语言模型Qwen3
    的头像 发表于 05-06 15:17 ?593次阅读

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列
    的头像 发表于 05-07 16:46 ?651次阅读

    壁仞科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型
    的头像 发表于 05-16 16:23 ?458次阅读

    广和通加速通义千问Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义千问Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬件加速
    的头像 发表于 06-25 15:35 ?400次阅读