0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RTX 5880 Ada显卡部署DeepSeek-R1模型实测报告

丽台科技 ? 来源:丽台科技 ? 2025-03-17 11:12 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek-R1 模型在 4 张 NVIDIA RTX 5880 Ada 显卡配置下,面对短文本生成、长文本生成、总结概括三大实战场景,会碰撞出怎样的性能火花?参数规模差异悬殊的 70B 与 32B 两大模型,在 BF16 精度下的表现又相差几何?本篇四卡环境实测报告,将为用户提供实用的数据支持和性能参考。

1测试环境

e3c22236-fd5d-11ef-9310-92fbcf53809c.png

2测试指标

首次 token 生成时间(Time to First Token, TTFT(s))越低,模型响应速度越快;每个输出 token 的生成时间(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。

输出 Token 吞吐量(Output Token Per Sec, TPS):反映系统每秒能够生成的输出 token 数量,是评估系统响应速度的关键指标。多并发情况下,使用单个请求的平均吞吐量作为参考指标。

首次 Token 生成时间(Time to First Token, TTFT(s)):指从发出请求到接收到第一个输出 token 所需的时间,这对实时交互要求较高的应用尤为重要。多并发情况下,平均首次 token 时间 (s) 作为参考指标。

单 Token 生成时间(Time Per Output Token,TPOT(s)):系统生成每个输出 token 所需的时间,直接影响了整个请求的完成速度。多并发情况下,使用平均每个输出 token 的时间 (s) 作为参考指标。这里多并发时跟单个请求的 TPOT 不一样,多并发 TPOT 计算不包括生成第一个 token 的时间。

并发数(Concurrency):指的是系统同时处理的任务数量。适当的并发设置可以在保证响应速度的同时最大化资源利用率,但过高的并发数可能导致请求打包过多,从而增加单个请求的处理时间,影响用户体验。

3测试场景

在实际业务部署中,输入/输出 token 的数量直接影响服务性能与资源利用率。本次测试针对三个不同应用场景设计了具体的输入 token 和输出 token 配置,以评估模型在不同任务中的表现。具体如下:

e3e5b386-fd5d-11ef-9310-92fbcf53809c.png

4测试结果

4.1 短文本生成场景

使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 19.9 tokens/s,并发 100 时降至约 9.9 tokens/s(约为单请求的 50%)。最佳工作区间为低并发场景(1-50 并发)。

e3f92af6-fd5d-11ef-9310-92fbcf53809c.pnge40b9d44-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 测试结果图表

2025 丽台(上海)信息科技有限公司

本文所有测试结果均由丽台科技实测得出,如果您有任何疑问或需要使用此测试结果,请联系丽台科技(下同)

使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 39.5 tokens/s,并发 100 时仍保持约 18.1 tokens/s,能够满足高并发场景(100 并发)。

e419d346-fd5d-11ef-9310-92fbcf53809c.pnge42e041a-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 测试结果图表

4.2 长文本生成场景

使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 20 tokens/s,并发 100 时降至约 8.8 tokens/。最佳工作区间为低并发场景(1-50 并发)。

e43cd60c-fd5d-11ef-9310-92fbcf53809c.pnge455e160-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 测试结果图表

使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 39.7 tokens/s,并发 250 时仍保持约 10.6 tokens/s,能够满足较高并发场景(250 并发)。

e4697df6-fd5d-11ef-9310-92fbcf53809c.pnge4859ad6-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 测试结果图表

4.3 总结概括场景

使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 18.7 tokens/s,并发 10 时降至约 10.9 tokens/。最佳工作区间为低并发场景(10 并发)。

e4957988-fd5d-11ef-9310-92fbcf53809c.pnge4ab47ea-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 测试结果图表

使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 37 tokens/s,并发 25 时仍保持约 15.3 tokens/s,能够满足中等并发场景(25 并发)。

e4bbca5c-fd5d-11ef-9310-92fbcf53809c.pnge4d18324-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 测试结果图表

5总结

5.1 测试模型性能

DeepSeek-R1-70B(BF16) 模型表现:

短文本生成:支持 75 并发量,单请求平均吞吐量>10.9 tokens/s

长文本生成:支持 50 并发量,单请求平均吞吐量>12.5 tokens/s

总结概括:支持 10 并发量,单请求平均吞吐量>10.9 tokens/s

DeepSeek-R1-32B(BF16) 模型表现:

短文本生成:支持 100 并发量,单请求平均吞吐量>18.1 tokens/s

长文本生成:支持 250 并发量,单请求平均吞吐量>10.6 tokens/s

总结概括:支持 25 并发量,单请求平均吞吐量>15.3 tokens/s

5.2 部署建议

基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:

推荐优先部署 DeepSeek-R1-32B(BF16) 模型,其在高并发场景下展现出更优的吞吐性能与响应效率;

当业务场景对模型输出质量有更高要求,且系统并发压力较低时,建议选用 DeepSeek-R1-70B(BF16) 模型。

5.3 测试说明

本次基准测试在统一硬件环境下完成,未采用任何专项优化策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106637
  • 显卡
    +关注

    关注

    16

    文章

    2508

    浏览量

    69702
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50570
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1828

原文标题:4 卡战 70B/32B!RTX 5880 Ada 跑 DeepSeek-R1 结果如何?

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用OpenVINO运行DeepSeek-R1蒸馏模型

    DeepSeek-R1在春节期间引发了全球科技界的热度,DeepSeek-R1 是由 DeepSeek 开发的开源推理模型,用于解决需要逻辑推理、数学问题解决和实时决策的任务。
    的头像 发表于 03-12 13:45 ?1493次阅读
    如何使用OpenVINO运行<b class='flag-5'>DeepSeek-R1</b>蒸馏<b class='flag-5'>模型</b>

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景、能力侧重和技术优化方向上。以下是二者的实
    发表于 02-14 02:08

    RK3588开发板上部署DeepSeek-R1模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效能跃迁、多模态
    发表于 02-27 16:45

    NVIDIA RTX 5000 Ada显卡性能实测报告

    单精度浮点运算性能是显卡一项重要的指标,很多计算都是使用单精度来完成的。从测试结果来看 RTX 5000 Ada 的性能达到了 63.1T,而 RTX A5000 只有 30.5T。由
    的头像 发表于 12-21 15:58 ?1.2w次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> 5000 <b class='flag-5'>Ada</b><b class='flag-5'>显卡</b>性能<b class='flag-5'>实测报告</b>

    RTX 5880 Ada Generation GPU与RTX? A6000 GPU对比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前国内重量级 GPU,基于全新 NVIDIA
    的头像 发表于 04-19 10:20 ?4209次阅读
    <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b> Generation GPU与<b class='flag-5'>RTX</b>? A6000 GPU对比

    芯动力神速适配DeepSeek-R1模型,AI芯片设计迈入“快车道”!

    近期,国产大模型 DeepSeek-R1横空出世,迅速成为AI领域的焦点。 芯动力在24小时内完成了与DeepSeek-R1模型的适配。 Deep
    的头像 发表于 02-07 16:55 ?669次阅读
    芯动力神速适配<b class='flag-5'>DeepSeek-R1</b>大<b class='flag-5'>模型</b>,AI芯片设计迈入“快车道”!

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自发布以来吸引了众多用户关注,为了让 deepin 用户更好地体验这一前沿技术,UOS AI 现已适配接入 DeepSeek-R1 端侧模型!无需忍受服务器
    的头像 发表于 02-08 09:52 ?1170次阅读

    DeepSeek-R1本地部署指南,开启你的AI探索之旅

    R1 2025.01.20 DeepSeek-R1 发布,DeepSeek R1DeepSeek AI 开发的第一代推理
    的头像 发表于 02-08 10:30 ?5691次阅读
    <b class='flag-5'>DeepSeek-R1</b>本地<b class='flag-5'>部署</b>指南,开启你的AI探索之旅

    广和通支持DeepSeek-R1蒸馏模型

    近期,国产大模型DeepSeek凭借开放性、更低训练成本、端侧部署等优势,迅速成为增速最快的AI应用之一,推动AI普惠化。目前,广和通高算力AI模组及解决方案全面支持小尺寸的DeepSeek-
    的头像 发表于 02-11 09:41 ?617次阅读

    Deepseek R1模型离线部署教程

    DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型DeepSeek-R1采用强化学习进行后训练,旨在提升推理能力,尤其擅长数学、代码和自然语言
    的头像 发表于 02-12 09:37 ?1846次阅读
    <b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大<b class='flag-5'>模型</b>离线<b class='flag-5'>部署</b>教程

    超星未来惊蛰R1芯片适配DeepSeek-R1模型

    日前,超星未来研发团队成功完成了惊蛰R1芯片对DeepSeek-R1模型的适配工作,实现了与用户之间的流畅对话。这一成果标志着超星未来在人工智能芯片和模型优化方面取得了重要进展
    的头像 发表于 02-13 14:05 ?741次阅读

    宇芯基于T527成功部署DeepSeek-R1

    近日,宇芯成功在全志T527 Linux系统上本地部署并运行了DeepSeek-R1 1.5B模型
    的头像 发表于 02-15 09:06 ?1149次阅读
    宇芯基于T527成功<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>

    行芯完成DeepSeek-R1模型本地化部署

    近日,行芯正式宣布完成 DeepSeek-R1模型本地化部署,实现在多场景、多产品中应用。解锁“芯”玩法,开启“芯”未来!
    的头像 发表于 02-24 15:17 ?931次阅读

    在英特尔哪吒开发套件上部署DeepSeek-R1的实现方式

    随着人工智能技术的快速发展,企业对 AI 模型部署方式有了更多选择。本地部署 DeepSeek-R1 模型具有以下显著优势,使其成为许多企
    的头像 发表于 03-12 13:38 ?608次阅读
    在英特尔哪吒开发套件上<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>的实现方式

    NVIDIA RTX 5880 Ada与Qwen3系列模型实测报告

    全场景的 AI 模型矩阵。其中旗舰模型 Qwen3-235B-A22B 在代码、数学及通用能力基准测试中,展现出与 DeepSeek-R1、OpenAI-o1、Grok-3、Gemin
    的头像 发表于 05-09 15:05 ?1059次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b>与Qwen3系列<b class='flag-5'>模型</b><b class='flag-5'>实测报告</b>