0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

向上 ? 来源:NVIDIA ? 作者:NVIDIA ? 2025-03-20 17:19 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

黄仁勋在GTC大会上的第一个大招是Blackwell Ultra——NVIDIA要把AI算力打成“白菜价”;

1.1 ExaFLOPS算力:相当于1.3亿部iPhone同时运行ChatGPT;

20TB海量内存:装下整个维基百科英文版400次;

推理成本暴降:训练GPT-5的耗电量感觉是一下从“开劳斯莱斯”降到“坐地铁”。

对比数据更扎心:用Blackwell训练大模型,速度比前代快1.5倍,能耗仅为1/3。

  1. ?Blackwell Ultra(GB300/B300)系列芯片
    • 采用液冷与硅光子技术,单芯片集成 ?288GB HBM3e 显存?,FP4 算力达 ?15 PetaFLOPS?,推理速度较前代 Hopper 架构提升 ?40 倍??。
    • 推出 ?NVL72 超节点架构?,支持 72 颗 GPU 互联,面向大规模推理场景,性能较传统 8 卡服务器提升 ? 50% ?。
    • 计划 2025 年第三季度量产,HBM 容量从 192GB 升级至 288GB,运算效能较 B200 提升 ? 50% ??。

NVIDIA Blackwell数据手册免费下载 涵盖了NVIDIA Blackwell数据表中的关键信息
*附件:blackwell-datasheet-3645868.pdf

NVIDIA Blackwell 架构打破生成式 AI 和加速计算的壁垒

探索 NVIDIA Blackwell 架构为生成式 AI 和加速计算带来的突破性进步。Blackwell 基于多代 NVIDIA 技术构建,以出众的性能、效率和规模揭开了生成式 AI 领域的新篇章。

新型 AI 超级芯片

Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

第二代 Transformer 引擎

第二代 Transformer 引擎将定制的 Blackwell Tensor Core技术与 NVIDIA? TensorRT? -LLM 和 NeMo? 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。

为了强效助力 MoE 模型的推理 Blackwell Tensor Core增加了新的精度 (包括新的社区定义的微缩放格式),可提供较高的准确性并轻松替换更大的精度。Blackwell Transformer 引擎利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持 4 位浮点 (FP4) AI。这将内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度

安全 AI

Blackwell 内置 NVIDIA 机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。Blackwell 是业内首款具备可信执行环境 (TEE) I/O 功能的 GPU,它不仅能够与具备 TEE-I/O 功能的主机一同提供性能卓越的机密计算解决方案,还能通过 NVIDIA? NVLink? 技术提供实时保护。与未加密模式相比, Blackwell 机密计算功能供了几乎相同的吞吐量性能。现在,除了保护 AI 知识产权 (IP) 和安全地实现机密 AI 训练、推理和联邦学习,企业甚至还能以高性能的方式保护最大的模型。

NVLink、NVSwitch 和 NVLink Switch 系统

是否能释放百亿亿级计算和万亿参数 AI 模型的全部潜力取决于服务器集群中每个 GPU 之间能否快速、顺畅的通信。第五代 NVIDIA? NVLink? 可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换机芯片可在一个有 72 个 GPU 的 NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA SHARP? 技术对 FP8 的支持实现 4 倍于原来的带宽效率。NVIDIA NVLink 交换机芯片能以惊人的 1.8TB/s 互连速度为多服务器集群提供支持。采用 NVLink 的多服务器集群可以在计算量增加的情况下同步扩展 GPU 通信,因此 NVL72 可支持的 GPU 吞吐量是单个 8 卡 GPU 系统的 9 倍。

解压缩引擎

过去,数据分析和数据库工作流依赖 CPU 进行计算。加速数据科学可以显着提高端到端分析性能,加速价值创造,同时降低成本。Apache Spark 等数据库在接手、处理和分析大量数据等数据分析工作上发挥着关键作用。

Blackwell 拥有的解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问 NVIDIA Grace? CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。Blackwell 支持 LZ4、Snappy 和 Deflate 等最新压缩格式。

可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力,以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。NVIDIA AI 驱动的预测管理功能持续监控硬件和软件中数千个数据点的整体运行状况,以预测和拦截停机时间和低效的来源。这建立了智能可靠性技术,节省时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息,可以识别关注领域并制定维护计划。RAS 引擎通过快速定位问题来源缩短周转时间,并通过促进有效的补救最大限度地减少停机时间。

NVIDIA Blackwell 数据表总结

一、概述

  • ?NVIDIA Blackwell?:被誉为新工业革命的引擎,为生成式AI和加速计算带来突破性进展。通过第二代Transformer Engine和更快的NVLink?互联,数据中心性能大幅提升。

二、核心组件与性能

  1. ?GB200 NVL72?
    • 连接36颗Grace CPU和72颗Blackwell GPU,采用NVLink连接和液冷设计,形成单一大规模GPU,实现30倍更快的实时万亿参数大语言模型(LLM)推理。
    • 支持高达17TB的LPDDR5X内存和13.5TB的HBM3E内存,NVLink域提供130TB/s的低延迟GPU通信。
  2. ?HGX B200?
    • 集成NVIDIA Blackwell GPU和高速互联,加速AI性能。
    • 实现高达15倍更快的实时推理性能,12倍更低的成本和能耗。
    • 配备8颗Blackwell GPU,支持高达1.4TB的HBM3E内存。

三、技术亮点

  • ?第二代Transformer Engine?:支持FP4 AI,通过新一代Tensor Cores实现高精度和高吞吐量。
  • ?NVLink与液冷?:GB200 NVL72利用NVLink和液冷技术创建单一72-GPU机架,克服通信瓶颈。
  • ?高速内存与互联?:第五代NVLink提供1.8TB/s的GPU-to-GPU互联。
  • ?能源效率?:液冷GB200 NVL72机架降低数据中心碳足迹和能耗,与H100空气冷却基础设施相比,性能提升25倍。

四、应用场景与性能数据

  1. ?大规模训练?
    • GB200 NVL72的第二代Transformer Engine支持FP8精度,实现4倍更快的大规模LLM训练。
    • 训练GPT-MoE-1.8T模型时,性能较HGX H100显著提升。
  2. ?数据处理?
    • GB200 NVL72加速关键数据库查询,性能较CPU提升18倍,总拥有成本(TCO)降低5倍。
  3. ?实时推理?
    • HGX B200实现GPT-MoE-1.8T模型实时推理性能较HGX H100提升15倍。

五、可持续性与安全性

  • ?可持续计算?:通过采用可持续计算实践,数据中心可降低碳足迹和能耗,同时提高底线。HGX B200较Hopper一代在LLM推理性能上提高能源效率12倍,降低TCO 12倍。
  • ?安全AI?:Blackwell包含NVIDIA Confidential Computing,保护敏感数据和AI模型免受未经授权的访问。

六、技术规格

  • ?GB200 NVL72?:72颗Blackwell GPU,36颗Grace CPU,总FP4 Tensor Core性能达1440 PFLOPS,总内存带宽高达576TB/s。
  • ?HGX B200?:8颗Blackwell GPU,总FP4 Tensor Core性能达144 PFLOPS,总内存带宽高达62TB/s。

七、附加功能

  • ?解压缩引擎?:加速数据库查询的完整管道,支持最新压缩格式。
  • ?RAS引擎?:提供智能弹性,通过专用可靠性、可用性和可服务性(RAS)引擎识别潜在故障。
  • ?NVIDIA AI Enterprise?:提供端到端软件平台,简化AI就绪平台的构建,加速价值实现。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106635
  • AI大模型
    +关注

    关注

    0

    文章

    378

    浏览量

    667
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Supermicro推出直接液冷优化的NVIDIA Blackwell解决方案

    ,宣布推出高性能的SuperCluster。这一端对端AI数据中心解决方案采用NVIDIA Blackwell平台,专为兆级参数规模的生成式AI时代所设计。全新SuperCluster将可大幅增加液冷
    发表于 11-25 10:39 ?808次阅读
    Supermicro推出直接液冷优化的<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b>解决方案

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    ,同时降低水消耗。利用NVIDIA Blackwell架构的高带宽内存性能、NVLink-C2C和专用解压缩引擎,GB200大幅提高关键数据库查询的速度,比CPU提升18倍,并将总体拥
    发表于 05-13 17:16

    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    基于先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量扩展至数万个,通过
    发表于 03-19 10:56 ?780次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Blackwell</b> <b class='flag-5'>架构</b> DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX Sup
    的头像 发表于 03-21 09:49 ?1431次阅读

    英伟达Blackwell架构,行业首选

    的半导体技术路径图,首度公开了即将面世的下一代芯片——Rubin平台,旨在接替现有的Blackwell。   回顾过往,NVIDIA始终保持着每两年发布一次全新架构的传统,从20
    的头像 发表于 06-05 15:28 ?1134次阅读

    英伟达联合计算机制造商发布Blackwell架构系统

    近日,NVIDIA与全球多家知名计算机制造商联手,共同推出了一系列采用NVIDIA Blackwell架构的新系统。这些系统不仅配备了NVIDIA
    的头像 发表于 06-06 10:52 ?894次阅读

    NVIDIA AI芯片Blackwell推迟发布引热议,公司强调Hopper需求强劲

    据8月5日最新消息,NVIDIA新款AI芯片Blackwell因被曝存在设计缺陷而推迟发布的消息,迅速在业界引发了广泛讨论与关注。面对这一市场传闻,NVIDIA官方迅速作出回应,强调其旗舰产品
    的头像 发表于 08-05 15:05 ?877次阅读

    NVIDIA未来1年的Blackwell订单已全部售罄

    10月12日资讯显示,Blackwell无疑已成为NVIDIA历史上极为成功的产品典范,其市场需求量已攀升至前所未有的高峰。   凭借在全球AI算力领域的领先地位,Blackwell吸引了微软、Meta、Oracle、Op
    的头像 发表于 10-12 16:20 ?1093次阅读

    NVIDIA Blackwell平台带来性能跃升

    Blackwell 完成的每一项测试,都为各项 AI 应用树立了训练性能新标杆。
    的头像 发表于 11-19 14:24 ?688次阅读

    NVIDIA向开放计算项目捐赠Blackwell平台设计

    近日,在美国加利福尼亚州举行的 OCP 全球峰会上,NVIDIA 宣布已把 NVIDIA Blackwell 加速计算平台的一些基础元素捐赠给开放计算项目(OCP),并扩大 NVIDIA
    的头像 发表于 11-19 15:30 ?701次阅读

    MediaTek与NVIDIA携手打造GB10 Grace Blackwell超级芯片

    MediaTek近日正式宣布与NVIDIA携手合作,共同设计NVIDIA GB10 Grace Blackwell超级芯片。这款芯片将被应用于NVIDIA的个人AI超级计算机——
    的头像 发表于 01-08 15:32 ?1039次阅读

    MediaTek与NVIDIA携手设计GB10 Grace Blackwell超级芯片

    MediaTek与NVIDIA近日宣布了一项重要合作,双方将共同设计NVIDIA GB10 Grace Blackwell超级芯片。这款超级芯片将被应用于NVIDIA的个人AI超级计算
    的头像 发表于 01-13 10:48 ?620次阅读

    Supermicro提高NVIDIA Blackwell机架级解决方案产量

    Supermicro, Inc.,作为人工智能/机器学习、高性能计算、云、存储和5G/Edge领域的整体IT解决方案提供商,近日宣布其基于NVIDIA Blackwell平台加速的端对端人工智能
    的头像 发表于 02-11 09:45 ?432次阅读

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 ?786次阅读

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief
    的头像 发表于 03-20 18:35 ?848次阅读