0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

Carol Li ? 来源:电子发烧友 ? 作者:李弯弯 ? 2024-09-04 09:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)在近日的Hot Chips 2024大会上,英伟达公布了下一代GPU架构Blackwell的更多细节信息,以及未来的产品路线图。

英伟达Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。

英伟达称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。

NVIDIA Blackwell 的技术特点

NVIDIA Blackwell 架构是NVIDIA于2024年3月在NVIDIA GTC大会上发布的全新架构,是NVIDIA继Hopper架构之后推出的全新架构,旨在推动生成式AI和加速计算领域的发展。Blackwell架构拥有六项革命性技术,这些技术共同构成了其强大的计算能力和高效性。

一、它是全球最强大的芯片,拥有2080亿个晶体管,这确保了芯片具有极高的计算能力和复杂性。它采用台积电4纳米工艺制造,提高了芯片的集成度,降低了功耗和发热量。配备192GB的HBM3E显存,极大提升了芯片的数据处理能力和效率。

第二代Transformer引擎,结合Blackwell Tensor Core技术和TensorRT-LLM及NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell通过新的4位浮点AI支持双倍的计算和模型大小推理能力。

第五代NVLink,为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信

四、RAS引擎,Blackwell支持的GPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题,从而延长系统正常运行时间并提高大规模部署AI的弹性。

五、安全人工智能,先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,进一步增强了芯片的安全性。

六、解压缩引擎,专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。

生态系统方面,Blackwell不仅是系统的核心芯片,更是一个全新的平台。它涵盖了从CPU和GPU计算到用于互连的不同类型的网络,是通用计算全栈矩阵的终极解决方案。

Blackwell架构将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。

NVIDIA已经展示了基于Blackwell架构的GPU GB200 NVL72等产品,该产品专为万亿参数AI而设计,对大语言模型(LLM)推理性能提升高达30倍。随着AI模型尺寸的增加,在多个GPU上拆分工作负载势在必行。而Blackwell足够强大,可以在一个GPU中处理专家模型。

相比Hopper架构的优势

NVIDIA Blackwell架构相比其上一个NVIDIA Hopper架构具有多方面的优势。NVIDIA Hopper架构是NVIDIA在2022年推出的GPU架构,该架构旨在取代之前的NVIDIA Ampere架构,并为新一代工作负载提供强大的加速计算平台。

Hopper架构采用了先进的台积电4N工艺制造,集成了超过800亿个晶体管,这为高性能计算提供了坚实的基础。

Hopper架构通过Transformer引擎推进了Tensor Core技术的发展,旨在加速AI模型训练。Transformer引擎能够应用混合的FP8和FP16精度,以大幅加速Transformer模型的AI计算。

与上一代相比,Hopper架构在TF32、FP64、FP16和INT8精度的每秒浮点运算(FLOPS)上提高了3倍。这种性能提升使得Hopper在处理大规模AI模型时更加高效。

Hopper架构引入了第四代NVLink技术,可通过NVIDIA DGX和HGX服务器扩展多GPU输入和输出(IO),每个GPU的双向传输速率可达900GB/s,比PCIe 5.0的带宽高7倍。

第三代NVIDIA NVSwitch支持SHARP网络计算技术,打破了该技术只能通过InfiniBand提供的传统限制。这使得Hopper架构在处理大规模HPC和AI工作负载时能够实现更高的互连效率和通信带宽。

相比较而言,晶体管数量与计算能力方面,Blackwell架构GPU拥有2080亿个晶体管,比Hopper架构的GPU多出显著数量,这直接提升了其计算能力。

Blackwell架构的单个芯片计算能力达到了20 petaFLOPS,这使其在处理大规模AI模型时具有更高的实时性能和效率。

内存与带宽方面,Blackwell架构配备了更大的HBM3e内存(如192GB)和更高的显存带宽(如8TB/s),相比Hopper架构,这进一步增强了数据处理和传输的速度。

写在最后

NVIDIA Blackwell架构相比其上一个架构在性能、计算能力、技术创新、特性增强以及生态系统与应用拓展等方面均具有显著优势。应用方面,Blackwell架构将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131675
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281297
  • 英伟达
    +关注

    关注

    22

    文章

    3957

    浏览量

    94085
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型不再依赖英伟GPU?苹果揭秘自研大模型

    ,获得足够的算力构建自己的计算中心,用于训练不同应用的AI模型AI领域众星捧月也造就了英伟
    的头像 发表于 08-05 06:07 ?4706次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>不再依赖<b class='flag-5'>英伟</b><b class='flag-5'>达</b>GPU?苹果揭秘自研大<b class='flag-5'>模型</b>

    模型推理显存和计算量估计方法研究

    过程中需要占用大量显存,导致推理速度变慢,甚至无法进行。 计算量过大:大模型的计算量较大,导致推理速度慢,难以满足实时性要求。 为了解决这些问题,本文将针对大
    发表于 07-03 19:43

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    Studio提供了最优解。Neuron Studio针对模型到应用,提供一站式、全链路、自动化的开发协助,不仅让AI应用开发的全流程可视化,更带来整个多种工具的一站式开发能力,还支持
    发表于 04-13 19:52

    英伟Cosmos-Reason1 模型深度解读

    英伟近期发布的 Cosmos-Reason1 模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言
    的头像 发表于 03-29 23:29 ?2043次阅读

    英伟GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 ?787次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3 DeepSeek-R1 训练数据 通用语料+部分
    发表于 02-14 02:08

    新品| LLM630 Compute Kit,AI语言模型推理开发平台

    LLM630LLM推理,视觉识别,开发,灵活扩展···LLM630ComputeKit是一款AI语言模型
    的头像 发表于 01-17 18:48 ?758次阅读
    新品| LLM630 Compute Kit,<b class='flag-5'>AI</b> 大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>开发平台

    英伟发布Nemotron-CC大型AI训练数据库

    ,Nemotron-CC数据库总计包含了惊人的6.3万亿个Token,其中1.9万亿为精心合成的数据。这一庞大的数据量不仅为AI模型训练
    的头像 发表于 01-14 14:14 ?517次阅读

    英伟推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    CES 2025展会上,英伟推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。 物理 AI
    的头像 发表于 01-14 11:04 ?1365次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>推出基石世界<b class='flag-5'>模型</b>Cosmos,解决智驾与机器人具身智能<b class='flag-5'>训练</b>数据问题

    NaVILA:加州大学与英伟联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机
    的头像 发表于 12-13 10:51 ?715次阅读

    语言模型开发框架是什么

    语言模型开发框架是指用于训练推理和部署大型语言模型的软件工具和库。下面,
    的头像 发表于 12-06 10:28 ?567次阅读

    如何训练自己的AI模型

    训练AI模型之前,需要明确自己的具体需求,比如是进行自然语言处理、图像识别、推荐系统还是其他任务。 二、数据收集与预处理 数据收集 根据任务需求,收集并准备好足够的数据集。 可以选
    的头像 发表于 10-23 15:07 ?5161次阅读

    英伟发布AI模型 Llama-3.1-Nemotron-51B AI模型

    英伟公司宣布推出 Llama-3.1-Nemotron-51B AI 模型,这个AI模型是源
    的头像 发表于 09-26 17:30 ?966次阅读

    英伟震撼发布:全新AI模型参数规模跃升至80亿量级

    8月23日,英伟宣布,其全新AI模型面世,该模型参数规模高达80亿,具有精度高、计算效益大等优
    的头像 发表于 08-23 16:08 ?1147次阅读