0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心AI芯片上升趋势能够持续多久呢?

SDNLAB ? 来源:SDNLAB ? 2024-01-24 16:26 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2024年很有可能成为AI芯片的元年。

有预测称,今年AI芯片可能会迎来强劲甚至迅猛的增长。然而,一个令人关注的问题是,这种上升趋势能够持续多久呢?

2023年底,AMD大胆地宣称,到2027年,数据中心AI芯片的总潜在市场(TAM)将达到4000亿美元,复合年增长率(CAGR)超过70%。这一预测引起了不同的反应,但也从侧面说明了大型语言模型(LLM)作为处理生成式人工智能(GenAI)应用核心的驱动力。

作为图形处理单元(GPU)市场的领导者,英伟达的成功证明了这些芯片的潜在市场规模。英伟达过去一年的股价上涨了217%,在过去三年增长了140%。

在最新的11月财报中,英伟达公布的营收为181.2亿美元,其中数据中心营收为145.1亿美元。整体销售额同比增长206%,而数据中心销售额同期增长了279%。所有这些都证实了数据中心芯片的销售正经历急剧上升的趋势。然而,关键问题是,这个增长趋势是否能够达到4000 亿美元的高度。

英伟达在数据中心AI GPU市场至少占据80%的份额,未来三年预计将迎来巨大增长。然而,要实现高达4000亿美元的市场规模,英伟达的表现需要比目前更出色,同时其他厂商也需要超出预期。

竞争者不甘示弱

AMD

AMD 认为其将在未来三年内实现大幅增长。2023 年 12 月,AMD发布了MI300 系列芯片,旨在在推理方面超越英伟达的GPU。同时发布的另一款产品AMD Instinct MI300A加速处理单元(APU),将CPU和GPU核心与内存集成在一个平台中。

MI300X 专为云提供商和企业设计,专为生成式 AI 应用而打造,MI300X GPU 拥有超过 1500 亿个晶体管,以 2.4 倍的内存超越了英伟达的 H100。峰值内存带宽达到 5.3 TB/s ,是H100 3.3 TB/s 的 1.6 倍。

wKgaomWwyh2AanXtAAFoeSiXcEU384.jpg

AMD Instinct MI300A APU 配备 128GB HBM3 内存。据称,与之前的 M250X 处理器相比,MI300A 在 HPC 和 AI 工作负载上的每瓦性能提高了 1.9 倍。

AMD 总裁兼首席执行官苏姿丰 (Lisa Su) 在去年 10 月的公司第三季度电话会议上表示:“随着 2024 年的到来,我们预计收入将持续增长,而且主要来源将是AI。”“在AI领域,我们的客户覆盖面很广,包括从超大规模企业到原始设备制造商、企业客户以及一些新的人工智能初创企业。从工作负载的角度来看,我们希望 MI300 能够同时处理训练和推理工作负载。”

英特尔

英特尔上个月推出了AI芯片 Gaudi3 以及第五代 Xeon 处理器,作为进一步进军数据中心AI市场的一部分。

英特尔表示,Gaudi3 是专为深度学习和创建大规模生成人工智能模型而设计的下一代人工智能加速器,将与英伟达的 H100 和 AMD 的 MI300X 展开竞争。

英特尔声称Xeon 是唯一内置 AI 加速的主流数据中心处理器,全新第五代 Xeon 在多达 200 亿个参数的模型上提供高达 42% 的推理和微调能力。它也是唯一一款具有一致且不断改进的 MLPerf 训练和推理基准测试结果的 CPU。

Xeon的内置人工智能加速器,加上优化的软件和增强的遥测功能,可以为通信服务提供商、内容交付网络和包括零售、医疗保健和制造在内的广泛垂直市场实现更易于管理、更高效的高要求网络和边缘工作负载部署。

云厂商各显神通

AWS、谷歌等云厂商一直在为自己的大型数据中心打造定制芯片。一方面是不想过度依赖英伟达,另外针对自身需求定制芯片也有助于提高性能和降低成本。

AWS

亚马逊的AI芯片Trainium和Inferentia专为训练和运行大型人工智能模型而设计。

AWS Trainium2是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习 (ML) 加速器。AWS CEO Adam Selipsky 表示,近期推出的Trainium2的速度是其前身的4倍,能源效率是其之前的2倍。Tranium2 将在 AWS 云中由 16 个芯片组成的集群中的 EC Trn2 实例中使用,在 AWS 的 EC2 UltraCluster 产品中可扩展到多达 10万个芯片。AWS表示,10万个 Trainium 芯片可提供 65 exaflops 的计算能力,相当于每个芯片可提供 650 teraflops 的计算能力。

AWS Inferentia2 加速器与第一代相比在性能和功能方面实现了重大飞跃。Inferentia2 的吞吐量提高了 4 倍,延迟低至 1/10。

wKgZomWwyh2AAQ50AATwyIe9CyQ876.jpg

AWS Inferentia2 支持多种数据类型,包括 FP32、TF32、BF16、FP16 和 UINT8,还支持新的可配置 FP8 (cFP8) 数据类型,因为它减少了模型的内存占用和 I/O 要求。AWS Inferentia2 具有嵌入式通用数字信号处理器 (DSP),可实现动态执行,因此无需在主机上展开或执行控制流运算符。AWS Inferentia2 还支持动态输入形状,这对于输入张量大小未知的模型(例如处理文本的模型)至关重要。AWS Inferentia2 支持用 C++ 编写的自定义运算符。

谷歌

2023 年 12 月,谷歌发布最新的Cloud TPU v5p,并号称是迄今最强大的TPU。每个 TPU v5p Pod由 8,960 个芯片组成,采用 3D 环面拓扑,互连速度达 4,800 Gbps。与 TPU v4 相比,TPU v5p 的FLOPS 提高了 2 倍以上,高带宽内存 (HBM) 提高了 3 倍以上。

TPU v5p 专为性能、灵活性和规模而设计,训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。此外,借助第二代SparseCores,TPU v5p训练嵌入密集模型的速度比 TPU v4 2快 1.9 倍。

wKgZomWwyh2AKBWwAAEk7HCtivA186.jpg

除了性能改进之外,TPU v5p 在每个 pod 的总可用 FLOP 方面的可扩展性也比 TPU v4 高 4 倍。与 TPU v4 相比,每秒浮点运算次数 (FLOPS) 加倍,并且单个 Pod 中的芯片数量加倍,可显著提高训练速度的相对性能。

wKgaomWwyh2AJzznAAVYDmdWezI186.jpg

微软

2023 年 11 月,微软推出了AI芯片Azure Maia 100。Maia 100 是 Maia AI 加速器系列中的首款产品。

Maia 采用 5 nm台积电工艺制造,拥有 1050 亿个晶体管,比 AMD MI300X AI GPU的 1530 亿个晶体管少约 30% 。微软表示,“Maia 支持我们首次实现低于 8 位数据类型(MX 数据类型),以便共同设计硬件和软件,这有助于我们支持更快的模型训练和推理时间。”

Maia 100 目前正在 GPT 3.5 Turbo 上进行测试,该模型也为 ChatGPT、Bing AI 工作负载和 GitHub Copilot 提供支持。微软正处于部署的早期阶段,还不愿意发布确切的 Maia 规范或性能基准。

总的来说,从AMD 4000亿美元市场的预测中至少可以得出三个结论:首先,数据中心仍是短期内AI芯片的焦点;其次,数据中心 AI芯片领域正急剧上升,尽管上升的幅度仍然是一个问题;第三, 英伟达将继续在该领域占据主导地位,但包括 AMD 在内的其他供应商正努力削弱其地位。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19954

    浏览量

    237498
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132105
  • 晶体管
    +关注

    关注

    77

    文章

    10043

    浏览量

    142599
  • HPC
    HPC
    +关注

    关注

    0

    文章

    333

    浏览量

    24430
  • AI芯片
    +关注

    关注

    17

    文章

    1994

    浏览量

    36057

原文标题:数据中心AI芯片市场有多大?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 ?571次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    高速线缆支持热插拔功能,具有低功耗和小弯曲半径,便于灵活布线,可实现高稳定性、低成本、节省空间和高散热等优势,非常适合数据中心布线需求。这些高速线缆能够与交换机、路由器和服务器无缝集成,确保网络
    发表于 03-24 14:20

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心升级。然而
    的头像 发表于 03-21 15:43 ?516次阅读

    数据中心发展与改造

    全球多数数据中心基础设施已超六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代化改造。同时数据中心呈现规模化、高密化、绿色化发展趋势。19821800313 一、目
    的头像 发表于 02-28 16:50 ?468次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    韩国将建全球最大AI数据中心

    据最新报道,韩国即将启动一项雄心勃勃的计划——建设全球最大的人工智能(AI)数据中心。该数据中心不仅在规模上令人瞩目,更在技术和投资上展现了韩国的强大实力。 据悉,该数据中心的电力容量
    的头像 发表于 02-20 09:24 ?630次阅读

    新思科技助力下一代数据中心AI芯片设计

    Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片),开发者可以针对特定任务优化每个组件,进而
    的头像 发表于 02-20 09:17 ?521次阅读
    新思科技助力下一代<b class='flag-5'>数据中心</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>设计

    华为发布2025数据中心能源十大趋势

    今日,华为举办2025数据中心能源十大趋势发布会,华为数据中心能源领域总裁尧权全面解读数据中心能源十大趋势,为
    的头像 发表于 01-14 10:24 ?566次阅读

    AI数据中心驱动下 芯片电感的技术革命

    面对人工智能技术的飞速发展,数据中心的高功率计算需求给芯片电感带来了哪些前所未有的挑战与机遇? 随着人工智能技术的持续进步和应用领域的不断拓展,
    的头像 发表于 12-18 16:12 ?680次阅读
    <b class='flag-5'>AI</b>与<b class='flag-5'>数据中心</b>驱动下 <b class='flag-5'>芯片</b>电感的技术革命

    AmpereOne如何满足现代数据中心需求

    在当今要求苛刻的技术环境中,数据中心和企业面临着严峻的挑战。不断上升的能源成本促使公司寻求更节能的解决方案,以满足可持续性和成本目标。对可扩展计算密度的需求也在增长,以跟上日益复杂的应用程序和云原生
    的头像 发表于 12-09 17:33 ?784次阅读

    Meta AI数据中心网络用了哪家的芯片

    ? 在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组件,我们可以
    的头像 发表于 11-25 10:05 ?1471次阅读
    Meta <b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>网络用了哪家的<b class='flag-5'>芯片</b>

    AI数据中心的能源危机,需要更高效的PSU

    应用对算力的需求,推动了AI芯片算力不断提高,与此同时带来的是越来越高的功耗。单颗算力芯片的功耗,从过去的300W左右提升至如今的1000W,大功率AI
    的头像 发表于 11-04 02:21 ?7025次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的能源危机,需要更高效的PSU

    当今数据中心新技术趋势

    当今数据中心的新技术趋势正以前所未有的速度推动着行业的变革与创新。随着云计算、大数据、人工智能等技术的快速发展,数据中心作为信息技术的核心基础设施,正面临着前所未有的机遇与挑战。 一、
    的头像 发表于 10-24 15:15 ?1087次阅读