0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI数据中心的布线考量

康普中国 ? 来源:康普中国 ? 2024-12-05 09:26 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简介 /

几十年来,人工智能 (AI) 的威胁一直是科幻小说不变的主题。荧幕反派角色,比如 HAL 9000、终结者、复制人和《黑客帝国》中的机器人,都站在了人类的对立面,迫使人类必须克服这些技术带来的威胁。最近,DALLE-2 和 ChatGPT 的发布引起了广大公众对 AI可以做什么的极大兴趣,也引发了人们关于 AI 将如何改变教育和工作性质的讨论。AI 也是当前和未来数据中心增长的主要驱动力。

AI 包含以下三个方面: 在训练期间,大量数据被输入算法,算法使用数据并从数据中“学习”。 然后,算法接触新数据集,并将负责基于在训练期间学习的内容生成新知识或结论。例如,这是一张猫的照片吗?此过程称作“推理 AI”。 第三个方面是“生成式 AI”,这可能比较有意思。生成式 AI 是指算法根据简单的提示“创建”原始输出,包括文本、图像、视频、代码等。

AI 计算由图形处理单元 (GPU) 进行处理,GPU 是专为并行处理而设计的芯片,非常适合 AI。用于训练和运行 AI 的模型会占用大量处理能力,这通常是单台机器无法承受的。

a58d4502-ad41-11ef-93f3-92fbcf53809c.png

图 1:AI 模型大小(单位:petaFLOPS)

(资料来源:https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/)

图 1 显示了 A I 模型的历史增长情况, 单位为petaFLOPS(每秒千万亿次浮点运算)。处理这些大型模型需使用多个服务器和机架上的众多互联GPU。AI 数据中心部署了几十个这样的 AI 集群,而将所有内容连接在一起以保持数据流动的布线基础设施正面临着一系列棘手挑战。

以下内容概述了 AI 数据中心布线的一些关键挑战和机遇,以及一些最佳实践和成功技巧。

典型数据中心架构 /

几乎所有现代数据中心,尤其是超大规模数据中心,使用的都是折叠式 Clos 架构,也称为“分支和骨干”架构。数据中心的所有分支交换机都连接到所有骨干交换机。在数据中心中,服务器机架连接到机架顶部 (ToR) 交换机。然后,ToR 连接到行末端的分支交换机或通过光缆连接到另一个房间。机架中的服务器通过一至两米的短铜缆连接到 ToR,传输 25G 或 50G信号

这种配置可让数据中心使用很少的光缆。例如,使用 F16 架构的 Meta 数据中心(参见图 2),一行中每台服务器机架有 16根双工光缆。这些线缆从 ToR 延伸到行的末端,在那里它们与模块连接,将双工光纤组合成 24 根光缆。接着,这 24 根光缆延伸到另一个房间,与分支交换机连接。

数据中心在实施 AI 时,会将 AI 集群部署在采用传统架构的计算集群旁。传统计算有时称为“前端网络”,AI 集群有时称为“后端网络”。

a5ab8d32-ad41-11ef-93f3-92fbcf53809c.png

图 2:FaceBook F16 数据中心网络拓扑结构

(资料来源:https://engineering..com/2019/03/14/data-center-engineering/f16-minipack/)

带有 AI 集群的数据中心 /

如上所述,AI 集群具有特有的数据处理要求,因此需要新的数据中心架构。GPU 服务器需要更多的服务器间连接,但是由于电力和散热的限制,每个机架不得不减少服务器的数量。因此,与传统数据中心相比,AI 数据中心中的机架间布线更多。每台 GPU 服务器都连接到行内或房间内的交换机。这些链路需要在长距离内达到 100G 到 400G 的速率,而这是铜缆所无法支持的。此外,每台服务器都需要连接到交换机网络、存储和带外管理。

例如:NVIDIA

举个例子,可以看看 AI 领域知名企业 NVIDIA 提出的架构。NVIDIA 发布了新款 GPU 服务器 DGX H100,该服务器具有 4 个 800G 交换机端口(作为 8 个 400GE 运行)、4 个 400GE 存储端口以及 1GE 和 10GE 管理端口。一个 DGXSuperPOD(图 3)可以包含 32 个这样的 GPU 服务器,这些GPU 服务器可连接到单行中的 18 台交换机。然后,每行将拥有 384 个 400GE 光纤链路用于交换机网络和存储,还有 64个铜缆链路用于管理。数据中心中光纤链路的数量将显著增加。前面提到的 F16 架构将在服务器机架数量保持不变的情况下拥有 128 (8x16) 根双工光缆。

AI 集群的链路有多长?/

在 NVIDIA 描绘的理想场景中,AI 集群中的所有 GPU 服务器将紧密结合在一起。与高性能计算 (HPC) 一样,AI/机器学习算法对延迟极为敏感。有人估计,运行大型训练模型有 30%的时间花在网络延迟上,70% 的时间花在计算上。由于训练一个大模型的成本可能高达 1000 万美元,因此这种网络延迟时间代表着一笔巨大的费用。即使是节省 50 纳秒或 10 米光纤的延迟,效果也非常明显。AI 集群中几乎所有的链路都限制在 100 米范围内。

不幸的是,并非所有数据中心都能够在同一行部署 GPU 服务器机架。这些机架需要大约 40 kW 才能为 GPU 服务器供电。这一功率比典型服务器机架的更高,按较低功率要求构建的数据中心将需要腾出专门的 GPU 机架空间。

如何选择收发器?/

运营商应仔细考虑其 AI 集群使用哪些光收发器和光缆才能更大限度地降低成本和功耗。如上所述,AI 集群中的最长链路将限制为 100 米。由于距离短,光学设备成本将主要集中在收发器上。使用并行光纤的收发器将具有一个优势:它们不需要使用光复用器和分解复用器进行波分复用 (WDM)。这降低了并行光纤收发器的成本和功耗。收发器节省下的费用远远抵消了多芯光纤取代双工光缆所略微增加的成本。例如,使用带有八芯光纤的 400G-DR4 收发器比采用双工光缆的 400G-FR4 收发器更具成本效益。

单模和多模光纤应用可以支持长达 100 米的链路。硅光子技术的发展降低了单模收发器的成本,使其更接近等效多模收发器的成本。我们的市场研究表明,对于高速收发器 (400G+),单模收发器的成本是等效多模收发器成本的两倍。虽然多模光纤的成本略高于单模光纤,但由于多芯光纤成本主要由 MPO 连接器决定,因此多模和单模光纤之间的成本差异较小。

此外,高速多模收发器的功耗比单模收发器少一两瓦。单个 AI集群具有 768 个收发器(128 个内存链路 + 256 个交换机链路x2),使用多模光纤将节省高达 1.5 kW 的功率。与每个 DGXH100 消耗的 10 kW 相比,这似乎微不足道,但对于 AI 集群来说,任何降低功耗的机会都非常宝贵。

在 2022 年,IEEE 短距离光纤工作小组完成了 IEEE 802.3db的工作,该规范为新的超短距离 (VR) 多模收发器确立了标准。此新标准针对的是 AI 集群等行内布线,最大覆盖范围为50 米。这些收发器有可能更大程度地降低 AI 连接的成本和功耗。

收发器与 AOC /

许多 AI、ML 和 HPC 集群使用有源光缆 (AOC) 来互联 GPU 和交换机。AOC 是两端集成了光发射器和接收器的光缆。大多数 AOC 用于短距离,通常与多模光纤和 VCSEL 搭配使用。高速 (>40G) 有源光缆将使用与连接光收发器的光缆相同的 OM3 或 OM4 光纤。AOC 中的收发器未必和设备兼容,如果不兼容将无法工作。AOC 的收发器直接接入设备即可,但是由于安装人员测试 AOC 中的收发器,因此不需要具备清洁和检查光纤连接器所需的技能。

AOC 的缺点是它们不具备收发器所拥有的灵活性。AOC 安装非常耗时,因为布线时必须连接收发器。正确安装带有扇出功能的 AOC 尤其具有挑战性。AOC 的故障率是同等收发器的两倍。当 AOC 发生故障时,必须通过网络来安装新的 AOC。这会占用计算时间。最后,当需要升级网络链路时,必须拆除有问题的 AOC 并更换为新的 AOC。相对于 AOC 连接而言,光纤布线是基础设施的一部分,并且可以在几代数据速率迭代升级中保持生命力。

结论 /

仔细考虑 AI 集群的布线将有助于节省成本、功耗和安装时间。合理的光纤布线将使企业能够充分受益于人工智能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5258

    浏览量

    73647
  • AI
    AI
    +关注

    关注

    88

    文章

    35515

    浏览量

    281424
  • 布线
    +关注

    关注

    9

    文章

    800

    浏览量

    85232

原文标题:数据中心白皮书系列丨AI 数据中心的布线考量

文章出处:【微信号:康普中国,微信公众号:康普中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据,若带宽利用率低
    发表于 07-29 15:02

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 ?2554次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>电源解决方案

    中型数据中心中的差分晶体振荡器应用与匹配方案

    核心网络、存储、通信与计算节点。 通过精准选型与合理布线,这些高性能差分晶体振荡器可有效提升数据中心设备间的时钟一致性与传输效率,是构建稳定、可靠、高吞吐量数据中心的关键器件。
    发表于 07-01 16:33

    华为面向亚太地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向亚太地区发布全新升级的星河AI
    的头像 发表于 06-11 11:11 ?605次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    近日,在华为数据通信创新峰会2025中东中亚站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向中东中亚地区发布全新升级的星河
    的头像 发表于 05-21 15:49 ?356次阅读

    是德科技推出AI数据中心构建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)数据中心构建器,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI数据中心
    的头像 发表于 04-07 11:06 ?540次阅读

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 ?533次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    随着技术的飞速发展,数据中心正在从100G和400G演进到800G时代,对高速数据传输的需求与日俱增。因此,选择高效且可靠的布线解决方案对于800G数据中心至关重要。本文将深入探讨80
    发表于 03-24 14:20

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心升级。然而
    的头像 发表于 03-21 15:43 ?491次阅读

    数据中心发展与改造

    全球多数数据中心基础设施已超六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代化改造。同时数据中心呈现规模化、高密化、绿色化发展趋势。19821800313 一、目前数据中
    的头像 发表于 02-28 16:50 ?439次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    韩国将建全球最大AI数据中心

    据最新报道,韩国即将启动一项雄心勃勃的计划——建设全球最大的人工智能(AI)数据中心。该数据中心不仅在规模上令人瞩目,更在技术和投资上展现了韩国的强大实力。 据悉,该数据中心的电力容量
    的头像 发表于 02-20 09:24 ?605次阅读

    Meta AI数据中心网络用了哪家的芯片

    ? 在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组件,我们可以
    的头像 发表于 11-25 10:05 ?1435次阅读
    Meta <b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>网络用了哪家的芯片

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 ?926次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36