0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Vicor电源模块突破数据中心AI电力困境

Vicor ? 来源:Vicor ? 2025-08-19 15:07 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本次独家问答中,Vicor 认为,数据中心AI 机架的 ±400VDC配电是不可避免的。

你将了解的内容:

对更高计算密度的需求;

向新一代 AI/ML 超级计算的 ±400VDC配电发展;

向 ±400VDC分布式电源过渡的挑战和解决方案。

尽管底层硅芯片的性能有了巨大的飞跃,但人工智能 (AI) 训练仍在推动数据中心电力的突破。斯坦福大学最新的 AI 指数报告显示,最先进的 AI 模型越来越大,现已达到高达 1 万亿个参数及 15 万亿个 Tokens。

因此,模型训练需要更多的时间和资源(长达 100 天以及 380 亿 petaFLOPS 或 PFLOPS),而训练成本会继续上扬(高达 1.92 亿美元)。训练一个这样的模型需要多少电力?超过 2500 万瓦。

亚马逊、谷歌、Meta 和微软等科技巨头正在转向核能,以满足训练和运行 AI 所需的巨大电力需求。但将大量可靠电力送入其庞大的数据中心只成功了一半。真正的问题出现在服务器机架本身的内部,其中电力电子产品正在与处理器、存储器和网络硬件竞争有限的空间。随着功率密度的提高,有效管理这种内部配电正在成为一个关键问题。

数据中心的底层架构如何改变,才能走出 AI 电力困境?

首先,系统设计者正在大力提高计算密度,其在 EIA 标准的 19 英寸宽的数据中心服务器机架或 OCP 标准的 21 英寸宽的数据中心服务器机架中,可以采用每升 petaFLOPS 测量。单个 petaFLOP 相当于每秒 1 千万亿次浮点运算。

一个相关问题是:“为什么较高的计算密度有助于降低训练这些大型 AI 模型的运营成本?”简而言之,这是因为处理器之间的内存带宽和非最佳时延是性能的瓶颈。大型模型训练需要大量的低时延内存以及无阻塞“全对全”网络架构(在 AI 集群或“超级群组”内支持数十个处理器的共享访问)。

让机架中的处理器、内存和网络交换机物理距离更近,不仅可增加带宽,而且还可缩短处理器之间的整体通信时延,从而可缩短 AI 模型的训练时间。具体来说,由单个机架定义的较短距离有助于使用无源铜线缆替代有源光收发器,有源光收发器因嵌入的 Retimer 及 DSP,不仅成本更高,而且还非常耗电。

一款典型的 800G QSFP-DD 和 OSFP 收发器的功耗约为 15W。因为这些超级计算机使用数以万计的光收发器,因此移除所有这些组件节省的电源和成本非常可观,每个机架可节省高达 20kW 的电力。

从风冷转向液冷机架级 AI 训练系统,可实现计算密度的 4 倍增长。

采取哪些额外的措施在计算密度与电力及成本节省之间实现平衡?

新一代 AI 超级计算机已从风扇强制风冷发展至液冷。我再问自己一个问题:“这如何助力提高计算密度?”在上一代产品中,有八个处理器的每个托盘配备有十个 80 毫米的风扇和一个大型散热器,其总共需要八个机架单元 (RU) 或每个机架单元一个 GPU 的计算密度。

下一代则通过薄水块冷板采用直接液冷,每个 RU 托盘有两个 CPU 和四个 GPU。这相当于每个机架单元四个 GPU 的处理器密度,进而提高了 4 倍。

液冷还可消除噪声并降低这些系统中高速旋转的 12VDC风扇所消耗的大量电力。此外,通过保持封装外壳及硅芯片结点较低的温度,直接液冷可延长 AI 处理器的平均故障间隔时间。据报道,该时间在风冷 AI 训练系统中相对较短,会增加停机时间和运营成本。与风冷计算机系统相比,液冷计算机系统通常还能实现更高的时钟频率。这两种结果均可减少 AI 模型的训练时间和成本。

还有哪些方法可提高数据中心的计算密度?电力发挥着怎样的作用?

在以往及当代 AI 服务器机架中,采用三相 480VAC(有时为 416VAC)机架配电,会将多达 30% 的机架空间用于 AC-DC 整流、针对 54VDC的 DC-DC 转换,以及电池备份单元 (BBU)、电容器架和/或不间断电源 (UPS)。

为了提高计算密度并高效应对功耗达 140kW 或更高的机架状况,超大规模企业现在主张向新一代 AI 超级计算机机架的 ±400VDC配电发展。

将 AC-DC 整流和电池备份 (BBU) 功能从 AI 训练机架中移除,有助于提高计算密度。

愿景是将整流、BBU 和 UPS 功能从 48 个 RU 机架中移除,腾出空间用于增设计算和网络托盘。假设机架尺寸为:600 毫米宽、1068 毫米深和 2236 毫米高,这可实现 36 个 CPU 和 72 个 GPU 的计算密度,总计每 48 个 RU 约为 720 petaFLOPS。这种新的系统架构可将每升训练性能的计算密度提高到约 0.5 petaFLOPS。

最重要的是,对更低成本、更高 AI 训练性能的需求将推动计算密度发展,进而促进 ±400VDC配电的采用。

AI 服务器机架的 ±400VDC 配电如何降低系统功耗及成本?

数据中心现有的 480VAC配电通常会将 BBU 和 UPS 功能集中起来,提供大型 BBU/UPS 单元,其可通过配电单元 (PDU) 支持多个 AI/ML 机架。

这些独立的二合一单元接收交流电,因此它们必须转换为直流电,才能保持电池充电。此外,BBU/UPS 单元还必须将电池输出转换回 AC,而这种双路转换过程(先是 AC-DC,然后是 DC-AC)会降低电源利用效率并增加硬件成本。采用 ±400VDC配电,BBU 和 UPS 无需 AC-DC 整流功能。

AI 数据中心有哪些与 ±400VDC 配电相关的挑战?

400VDC电压并非安全超低电压 (SELV) 等级,因此会带来必须处理的安全监管问题。此外,为了保留 800VDC供电的运算选项,必须为每个机架铺设三根导线(?400V、GND、+400V),这会增加成本。

Vicor BCM6135 系列电源模块支持 800VDC及 400VDC至 54、50 或 48VDC的高效电压转换。

假设每个 AI 机架为 140kW,则这在 400VDC时为 350A,在 800VDC时为 175A。高达 350A 的电流可能需要 500MCM 规格的铜线缆(75°C 时,380A 的载流量),而 175A 的电流则可能需要 3/0AWG 的铜线(75°C 时,200A 的载流量)。用于 400VDC配电的 500MCM 规格的铜线缆每英尺成本约为 14 美元,而用于 800VDC配电的 3/0AWG 铜线缆则每英尺成本约为 5 美元。在大型数据中心,这种几乎 3 倍的线缆成本差异是很大的。

成本增量有利于 800VDC配电,但 800V 生态系统没有 400V 生态系统成熟,因为电动汽车使用 400VDC。然而,汽车制造商正在迅速向 800V 电池及 DC-DC 转换器过渡,因此成本问题是发展变化的。

最大的挑战之一是处理机架内的高强度电流。假设使用 1:8 固定比率 DC-DC 转换器将 400VDC标称电压转换为 50VDC标称电压,在 140kW 时,转换会在 50VDC下产生 2,800A 的电流。这需要一根横截面约为 1600 平方毫米的镀银铜母线,才能满足风冷母线所需的载流量需求。该横截面的 2.1 米长母线可能有 5μΩ 的电阻,假设机架功耗持续为 140kW,在 20°C、2,800A 下,母线的功耗可能高达 45W。

潜在的解决方案是什么,电力电子产品在这一转变过程中发挥着怎样的作用?

然而,不仅可使用现有机架内液冷基础设施对垂直母线进行液冷,而且还可显著缩小其风冷横截面,最高可缩小 5 倍(电阻和功耗会随温度升高而增加)。这意味着可节省大量的成本和重量。

母线液冷还能更好地控制母线上的最大压降。这不仅可缩小中间母线转换器的输入电压范围,而且还可降低 CPU/GPU 加速器计算模块和网络 ASIC 交换模块的负载点稳压负担。请注意,在处理数千安培的载流量,以确保最小热损耗时,选择 50VDC连接器也会变得更加重要。

OCP 开放机架 V3 规范和 ORv3 高功率机架 (HPR) 规范是业界为解决当前及新一代 AI 超级计算机电源及热工程带来的工程挑战而做出的努力。设计新一代 AI 超级计算机系统仍将涉及导航一系列复杂的工程及经济权衡。

具有低热阻与共面表面(可直接与液冷冷板配套)的高密度电源模块将在实现 AI 超级计算机数据中心机架的高压 DC 配电过程中发挥重要作用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5301

    浏览量

    73747
  • AI
    AI
    +关注

    关注

    88

    文章

    35869

    浏览量

    282821
  • Vicor
    +关注

    关注

    4

    文章

    218

    浏览量

    59724

原文标题:数据中心电力分解

文章出处:【微信号:Vicor,微信公众号:Vicor】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    睿海光电:400G光模块技术创新与AI数据中心变革

    睿海光电:400G光模块技术创新与AI数据中心变革 一、400G光模块:新一代数据中心的核心引擎 在AI
    的头像 发表于 08-18 13:52 ?95次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI模块的研发与量产先锋 睿海光电作为全球AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    在人工智能(AI)算力爆发式增长与全球能源结构转型的双重驱动下,电力供给体系正经历从”粗放式”到”智能化”的范式变革。AI数据中心的单机功耗已突破
    的头像 发表于 07-22 14:01 ?555次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字<b class='flag-5'>电源</b>参考设计方案

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    在人工智能(AI)算力爆发式增长与全球能源结构转型的双重驱动下,电力供给体系正经历从”粗放式”到”智能化”的范式变革。AI数据中心的单机功耗已突破
    的头像 发表于 07-16 17:13 ?681次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字<b class='flag-5'>电源</b>参考设计方案

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 ?2625次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心电源</b>解决方案

    Vicor推出DCM3717和DCM3735 DC-DC电源模块

    Vicor 全新推出的DCM3717 和 DCM3735 DC-DC 电源模块支持以 48V为中心的供电网络(PDN)增长趋势,与 12V 供电网络相比,48V PDN 提供更高的电源
    的头像 发表于 03-28 11:14 ?918次阅读

    适用于数据中心AI时代的800G网络

    选择无拥塞路径,提高数据传输效率。 多租户性能隔离:确保不同用户任务之间带宽分配合理。 飞速(FS)800G光模块AI数据中心中的作用 为满足
    发表于 03-25 17:35

    Vicor在台湾推广48V电源模块模块化设计的市场竞争优势

    近日,美系功率半导体模块厂商Vicor在中国台湾举办了一场媒体活动,重点宣传其最新的48V电源模块平台。此次活动吸引了众多媒体及行业专家的关注,凸显了Vicor
    的头像 发表于 03-24 11:38 ?611次阅读
    <b class='flag-5'>Vicor</b>在台湾推广48V<b class='flag-5'>电源模块</b>:<b class='flag-5'>模块</b>化设计的市场竞争优势

    DC-DC电源模块的应用电路及接法

    在全球通用交流输入范围(85~264V)内,ARM输出电压始终保持在200~375V之间。与Vicor的VI-260和VI-J60系列DC-DC电源模块兼容,并兼容新一代300V输入的Vicor
    的头像 发表于 03-20 10:02 ?9576次阅读
    DC-DC<b class='flag-5'>电源模块</b>的应用电路及接法

    纳微助力长城电源打造超高功率密度模块电源,掀起AI数据中心“芯”革命

    ??氮化镓功率芯片 进入长城电源供应链 ,成功助力其打造 AI数据中心专用的超高功率密度2.5kW模块电源AI的迅猛发展对
    发表于 03-12 11:02 ?516次阅读
    纳微助力长城<b class='flag-5'>电源</b>打造超高功率密度<b class='flag-5'>模块电源</b>,掀起<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>“芯”革命

    设计基于VICOR电源模块电源滤波器

    本文介绍了基于VICOR电源模块的输出滤波器设计方案,并讨论了开关电源噪声消除的办法,既适合于不同厂商生产的开关电源的输出滤波,也适用于其他要求高稳定度、高精度
    的头像 发表于 02-09 10:09 ?3587次阅读
    设计基于<b class='flag-5'>VICOR</b><b class='flag-5'>电源模块</b>的<b class='flag-5'>电源</b>滤波器

    Vicor电源模块助力电动汽车转型

    Vicor 公司总部位于马萨诸塞州安多弗,自 1981 年以来一直致力于为通信、计算、国防和机器人等关键行业开发和制造高性能电源模块。在过去六年,随着交通运输业进入电气化时代,Vicor 开始涉足这一领域,提供小巧、功率密度高的
    的头像 发表于 10-29 14:02 ?813次阅读

    Vicor发布三款全新车规级电源模块

    近日,Vicor 发布了三款用于 48V 电动汽车电源系统的车规级电源模块。这些模块提供业界领先的功率密度,可以满足汽车厂商和一级供应商在 2025 年的生产需求。BCM6135、DC
    的头像 发表于 10-18 09:54 ?1173次阅读

    浅析如何降低数据中心电力能耗

    ,如何减少数据中心电力消耗成为了焦点问题。 ? 1 IT设备能耗的降低 数据中心的能耗主要源自IT设备。这些设备的直接能耗不仅增加了电费成本,而且还需要配备相应的电源和冷却系统,这些
    的头像 发表于 09-02 12:31 ?667次阅读
    浅析如何降低<b class='flag-5'>数据中心电力</b>能耗