0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

是德科技如何应对AI数据中心扩展瓶颈

是德科技KEYSIGHT ? 来源:是德科技KEYSIGHT ? 2025-07-11 14:04 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

三项创新首度公开!构建高效 AI 数据中心,从网络仿真开始

AI 正以前所未有的速度重塑数据中心架构。每秒数万亿字节的训练流量、数千 GPU 的并行通信,让传统测试方法陷入瓶颈——GPU 闲置、网络拥塞、训练失败屡见不鲜。

AI 创新,正在重构数据中心基础架构

近几年,多模态学习、多智能体系统(Multi-agent Systems,MAS)和高速 GPU 互联技术快速发展,推动 AI 应用在医疗、气候建模、金融等多个领域实现飞跃。这些突破也带来了前所未有的挑战,对网络速度、吞吐量及计算性能的要求正持续飙升。

742df2d2-5c54-11f0-baa5-92fbcf53809c.png

图 1. AI 正迎来技术爆发的关键转折点,未来三年各项硬件标准与性能将实现跨代跃升。

动辄数十万美金,AI 数据中心成本远高于传统数据中心架构

一台 AI 训练服务器通常配备 8 块 GPU,总成本超过 40 万美元。而这还不包括电力、冷却、高速光互联等运维成本,占运营支出的 30% 至 50%。

此外,每个 AI 模型的云端存储成本,每月可能高达 1,000 至 10,000 美元。

模型训练往往动辄耗时数周甚至数月,任何缩短训练周期的机会都意味着数百万美元的 GPU 运算资源释放。

但问题来了:你的基础设施是否真正高效,能支撑这样的提速?

三大核心挑战,阻碍 AI 数据中心扩展

#挑战一:

AI 流量密集度远超传统应用

AI 训练负载需要在数千颗 GPU 之间高速传输 TB 级数据,通信模式集中且延迟敏感。例如,集合通信(如 all-to-all)容易引发入流拥塞,导致某些数据流延迟,从而拖慢整个训练任务。网络性能的关键不再是“平均带宽”,而是“最长传输时间”。

如图 2 所示,即使大多数 GPU 数据流能在 150 毫秒内完成,只要存在一个延迟至 190 毫秒的节点,整个算法执行也必须等到这最后一个完成,最终总耗时拉长至 190 毫秒。

7445bb10-5c54-11f0-baa5-92fbcf53809c.png

图 2. 即使大多数数据传输迅速,少数延迟较高的流也会决定 AI 训练任务的整体完成时间。

#挑战二:

系统高度互联,风险被放大

在强耦合架构中,任一组件故障(如光模块异常、网卡配置错误)都可能引发连锁反应,导致任务失败和资源浪费。如果没有全栈可视性和真实世界的仿真,这些问题往往在传统测试中难以被发现。

#挑战三:

仅靠组件级验证已无法保障系统稳定

即使每个组件都符合标准,也可能因 AI 流量特性而在系统层级上失败。尽管某些收发器在组件层面满足 IEEE 合规性要求,但在系统级运行中,特别是在处理突发 AI 流量时,仍可能出现性能问题。研究显示,超过 40% 的 AI 训练失败归因于网络或组件效率不足。

745471be-5c54-11f0-baa5-92fbcf53809c.png

图 3. 超过一半的 GPU 时间花在等待数据上,近一半的 AI 训练任务失败归因于网络与计算资源问题

系统级仿真是你的新的超能力

系统级仿真使网络架构师能够跳出理论假设,深入了解基础设施在真实 AI 流量与控制机制下的实际运行行为。

数据中心的系统级性能依赖于系统级可视化能力——也就是模拟 GPU 之间的通信、观察队列对(Queue Pair)行为,并分析突发流量和拥塞点在整个技术栈中(从物理层到应用层)造成的影响。数据中心的性能优化,离不开系统级可视化能力。通过模拟 GPU 通信、观察队列行为、识别流量突发点,才能在物理层到应用层之间全面掌控网络运行状况。

这一完整的测试流程通常包括:

?部署高密度网络测试平台。

?配置流量生成器,以太比特级速度模拟 AI 集合通信操作(如 all-reduce、broadcast、gather)的真实流量行为。

?使用性能分析工具,衡量系统级关键性能指标(KPI),例如任务完成时间、GPU 利用率、网络吞吐量和延迟。

通过这一方法,网络架构师可以快速定位 GPU 闲置时间积累的位置、识别次优的拥塞控制设置,或发现引入延迟的网卡与收发器组合。此外,还可在无需部署大规模 GPU 集群的前提下,灵活测试路由策略、微调拥塞控制参数(如优先级流控 PFC 和显式拥塞通知 ECN),并评估新协议或架构变更的效果。

某大型云服务提供商已使用是德科技的Keysight AI(KAI)数据中心构建器对其新一代 AI 训练集群的网络设计进行基准测试,目标是确保其高速以太网不仅能够支持当前的 GPU 型号,也能够兼容即将发布的新一代 GPU。

746300d0-5c54-11f0-baa5-92fbcf53809c.png

图 4. 是德科技 Keysight AI(KAI)数据中心构建器通过仿真 AI 工作负载以验证系统级性能指标的界面截图。

迈向 1.6T AI 数据中心:验证方法必须与时俱进

为了支持下一代 AI 工作负载的规模和速度,数据中心正在向 1.6T 以太网过渡。

随着 224 Gbps 电通道和 PAM4 调制成为常态,这些高速链路引入了更严格的时序窗口、更低的信噪比以及对互连变化更高的灵敏度。在如此高的速度下,验证信号完整性和端到端性能不能仅仅停留在组件级规格上。即使是符合标准的设备,在突发性 AI 工作负载下,也可能会遭遇边缘 FEC 性能或间歇性故障。铜缆、光纤、有源电缆和无源 DAC 等互连的多样性日益增加,使验证变得更加复杂。

传统的手动和基于脚本的验证难以应对 1.6T 及以上速度的复杂性。全面的自动化测试策略对于识别仅在动态、高流量 AI 训练工作负载下才会出现的系统级瓶颈至关重要。

Keysight 推出的 1.6T 互连和网络性能测试仪 + ITS (Interconnect Test System) 自动化测试平台,提供了完整的第1层到第3层全栈验证能力,包含:

第 1 层 :FEC 前误码率(Pre-FEC BER)、FEC 裕度、抖动容限

第 2 层 :CMIS 协议兼容性、数字光学监控(DOM)、通道映像完整性

第 3 层 :RoCEv2 流量建模、拥塞传播、流量公平性

为了支持可重复、可扩展的测试,像1.6TE 互连和网络性能测试仪这样的集中式测试平台可以重复使用配置、自动化通过/失败分析并加快测试吞吐量。

是德科技1.6TE 互连和网络性能测试仪具备全面的硬件功能,覆盖第 1 层至第 3 层所需的各项测试能力,可广泛应用于高速以太网、光纤与铜缆互连、网络设备以及整体网络基础设施的验证。

配套的互连测试系统(ITS)软件可帮助架构师快速识别边缘场景下的系统行为,并在实际大规模部署条件下,对各种电缆、网卡(NIC)、收发器和交换机进行压力测试,确保系统稳定可靠运行。

746f49f8-5c54-11f0-baa5-92fbcf53809c.png

图 5. Keysight Interconnect Test System (ITS) 软件数字光监控页面的屏幕截图

构建面向未来的 AI 数据中心

构建一个真正具备大规模运行能力的人工智能数据中心,绝不仅仅是“完成检查清单”那样简单,而是要为不可预测的挑战做好设计准备,并应对未来指数级的增长需求。

随着人工智能不断重塑现代数据中心的架构,网络架构师正是连接愿景与执行的关键角色。无论您正在排查尾延迟、验证光互连,还是规划迈向 1.6T 的下一个飞跃,有一点是确定的:网络是支撑 AI 创新的核心。

而您团队是否具备对每条数据路径进行仿真、基准测试与系统级可视化的能力,将直接决定基础设施能否真正成功扩展。

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 仿真
    +关注

    关注

    52

    文章

    4297

    浏览量

    135992
  • 数据中心
    +关注

    关注

    16

    文章

    5241

    浏览量

    73581
  • AI
    AI
    +关注

    关注

    88

    文章

    35319

    浏览量

    280721

原文标题:重新定义 AI 网络测试:仿真+可视化,让 1.6T 成为现实

文章出处:【微信号:是德科技KEYSIGHT,微信公众号:是德科技KEYSIGHT】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    适用于数据中心AI时代的800G网络

    模块具备灵活的互联能力,支持与现有400G和100G设备兼容,有助于数据中心平滑升级至更高带宽,保护已有投资。 总结 AI时代对数据中心网络提出了更高带宽、低延迟和可扩展性要
    发表于 03-25 17:35

    数据中心的建设也看重风水

    相比中国传统的风水理论,数据中心所看重的风水则更加贴合实际。以整体架构来划分,目前的主流的数据中心已经进入第三代,并开始向第四代演进。第一代和第二代数据中心分别诞生于20世纪40和70年代,当时
    发表于 08-07 06:22

    未来数据中心与光模块发展假设

    国内数据中心的发展经历了由运营商主导的以通信机楼为主的分散、小规模化发展阶段,逐步向市场驱动的规模化、标准化、高密度、绿色节能方向发展。随着我们步入未来,数据中心的任务和概念还将继续发展。而光模块占
    发表于 08-07 10:27

    数据中心太耗电怎么办

    ??????摘要:其实对于节能,传统技术也是做了“十二分”的努力。但是在技术不断演进的情况下,传统节能技术还是存在问题,如何破?本文分享自华为云社区《数据中心节能?来试试华为NAIE数据中心节能技术
    发表于 06-30 06:27

    高效率的快速部署 玩转模块化数据中心 相关资料推荐

    当前,企业的快速增长都源于数字化的应用,而数字化的核心就是数据中心。如何应对数字化转型对数据中心带来的巨大压力,这给传统IT带来了很大的挑战。目前,传统数据中心主要面临以下三个困境。一
    发表于 07-05 07:31

    数据中心是什么

    数据中心是什么:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。
    发表于 07-12 07:10

    什么是数据中心

    数据中心是企业用来容纳其关键业务应用程序和信息的物理设施。随着它们的发展,重要的是要长期考虑如何保持它们的可靠性和安全性。什么是数据中心数据中心通常被称为单个事物,但实际上它们由许多技...
    发表于 09-15 06:46

    AI数据中心是什么角色?

    无论是维护自身内部的数据中心,还是依赖异地数据中心运营,其实都需要确保服务器具备应对新型技术、适应日益增长需求、对抗大环境变化的能力。从大数据、云计算,再到人工智能,未来几年的科技发展
    的头像 发表于 10-31 16:34 ?3488次阅读

    AI技术在数据中心有什么好处?

    随着世界努力应对数据海啸,数据中心也在快速发展。智能连接设备数量的快速增长和数据消耗的大量增加给基础数据中心基础架构带来了巨大压力。数据中心
    的头像 发表于 12-07 16:09 ?3358次阅读

    数据中心架构克服AI内存瓶颈的方法

    人工智能的怀疑论者批评了当前技术中存在的内存瓶颈,认为无法加速处理器和内存之间的数据移动阻碍了有用的实际应用程序。 用于在数据中心训练 AI 模型的
    的头像 发表于 07-18 15:52 ?1634次阅读
    <b class='flag-5'>数据中心</b>架构克服<b class='flag-5'>AI</b>内存<b class='flag-5'>瓶颈</b>的方法

    科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

    2024年2月29日,是科技(Keysight Technologies,Inc.)宣布,针对人工智能(AI)和机器学习(ML)基础设施生态系统,推出了 AI数据中心测试平台,旨在加
    的头像 发表于 02-29 09:32 ?1032次阅读
    是<b class='flag-5'>德</b>科技推出<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>测试平台旨在加速<b class='flag-5'>AI</b>/ML网络验证和优化的创新

    科技推出AI数据中心测试平台

    科技近期宣布,针对蓬勃发展的AI和ML基础设施生态系统,隆重推出了全新的AI数据中心测试平台。该平台专为加速AI/ML网络验证与优化而设
    的头像 发表于 03-08 10:17 ?1001次阅读

    科技推出AI数据中心构建器

    科技(NYSE:KEYS)推出Keysight AI (KAI)数据中心构建器,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI
    的头像 发表于 04-07 11:06 ?525次阅读

    科技推出AI数据中心构建器以验证和优化网络架构和主机设计

    : KEYS )推出Keysight AI (KAI)数据中心构建器,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI数据中心构建器的工
    的头像 发表于 04-10 08:50 ?293次阅读

    科技推出用于大规模AI数据中心的系列解决方案

    ·?为AI基础设施提供商提供从物理层到应用层数据中心模拟和优化解决方案 ·?验证和优化系统级性能,确保AI数据中心的无缝互操作性 ·?主动识别可能导致
    的头像 发表于 04-10 08:51 ?272次阅读
    是<b class='flag-5'>德</b>科技推出用于大规模<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的系列解决方案