0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于AI网络的五个基本要点

是德科技KEYSIGHT ? 来源:是德科技KEYSIGHT ? 2024-12-18 15:48 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着大模型的兴起,为了应对新的AI应用,AI或算力数据中心建设如火如荼。

无论是作为聊天机器人,推荐系统还是在各个领域中实现流程自动化,比如无人驾驶、人脸识别;AI技术都有望提升并加速众多企业和公共设施的运营,甚至改变人们的生活方式。

然而,AI网络或算力网络作为一个概念,常常让人感到困惑且被误解,AI和算力需要网络么?

在本文中,我们将探讨关于AI网络的五个基本要点,以及随着AI的发展,网络所面临的独特挑战。

GPU是AI的核心

简单来说,AI的核心是图形处理单元(GPU)或神经处理单元(NPU)。

过去,我们通常认为中央处理单元(CPU)是计算机的核心。但GPU的优势在于,它在执行数学计算特别是矩阵计算方面非常出色,从某种角度来说,与人脑神经元更接近。

CPU时代的数据中心网络处理的大多是供人阅读的文字或多媒体,典型的就是网站的浏览、文件传输以及观看视频,数据中心往往能够同时支持数亿人的同时在线及高速的视频码流传输。

而在构建大语言模型或深度学习模型时,需要让GPU进行“训练”,这涉及到解决可能包含数十亿参数的矩阵和梯度运算。GPU的计算非常的快,整个“训练”过程异常严苛,不允许有任何的错误发生,一旦发生错误或延迟,整个“训练”的周期就会被拉长。这样的运算量,以及对无损和低延时的要求,对于传统的数据中心而言,突然就变得捉襟见肘了。

AI训练任务由多GPU协同完成

大语言模型在训练的参数和模型复杂度上有非常明显的提升,完成这些计算必须让多达上千个GPU共同处理训练任务,即便如此,训练或微调大模型也可能需要数周甚至数月的时间。

一般的多GPU互联的架构是将一组GPU服务器放置在机架中,并通过机架顶部的交换机相互连接。机架与机架通过CLOS网络结构将它们全部连接起来。随着解决问题复杂性的提升,对GPU的需求也会增加,有些情况下单个数据中心的电力不足以支持的时候,甚至需要跨数据中心连接通信来完成更大型的训练任务。

AI集群是一台超级计算机

在构建AI集群时,不仅仅要将GPU相互连接,更需要把它作为一个系统,解决很多错误和优化的问题。正因为AI集群的规模不断的上升,其中任何单点错误会导致整体训练任务的失败或效率低下,整个系统的组成部件比如模块、线缆、交换机、网卡、服务器、存储甚至电源,冷却系统等,都会影响整个系统的执行和维护。AI集群已经慢慢由一个组网变成为一台超级计算机,越来越多的工作将会围绕在部件之间的协同而不仅是部件内部的单点优化展开。

网络成为了训练效率的关键瓶颈

在去年秋天的开放计算项目(OCP)全球峰会上,Marvell Technology的Loi Nguyen指出,网络成为了AI部署的新瓶颈。GPU在解决计算问题或处理训练负载方面非常有效。然而,进行并行计算的GPU在完成本身处理的信息之外需要获取其他GPU处理完成的信息,彼此之间需要相互通信和同步。

如果一个GPU无法获取所需信息,或者同步需要较长时间,其他所有GPU都必须等待,直到协作任务完成。在技术层面上,由网络拥塞导致的数据包延迟或丢失可能会引发数据包重传,显著增加任务完成时间(JCT)。

这意味着价值数百万甚至数千万美元的GPU长时间处于闲置状态,从而导致AI产品的上市时间延迟并影响公司的财务成果。

测试对于AI网络至关重要

为了确保AI集群的高效运行,需要网络对GPU协同作业可能存在的拥塞和错误有提前的感知以及良好的应对。

这要求对网络处理AI负载的性能进行详尽的测试和基准评估。但这并非易事,因为GPU协同作业的负载区别于传统网络的流量负载,微突发、大象流、低熵是比较典型的特征。

因此,在测试AI网络时,我们会面临诸多挑战:

? GPU短缺,无法复刻生产网络环境或无法长时间复现问题。

?在生产系统上进行测试可能会降低系统的处理能力。

?系统内的部件不能提供足够的日志及调试能力,无法准确定位问题。

?此外,获取GPU之间集合通信更细节的信息,比如 Queue-Pair 的信息是一个挑战。

为了应对这些挑战,可以首先在实验室环境中对建议配置的一个子集或小的组网进行测试,对关键参数进行基准测试,比如任务完成时间(JCT)、AI集群可达到的带宽,以及这些参数与网络利用率和交换机缓存消耗的比较。

这种基准测试有助于找到GPU/工作负载与网络设计/参数设置之间的平衡。当计算架构师和网络工程师对结果满意时,他们可以将这些设置应用于生产环境,并测量新的结果。

结论

为了充分利用AI算力,必须对AI网络的设备和基础设施进行优化。

企业和学术界正在提出更多好的架构和算法来优化AI系统的各个部件及部件间协同,以应对未来更多AI应用给大型网络带来的挑战。

测试对AI系统非常关键,只有通过确定可重复的测试,行业才能实现从探索性实验到可交付的迭代,这会是优化AI这台超级计算机的基础。

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132105
  • 网络
    +关注

    关注

    14

    文章

    7881

    浏览量

    91313
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282494
  • 是德科技
    +关注

    关注

    21

    文章

    999

    浏览量

    83930

原文标题:关于AI网络你应该知道的五件事

文章出处:【微信号:是德科技KEYSIGHT,微信公众号:是德科技KEYSIGHT】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    时间同步设备在复杂网络环境中的调试要点

    时间同步设备是保障网络系统协同运行的基础设施,尤其在金融、电力、通信等领域对精度要求较高的场景中,其稳定性直接影响业务连续性。在实际部署中,网络环境的复杂性常给同步精度带来挑战。本文将分享几个调试过程中的经验要点
    的头像 发表于 08-13 15:48 ?53次阅读
    时间同步设备在复杂<b class='flag-5'>网络</b>环境中的调试<b class='flag-5'>要点</b>

    关于NanoEdge AI用于n-Class的问题求解

    我想请教一下关于NanoEdge AI用于n-Class的问题。我使用NanoEdge AI的n-Class模式,训练好模型,设计了3分类,使用PC端的模拟工具测试过,模型可以正常对
    发表于 08-11 06:44

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新视角出发,系统梳理了AI芯片的前沿技术与未来方向,串联起从算法到系统的实现路径,全景式展现AI芯片的技术原理与应用场景。 书中核心内容可分为算法创新、工艺创新、材料创新、应用创新、系统创新
    发表于 07-28 13:54

    三大核心网络设备的运维要点

    作为运维工程师,熟练掌握网络设备的管理和维护是构建稳定IT基础架构的关键。本文将深入探讨交换机、路由器和防火墙这三大核心网络设备的运维要点,从基础配置到高级故障排除,为您提供全面的技术指导。
    的头像 发表于 07-22 16:35 ?231次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    Nordic收购 Neuton.AI 关于产品技术的分析

    Nordic Semiconductor 于 2025 年收购了 Neuton.AI,这是一家专注于超小型机器学习(TinyML)解决方案的公司。 Neuton 开发了一种独特的神经网络框架,能够
    发表于 06-28 14:18

    解锁CAN接口开发高效路径!核心要点一次讲透

    高效开发CAN接口,关键在于把握协议基础、硬件适配、错误管理、性能优化与调试大核心要点。下面将逐一剖析每个环节的技术细节与实践方法,助力开发者快速突破难点,实现可靠通信。 在Air780EPM上
    的头像 发表于 06-23 16:08 ?348次阅读
    解锁CAN接口开发高效路径!<b class='flag-5'>五</b><b class='flag-5'>个</b>核心<b class='flag-5'>要点</b>一次讲透

    网络配线架打线操作的技术要点

    网络配线架打线操作是网络布线工程中的关键环节,直接影响网络的稳定性和传输质量。以下是打线操作的技术要点,涵盖前期准备、打线流程、质量检查及维护注意事项,以逻辑清晰、重点突出的方式呈现:
    的头像 发表于 06-06 10:28 ?502次阅读
    <b class='flag-5'>网络</b>配线架打线操作的技术<b class='flag-5'>要点</b>

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    收到发烧友网站寄来的《零基础开发AI Agent》这本书已经有好些天了,这段时间有幸拜读了一下全书,掌握了一开发智能体的方法。 该书充分从零基础入手,先阐述了Agent是什么,它的基本概念和知识
    发表于 05-14 19:51

    【「零基础开发AI Agent」阅读体验】+关于AI Agent开发入门的第一印象与相关官方文档和社区资料的内容补充

    今天有幸收到了电子发烧友寄来的由中国工信出版集团和电子工业出版社联合出版的关于AI Agent开发的《零基础开发AI Agent》的新书,不禁高兴雀跃,以下是我拍下的书的页封和背面: 大家可以看到
    发表于 04-22 18:16

    【「零基础开发AI Agent」阅读体验】+初品Agent

    期待中的《零基础开发AI Agent——手把手教你用扣子做智能体》终于寄到了,该书由叶涛、 管锴、张心雨完成,并由电子工业出版社出版发行。 全书分为三部分,即入门篇、工具篇及实践篇。由此可见这是
    发表于 04-22 11:51

    适用于数据中心和AI时代的800G网络

    数据中心依赖数千甚至上万GPU集群进行高性能计算,对带宽、延迟和数据交换效率提出极高要求。 AI云:以生成式AI为核心的云平台,为多租户环境提供推理服务。这类数据中心要求网络
    发表于 03-25 17:35

    巨人网络与阿里云深化AI合作

    巨人网络近日宣布与阿里云进一步深化合作关系,双方将在游戏场景的AI落地应用及算力生态建设等领域展开更为紧密的合作,共同推动AI技术与巨人网络业务的深度融合。 基于近年来在“游戏+
    的头像 发表于 02-14 14:06 ?636次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    非常高兴本周末收到一本新书,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 关于AI for Science:人工智能驱动科学创新》第二章“AI
    发表于 10-14 09:16

    pcb设计中布局的要点是什么

    在PCB设计中,布局是一非常重要的环节,它直接影响到电路的性能、可靠性和成本。以下是关于PCB布局的一些要点,这些要点将帮助您设计出高质量的PCB。 确定设计目标和要求 在开始布局之
    的头像 发表于 09-02 14:48 ?939次阅读