0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

思科强化基于以太网的AI网络战略

SDNLAB ? 来源:SDNLAB ? 2023-09-15 16:12 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

思科宣布停止HyperFlex产品

当地时间 9 月 12 日,思科正式宣布已停止生产其 HyperFlex 超融合基础设施(HCI)产品。

思科表示,做出这个决定有两方面的考虑。一方面是不断变化的客户需求和市场形势,让自己重新考虑了针对这款设备的计划;另一方面是超大规模计算公司开始涉足这个市场。例如,甲骨文刚刚将其本地云精简为一款可与大型超融合设备竞争的产品。

思科没有详细解释为何停止 HyperFlex,只是说,这是为客户、合作伙伴和员工提供更有力的支持。思科发言人称,思科“仍然致力于简化混合多云运营”。但实现这一目标背后出力的是 Nutanix 而不是思科。两家公司最近宣布合作,在思科硬件上运行 Nutanix 的软件堆栈,思科出售最终的设备并获得佣金。

思科承诺为 HyperFlex 客户提供五年的支持和服务。不过,对于使用 HyperFlex 运行 VMware ESXi 虚拟机管理程序的客户来说,这项服务很复杂。思科不会在其硬件上认证未来版本的 ESXi ,也就是说 VMware 客户要么在 ESXi 8.0 退出支持后依旧使用,要么运行不受支持的代码。

另一种选择是完全放弃 HyperFlex,思科已经针对这种情况发布了一份白皮书。亦或是清理 HyperFlex 并将其运行的机器用作普通 UCS 服务器使用。为了让该平台的用户有时间做好准备。思科将在 2024 年 3 月 12 日之前继续接受 HyperFlex 硬件和软件的订单,并尝试在同年 6 月 10 日之前全部发货。

厌倦了成为“others

思科之所以放弃 HyperFlex,可能是因为它的销量始终没能达到让思科满意。

IDC 2022 年底的数据显示,在该市场中,VMware 占据了绝对优势的 41% 份额, Nutanix 占 25%,排名第三的HPE 占 7.3% ,这使得思科只能“屈居”于“其他”类别中。

思科一直在大肆宣传自己在刀片服务器领域的实力——UCS 服务器占据利基市场,但实际上从未撼动过戴尔、 HPE 或联想等其他玩家的地位。HyperFlex 对于改变这种局面似乎帮助不大,在思科将大部分工具转向云和订阅模式的时期,反而给思科带来了维护管理软件堆栈的负担。

鉴于这块业务始终无法做出成绩,而超大规模云又对服务器制造商构成威胁,混合云又减少了对本地设备的需求,这也不难看出为什么思科决定让 HyperFlex 的时代提前结束了。

不过思科没有错过这轮AI网络的风口,此前就制定了一系列基于以太网的AI网络战略。

思科基于以太网的AI网络战略

思科云网络、Nexus和ACI产品线产品管理副总裁Thomas Scheibe表示:“各组织正坐拥海量数据,他们正在研究人工智能技术,试图让这些数据更容易访问,并更快地从中获得价值。客户想知道他们需要在网络方面做什么,以便能运行其庞大的 GPU 集群并处理大量数据。对于大多数客户来说,以太网将是答案。”

为此,思科制定了一份蓝图,定义组织如何使用现有数据中心以太网来支持人工智能工作负载。思科人工智能蓝图的核心组件是其 Nexus 9000 数据中心交换机,这些交换机的每个 ASIC 高达 25.6Tbps 的带宽,并且拥有可用的硬件和软件功能,可提供所需的低延迟、拥塞管理机制和遥测, 可提供 AI/ML 集群所需的极高吞吐量。

此外,最近思科在面向AI的新型高端可编程Silicon One处理器取得了全新进展,芯片产品家族又添新成员。全新处理器包括Silicon One G202和Silicon One G200,能够实现25.6Tbps和51.2Tbps的转发性能。两款处理器建立在 Cisco Silicon One G100统一架构的技术基础之上实现突破创新。针对高带宽、超大规模数据中心以及 AI/ML高性能网络进行了全面优化,构建无损、低延迟和高能效的AI数据中心。

RoCEv2 作为 AI 集群的传输

RDMA是众所周知的用于高性能计算和存储网络环境的技术。RDMA 的优点是在内存到内存级别的计算节点之间实现高吞吐量和低延迟的信息传输,而不会给 CPU 带来负担。该传输功能被卸载到网络适配器硬件以绕过操作系统软件网络堆栈。

a30fc406-539e-11ee-a25d-92fbcf53809c.png

RDMA 提供了多种网络传输实现,包括InfiniBand 和基于以太网的RoCE。

InfiniBand (IB) 提供高吞吐量和 CPU 旁路,从而降低延迟。InfiniBand 还在协议中内置了拥塞管理,这些优势使 InfiniBand 成为高性能计算传输的首选。对于需要 HPC 工作负载的企业网络,InfiniBand 设计了一个单独的网络以利用其所有优势,但这些专门构建的网络给企业带来了额外的成本和复杂性。

RoCE 是 InfiniBand 的以太网转发扩展。RoCEv2 将 IB 传输封装在以太网、IP 和 UDP 报头中,因此可以通过以太网进行路由。ROCEv2是一种高性能网络计算技术,可以让数据直接在两个设备的内存之间传输,而无需涉及服务器CPU。它允许通过单个连接同时传输或路由多个数据包,从而减少延迟和复杂性并提高吞吐量。

a334a276-539e-11ee-a25d-92fbcf53809c.png

RoCE 和 RoCEv2 帧格式,其中 RoCEv2 IP 和 UDP 报头位于以太网之上

以太网在企业数据中心中无处不在,网络管理员对以太网非常熟悉,这是该技术的一大优势。除此之外,经济性和创建承载常规企业流量以及 RDMA 工作负载的“融合”结构对客户非常有吸引力,这也是在数据中心网络中实施 RoCEv2 的原因之一。

RoCEv2 需要无损传输,可以通过使用显式拥塞通知 (ECN) 和优先级流量控制 (PFC) 拥塞避免算法来实现。

AI集群需要无损网络

对于RoCEv2传输,网络必须提供高吞吐量和低延迟,同时避免在发生拥塞的情况下流量下降。Cisco Nexus 9000 通过 ECN 和 PFC 中的软件和硬件遥测在无损网络中提供支持和可见性。

显式拥塞通知 (ECN)

在需要端到端传播拥塞信息的情况下,可以使用ECN进行拥塞管理。ECN 在 IP 报头服务类型 (TOS) 字段内的 2 个最低有效位内经历拥塞的网络节点中进行标记。当接收方收到 ECN 拥塞经历位设置为 0x11 的数据包时,它会生成拥塞通知数据包 (CNP) 并将其发送回发送方。当发送方收到拥塞通知时,它会减慢与该通知匹配的流量。这种端到端流程构建在数据路径中,因此是管理拥塞的有效方法。

a3649b84-539e-11ee-a25d-92fbcf53809c.png

网络设备和终端主机使用的 ECN 位值

ECN 本质上是通过监控网络拥塞或其他可能导致数据包丢失的情况,并限制网络以确保这种情况不会发生,从而实现无损以太网。无损以太网不仅是AI网络的关键要求,也是当今 VOIP 或视频环境的关键要求。

优先流量控制 (PFC)

优先级流量控制在第 2 层网络中引入,作为实现无损以太网的主要机制。流量控制由第 2 层帧中的服务类别 (COS) 值驱动,并使用暂停帧和暂停机制来指示和管理拥塞。然而,构建可扩展的第 2 层网络对于网络管理员来说是一项具有挑战性的任务。因此,网络设计大多演变为第 3 层路由结构。

由于 RoCEv2 可以路由,因此 PFC 被调整为与DSCP 优先级配合使用,以发出网络中路由跳之间的拥塞信号。DSCP 是一种用于对 IP 网络上的网络流量进行分类的机制。它使用 IP 报头中的 6 位差分服务字段来进行数据包分类。使用第 3 层标记使流量能够跨路由器维护分类语义。由于 PFC 帧使用链路本地寻址,因此网络设备可以接收并执行路由和交换流量的暂停信令。PFC 从拥塞位置到流量源逐跳传输。此逐步行为可能需要一些时间才能传播到源。PFC 用作管理 RoCEv2 传输拥塞的主要工具。

Cisco Nexus 9000 交换机支持 PFC 拥塞管理和 ECN 标记,通过加权随机早期检测 (WRED) 或近似公平丢弃 (AFD) 来指示网络节点中的拥塞情况。

PFC 和 ECN 相辅相成,提供最高效的拥塞管理。它们共同在拥塞期间提供最高的吞吐量和最低的延迟损失,在构建无损以太网中发挥着重要作用。总而言之,这些技术可以使以太网能够对某些工作负载进行优先级排序,例如人工智能工作负载,它们不能容忍任何丢包,并且即使出现拥塞也始终获得网络优先级。

Silicon One

思科AI网络基础设施的另一个要素是其新型高端可编程Silicon One处理器,该处理器旨在为企业提供大规模 AI/ML基础设施。

思科将 5 纳米 51.2Tbps Silicon One G200 和 25.6Tbps G202 添加到其Silicon One 系列中。这些处理器可以针对单个芯片组的路由或交换进行定制,从而无需为每个网络功能使用不同的芯片架构。这是通过通用操作系统、P4 可编程转发代码和 SDK 来完成的。

思科表示,这些新设备位于 Silicon One 系列的顶端,将带来网络增强功能,使其成为要求苛刻的 AI/ML 部署或其他高度分布式应用的理想选择。Silicon One 系统的核心是支持增强的以太网功能,例如改进的流量控制、拥塞感知和避免。该系统还包括先进的负载平衡功能和“packet-spraying”功能,可将流量分散到多个 GPU 或交换机上,以避免拥塞并改善延迟。思科表示,基于硬件的链路故障恢复还有助于确保网络以最高效率运行。

结合这些增强型以太网技术并进一步推进,最终使客户能够建立思科所谓的Scheduled Fabric。思科表示,在Scheduled Fabric中,芯片物理组件、光学器件、交换机像一个大型模块化机箱一样连接在一起,并相互通信,以提供最佳的调度行为和更高的带宽吞吐量。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19937

    浏览量

    236397
  • 以太网
    +关注

    关注

    41

    文章

    5708

    浏览量

    176492
  • 交换机
    +关注

    关注

    22

    文章

    2760

    浏览量

    102078
  • 人工智能
    +关注

    关注

    1809

    文章

    49160

    浏览量

    250701
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6219

原文标题:思科新动作:放弃 HyperFlex超融合,强化基于以太网的AI网络战略!

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI网络管理新范式:精要解读超以太网联盟(UEC)1.0 规范(2025Q2)

    随着AI与高性能计算(HPC)集群对网络带宽、时延和拥塞管理的要求日益严苛,传统以太网在超大规模场景下面临瓶颈。为此,超以太网联盟(UEC) 在Linux联合开发基金会(JDF)下成立
    的头像 发表于 07-11 18:41 ?1101次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>网络</b>管理新范式:精要解读超<b class='flag-5'>以太网</b>联盟(UEC)1.0 规范(2025Q2)

    车载网络测试技术的进化之路#CAN #车载以太网 #TSN #时间敏感网络

    车载以太网
    北汇信息POLELINK
    发布于 :2025年06月26日 18:12:48

    以太网入门:从零开始,掌握以太网基础知识!

    以太网作为现代通信技术的基石,其重要性不言而喻。无论是日常网络应用,还是AI对高速大带宽网络的需求,以太网都扮演着不可或缺的角色。本文将从零
    的头像 发表于 06-09 14:00 ?2806次阅读
    <b class='flag-5'>以太网</b>入门:从零开始,掌握<b class='flag-5'>以太网</b>基础知识!

    双通道CAN转以太网#CAN转以太网#三格电子

    以太网
    三格电子科技
    发布于 :2025年05月12日 13:17:05

    广成科技CAN转以太网模块的作用和应用

    CAN转以太网模块是一类能够将CAN总线数据转换为以太网数据的设备,通常用于实现CAN总线与以太网总线之间的互联互通。在智能锁柜和智能文件交换箱中,CAN转以太网模块可以实现将本地CA
    的头像 发表于 03-20 13:58 ?615次阅读
    广成科技CAN转<b class='flag-5'>以太网</b>模块的作用和应用

    以太网与因特网:不同的网络技术,共同的数字基础

    以太网和因特网并不是对立的技术,而是共同构成了现代网络生态的基础。以太网提供了局部网络的高效连接,而因特网则实现了全球范围的互联与信息共享。在实际应用中,它们各自发挥所长,通过无缝融合
    的头像 发表于 01-07 09:38 ?789次阅读
    <b class='flag-5'>以太网</b>与因特网:不同的<b class='flag-5'>网络</b>技术,共同的数字基础

    思科技推出超以太网与UALink IP解决方案

    高性能计算(HPC)和人工智能(AI)加速器对基于标准、高带宽和低延迟互连的迫切需求。 随着超大规模数据中心基础设施的迅猛发展,支持处理大型语言模型中数万亿个参数的能力成为关键。为实现这一目标,数据中心必须扩展到数十万个具有高效快速连接的加速器。新思科技的超
    的头像 发表于 12-25 11:12 ?771次阅读

    TOSUN 车载以太网仿真测试解决方案

    TOSUN车载以太网仿真测试解决方案随着自动驾驶、车联网和智能化系统的广泛应用,车载电子组件和传感器的数量与复杂性都在持续增加,为了满足这些更为复杂性的需求,车载以太网作为一种新型车载网络进入汽车
    的头像 发表于 12-07 01:07 ?956次阅读
    TOSUN 车载<b class='flag-5'>以太网</b>仿真测试解决方案

    为什么MPLS仍是以太网传输技术的首选

    WAN 电路、以太网 WAN 或简称为运营商以太网。该技术由城域以太网论坛 (MEF) 标准化,并制定了其使用的技术规范和实施协议。 传输技术对于运营商以太网网络提供
    的头像 发表于 11-29 09:14 ?1083次阅读
    为什么MPLS仍是<b class='flag-5'>以太网</b>传输技术的首选

    以太网和TCP/IP的关系解析

    在现代计算机网络中,以太网和TCP/IP协议栈是构建网络通信的基础。以太网定义了局域(LAN)中的数据链路层和物理层的技术标准,而TCP/
    的头像 发表于 11-08 09:21 ?2482次阅读

    以太网与光纤网络的优劣比较

    随着信息技术的飞速发展,网络技术已经成为现代社会不可或缺的一部分。以太网和光纤网络作为两种主流的网络技术,它们在不同的应用场景中展现出各自的优势和局限性。
    的头像 发表于 11-08 09:19 ?2053次阅读

    以太网速率对网络性能的影响

    以太网作为最广泛使用的局域网技术之一,其速率的提高对网络性能有着直接的影响。从最初的10Mbps发展到今天的100Gbps甚至更高,以太网速率的提升带来了更快的数据传输速度和更高的网络
    的头像 发表于 11-08 09:11 ?1283次阅读

    全双工以太网有哪些特点

    全双工以太网是一种能够在同一时刻同时进行数据发送和接收的以太网技术。这种技术显著提高了网络的吞吐量和效率,是现代网络通信中的重要组成部分。以下是对全双工
    的头像 发表于 10-08 10:18 ?2076次阅读

    以太网帧结构是怎样的

    以太网帧(Ethernet Frame)是以太网(Ethernet)协议用于在局域(LAN)中传输数据的基本单位。理解以太网帧的结构对于掌握局域网通信的原理至关重要。
    的头像 发表于 10-08 10:00 ?3018次阅读

    以太网端口的类型和特性

    以太网端口,即以太网接口,是网络中用于连接设备并进行数据交换的端口。它基于IEEE 802.3标准,并使用以太网协议进行数据传输。以太网端口
    的头像 发表于 08-07 15:27 ?3381次阅读