0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA网络运营商优化Kubernetes横向扩展GPU部署和管理

星星科技指导员 ? 来源:NVIDIA ? 作者:Itay Ozery ? 2022-04-14 14:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

GPU 加速计算在云计算、企业计算和边缘计算领域的日益普及,越来越依赖于强健而强大的网络基础设施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延迟的连接,使 GPU 资源能够跨节点群扩展。为了满足对云本地 AI 工作负载的需求, NVIDIA 提供了 GPU 运营商,旨在简化 Kubernetes 上的横向扩展 GPU 部署和管理。

今天, NVIDIA 宣布了 NVIDIA 网络运营商的 1.0 版本。作为 NVIDIA GPU 运算符 的一个模拟,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则就需要手工操作。它在具有 NVIDIA 网络接口的任何集群节点上加载所需的驱动程序、库、设备插件和 CNI 。

与 GPU 运营商配合,网络运营商启用了 GPU 直接 RDMA ,这是一项关键技术,可将云本地 AI 工作负载加速几个数量级。该技术在 NVIDIA GPU 之间提供了高效的零拷贝数据传输,同时利用了 SmartNICs 和 DPU 中的硬件引擎。图 1 显示了两个 GPU 节点之间的 GPU 直接 RDMA 技术。节点 1 上的 GPU 通过网络直接与节点 2 上的 GPU 通信,绕过 CPU 设备。

poYBAGJXvmKANta6AABdA5uuq1Q305.png

图 1 。 GPU 两个 GPU 节点之间的直接 RDMA 技术

NGC 网络运营商现在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定义资源 ( CRD )和 操作员框架 来提供实现加速联网所需的主机软件。这篇文章讨论了网络运营商内部的内容,包括它的特性和功能。

易于部署和操作的 Kubernetes 网络

网络运营商致力于使 Kubernetes 网络变得简单和轻松。它是 Apache2 。 0 许可下的一个开源软件项目。 1.0 版本针对运行在裸机服务器基础设施和 Linux 虚拟化环境中的 Kubernetes 进行了验证。以下是 1.0 版的主要功能:

在裸机 Kubernetes 环境中自动部署主机软件组件,以实现以下功能:

macvlan 辅助网络

SR-IOV 二次网络(分配给 pod 的 VF )

主机设备辅助网络(分配给 pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 运算符)

在嵌套的 Kubernetes 环境(在 Linux VMs 中运行的 Kubernetes Pods )中自动部署主机软件组件,以创建以下内容:

SR-IOV 二级网络(分配给 VM 的 VF 的#个,并通过不同的 POD )

主机设备辅助网络(分配给 Pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 运算符)

平台支持:

Kubernetes v1 。 17 或更高版本

容器运行时: Containerd

裸机主机操作系统/ Linux 来宾操作系统: Ubuntu 20 。 04

Linux KVM 虚拟化

舵图安装

虽然启用了 GPU 的节点是一个主要用例,但是网络运营商对于启用独立于 NVIDIA GPU 的加速 Kubernetes 网络环境也很有用。一些示例包括设置 SR-IOV 网络和 DPDK 以加速电信 NFV 应用程序、建立 RDMA 连接以快速访问 NVMe 存储等等。

NVIDIA 网络运营商内部

网络运营商被设计成一个 Kubernetes 运营商,它利用多个定制资源为一个节点添加加速的网络功能。 1 。 0 版本支持多种网络模型,可适应各种 Kubernetes 网络环境和不同的应用程序需求。如今,网络运营商只为二级网络配置 RoCE 。这意味着主吊舱网络保持不变。将来的工作可能会允许为主网络配置 RoCE 。

以下各节介绍网络运营商打包和使用的不同组件。

节点功能发现

节点功能发现 ( NFD )是一个 Kubernetes 插件,用于检测硬件特性和系统配置。网络运营商使用 NFD 来检测安装了 NVIDIA SmartNICs 和 GPU 的节点,并将它们标记为这样的节点。基于这些标签,网络运营商安排适当的软件资源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器网络接口( CNI )插件,支持将多个网络接口连接到 pod 。通常在库伯内特斯,每个吊舱只有一个网络接口。使用 Multus ,您可以创建具有多个接口的多宿主 Pod 。 Multus 充当一个 meta-plugin ,一个可以调用多个其他 CNI 插件的 CNI 插件。 NVIDIA 网络运营商安装 Multus ,将用于高速 GPU – GPU 通信的二级网络添加到集装箱吊舱中。

NVIDIA OFED 驱动器

NVIDIA OpenFabrics 企业分销( OFED ) 网络库和驱动程序由 节点标签 网络团队打包和测试。 NVIDIA OFED 通过 Infiniband 和以太网互连支持 远程直接内存访问 ( RDMA )。网络运营商使用 NVIDIA 将预编译的 NVIDIA OFED 驱动程序容器部署到每个 Kubernetes 主机上。容器在启动或停止时加载和卸载 NVIDIA OFED 驱动程序。

NVIDIA 对等内存驱动程序

NVIDIA 对等内存驱动程序 是一个客户端,它与网络驱动程序交互,以在 GPU 和主机内存之间提供 RDMA 。网络运营商在同时具有 ConnectX 适配器和 NVIDIA GPU 的节点上安装 NVIDIA 对等内存驱动程序。当容器启动和停止时,此驱动程序也会自动加载和卸载。

RDMA 共享设备插件

Kubernetes 设备插件框架 向 Kubernetes 节点上运行的 Kubelet 代理播发系统硬件资源。网络运营商部署 RDMA 共享设备插件 向 Kubelet 播发 RDMA 资源,并向节点上运行的 pod 公开 RDMA 设备。它允许吊舱执行 RDMA 操作。节点上运行的所有 pod 共享对相同 RDMA 设备文件的访问。

容器网络 CNI 插件

Macvlan CNI 公司 和 主机设备 CNI 是在 CNI 项目下托管的通用容器网络插件。 macvlan CNI 创建一个新的 MAC 地址,并将所有通信转发到容器。主机设备 CNI 将已经存在的设备移动到容器中。网络运营商使用这些 CNI 插件创建 macvlan 网络,并将 NIC 物理功能分别分配给容器或虚拟机。

SR-IOV 设备插件和 CNI

SR-IOV 是一种在虚拟机或容器吊舱与 NIC 硬件之间提供直接接口的技术。它绕过了主机 CPU 和操作系统,从 I / O 任务中释放出昂贵的 CPU 资源,并大大加快了连接速度。 SR-IOV 设备插件 和 CNI 插件 启用 Kubernetes 节点上可用的 SR-IOV 虚拟功能( VF )。这两者都是网络运营商创建 SR-IOV VF 并将其分配给处理 GPU -to- GPU 通信的二级网络所必需的。

SR-IOV 操作员

SR-IOV 操作符旨在帮助用户在集群中提供和配置 SR-IOV 设备插件和 SR-IOV CNI 插件。网络运营商使用 SR-IOV 操作员 在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一个 IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。网络运营商使用此 CNI 为承载 GPU -to- GPU 通信的二级网络分配 IP 地址。

更好的结合: NVIDIA 加速计算和网络

图 2 显示了网络运营商如何与 GPU 运营商协同工作来部署和管理主机网络软件。

pYYBAGJXvmuAFa1cAALBlwdJFKQ894.png

图 2 。网络运营商与 NVIDIA GPU 运营商一起安装,以在 EGX 堆栈上自动化 GPU 直接 RDMA 配置

以下部分描述了支持的网络模型和相应的主机软件组件。

RoCE 共享模式

共享模式意味着在节点上的多个容器 pod 之间共享单个 IB 设备的方法。此网络模型针对需要高性能网络的企业和边缘环境进行了优化,无需多租户。网络运营商安装以下软件组件:

Multus CNI

RoCE 共享模式设备插件

Macvlan CNI

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

SR-IOV 、 RoCE 和 DPDK 网络

如前所述, SR-IOV 是一种提供对 NIC 硬件的直接访问的加速技术。此网络模型针对运行在裸机上的多租户 Kubernetes 环境进行了优化。网络运营商安装以下软件组件:

Multus CNI

SR-IOV 设备插件

SR-IOV CN

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

NIC PF 直通

这种网络模式适合要求极高的应用。网络运营商可以将 NIC 物理功能分配给 Pod ,以便 Pod 充分利用它。网络运营商安装以下主机软件组件:

Multus CNI

SR-IOV 设备插件

主机开发 CNI

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

为横向扩展 GPU 集群优化 Kubernetes 网络

NVIDIA GPU 和网络运营商都是 NVIDIA EGX 企业平台的一部分,该平台允许 GPU 加速计算与传统企业应用程序在同一 IT 基础设施上协同工作。总而言之,运营商使 NVIDIA GPU 成为库伯内特斯的一等公民。现在发布用于生产环境,网络运营商简化了 Kubernetes 网络,带来了必要的简单性和可扩展性级别,以便在企业中实现扩展培训和边缘推断。

关于作者

Itay Ozery 是 NVIDIA 网络产品营销总监。他为 Mellanox 的云网络解决方案推动战略性产品营销和产品管理计划。 Itay 在网络安全领域领导了大规模的业务和项目,并与数据中心和电信服务提供商在 IT 系统和网络工程领域担任过多个职位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2421

    浏览量

    45505
  • NVIDIA
    +关注

    关注

    14

    文章

    5348

    浏览量

    106848
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132103
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    乌干达运营商联合华为全面升级绿色网络基础设施

    近日,乌干达领先电信运营商联合华为,在高价值区域批量部署GreenAAU系列中的EasyAAU,全面升级绿色网络基础设施。这一举措标志着乌干达通信技术进入新阶段,将为用户带来更快的网络
    的头像 发表于 08-15 09:31 ?127次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwe
    的头像 发表于 07-28 14:31 ?430次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对亚马逊云科技服务的支持

    美国运营商5G RedCap部署进入快车道

    ,RedCap正在该运营商的独立组网(SA)5G网络上运行。 该运营商正在与Semtech、Telit Cinterion和Rhino Mobility等模块供应合作,以
    的头像 发表于 07-25 14:12 ?290次阅读
    美国<b class='flag-5'>运营商</b>5G RedCap<b class='flag-5'>部署</b>进入快车道

    普强智能外呼系统助力大型运营商提升服务效率

    在日益激烈的通信行业中,运营商作为提供网络服务的核心供应,面临着提升客户服务质量、增强用户粘性的巨大挑战。传统的客服模式在处理海量、重复性咨询时效率受限,难以满足用户对高效、便捷服务的期望。随着人工智能技术的飞速发展,智能外呼
    的头像 发表于 07-23 16:30 ?552次阅读

    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限第一名

    象限第一名。 报告对通信服务从商业模式、解决方案、网络设计与优化网络转型能力、服务规模、和业务敏捷性六个维度进行了全面评估,华为综合得分第一。这印证了华为在对全球
    的头像 发表于 05-22 18:43 ?672次阅读
    华为荣登GlobalData<b class='flag-5'>运营商</b>基础设施<b class='flag-5'>管理</b>服务排名报告Leader象限第一名

    Kubernetes Helm入门指南

    Helm 是 Kubernetes 的包管理工具,它允许开发者和系统管理员通过定义、打包和部署应用程序来简化 Kubernetes 应用的
    的头像 发表于 04-30 13:42 ?2536次阅读
    <b class='flag-5'>Kubernetes</b> Helm入门指南

    5G网络中,信令测试仪如何帮助提升用户体验?

    、会话管理失败等问题。 精确调整网络参数: 信令测试仪能够对网络中的各种参数进行细致的调整和优化,如发射功率、小区覆盖范围、切换策略等。 通过精确调整这些参数,信令测试仪可以帮助
    发表于 03-21 14:33

    使用 Flexus 云服务器 X 实例部署 Kubernetes 图形化管理平台

    Kubernetes 作为当今最流行的容器编排平台,随着云计算、微服务架构和 DevOps 文化的普及,Kubernetes 在自动化部署扩展
    的头像 发表于 01-21 16:14 ?391次阅读
    使用 Flexus 云服务器 X 实例<b class='flag-5'>部署</b> <b class='flag-5'>Kubernetes</b> 图形化<b class='flag-5'>管理</b>平台

    运营商如何实现差异化连接

    如今,运营商正置身于一场关于如何极致释放5G投资的高难度挑战。本期《信观察》将聚焦于如何通过“差异化连接”推动基于性能的服务,进而实现可扩展、可持续的解决方案,助力运营商将5G投资的价值“最大化”。
    的头像 发表于 11-18 14:38 ?9504次阅读

    一文了解北美运营商Verizon认证的测试标准

    随着近年来全球贸易的发展,越来越多的通信产品厂商眼光瞄向了北美地区。而通信类产品要想在北美地区取得使用与销售的合规性,并且进入北美运营商网络系统就必须取得运营商认证。而Verizon属于北美三
    的头像 发表于 11-08 17:25 ?880次阅读
    一文了解北美<b class='flag-5'>运营商</b>Verizon认证的测试标准

    如何构建及优化GPU网络

    并从计算节点成本优化、集群网络与拓扑的选择等方面论述如何构建及优化GPU网络
    的头像 发表于 11-06 16:03 ?1155次阅读
    如何构建及<b class='flag-5'>优化</b><b class='flag-5'>GPU</b>云<b class='flag-5'>网络</b>

    docker和k8s部署在云平台性能要求盘点

    Docker和Kubernetes在云平台部署时有各自的性能要求。Docker需要足够的CPU、内存和存储资源,以及快速的网络带宽和优化的镜像大小。而
    的头像 发表于 11-05 10:47 ?613次阅读

    k8s可以部署私有云吗?私有云部署全攻略

    Kubernetes(简称K8S)可以部署私有云。Kubernetes是一个开源的容器编排引擎,能够自动化容器的部署扩展
    的头像 发表于 10-25 09:32 ?547次阅读

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型。
    的头像 发表于 10-10 09:49 ?847次阅读

    北美运营商PTCRB认证的优势主要体现在哪些方面?

    地进入北美市场,包括美国、加拿大和墨西哥等国家。运营商支持:PTCRB由北美主要运营商(如AT&T、Verizon、T-Mobile等)组成,认证的设备在运营商网络
    的头像 发表于 08-23 17:19 ?807次阅读
    北美<b class='flag-5'>运营商</b>PTCRB认证的优势主要体现在哪些方面?