0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA UFM Cyber AI实现数据中心的安全性和可管理性

星星科技指导员 ? 来源:NVIDIA ? 作者:NVIDIA ? 2022-04-15 15:02 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天的数据中心承载着许多用户和各种各样的应用程序。它们甚至已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了安全威胁造成的运营中断之外,保持数据中心完好无损并平稳运行也至关重要。

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的IT经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA以惊人图形处理能力和出色GPU计算性能而闻名,广泛应用于各个研究领域。同时,多年来NVIDIA也一直是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

NVIDIA认识到,要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

此外,恶意用户可能会利用数据中心访问权限,通过运行被禁止的应用程序来滥用计算资源,从而导致意外的停机时间和更高的操作成本。 数据中心管理工具比以往任何时候都更能快速发现问题,同时提高效率,是当今 IT 经理和支持它们的开发人员的首要任务。

NVIDIA 最著名的可能是惊人的图形功能和无与伦比的 GPU 计算性能,几乎应用于所有研究领域。然而,多年来,它还是安全和可扩展数据中心技术的领导者,包括灵活的库和工具,以最大限度地利用世界一流的基础设施。

NVIDIA 认识到,为 MIG 这一当今研究和业务中最关键的组成部分提供全套解决方案,不仅包括世界一流的服务器平台,而部署在整个数据中心的最广泛的软件组合。 NVIDIA 也知道,安全性和可管理性是构建数据中心基础设施的关键支柱。

NVIDIA UFM 网络 AI 彻底改变了 InfiniBand 数据中心

NVIDIA Unified Fabric Manager ( UFM )网络 AI 平台提供增强的实时网络遥测,结合 AI 提供的智能和高级分析。它使 It 经理能够发现操作异常,甚至预测网络故障。这提高了安全性和数据中心正常运行时间,同时降低了总体运营开支。

UFM 网络人工智能的独特优势在于它能够捕获丰富的遥测信息,并利用人工智能技术来识别事件之间隐藏的相关性。这使它能够检测异常的系统和应用程序行为,甚至在性能下降导致组件或系统故障之前识别它们。 UFM 网络 AI 甚至可以实时采取纠正措施。该平台学习数据中心的典型操作模式,并基于网络遥测数据检测异常使用,包括流量模式、温度等。

UFM 网络人工智能基础

UFM 网络 AI 包含三个不同的层,如图 1 所示。

pYYBAGJZGMqARYwYAAAs5xkFy4I261.png

图 1 。 UFM 网络 AI 层

输入遥测: 通过各种方式收集信息并从网络中学习:

网络中所有元件的遥测

网络拓扑(租户或应用程序的连接和资源分配)

网络设备的特点和能力

处理模型: 包含几个模型,例如用于数据准备的提取、转换和加载( ETL )处理引擎。它还包含聚合、数据存储和用于比较的分析模型。 UFM 网络人工智能使用机器学习( ML )技术和人工智能模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机端口、 InfiniBand 适配器)的生命周期模式。

输出仪表板: 一个可视化层,它为网络管理员和云编排器提供一个中央仪表板,以查看有关提高网络利用率和效率以及解决网络健康问题的警报和建议。仪表板提供了两个主要类别: 可疑行为 和 链接分析 ,每个类别都包括警报和预测部分(图 2 )。

poYBAGJZGM-AGP_sAADwh44qLhA142.png

图 2 。 UFM 网络人工智能预测仪表盘

功能丰富、直观且可定制的 fabric manager

UFM 网络人工智能还支持定制的网络警报或查看触发的异常随着时间的推移和在不同的时间维度。通过使用基于小时或星期几参数的聚合网络统计信息,您可以根据 MIG ht 偏离典型操作用途的测量值设置阈值和配置通知。例如,可以使用预定义的阈值来识别有问题的电缆。

内置分析将当前遥测信息与基于时间的聚合信息进行比较,以检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。 UFM-cyberai 还通过链路或端口遥测信息提供数据中心租户或应用程序警报,以识别与低级别分区密钥( PKEY )相关的统计信息及其相关节点。

只有 UFM 网络人工智能提供了链接故障预测等功能,支持预测性维护。通过在早期阶段检测性能下降情况, UFM 网络人工智能可以预测潜在的链路或端口故障。这使管理员能够执行维护并消除数据中心停机时间。

NVIDIA Morpheus 的未来增强功能

为 InfiniBand 带来最强大的结构管理解决方案需要不断创新,以跟上管理当今复杂数据中心的复杂性。我们计划将 NVIDIA Morpheus 与 UFM Cyber AI 集成(图 3 ),从其他数据中心元素(如服务器或基于机架的组件遥测或 DPU 、 GPU 和应用程序计数器)带来更多遥测信息。

我们甚至可以提供一个额外的层,它可以直接与其他 api 接口,比如 Kafka ,一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以使用该集成对开发人员定义的操作系统异常进行特定的检测,例如对生命科学研究专用系统的加密挖掘检测。

pYYBAGJZGNaAJnotAACaVH7q6Cs709.png

图 3 。 UFM 网络人工智能与 Morpheus 框架的集成示例

Morpheus 是一个开放的人工智能应用框架,为网络安全开发者提供高度优化的人工智能管道和预训练的人工智能能力。这些功能使您能够通过数据中心结构即时检查所有网络流量。 Morpheus 通过提供以下功能为数据中心带来了新的安全级别:

动态保护

实时遥测

适应性策略

用于检测和修复网络安全威胁的网络防御

poYBAGJZGNyACbDHAACF9cYB950783.png

图 4 。 UFM 网络人工智能作为灵活和可扩展平台的示例

随着 Morpheus 集成到 UFM Cyber AI 设备中,我们可以为关键任务数据中心和支持开发人员提供最佳和最完整的解决方案,该解决方案也具有灵活性和可扩展性。通过可定制的异常检测和与其他标准化 API 的接口, UFM Cyber AI 是任何支持多租户的数据中心或云本地基础设施的灵活资产。

关于作者

David Slama 担任 NVIDIA 网络营销高级总监,专注于高性能计算、人工智能、云解决方案和 InfiniBand 技术。 Slama 于 2005 年加入 Mellanox ,担任软件工程师,并在 Mellanox 担任多个软件管理职位,直到 2020 年。他领导云解决方案、以太网和 InfiniBand 软件管理、存储、自动化解决方案以及上游活动,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 拥有 ML 和 AI 领域的网络专利。他拥有政府学硕士学位和管理学和计算机科学学士学位。

Scot Schultz 是 HPC 技术专家,专注于人工智能和机器学习系统。 Scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 HPC 技术生态系统支持。 Scot 在众多行业标准组织的成长和发展中发挥了重要作用。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5363

    浏览量

    106922
  • 数据中心
    +关注

    关注

    16

    文章

    5305

    浏览量

    73776
  • 人工智能
    +关注

    关注

    1810

    文章

    49251

    浏览量

    252007
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    提供“数据高速通道”。 低延迟与高可靠:通过信号完整设计与超低功耗控制,减少数据中心能耗的同时,保障大规模AI训练的稳定性。 前瞻布局:1.6T光模块研发已启动,为下一代1.6T
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这一变革解决方案将推动下一代人工智能(AI数据中心
    的头像 发表于 08-06 17:27 ?612次阅读

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 ?594次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    和800G OSFP XDR8光模块直连设计。MTP/MPO布线解决方案为数据中心提供了高密度、可靠和灵活性,可用于核心层、脊架构和叶架构之间的连接。该线缆还具备即插即用、易于管理、出色的抗弯曲
    发表于 03-24 14:20

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心升级。然而
    的头像 发表于 03-21 15:43 ?547次阅读

    英特尔酷睿Ultra 200V系列移动处理器亮相CES 2025

    基于英特尔 vPro 平台的全新英特尔 酷睿 Ultra 200V系列移动处理器,为企业提供 AI 驱动的生产力和提升的IT管理能力1。该产品不仅拥有卓越的性能、效率和非凡的商务计算能力,还有先进的安全性
    的头像 发表于 01-20 09:21 ?1148次阅读

    NVIDIA 发布保障代理式 AI 应用安全的 NIM 微服务

    NVIDIA NeMo Guardrails 包含全新 NVIDIA NIM 微服务,能够为各行业构建 AI 的企业提高 AI 的准确
    发表于 01-17 16:29 ?196次阅读

    NVIDIA DOCA 2.9版本的亮点解析

    NVIDIA DOCA通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的
    的头像 发表于 11-27 11:15 ?993次阅读
    <b class='flag-5'>NVIDIA</b> DOCA 2.9版本的亮点解析

    使用NVIDIA AI平台确保医疗数据安全

    三井物产株式会社子公司借助 NVIDIA AI 平台实现数据集的安全共享并使用在这些数据集上建立
    的头像 发表于 11-20 09:37 ?766次阅读

    如何选择数据中心服务

    在选择数据中心服务时,需要考虑多个关键因素以确保选择的服务能够满足业务需求并确保数据安全、可靠和性能。以下是一些关键步骤和考虑因素: 一、明确业务需求 首先,需要明确自己的业务需求
    的头像 发表于 10-24 16:14 ?686次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

    NVIDIA Blackwell 平台提供动力的最新技术进展,以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。 他们
    的头像 发表于 08-28 16:38 ?749次阅读
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大会展示提升<b class='flag-5'>数据中心</b>性能和能效的创新技术