0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何实现开源开放生态下的RDMA网络监控?

星融元 ? 来源:jf_55437772 ? 作者:jf_55437772 ? 2025-03-03 13:42 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在当今AI、大模型飞速发展的时代,RDMA(Remote Direct Memory Access,远程直接内存访问)网络技术凭借其低延迟、高吞吐量的特性,在数据中心、高性能计算等领域得到了广泛应用。然而,许多企业在尝试对 RDMA 网络进行监控时,却常常遭遇闭源监控工具的限制。本文将为您揭示如何突破这些限制,实现对 RDMA 网络的高效监控。

为什么需要强化RDMA网络监控?

这里需要提到SNMP网络管理技术(Simple Network Management Protocol,简单网络管理协议),它由三部分组成:SNMP管理器(NMS)、SNMP代理(Agent)和管理信息库(MIB)。SNMP管理器通过SNMP协议与网络设备上的SNMP代理通信,获取设备的运行状态和性能数据,从而实现对网络的监控和管理。

wKgZPGfFQT-AfWvOAAQwtDBRk3U005.jpg

SNMP监控的应用场景其实相对广泛,比如监控路由器、交换机、防火墙等网络设备的接口流量、CPU利用率、内存使用情况、服务器硬件的硬盘空间、电源状态等,但SNMP监控也存在轮询机制导致的数据收集实时性较弱、可扩展性弱、配置管理繁琐等问题。

随着业务的发展和网络规模的扩大,RDMA网络的复杂性增加,如果仍然用传统的SNMP监控,可谓是费力不讨好。所以一个能够快速部署的高性能监控方案必不可少。从数据安全和隐私保护的角度讲,强化RDMA网络监控也可以确保数据传输的安全性,防止未经授权的访问和数据泄露,满足合规性要求。

开源监控工具有哪些?

在开源生态中,中小企业可以共享大厂开源的技术成果,其可靠性高、支持自定义、成本低成为越来越多的企业选择开放网络架构的原因,这也说明网络的开源与开放将是未来的趋势,那目前有哪些开源的监控工具呢?

Nagios是一款广泛使用的开源网络监控工具,其高度可定制,拥有强大的插件生态系统、强大的社区支持和定期更新,高级通知选项,可及时提醒用户关键问题。

Zabbix:是一款企业级开源网络监控工具,以其可扩展性和性能而闻名,高级数据收集和可视化功能。强大的社区支持和详尽的文档。

Prometheus:Prometheus是一款现代开源监控解决方案,专为系统指标和性能监控提供广泛洞察。它最初由SoundCloud开发,因其云原生方法而受到欢迎。强大的时间序列数据存储和查询能力(PromQL)。支持微服务架构,易于集成。

......

不同的开源工具有不同的优势和亮点,如何选择更具性价比的方案呢?

wKgZO2fFQUCAOP-FAAMhRU2Hr3k744.jpg

由于云原生架构的模块化和松耦合特性,使其具备灵活性、敏捷性、成本效益等多重优势,无论是对开发团队还是对业务方来讲,都是极具效率与性价比的方案。经过几年的发展,云原生这个概念已经得到了社区、企业和市场的广泛认可。从当前比较热门的云原生技术、容器来看,云原生已经在众多行业和领域,有了许多落地的案例,包括高科技、金融、制造、零售、教育、政府等。

虽然Nagios和Zabbix可以通过插件和配置来支持云原生环境,但它们的适配性确实不如Prometheus。Prometheus在云原生环境中的表现更为出色,特别是在容器监控、服务发现和大规模集群监控方面。

企业自行部署Prometheus实现监控可行吗?答案是可行,但是需要运维人员自行配置和部署,过程复杂,对运维人员的技术要求也比较高。

星融元基于在开放网络领域深耕多年的积累,敏锐地识别到了企业面临RDMA网络监控的痛点,即需要简捷高效的网络运维。

星融元如何实现更高效的RDMA网络监控?

全场景硬件产品支持

RDMA(Remote Direct Memory Access,远程直接内存访问)是一种高性能网络通信技术,允许用户级应用程序直接读取和写入远程内存,而无需经过CPU进行多次内存复制。这种技术显著降低了延迟和CPU开销,提高了数据传输的效率。并且。RDMA技术对网络丢包非常敏感,因此,为了充分发挥RDMA的性能,需要构建一个无丢包的网络环境,即无损网络,通过PFC(优先级流量控制)和ECN(显式拥塞通知)等技术,确保网络在高负载情况下仍能保持低延迟和高吞吐量。

区别于传统厂家多等级License权限管理方式,星融元CX-N数据中心交换机所有应用场景License权限一致,全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。

wKgZPGfFQUGAHi93AAMVGDzZNbA789.jpg

25G-800G丰富的产品规格,灵活支持单一SKU或混合速率规格组网方案,规模可从边缘推理扩展到万卡集群;

400ns-560ns超低端到端时延,媲美IB网络;

兼容UEC规范,面向未来业务拓展、技术升级可进行平滑切换;

......

EasyRoCE Toolkit免费开放

面向AI、智算等场景,星融元依托开源开放的网络架构,推出EasyRoCE Toolkit。从前期规划实施到日常运维监控, EasyRoCE Toolkit 简化了各环节的复杂度并改善了操作体验,可以说是开箱即用,且具备二次开发和集成空间。该工具集对星融元签约用户完全开放,并常态化更新,无额外收费。

wKgZO2fFQUKAY2sAAAGG3LBfkEw917.jpg

EasyRoCE Toolkit功能展示:

高精度监控工具(Real-time Traffic Reporter, RTR)

EasyRoCE Toolkit下的高精度监控工具(Real-time Traffic Reporter, RTR)解决的便是高精度数据源的呈现问题。该工具将监控面板的设计、采集器的对接等配置工作打包到一个json文件里,用户将其导入UG平台后即可生成详尽的毫秒级监控数。

wKgZPGfFQUOAXUAyAAS0bZRGUIU254.jpg

链路地图(Link Map, LM)

实时呈现所有链路的负载情况, 动态监控整网运行状态

wKgZO2fFQUSAMR36AAJH-ShgFp4475.jpg

光模块地图(Transceiver Map, TM)

动态监控所有光模块的运行状态(up/down),快速定位故障点

wKgZPGfFQUSAaS7sAAJ2FgcuVfQ030.jpg

拓扑呈现(Topology Generator, TG)

从逻辑到物理映射,自动呈现拓扑,帮助运维人员快速、精准定位异常

图形化面板(Device Panel, DP)

以交换机的实际面板布局为基础,图形化展示设备的运行状态,通过颜色变化(橙色或红色)显著标记设备异常点

wKgZPGfFQUWAHSePAAI7Hg_0FXw258.jpg

参考来源:

https://blog.csdn.net/ITmoster/article/details/131246358

https://www.baidu.com/link?url=p3tUy2J_k4Z1DjPb_Q2LRSn588mPtLndydxc571GcaXFY87LIlBCmWI_KBC5EloWqh1a0B_DCi5Op6wvLkS5ky98NOYnAG6mDr8FqGoe6hfARlU_Sj59QT1wXiTX2vgxHhT6hbv1mgK0puFAq6Tvy8beuFVC6SARsm8tMqKkPb_&wd=&eqid=a24252bd004b9ca70000000667c040bf

https://www.nagios.org/

https://www.zabbix.com/cn

https://prometheus.ac.cn/docs/prometheus/latest/getting_started/

https://solutionsreview.com/network-monitoring/the-13-best-open-source-network-monitoring-tools/

https://blog.csdn.net/qq_29917503/article/details/130340284

https://asterfusion.com/easyroce/

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    7880

    浏览量

    91293
  • 网络监控
    +关注

    关注

    0

    文章

    115

    浏览量

    22111
  • 开源
    +关注

    关注

    3

    文章

    3779

    浏览量

    44122
  • RDMA
    +关注

    关注

    0

    文章

    85

    浏览量

    9348
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    润和软件亮相2025开放原子开源生态大会

    7月23-24日,2025开放原子开源生态大会在北京国家会议中心盛大举办。作为由开放原子开源基金会主办的年度
    的头像 发表于 08-01 17:49 ?933次阅读

    普华基础软件亮相2025开放原子开源生态大会

    此前,7月23日-24日,以“开源赋能产业,生态共筑未来”为主题的2025开放原子开源生态大会在北京举办。工业和信息化部副部长熊继军、北京市
    的头像 发表于 07-31 15:56 ?336次阅读

    九联科技亮相2025开放原子开源生态大会

    近日,以“开源赋能产业,生态共筑未来”为主题的开放原子开源生态大会在北京成功举办。本次大会吸引了众多行业专家、企业代表以及技术领域的领军人物
    的头像 发表于 07-30 18:15 ?476次阅读

    2025开放原子开源生态大会成功举行

    近日,由开放原子开源基金会主办的2025开放原子开源生态大会在北京开幕,大会以“开源赋能产业,
    的头像 发表于 07-28 17:12 ?436次阅读

    开放原子电鸿开源社区正式成立

    在能源革命与数字技术深度融合的背景,我国电力行业开源生态建设迈出关键一步。近日,在2025开放原子开源
    的头像 发表于 07-28 17:00 ?380次阅读

    中软国际亮相2025开放原子开源生态大会

    近日,2025开放原子开源生态大会在北京国家会议中心隆重启幕。本届大会以“开源赋能产业,生态共筑未来”为主题,汇聚政、产、学、研、用、金、创
    的头像 发表于 07-25 14:35 ?512次阅读

    2025开放原子开源生态大会启幕在即

    伴随数字经济蓬勃发展,开源技术正以其开放协作、共建共享的独特优势,成为驱动科技创新与产业升级的核心引擎。7月23-24日,2025开放原子开源生态
    的头像 发表于 07-23 10:08 ?457次阅读

    2025开放原子开源生态大会即将召开

    七月,一场聚焦数字时代协作范式变革的大会即将启幕。作为开源领域的年度盛会,2025开放原子开源生态大会将于7月23-24日在北京国家会议中心二期隆重举行,以“
    的头像 发表于 07-23 09:52 ?443次阅读

    2025开放原子开源生态大会精彩抢先看

    7月23-24日,2025开放原子开源生态大会将在北京国家会议中心二期盛大举办。作为由开放原子开源基金会主办的年度
    的头像 发表于 07-15 17:11 ?570次阅读

    2025开放原子开源生态大会即将举行

    开源领域年度盛会即将登场!2025开放原子开源生态大会拟于7月23-24日,在北京国家会议中心二期盛大召开。以“开源赋能产业
    的头像 发表于 07-11 10:49 ?699次阅读

    中科曙光联合成立行业AI智能体开放生态联盟

    近日,行业AI智能体开放生态联盟在北京正式成立。该联盟由中科曙光发起,联合百度、立思辰、高教社、中科天玑、中教云等多家企业创立。
    的头像 发表于 04-17 09:28 ?860次阅读

    对三星而言开放生态系统是什么

    在过去的五年里,三星投入了大量精力来建立团队、文化和流程,成为开放生态系统的积极贡献者。那么,为什么一家硬件公司会进行这样的投资?其价值何在?我们如何将硬件差异化与开源和标准结合起来?
    的头像 发表于 11-13 15:58 ?926次阅读

    迅龙软件出席2024开放原子开源生态大会,共谋开源生态繁荣之路

    2024开放原子开源生态大会于9月25至27日在北京亦庄开幕。大会将以“开源赋能产业,生态共筑未来”为主题,汇聚政、产、学、研、用、金等各领
    的头像 发表于 09-26 13:51 ?795次阅读
    迅龙软件出席2024<b class='flag-5'>开放</b>原子<b class='flag-5'>开源</b><b class='flag-5'>生态</b>大会,共谋<b class='flag-5'>开源</b><b class='flag-5'>生态</b>繁荣之路

    开放原子开源数据库生态论坛成功举办

    以“开源生态筑基础,数字经济铸未来”为主题的2024全球数字经济大会——开放原子开源数据库生态论坛在北京成功举办。
    的头像 发表于 09-24 10:36 ?861次阅读

    开放原子开源生态大会OpenHarmony生态主题演讲报名开启

    开源赋能产业,生态共筑未来,OpenAtom OpenHarmony(简称“OpenHarmony”)项目群工作委员会将于9月26日上午举办OpenHarmony生态主题演讲。 届时,将面向全球
    发表于 09-19 22:02