在当今AI、大模型飞速发展的时代,RDMA(Remote Direct Memory Access,远程直接内存访问)网络技术凭借其低延迟、高吞吐量的特性,在数据中心、高性能计算等领域得到了广泛应用。然而,许多企业在尝试对 RDMA 网络进行监控时,却常常遭遇闭源监控工具的限制。本文将为您揭示如何突破这些限制,实现对 RDMA 网络的高效监控。
为什么需要强化RDMA网络监控?
这里需要提到SNMP网络管理技术(Simple Network Management Protocol,简单网络管理协议),它由三部分组成:SNMP管理器(NMS)、SNMP代理(Agent)和管理信息库(MIB)。SNMP管理器通过SNMP协议与网络设备上的SNMP代理通信,获取设备的运行状态和性能数据,从而实现对网络的监控和管理。
SNMP监控的应用场景其实相对广泛,比如监控路由器、交换机、防火墙等网络设备的接口流量、CPU利用率、内存使用情况、服务器硬件的硬盘空间、电源状态等,但SNMP监控也存在轮询机制导致的数据收集实时性较弱、可扩展性弱、配置管理繁琐等问题。
随着业务的发展和网络规模的扩大,RDMA网络的复杂性增加,如果仍然用传统的SNMP监控,可谓是费力不讨好。所以一个能够快速部署的高性能监控方案必不可少。从数据安全和隐私保护的角度讲,强化RDMA网络监控也可以确保数据传输的安全性,防止未经授权的访问和数据泄露,满足合规性要求。
开源监控工具有哪些?
在开源生态中,中小企业可以共享大厂开源的技术成果,其可靠性高、支持自定义、成本低成为越来越多的企业选择开放网络架构的原因,这也说明网络的开源与开放将是未来的趋势,那目前有哪些开源的监控工具呢?
Nagios:是一款广泛使用的开源网络监控工具,其高度可定制,拥有强大的插件生态系统、强大的社区支持和定期更新,高级通知选项,可及时提醒用户关键问题。
Zabbix:是一款企业级开源网络监控工具,以其可扩展性和性能而闻名,高级数据收集和可视化功能。强大的社区支持和详尽的文档。
Prometheus:Prometheus是一款现代开源监控解决方案,专为系统指标和性能监控提供广泛洞察。它最初由SoundCloud开发,因其云原生方法而受到欢迎。强大的时间序列数据存储和查询能力(PromQL)。支持微服务架构,易于集成。
......
不同的开源工具有不同的优势和亮点,如何选择更具性价比的方案呢?
由于云原生架构的模块化和松耦合特性,使其具备灵活性、敏捷性、成本效益等多重优势,无论是对开发团队还是对业务方来讲,都是极具效率与性价比的方案。经过几年的发展,云原生这个概念已经得到了社区、企业和市场的广泛认可。从当前比较热门的云原生技术、容器来看,云原生已经在众多行业和领域,有了许多落地的案例,包括高科技、金融、制造、零售、教育、政府等。
虽然Nagios和Zabbix可以通过插件和配置来支持云原生环境,但它们的适配性确实不如Prometheus。Prometheus在云原生环境中的表现更为出色,特别是在容器监控、服务发现和大规模集群监控方面。
企业自行部署Prometheus实现监控可行吗?答案是可行,但是需要运维人员自行配置和部署,过程复杂,对运维人员的技术要求也比较高。
星融元基于在开放网络领域深耕多年的积累,敏锐地识别到了企业面临RDMA网络监控的痛点,即需要简捷高效的网络运维。
星融元如何实现更高效的RDMA网络监控?
全场景硬件产品支持
RDMA(Remote Direct Memory Access,远程直接内存访问)是一种高性能网络通信技术,允许用户级应用程序直接读取和写入远程内存,而无需经过CPU进行多次内存复制。这种技术显著降低了延迟和CPU开销,提高了数据传输的效率。并且。RDMA技术对网络丢包非常敏感,因此,为了充分发挥RDMA的性能,需要构建一个无丢包的网络环境,即无损网络,通过PFC(优先级流量控制)和ECN(显式拥塞通知)等技术,确保网络在高负载情况下仍能保持低延迟和高吞吐量。
区别于传统厂家多等级License权限管理方式,星融元CX-N数据中心交换机所有应用场景License权限一致,全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。
25G-800G丰富的产品规格,灵活支持单一SKU或混合速率规格组网方案,规模可从边缘推理扩展到万卡集群;
400ns-560ns超低端到端时延,媲美IB网络;
兼容UEC规范,面向未来业务拓展、技术升级可进行平滑切换;
......
EasyRoCE Toolkit免费开放
面向AI、智算等场景,星融元依托开源开放的网络架构,推出EasyRoCE Toolkit。从前期规划实施到日常运维监控, EasyRoCE Toolkit 简化了各环节的复杂度并改善了操作体验,可以说是开箱即用,且具备二次开发和集成空间。该工具集对星融元签约用户完全开放,并常态化更新,无额外收费。
EasyRoCE Toolkit功能展示:
高精度监控工具(Real-time Traffic Reporter, RTR)
EasyRoCE Toolkit下的高精度监控工具(Real-time Traffic Reporter, RTR)解决的便是高精度数据源的呈现问题。该工具将监控面板的设计、采集器的对接等配置工作打包到一个json文件里,用户将其导入UG平台后即可生成详尽的毫秒级监控数。
链路地图(Link Map, LM)
实时呈现所有链路的负载情况, 动态监控整网运行状态
光模块地图(Transceiver Map, TM)
动态监控所有光模块的运行状态(up/down),快速定位故障点
拓扑呈现(Topology Generator, TG)
从逻辑到物理映射,自动呈现拓扑,帮助运维人员快速、精准定位异常
图形化面板(Device Panel, DP)
以交换机的实际面板布局为基础,图形化展示设备的运行状态,通过颜色变化(橙色或红色)显著标记设备异常点
参考来源:
https://blog.csdn.net/ITmoster/article/details/131246358
https://www.baidu.com/link?url=p3tUy2J_k4Z1DjPb_Q2LRSn588mPtLndydxc571GcaXFY87LIlBCmWI_KBC5EloWqh1a0B_DCi5Op6wvLkS5ky98NOYnAG6mDr8FqGoe6hfARlU_Sj59QT1wXiTX2vgxHhT6hbv1mgK0puFAq6Tvy8beuFVC6SARsm8tMqKkPb_&wd=&eqid=a24252bd004b9ca70000000667c040bf
https://www.nagios.org/
https://www.zabbix.com/cn
https://prometheus.ac.cn/docs/prometheus/latest/getting_started/
https://solutionsreview.com/network-monitoring/the-13-best-open-source-network-monitoring-tools/
https://blog.csdn.net/qq_29917503/article/details/130340284
https://asterfusion.com/easyroce/
审核编辑 黄宇
-
网络
+关注
关注
14文章
7880浏览量
91293 -
网络监控
+关注
关注
0文章
115浏览量
22111 -
开源
+关注
关注
3文章
3779浏览量
44122 -
RDMA
+关注
关注
0文章
85浏览量
9348
发布评论请先 登录
普华基础软件亮相2025开放原子开源生态大会
九联科技亮相2025开放原子开源生态大会
中软国际亮相2025开放原子开源生态大会
2025开放原子开源生态大会启幕在即
2025开放原子开源生态大会即将召开
2025开放原子开源生态大会精彩抢先看
2025开放原子开源生态大会即将举行
中科曙光联合成立行业AI智能体开放生态联盟
对三星而言开放生态系统是什么
迅龙软件出席2024开放原子开源生态大会,共谋开源生态繁荣之路

评论