广发证券以“成为具有国际竞争力、品牌影响力和系统重要性的现代投资银行”为战略愿景,秉承“以价值创造成就金融报国之梦”的使命,致力于通过科技创新与国际化布局,打造综合金融服务平台,服务国家战略与实体经济高质量发展。在此战略框架下,数据中心网络作为支撑全球业务高效运转的基石,其重要性愈发凸显。数据中心网络不仅是践行“稳健经营,持续创新”理念的技术载体,更是其实现“科技-金融-产业”良性循环、赋能新质生产力培育的战略性支点,为推进行业创新实践、构建数字化金融生态奠定了坚实基础。
网络运维挑战
广发证券经过多年的持续建设,形成了同城双活、异地灾备体系架构,并逐渐构建分布式多地云化数据中心,有力地支撑生产、办公和管理业务的运行,但同时,数据中心网络设备不断增加,架构复杂化给网络运维带来诸多挑战,传统网络运维无法满足日益增长的网络需求。
01 数据孤岛,检测不精细
在日常监测中,传统多个运维系统的数据相互孤立,数据之间缺乏关联性,依赖人工整合分析,另外,传统SNMP协议采集精度差(通常5分钟粒度),难以主动感知网络微突发类异常(亚秒级粒度)。目前数据中心包括传统业务网络、组播业务网络、GPU业务网络等多种组网,而之前多套传统运维系统及多个视图,存在数据孤岛,无法统一分析和监测,无疑给复杂的运维工作带来更大的困难。
02 隐患难寻,风险缺预防
目前数据中心网络既有传统业务,又有组播业务,大模型相关的智算业务也在建设中,业务扩缩容和网络变更频繁,随之网络中可能存在一些潜在风险,例如,数据中心网络中会采用大量的光模块,光模块器件的可靠性远低于网络设备硬件本身,运维需要系统性地排查网络中的风险,从根源上减少故障的发生。
03 路径不明,镜像成本高
网络流量与业务路径黑盒化,传统NPM镜像部署成本高昂却难以解决数据割裂问题。例如,为了业务平稳运行,数据中心网络普遍采用高可用架构设计,如MLAG和路由ECMP负载等技术,却造成业务流量路径不再唯一。运维人员因此只能在所有业务流量可能经过的设备上进行流量统计,人工逐段定位丢包位置,并且这些动作都必须等待排障窗口期。
数据中心网络智能运维实践
广发证券坚持以科技金融为重大战略之一,持续推进数字化转型。为了更好保障用户体验,广发证券携手华为,基于iMaster NCE-FabricInsight建设统一的数据中心网络智能运维平台,以提升数据中心网络运维效率。智能运维平台重点围绕统一可视化、网络风险预防、智能化故障定界三个方向展开实践。
打造统一数据底座,多Fabric统一监测
针对多系统数据孤岛、检测粒度不精细等问题,网络智能运维平台构建了统一的数据底座,目前已纳管交易区、非交易区、互联网区、大数据区、组播私网区、测试区等Fabric网络,数据对象包含网络设备、全网TCP业务流的特征报文、关键业务流的全包、组播业务流等。通过Telemetry技术实现多种不同架构网络指标的主动订阅与亚秒级数据上报,监测维度更加丰富,包含接口链路、队列缓存、光模块、配置、表项、丢包检测等,实时监测全网资源、故障、性能质量情况,并通过对接微信平台统一告警通知。
从被动到主动,网络风险预测
防火胜于救火,如何系统性排查网络风险也是重点课题之一。目前,广发证券正在构建统一的网络主动预防体系,基于知识图谱的数据底座,进行整网风险建模与特征智能识别,从组网、路由、设备板卡、电源、风扇、链路、光器件等多个维度系统全面地分析网络潜在风险,识别风险原因并提供处理建议,转变传统被动救火的运维模式,降低故障发生概率,支撑网络健康运营。
图1 网络健康巡检大屏
三维立体的流镜像,应用异常智能化定界
广发证券正在大力推进网络基础设施的智能化建设。然而,应用质量与网络流量分析割裂、网络路径呈现黑盒状态,网络看不清业务流量路径,故障定位困难。若在所有网络节点部署传统NPM流量镜像,整体建设成本高昂,而且依旧无法解决应用-网络-设备一体化的数据整合与分析,数据割裂导致定位时间长、运维效率低。
为解决上述问题,广发证券通过在网络智能运维平台基础上叠加了xFlow智能全流和xFlow按需抓流技术,网络智能运维平台基于ERSPAN技术轻量级镜像整网全部业务流的TCP建链状态,还原业务流在网络中的真实转发路径,并关联网络设备信息,感知微突发、丢包等KPI指标,实现“网络路况”可视化,就像地图导航感知每条道路的通行质量一样。继而,再在网络最复杂、业务容易出问题的关键位置(例如防火墙、负载均衡、关键路由交换设备前后)部署xFlow全流分析探针,1:1采集业务流的全包数据,检测业务流传输过程中的丢包、时延等关键网络性能,实现分段定界。针对网络指标有异常的分段,结合路况信息,可按需在沿途的网络设备上远程镜像,进一步缩小分段定界的范围,分钟级定位故障点。此方案特点在于:以低成本方案“广撒网”,在重点区域“深挖壕”,再结合设备协同完成“按需补位”,构建立体化、多层次的流分析体系。
图2 业务质差问题排障逻辑
下一步发展展望
当前,网络智能运维平台以“数据+算法”为驱动,实现了数据一体化分析,显著提升了网络运维的效率。后续,广发证券一方面将在智能计算、证券组播行情交易、大模型等网络建设运维领域持续探索,另一方面将聚焦应用体验保障,推动运维模式从以网络设备为中心向以应用体验为中心转变,构建应用质量主动保障体系,以新质生产力赋能智能运维,提升金融业务服务体验,为金融创新做出新的贡献。
-
华为
+关注
关注
216文章
35280浏览量
256844 -
数据中心
+关注
关注
16文章
5280浏览量
73696 -
金融网络
+关注
关注
0文章
8浏览量
6879
原文标题:数通金拍档 | 金融网络运维如何“智”变?广发证券数据中心网络智能运维实践
文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
开放生态+极简运维:多租户园区网络的云原生管理实践

曙光数创SLiquid智能运维系统解决数据中心运维难题
华为荣获数据中心自智网络基础能力解决方案检测证书
适用于数据中心和AI时代的800G网络
华为携手中控技术打造全国数据中心网络创新示范项目
华为全新升级星河AI数据中心网络
数据中心运维成本高?智能运维方案为您省钱!

AKH-0.66/TD 电流互感器在数据中心和电力运维的运用

评论