0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 ? 来源:中兴文档 ? 2023-06-07 09:49 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    428

    浏览量

    47083
  • BIOS
    +关注

    关注

    5

    文章

    471

    浏览量

    47243
  • ECC
    ECC
    +关注

    关注

    0

    文章

    99

    浏览量

    21219
  • 虚拟机
    +关注

    关注

    1

    文章

    966

    浏览量

    29583
  • SCI
    SCI
    +关注

    关注

    1

    文章

    57

    浏览量

    20586

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    ,还是工业协议时序混乱,均可完整还原端到端业务会话链条,为智能分析提供坚实基础。2.AI根因定位:推理引擎驱动秒级精准诊断l 知识图谱驱动:将网络拓扑、流量统计、历史趋势、会话日志、
    发表于 07-16 15:29

    TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如图1所示。
    的头像 发表于 06-12 09:28 ?347次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚拟机<b class='flag-5'>网络</b>二层地址无法互通的问题<b class='flag-5'>处理</b>

    曙光网络发布网络流量回溯分析平台SUNA

    AI时代,日益复杂的网络环境正给运维带来严峻挑战。业务系统卡顿、异常流量难溯源、故障定位如大海捞针等问题频发,传统运维手段已难应对海量数据洪流的需求。
    的头像 发表于 05-22 14:28 ?522次阅读

    异常流量小区检测功能介绍

    随着5G部署规模不断扩大,网管KPI的分析需求突增也日益显著,存在用户感知问题无法从告警和KPI数值中直接体现的情况;或者某些小区存在故障而网络维护工程师无法及时监控识别出来。异常流量
    的头像 发表于 03-22 09:54 ?555次阅读
    <b class='flag-5'>异常</b>零<b class='flag-5'>流量</b>小区检测功能介绍

    TECS OpenStack资源池主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 ?596次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池主机磁盘分区使用率过高的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源池虚机写磁盘时延高告警的问题处理

    某运营商TECS资源池,在当前告警中显示“虚机写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。
    的头像 发表于 03-21 09:36 ?564次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机写磁盘时延高<b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    能源管理移动革命:异常告警秒级响应+能效报告自动生成

    新一代能源管理系统通过移动化革命和异常告警秒级响应机制,实现能源管理实时化、智能化新纪元。它通过物联网设备采集数据,边缘计算节点进行分析,管理人员移动终端获取预警信息。通过故障预测模型,系统提前预警,避免生产事故。
    的头像 发表于 03-11 09:46 ?388次阅读
    能源管理移动革命:<b class='flag-5'>异常</b><b class='flag-5'>告警</b>秒级响应+能效报告自动生成

    高效流量复制汇聚,构建自主可控的网络安全环境

    随着大数据监测、流量分析以及网络安全监管等核心业务需求的日益增长,网络环境对高性能、高可靠性的流量监控和分析提出了更高的要求。流量复制汇聚平
    的头像 发表于 03-10 14:29 ?568次阅读
    高效<b class='flag-5'>流量</b>复制汇聚,构建自主可控的<b class='flag-5'>网络</b>安全环境

    TECS OpenStack资源池时间同步失败的故障分析

    某运营商TECS OpenStack资源池,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”告警,持续时间30秒
    的头像 发表于 03-03 10:09 ?545次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池时间同步失败的故障分析

    TECS OpenStack资源池虚机残留导致网元异常的问题处理

    某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常
    的头像 发表于 03-03 09:42 ?449次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机残留导致网元<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    排查并处理共享站点S1用户面路径不可用告警

    增多,如图1所示。 图 1? 电信4G基站告警 1. 通过对基站告警进行分析后发现,出现告警的S1用户面路径不可用告警,对端IP地址为10.100.33.X,如图2所示。 图2 对端I
    的头像 发表于 01-23 11:08 ?977次阅读
    排查并<b class='flag-5'>处理</b>共享站点S1用户面路径不可用<b class='flag-5'>告警</b>

    交换机MC-LAG场景下单臂BFD无法UP问题

    作为源IP地址做BFD,VEG上配置静态路由打通loopback连通性(注:直连地址在MC-LAG场景只有一边互通)。 版本:9900X V1.00.20.02P16 ? 图1?MC-LAG单臂BFD场景组网示意图 单臂BFD
    的头像 发表于 01-17 11:43 ?671次阅读
    交换机MC-LAG场景下单臂<b class='flag-5'>BFD</b>无法UP问题

    网络流量监控与网关优化

    在当今数字化时代,网络流量的监控和管理对于任何组织来说都是至关重要的。随着数据量的激增和网络攻击的日益复杂,有效的网络流量监控和网关优化变得尤为重要。 网络流量监控的重要性 1. 识别
    的头像 发表于 01-02 16:14 ?773次阅读

    VLAN 实施对网络性能的影响

    的广播域和冲突域。这样,网络中的广播流量和冲突就被限制在每个VLAN内部,减少了网络拥塞,提高了网络的整体性能。 优化网络流量 VLAN允许
    的头像 发表于 11-19 09:35 ?1835次阅读

    IP地址如何进行网络监测? ? 立即查看

    ?一、异常检测的方法和技术有哪些? 目前常用的异常检测方法技术主要有基于统计分析的方法、基于机器学习的方法、基于规则的方法。 1.基于统计分析的方法也就是通过对网络流量、设备性能等数据进行统计分析
    的头像 发表于 09-14 15:15 ?720次阅读