0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

移动通信网络行业发生了一起重大事故

5G ? 来源:5G ? 作者:5G ? 2020-12-03 10:22 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

行业观察

日前,移动通信网络行业发生了一起重大事故!

据外媒报道,欧洲电信运营商“巨头”沃达丰集团表示,其在德国的移动通信网络于当地时间11月23日下午13:50突然出现大面积故障,造成柏林、汉堡、慕尼黑、科隆、法兰克福和其他城市共计超过10万手机用户无法建立语音连接和数据连接(2G、3G、4G的数据和语音服务都受到宕机影响),直到17:00才恢复正常。

根据沃达丰集团最新一期财报,沃达丰德国子公司约有3000万移动通信用户。此次故障中,有多达超过10万用户无法打电话和移动上网,所谓“众口能铄金”,超过20万个睁到最大的愤怒圆眼和超过10万个张到不能再大的嘴巴,以“坏事传千里”之功力,使得该公司的品牌形象严重受损,一代巨头瞬间遭受几乎“香消玉殒”。

在这个移动通信就像是水和电甚至像是空气一样的时代,更令上述超过10万的受影响用户极其抓狂的是,从13:50到17:00一共长达190分钟(11400秒)的时间,业务才全部恢复。

此次严重故障是由什么因素导致的?沃达丰反馈,网络问题是由部署于慕尼黑、法兰克福、柏林三地的“failure of control equipment”造成的。“failure of control equipment”就是“控制设备宕机”。从“控制设备”一词,我们可以想到“控制面”,再进一步考虑到外媒所报道的此次故障所波及的地域之广大、所影响的用户之众多,可以判断是核心网控制面出了严重故障。

核心网,在2G、3G、4G网络中所扮演的角色,就是“大脑”。一个动物要是大脑死亡了,整个身体就都死亡了;同样类比地,网络的“大脑”——核心网挂了,整个网络就停摆了,所以造成了上述故障具有两大鲜明特点:一是波及的地域广大;二是整个故障存在的时间很长——按照电信业务可靠性计算公式以及“99.999%可靠性”这一基本要求,一年中的业务中断的时间加起来不得超过315秒,而这次一次就断了11400秒!

所以德国沃达丰这个事件,在5G新基建、5G+千行百业发展得如火如荼的当下,亟需及时地引起业界的深刻反思——①是否普遍足够重视5G核心网的可靠性?②万一5G核心网一旦出现了重大故障,能否让行业客户的业务“零”中断(比如5G+政务/制造/交通/金融/电力等要求7×24在线)?若不能,如何及时补救?

敲响了“5G+千行百业”的巨大警钟

这一起严重的事故,使得全球其他所有移动通信网络运营商在为德国沃达丰感到同情和惋惜的同时,也被吓出一身的冷汗,尤其是那些正在规模部署5G网络的数百家运营商更是深感“如履薄冰”:

一是由于核心网是移动通信网络与IT深度融合的第一站,软硬件解耦且软件运行于由通用硬件构成资源池的虚拟化核心网,其可靠性在德国沃达丰此次发生的重大事故中表现得甚为脆弱,说明除了硬件,软件能力更显重要。德国沃达丰和其他运营商虽然目前比较重视面向ToC领域的5G网络的可靠性,但是截至目前在相关方面的投资趋于谨慎(尤其是在对软件可靠性的投资方面),一旦某一天万一发生上述德国沃达丰之类的重大事故,这几年下大力在大众消费者心中建立起来的5G高端品牌形象很可能顷刻崩塌,极不利于后续5G ToC发展。所以,这个事件说明对于5G核心网可靠性的投资绝对不只是单纯的硬件投资,而应该持续投资于对软件可靠能力的增强。

二是更进一步地,在5G时代,移动通信网络所承载的将更多(公认是80%)是面向政企客户的ToB类业务,对于ToB领域而言,“保障5G网络可靠”是最基本的要求,是5G进入千行百业必须跨越的“门槛”,是“5G+千行百业”最为关键的前提,一旦5G核心网出现严重故障,带来的各方面损失都将是上述德国沃达丰事件的N倍(N→+∞)——5G(含B5G)将来会被用在电力、金融、政务、工业4.0(比如智能制造)、(网路辅助的)自动驾驶、远程医疗等关键领域,一旦5G核心网停摆,这些政企业务就会瞬间中断,由此造成的后果将难以想象,会给社会经济甚至国家安全带来重大损失。

截至目前,业界对于5G网络的“安全性”以及“安全防护能力提升”的公开讨论有很多,但几乎没有对于5G网络(尤其是面向ToB领域的5G核心网)“可靠性”的公开讨论,说明对于5G核心网的可靠性尚未引起普遍化的重视。所以,德国沃达丰事件对于5G时代所敲响的巨大警钟就是:对于事关商业、经济、社会和国家安全的5G新型基础设施的建设运营,除了要重视做好网络安全防护外,更需加强对于运行可靠性的深刻认识,全力避免因可靠性问题影响运行效率和安全性。所以由此可以说,安全性是建立在可靠性的基础之上的,不可靠才是最大的不安全!

构筑起5G核心网磐石泰山般可靠性

坚者如磐石,稳者如泰山。在上述的5G新型基础设施可靠性中,5G核心网的可靠性显得最为重要,因为它就是整个5G网络的“大脑”所在——5G网络最为核心且对5G确定性能力负责的正是5G核心网,在5G网络端到端的质量保障当中,5G核心网承担了对于全局资源的集中控制、调度和管理,负责管理全局的网络拓扑、所有的接入信息、所有的用户数据以及所有的行业业务需求;所以一旦5G核心网(其控制面集中部署于大区及省级数据中心)出现故障,受到影响的范围将会极大。

“如何保障5G核心网的绝对可靠”是一个巨大的系统工程问题,但是仍然遵循“可靠性”相关的基本理论。

可靠性(%)=-t÷(e的MTBF次方)。其中,t为观测的时间间隔,MTBF为平均故障间隔时间。可见,可靠性仅与MTBF有关,电信级可靠性要达到99.999%,意味着一年的业务中断时间不超过315 s,落实到系统上即“可用度”。

可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR为平均故障修复时间。可见,提高(5G核心网)可用度,就要:①增加MTBF,即提高系统的容错能力,保障长时间稳定运行;②减小MTTR,即在一旦突然出现故障之后,能够快速发现故障并且瞬间(秒级)排除故障。

综上,要保障5G核心网的绝对可靠,就要做到:尽量稳定运行、不出故障,而一旦发生故障能够瞬间精准定位故障并秒级排除故障。

很显然,这其中,最关键的就在于“能否秒级排除故障”。因为不怕一万、就怕万一。万一5G核心网出现重大故障,能否做到让用户/客户“零”感知?

目前,面向5G核心网可靠性,业界在网元级容灾(提升VNF可靠性)、单个数据中心(DC)内容灾(比如硬件/资源池/多可用区/等IT级容灾以及机房/机楼等非IT级容灾)、跨DC容灾方面均有解决方案。目前看来尚存在两大较显著的问题——软件能力不够高、跨DC容灾不够强。

(1)亟需更强软件能力

传统核心网设备采用先进电信计算平台ATCA硬件,通过硬件传感器检测及内部的软硬件耦合通知机制来保证故障检测的实时性和准确性(毫秒级)。在引入NFV对核心网进行软硬件解耦改造后,VNF的可靠性应不低于现有传统物理模块(功能)的可靠性。采用通用服务器后,应用层(软件)的可靠性不再依赖于底层构筑,VNF只能靠软件手段去检测是否出现故障,NFV云化网元通过软件机制实现故障检测为秒级,远低于传统核心网的毫秒级,所以从更好地保证整体网络的可靠性的角度,5G核心网亟需更加强大的软件能力,比如向无状态化、更强数据库、微服务、更鲁棒的VNF组网及部署架构等方向发展以便于弹性扩缩容并提升电信级服务可靠性与可用性。

(2)亟需解决跨DC容灾3大关键薄弱问题

“跨DC容灾”一直是业界一大难题。主要表现在以下几个方面。

● 跨DC的数据备份

要实现跨DC容灾,必须要实时进行用户上下文数据备份(比如存储用户签约数据、注册信息的UDM等主要数据库)。显然,这要求进行实时备份而且备份的数据越多越好以利于业务快速恢复。用户上下文数据变化快,使得备份难度大。业界目前采取的备份方式下,备份时间长(从而不利于一旦出现故障时备份到更多数据即不能保证数据备份的时效性与完整性)、数据量大(未经压缩)、对DC间链路的带宽要求很高(因为数据量大)。从而,现在亟需打造并部署能够对待备份数据进行压缩的解决方案,以在大幅降低DC间链路传输备份数据的带宽需求的同时,保证数据备份的时效性与完整性以保障业务恢复的“零”影响。

一旦5G核心网出现故障,就要瞬间运用备份到的数据去恢复,千万级甚至亿级用户的电信业务恢复,带来极大考验。主要体现在以下两方面。

● 找到备份数据

运用跨DC备份的数据去恢复用户的电信业务,第一步就是要找到用户的备份数据。所以可见,“能否快速找到”是关键之中的关键。

下图为5G核心网服务化架构,笔者在其中用红色框标准了5G核心网控制面两个极为重要的网元——控制层的AMF、数据层的UDM。

从上图,我们一眼就可以看出AMF的不可或缺性——是用户接入5G核心网的首个网元,是分组接入的一级关口,是提供5G网络服务的前提,在用户体验的保证上起着关键作用。从AMF的名称“接入和移动管理功能”更是能感受到其极端重要。

UDM则是5G SA网络用户的统一数据管理平台,主要用于存储用户的签约数据、注册信息,给AMF下发签约数据,存储用户当前服务的AMF地址等,提供用户签约数据访问、位置登记等功能。UDM一旦发生重大事故时,会导致大范围的业务中断,影响巨大。

在5G核心网出现故障后,当用跨DC备份的用户上下文数据去恢复用户的电信业务时,千万级乃至亿级数量的用户(将来“万物互联”后还可能是几十亿级的设备)同时接入AMF和UDM,势必有瞬间产生信令风暴的可能——如果在故障发生前备份了所有用户的上下文数据,则用户新接入时不用去UDM取签约数据,业务恢复时,信令就主要冲击在AMF上;否则,在业务恢复时,信令将冲击到UDM网元——由于UDM主要能力在于数据存储,而信令能力弱,从而很容易引发过载。

一旦由此出现信令风暴,将会导致网络瘫痪,从而引发更多问题,何谈“业务恢复”?电信业务有状态的特点,不同于IT业务的数据备份,还需要更新上下文相关的隧道、通道、链路层的多层网络信息,需要超越标准流程,更新周边网络的信令链路、路由通道等。目前,业界采用的是通用数据库,以海量广播报文寻找用户备份数据,会产生信令风暴。从而,现在亟需打造并部署能够避免路由广播、不会产生信令风暴的可实现“一步到位找到用户备份数据”的解决方案。

● 恢复数据状态

找到了用户的备份数据,接下来就是恢复数据状态从而恢复用户的电信业务。在这一个非常重要的环节中,更是不能出现故障,否则前面的环节全都会白做,功亏一篑。目前,业界的解决方案是从单VNF恢复数据,会出现CPU单点过载,容易出现二次故障。从而,现在亟需打造并部署能够从多个VNF恢复数据的方案——于其中,通过多个VNF的均衡处理来大幅降低单VNF压力。

深谋远虑未雨绸缪力保未来网络可靠

在5G时代,2G和3G将逐步减频退网,最终很快形成4G、5G长期共存的格局,共同服务于“万物智联”(比如基于4G LTENB-IoT),所以现在宜未雨绸缪,布局网络结构简化、网络资源可灵活动态共享、软件平滑演进的融合型核心网,并布局4G网络高可靠容灾与恢复方案,同时高度重视软件能力加固,增加预算大力持续投资核心网软件可靠能力,全力保障未来网络的高可靠。

责任编辑:xj

原文标题:反思!通信业重大事故

文章出处:【微信公众号:5G】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 通信
    +关注

    关注

    18

    文章

    6217

    浏览量

    138172
  • 沃达丰
    +关注

    关注

    0

    文章

    185

    浏览量

    18698
  • 5G
    5G
    +关注

    关注

    1360

    文章

    48851

    浏览量

    576768

原文标题:反思!通信业重大事故

文章出处:【微信号:angmobile,微信公众号:5G】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    爱立信全力保障灾区通信网络

    7月25日场罕见的极端强降雨如骤发的洪流,席卷河北、北京、内蒙古等地。暴雨连绵,平均降水量多地突破历史极值,致使洪涝和山体滑坡灾害频发,道路受损、村庄通信中断,通信恢复刻不容缓。
    的头像 发表于 08-06 16:46 ?334次阅读

    广州邮科通信电源系统:现代通信网络的坚实后盾

    通信电源,顾名思义,就是为通信网络提供稳定电力供应的设备和系统。在通信网络中,无论是基站、交换机、路由器,还是数据中心、光纤传输设备等,都需要持续、稳定的电力供应才能正常工作。旦电力
    的头像 发表于 06-13 16:06 ?281次阅读
    广州邮科<b class='flag-5'>通信</b>电源系统:现代<b class='flag-5'>通信网络</b>的坚实后盾

    广州邮科通信电源系统:赋能现代通信网络的稳定动力

    在当今快速发展的信息时代,通信网络作为信息传输的基石,其稳定性和可靠性至关重要。广州邮科,作为通信电源领域的佼佼者,其通信电源系统凭借卓越的性能和可靠的质量,为现代通信网络提供了稳定而
    的头像 发表于 05-19 15:48 ?240次阅读

    智能通信网络设计引擎:VDE Cloud赋能未来汽车网络研发

    VDE Cloud 作为款基于B/S架构的车载总线通信数据库设计和管理系统,为汽车智能通信网络设计深度赋能。
    的头像 发表于 05-13 13:44 ?453次阅读
    智能<b class='flag-5'>通信网络</b>设计引擎:VDE Cloud赋能未来汽车<b class='flag-5'>网络</b>研发

    基于CAN的娱乐车通信网络RV-C介绍

    电子发烧友网站提供《基于CAN的娱乐车通信网络RV-C介绍.pdf》资料免费下载
    发表于 04-19 17:01 ?0次下载

    磁场开关误跳造成发电机失磁跳机事故分析

    角形接线接入系统。2台机组分别于2006年1,3月 投入系统运行。投运后不久,31号机组发生了一起 因施工质量和施工工艺问题引起的磁场开关误分 闸,造成发电机失磁跳机事故。纯属分享,点击下方附件免费下载*附件:20250312
    发表于 03-12 17:05

    华为赢得巴西通信网络大单

    近日,巴西移动通信网络运营商iez!宣布与华为达成重要合作。此次合作涵盖两大关键领域,标志着华为在巴西通信市场的进步拓展。
    的头像 发表于 02-18 15:11 ?732次阅读

    达实智能近期五件大事

    乙巳蛇年开工以来 仅仅过去1周时间 达实智能发生了这几件大事 或许其中有你正在关心的 最热门的当下话题 一起来看!
    的头像 发表于 02-12 13:37 ?750次阅读

    通信网络故障排除技巧

    通信网络以其高速、大容量和抗干扰性在现代通信系统中占据着举足轻重的地位。然而,随着网络规模的扩大和复杂性的增加,故障排除成为了网络维护中的
    的头像 发表于 01-23 09:42 ?984次阅读

    通信网络的优势分析

    随着信息技术的飞速发展,通信网络已成为现代社会的基础设施。光通信网络以其高速、大容量、长距离传输等优势,成为现代通信网络的主流技术。 1. 高速传输 光通信网络的核心优势之
    的头像 发表于 01-23 09:36 ?942次阅读

    Dali通信网络的最佳配置

    DALI(数字可寻址照明接口)通信网络的最佳配置涉及多个方面,包括网络架构、设备选择、布线要求以及功能实现等。以下是对DALI通信网络最佳配置的分析:
    的头像 发表于 01-10 10:32 ?1085次阅读

    抑制射频干扰滤波器: 移动通信网络中的干扰抑制利器

    问题,抑制射频干扰滤波器被广泛应用于移动通信网络中,成为了干扰抑制的利器。抑制射频干扰滤波器是种电子设备,其作用是通过滤掉或减弱射频干扰信号,使其不影响正常通信信号的
    的头像 发表于 12-20 11:20 ?902次阅读
    抑制射频干扰滤波器: <b class='flag-5'>移动</b><b class='flag-5'>通信网络</b>中的干扰抑制利器

    DAC81416将多通道输出口连一起,输出不同电压,会发生什么?

    大家好,如果将DAC的多个输出通道连在一起,输出不同电压,会发生什么?
    发表于 11-20 07:36

    以太网通信网关是什么

    在日益复杂的网络环境中,以太网通信网关作为连接不同设备和网络的桥梁,扮演着至关重要的角色。本文将深入探讨以太网通信网关的定义、功能、工作机制及其在各个领域的应用。
    的头像 发表于 08-29 14:04 ?1144次阅读
    以太网<b class='flag-5'>通信网</b>关是什么

    新能源车高压挑战:连接器的安全性解读

    800V框架下,新能源汽车的安全性如何保证?新能源汽车的不断高压化将给连接器带来何种技术挑战? 近日,韩国仁川发生了一起重大事故辆梅赛德斯-奔驰EQE电动汽车在地下停车场起火,致140余辆汽车
    的头像 发表于 08-19 11:45 ?1070次阅读
    新能源车高压挑战:连接器的安全性解读