无线接入网故障vs智能运维
运营商的网络越来越庞大、复杂。
网络中包含大量的、不同功能、不同业务域、不同厂商、不同型号的设备。各运营商网络的组网协议、拓扑形态也不一样,且各设备数据格式、传输协议、对网络状况的响应也不统一。
受上述种种因素的影响,运营商网络的运维愈发困难。在网络实施、业务编排、可用性保障、安全保障等这些运维事项中, 故障处理是核心 、是保障网络业务持续可用非常重要的一环,同时也是其中最棘手的工作。
图 1 无线接入网示意图
无线接入网场景是故障处理的重中之重,其处理成本甚至占到整个运营商网络维护成本的95%左右。图1为一个典型的无线接入网简单示意图。在该网络中,通常有三个业务域的设备:动力环境域(动环)、无线域、接入传输域。
接入传输域常见的网络结构如下图中绿色标号所示:1、接入环;2、耳朵环;3、汇聚环。机房中电机、电池等动力设备给机房中基站、传输设备供电;基站通过一跳跳的传输设备回传数据到核心网(如图中红色曲线箭头所示)。
无线接入网中故障有如下三个特点:
1. 告警量非常大。网络发生故障时,故障网元及相邻、有业务关联的其他网元会产生大量的告警上报至网管。图2展示了当机房发生停电故障时,网管收到的大量告警。据国内某运营商一局点统计,其无线接入网中网管收到的原始告警一天在3千万左右。
2. 故障随产生位置、网络拓扑不同而影响范围、产生现象不同。同样一个传输网元单板故障,其在接入环还是汇聚环会对应不同的影响范围。此外,相关网元是否有备用业务路径也决定其受影响不一样。
3. 故障具有突发性,相关处理人员压力较大。一旦产生故障,运营商希望能够快速恢复、不影响业务。
因此,运维工程师仅仅基于网管收集的告警来直接分析、处理故障非常困难。当网络中产生若干个故障时,工程师能基于其经验去分析、定位并处理。然而现网一直在产生故障,从各设备来的告警源源不断地到达综合网管。过不了一会儿,工程师就看不下去、“拒绝服务”了。典型的“DDOS攻击”套路!
图 2 机房停电故障时,可能产生的告警
面对这样的困境,华为网络人工智能NAIE团队尝试用人工智能技术解决网络运维工程师的困难。
思路是当网络中发生故障后,AI服务基于实时的事件流(如告警、KPI异常事件、日志异常事件等)、拓扑数据,快速地聚合故障相关信息,准确地定界定位故障根因、识别影响,给出故障分析结果及修复建议。
故障处理不是新课题。运维工程师实际处理故障时也不直接面对全量告警。现有的做法通常有两类:
1)白名单过滤,只看重要告警;
2) 基于告警压缩规则压缩,灵活过滤呈现重要告警。
这两种做法本质上还是看告警,而且是过滤后碎片化的告警。如前所述,一个故障对应多种告警。随着拓扑、位置不同,故障还能产生不同的影响。那么过滤后的告警,究竟是属于同一个故障还是多个呢?是原因还是现象呢?工程师还是得凭借自己丰富的经验、基于片段信息来判断。这类做法是治标,如管中窥豹,唯资深运维专家可“猜”一斑。
图 3 基于故障处理故障
何为治本?基于收集的信息,去还原故障本来的面目。
如图3所示,华为网络人工智能NAIE识别故障、呈现其原因、影响范围,让工程师按图索骥:基于故障本身来修复故障。即,我们不再以告警“压缩率”为目标,而是以工程师便捷、准确地定位、修复故障为目标。让工程师从面向告警转变为面向故障,力图故障处理不重复、不错漏、不“麻烦”!
治本的构想很好,实际怎么来实现呢?
我们在实践过程中总结有两个关键点:其一,一定要从业务问题本身出发去抽象、建模,屏蔽不同局点、不同组网等对算法方案带来的影响;其二,制定统一的处理范式,匹配落地合适算法。
算法是工具,实际业务问题才是着手点。各运营商网络的不同(设备、协议、组网、厂商等)和复杂性就注定其故障分析较困难。我们要从业务出发去抽象,屏蔽不同,抽取算法需求。例如,告警达到网管无序、故障持续时长不定(随类型、位置、拓扑而不同),那我们应该动态预测故障时长,保障故障信息聚合准确。例如,有的局点拓扑成环、有的为树形,那我们的算法不应嵌入具体拓扑形状信息,而应适用不同拓扑形状。例如有的局点有独立的动环系统、有的则无,那我们为每个机房都虚拟一个动环网元,保证后续处理一致。只有当我们把这些不同屏蔽好,我们的算法方案才是通用的。
图 4 故障智能分析处理范式
基于上述抽象后的业务问题,我们定义了一套处理范式,如图4所示。故障智能分析过程含4个主要步骤:
1. 去噪:初步的信息过滤。例如施工区域告警屏蔽、震荡、闪断告警识别过滤等。
2. 故障聚合:对实时、大量、乱序的流式数据进行处理,聚合一个个故障相关的数据,以便下步分析。
3. 识别定位:识别故障范围、定位根因网元以及根因告警。
4. 诊断:诊断故障种类,并给出修复建议。
其中关键步骤在于故障聚合以及识别定位。聚合要根据拓扑、时间等信息将一个故障可能相关的事件数据打包在一起,其准确性是后续识别定位准确的基础。由于网络延迟等因素,聚合还要能容忍一定的时间不准确以及乱序问题。这其中涉及一些聚类、拓扑图搜索、流式数据处理等算法。识别定位可以当作分类问题来处理。即,其中预测聚合的数据中哪个网元、哪个告警是根因。然而很多客户并不喜欢这种黑盒处理的方式,且无标注良好的样本数据。此时,基于故障传播图的白盒化故障分析则更合适。上述4步,每步都可以有若干算法可以尝试。在实际的故障分析项目中,我们应该根据实际需求落地合适算法,一味的追求某种技术往往适得其反。
- 点赞
- 收藏
- 关注作者
评论(0)