【云驻共创】网络巡检新体验APP,震撼来袭,给设备来个“全身检查”!

举报
wljslmz 发表于 2023/10/19 10:45:12 2023/10/19
【摘要】 网络结构复杂?网络巡检无从下手?设备频繁告警?客户不停投诉?网络巡检新体验APP值得拥有,本文就带大家了解一下网络巡检的必要性,同时介绍如何使用网络巡检APP。

在运营商网络中,网络运维方式多种多样,有用命令行的、有用ICMP的、有用NetConf的,有些配置事从控制器下发的,有些是由厂商直接下发的,这些不确定、不统一的因素,给网络运维造成了极大的困难。本期就给大家介绍一下运营商网络所面临的挑战,并介绍一个网络事故的案例,进而引出咱们所要介绍的“主角”——iMaster NCE网络巡检。

一、运营商网络巡检面临的挑战

1.1 网络设备持续扩容

逐年叠加网元,网络运行与网设存在偏差:

  • 持续网络扩容
  • 用户持续增长
  • 数据流量快速增长

1.2 复杂的基础设施

技术复杂,问题定位定界难,风险未知:

  • 四代共生网络(2345G)
  • 全网OXC
  • SDN
  • NFV

1.3 新老业务叠加

不同业务对宽带、时延有不同要求,业务路径错综复杂:

  • 234G传统语音和数据
  • 家庭宽带
  • IOT
  • VR/AR
  • 新媒体OTT

1.4 多平台多代硬件共生

硬件健康状态不可预知,只能被动更换坏件,随着使用时间的推移,硬件的健康状态必然是趋于不健康的。

二、许多网络事故,原本能够通过网络巡检避免

运维的挑战确实很大,全球每年几乎都会发生大大小小的网络中断事故,这些事故会造成不同程序的经济损失。在种种的运营商网络事故中,与传输、无线等产品相比,IP网络显得比较特殊,一是因为IP网络事故扩散的范围比较广,而且比较快,经常发生区域级、整网级的网络中断。二是因为IP网络事故触发的条件比较低,一些非核心区域或者非常小的网络变化,都可能触发重大的网络事故。

在全球的运营商网络变更中,IP网络的变更数一直是处于高位的,而且前面提到的IP网络事故,触发的门槛低、影响的范围广,所以每年都会有重大的网络事故发生。

这里我们举个案例,这个案例发生在201X年,M运营商网络事故:IP Core骨干网络中断。

这次事故中,服务直接中断了,受影响用户都是4M (100%)包括银行、医院、政府等部门,区域中断时间长达4小时。事故造成了大量的损失,直接财物损失200万美元,公司形象严重受损,间接损失1亿美元+,这次事故还引起了国家电信管理局和安全部门介入调查,相关高管也被受罚。

这次事故经过调查后,究其原因,友商骨干路由器之间工作、保护上下行路径不一致,在单点故障时,工作、保护链路同时中断,导致重大事故。

既然运营商网络事故层出不穷,那么网络巡检能够给这类事故带来哪些帮助呢?

其实网络巡检就跟人的体检一样,每年或者定期的体检,可以提前检查出身体的问题,从而可以针对性的进行保养、治疗,避免重大疾病的发生。那么网络巡检也是一样,通过定期检查设备的运行状态,得出设备的健康状态,进而去发现问题,解决问题,提升网络运行质量,提升客户的满意度。

下面我们就来了解一下网络巡检的作用。

三、网络巡检的作用

网络巡检可以从硬件的状态、软件的信息、设备的性能、路由协议和设备配置等多个维度进行检查,比如刚刚提到的网络设备的持续扩容,就可能导致线路的配置和预期的不符。这个时候就可以用网络巡检进行检查。

针对路由协议,可以对BGP、IS-IS、OSPF这些协议的邻居数、邻居状态进行检查。

对于设备的性能,可以对设备的CPU、内存、温度、Lisense状态和活动告警等进行检查。

如果是设备的硬件状态,可以对设备的主备引擎、板卡、磁盘、风扇等进行检查。

四、网络巡检特点

在现实世界中,95%的网络问题都是重复的。超过 50% 的问题是可以预防的。自动化巡检能有效防止这些问题再次发生。

4.1 巡检项开放自定义

  • 状态类巡检:灵活的获取多厂商设备的资源状态,并进行闯值检测。包括:CPU利用率、内存利用率、ISIS邻居、端口误码等。
  • 配置类巡检:自动同步网络设备配置,基于预定规则排查不合规范的错误配置。

4.2 巡检任务自定义

  • 灵活定制巡检质期:支持小时、天、周、月等周期和手动巡检。
  • 巡检范国自定义:可自定巡检项集合和设备组,关联到巡检任务实现按需巡检。

4.3 巡检地图可视化呈现

  • 灵活定制巡检地图:地图形式呈现巡检结果,可以按区域/子网/网元灵活查看网络巡检状态,及时发现网络问题。
  • 巡检数据自定义呈现:可自定义巡检获取的资源数据,并将巡检结果关键数据呈现在地图的网元上。

4.4 支持多厂商在线实时采集

  • 配置文件采集:按需采集,支持老化,巡检效率高。
  • 命令采集:实时采集设备最新数据,在线解析匹配模板,实时性高。

五、网络巡检APP操作流程

下面我们结合实际操作来感受一下网络巡检APP的强大和便捷。

5.1 检查设备CPU利用率

打开网络巡检,首先点击巡检项,在这个界面能看到巡检项集合和任务,点击【新建巡检项】按钮:

第一个巡检项,我们来检查一下CPU的利用率,设备厂商选择“HUAWEI”,添加模板信息:

条件范围选择“采集命令行”,命令填display cpu-usage,然后添加变量约束,系统会自动识别模板中定义的变量,最小值设为0,最大值设为80:

0-80是CPU的正常值,如果超过80,代表CPU有严重情况。

点击【确定】按钮,此时提示巡检项已经创建成功:

这个时候我们可以测试一下巡检项:

选择要测试的设备:

点击【开始测试】按钮:

稍等片刻:

看到这个图标就代表测试完成:

测试结果显示正常:

绿色字体是匹配成功的场景,蓝色字体是刚刚定义的变量值,这里测试的CPU的利用率为14%,在设置的范围内:

我们也可以检查一下异常的情况,这个时候我们只需要将范围设置为0-10即可:

这个时候我们来测试同一台设备,从测试的结果可以看到CPU利用率超出阈值,上报了违规,测试结果显示“严重”。

再把范围改回来:

测试成功后还不能加入巡检项集合,需要审核之后才可以,审核权限用户可以自定义。

5.2 检查设备名称

和检查设备CPU利用率一样,先新建巡检任务,设备厂商还是选择“HUAWEI”,添加条件、匹配模板:

填写变量约束:

违规等级设置为“严重”,点击【确定】按钮,此时第二个巡检任务就建好了:

审核一下巡检项:

5.3 检查设备主控板卡状态

同样先填写“巡检项名称”,设备厂商选择“HUAWEI”,添加响应的条件:

命令填写为display device

违规等级选择“严重”,点击【确定】按钮:

同样的,这个也要加入审核:

5.4 启动巡检任务

再创建一个巡检项集合:

上面创建的巡检任务添加到巡检项集合中:

点击【确定】按钮,巡检项集合创建成功:

在巡检项集合列表中就能看到刚刚我们创建的巡检项集合了:

点击“巡检任务”导航栏,创建巡检任务,只需要点击【新建任务】按钮:

填写好任务名称、调度策略(每小时一次、每天一次、每周一次、每月一次、手动),然后点击【下一步】按钮:

添加刚刚创建好的巡检项集合:

然后点击【下一步】按钮:

添加待巡检的设备组,这样一个巡检任务就创建成功了:

在操作图标中,点击【立即巡检】图标,这里可以看到巡检的进度:

执行结束后,点击【查看报表】图标:

可以看到巡检结果详情,包括:巡检结果统计、TOP5异常设备、TOP5异常巡检项集合、设备巡检结果:

点击异常的巡检结果,可以看到当前的状态是“不匹配”的,因为设备配置和模板不符:

我们再点击正常的巡检结果,可以看到状态是“匹配”:

返回到首页,可以看到右上角显示了全网资源统计情况:

下面有巡检异常的情况,展开可以看到异常的设备以及巡检项集合:

在地图上点击一台设备,可以看到这台设备所有的巡检结果的汇总,左侧列出了所有参与过的巡检项和合规状态,右侧就是巡检的详细结果:

至此一个完整的巡检任务的创建、执行就完成了,相信看完本文,你已经了解到巡检APP强大了吧,还等什么,快快体验起来吧!

本文参与华为云社区【内容共创】活动第24期

任务32:网络巡检新体验APP,震撼来袭

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。