【案例分享】 BOSS部分终端不能获取IP及汇聚路由器NE20上OSPF邻居不稳定故障

举报
IOT 发表于 2019/01/16 18:40:45 2019/01/16
【摘要】 BOSS部分终端不能获取IP及汇聚路由器NE20上OSPF邻居不稳定故障分析报告

BOSS部分终端不能获取IP及汇聚路由器NE20上OSPF邻居不稳定故障


  1. 故障描述

    6月26日上午接到20个左右营业厅报障部分终端不能正常获取IP地址,导致不能正常上网办理业务。当日下午下班时又接到某营业厅报障所有前台办公终端及自助终端均无法正常上网办理业务。

    二、故障分析及解决措施

    1、故障分析:


BOSS组网拓扑

   1.jpg


根据上午营业厅报障描述(部分终端不能获取IP),初步判断为DHCP服务器相关进程吊死所致,经过重启DHCP服务器仍有部分终端不能正常获取IP,为此排除DHCP服务器问题。根据从底层往上排查原则,在营业厅交换机上查看MAC表,异常终端在MAC表里均有对应条目,且经过传输核查这些异常终端的MAC都已透传给汇聚路由器NE20-1,根据以上排查结果完全可以排除营业厅接入交换机及传输问题。

1.png

              备注:红色标记为不能获取IP终端MAC条目


 究竟是什么导致部分终端不能正常获取IP的呢?下面我们先找一台异常终端看它发出的DHCP请求报文能否到达汇聚路由器NE20-1并经由相应的子接口做DHCP中继转发给DHCP服务器10.246.203.7。在NE20-1上进行debugging dhcp relay event调试,结果发现异常终端(MAC为00e0-4c04-9b8a)的DHCP请求报文能够正常到达NE20-1并被相应的子接口进行转发,但奇怪的是并没有收到DHCP回应报文。据此可以得知部分终端不能正常获取IP是由于异常终端与DHCP服务器交互DHCP报文出现问题。

2.png


 那究竟是什么导致终端与DHCP服务器进行DHCP报文交互时出现问题呢?根据以上排查情况推断很有可能是汇聚NE20-1与核心4506之间的网康上网行为管理设备异常导致。加之下班时又接到某营业厅断网的报障,排查得知NE20-1的路由表很不稳定,原因是由于NE20-1与C4506的OSPF邻居不稳定导致。为此对网康上网行为管理设备进行紧急割除操作,之后业务正常不到一个小时OSPF邻居不稳定现象重现,为此也可以排除网康上网行为管理设备问题所在。最近并未做过网络配置改动,核查设备相关配置也没有发现异常,那究竟是什么原因导致NE20-1上的OSPF邻居不稳定呢?正在百思不得其解之际, 在NE20-1上debug调试发现在其Gi2/0/1.13接口上出现大量的广播组播及其他IP报文收发现象,为此怀疑Gi2/0/1.13接口下的营业厅接入交换机存在环路现象。由于NE20-1本来就属于较老较低档路由设备IP报文处理能力极其有限,因此正常的DHCP广播报文及OSPF组播报文都将受到影响,也正因为如此才导致上述的部分终端获取不到IP及OSPF邻居不稳定现象。

3.png

          备注:红色标记部分为NE20-1与C4506的OSPF邻居不稳定记录

4.png


             备注:GI2/0/1.13接口大量DHCP广播报文被复制

5.png


               备注:GI2/0/1.13接口大量OSPF组播及其他IP报文被复制


解决措施:

      排除GI2/0/1.13子接口下营业厅(城区东城营业厅)接入交换机环路问题,业务恢复正常。

四、经验总结及建议

1、加强营业厅办公人员网络安全意识宣贯及第三方维护人员营业厅机房巡检力度,及时有效发现存在的网络安全隐患。

2、建议网络维护人员检查各营业厅接入交换机是否开启二层环路保护机制,防止类似事件再次发生。




【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。