【案例分享】 BOSS部分终端不能获取IP及汇聚路由器NE20上OSPF邻居不稳定故障
BOSS部分终端不能获取IP及汇聚路由器NE20上OSPF邻居不稳定故障
故障描述
6月26日上午接到20个左右营业厅报障部分终端不能正常获取IP地址,导致不能正常上网办理业务。当日下午下班时又接到某营业厅报障所有前台办公终端及自助终端均无法正常上网办理业务。
二、故障分析及解决措施
1、故障分析:
① BOSS组网拓扑
② 根据上午营业厅报障描述(部分终端不能获取IP),初步判断为DHCP服务器相关进程吊死所致,经过重启DHCP服务器仍有部分终端不能正常获取IP,为此排除DHCP服务器问题。根据从底层往上排查原则,在营业厅交换机上查看MAC表,异常终端在MAC表里均有对应条目,且经过传输核查这些异常终端的MAC都已透传给汇聚路由器NE20-1,根据以上排查结果完全可以排除营业厅接入交换机及传输问题。
备注:红色标记为不能获取IP终端MAC条目
③究竟是什么导致部分终端不能正常获取IP的呢?下面我们先找一台异常终端看它发出的DHCP请求报文能否到达汇聚路由器NE20-1并经由相应的子接口做DHCP中继转发给DHCP服务器10.246.203.7。在NE20-1上进行debugging dhcp relay event调试,结果发现异常终端(MAC为00e0-4c04-9b8a)的DHCP请求报文能够正常到达NE20-1并被相应的子接口进行转发,但奇怪的是并没有收到DHCP回应报文。据此可以得知部分终端不能正常获取IP是由于异常终端与DHCP服务器交互DHCP报文出现问题。
④那究竟是什么导致终端与DHCP服务器进行DHCP报文交互时出现问题呢?根据以上排查情况推断很有可能是汇聚NE20-1与核心4506之间的网康上网行为管理设备异常导致。加之下班时又接到某营业厅断网的报障,排查得知NE20-1的路由表很不稳定,原因是由于NE20-1与C4506的OSPF邻居不稳定导致。为此对网康上网行为管理设备进行紧急割除操作,之后业务正常不到一个小时OSPF邻居不稳定现象重现,为此也可以排除网康上网行为管理设备问题所在。最近并未做过网络配置改动,核查设备相关配置也没有发现异常,那究竟是什么原因导致NE20-1上的OSPF邻居不稳定呢?正在百思不得其解之际, 在NE20-1上debug调试发现在其Gi2/0/1.13接口上出现大量的广播组播及其他IP报文收发现象,为此怀疑Gi2/0/1.13接口下的营业厅接入交换机存在环路现象。由于NE20-1本来就属于较老较低档路由设备IP报文处理能力极其有限,因此正常的DHCP广播报文及OSPF组播报文都将受到影响,也正因为如此才导致上述的部分终端获取不到IP及OSPF邻居不稳定现象。
备注:红色标记部分为NE20-1与C4506的OSPF邻居不稳定记录
备注:GI2/0/1.13接口大量DHCP广播报文被复制
备注:GI2/0/1.13接口大量OSPF组播及其他IP报文被复制
⑵解决措施:
排除GI2/0/1.13子接口下营业厅(城区东城营业厅)接入交换机环路问题,业务恢复正常。
四、经验总结及建议
1、加强营业厅办公人员网络安全意识宣贯及第三方维护人员营业厅机房巡检力度,及时有效发现存在的网络安全隐患。
2、建议网络维护人员检查各营业厅接入交换机是否开启二层环路保护机制,防止类似事件再次发生。
- 点赞
- 收藏
- 关注作者
评论(0)