网卡或光模块出现问题,导致单主机ES实例频繁退出集群
1.1 问题背景与现象
集群频繁上报“Elasticsearch实例存在down状态的主分片”告警,在后台查询ES集群健康状态:
curl -XGET --tlsv1.2 --negotiate -k -u : "https://ip:port/_cluster/health?pretty"
当前集群共131个ES实例,多次查询ES健康状态,number_of_nodes数量在127-131之间频繁变化,有实例频繁退出又加入集群,导致集群状态不稳定,不断出现分片down的问题。
1.2 原因分析
1. 收集EsMaster日志,频繁打印某一节点实例连接异常报错:Node not connected和transport disconnected
2. 进一步查看连接异常的节点es实例日志:
报连接不上EsMaster,具体报错:master left(reason = transport disconnected),排查至此,怀疑是此节点与其它节点直接网络存在问题。
3. 使用ping及telnet命令检查节点间网络,发现均无明显问题:
4.因暂时无法看出问题所在,只能先停止此主机上的所有ES实例,并隔离此主机。减小对业务的影响后再进一步排查原因。
5. 求助硬件侧同事协助排查,未发现硬件问题。
6. 收集/var/log/mesdsage日志,发现以下问题,此报错说明网卡存在问题
网卡同一个口的ECC的报错,对应的slot4的PCIE网卡的从左往右第一个口:
7. 到机房进一步排查网卡,此主机网卡灯闪烁比其他主机慢,怀疑是网口或光模块存在问题。因此重新派发网卡并更换,更换后节点网络恢复正常,ES实例状态均恢复正常。
1.3 解决办法
1. 在解决网络问题前,先停止异常主机上的所有ES实例。减小对业务的影响。
2. 排查出网卡问题后更换网卡并重新启动此主机上所有ES实例
- 点赞
- 收藏
- 关注作者
评论(0)