网卡或光模块出现问题,导致单主机ES实例频繁退出集群

举报
xxlla 发表于 2021/04/15 15:06:27 2021/04/15
【摘要】 1.1 问题背景与现象集群频繁上报“Elasticsearch实例存在down状态的主分片”告警,在后台查询ES集群健康状态:curl -XGET --tlsv1.2 --negotiate -k -u :  "https://ip:port/_cluster/health?pretty"当前集群共131个ES实例,多次查询ES健康状态,number_of_nodes数量在127-131之间...

1.1 问题背景与现象

集群频繁上报“Elasticsearch实例存在down状态的主分片”告警,在后台查询ES集群健康状态:

curl -XGET --tlsv1.2 --negotiate -k -u :  "https://ip:port/_cluster/health?pretty"

当前集群共131个ES实例,多次查询ES健康状态,number_of_nodes数量在127-131之间频繁变化,有实例频繁退出又加入集群,导致集群状态不稳定,不断出现分片down的问题。

1.2 原因分析

1.     收集EsMaster日志,频繁打印某一节点实例连接异常报错:Node not connected和transport disconnected

 

2.     进一步查看连接异常的节点es实例日志:

     

报连接不上EsMaster,具体报错:master left(reason = transport disconnected),排查至此,怀疑是此节点与其它节点直接网络存在问题。

3.     使用ping及telnet命令检查节点间网络,发现均无明显问题:

4.因暂时无法看出问题所在,只能先停止此主机上的所有ES实例,并隔离此主机。减小对业务的影响后再进一步排查原因。

5. 求助硬件侧同事协助排查,未发现硬件问题。

6. 收集/var/log/mesdsage日志,发现以下问题,此报错说明网卡存在问题

网卡同一个口的ECC的报错,对应的slot4的PCIE网卡的从左往右第一个口:


7. 到机房进一步排查网卡,此主机网卡灯闪烁比其他主机慢,怀疑是网口或光模块存在问题。因此重新派发网卡并更换,更换后节点网络恢复正常,ES实例状态均恢复正常。

1.3 解决办法

1. 在解决网络问题前,先停止异常主机上的所有ES实例。减小对业务的影响。

2. 排查出网卡问题后更换网卡并重新启动此主机上所有ES实例

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。