GaussDB CN故障-状态Deleted
- 故障现象
查询集群状态,CN组件状态为Deleted,产生CN服务异常告警。
- 故障原因
可能原因有以下:
- 虚拟机重启,断网等故障导致CN被剔除,产生CN服务异常告警。
- CN与主DN断连导致CN被剔除,产生CN服务异常告警。
- CN组件Down导致CN被剔除,产生CN服务异常告警。
- CN组件频繁重启导致CN被剔除,产生CN服务异常告警。
- CN组件被主动剔除,产生CN服务异常告警。
- 处理方法
步骤 1 登录故障的CN节点,切换至Ruby用户,查询集群状态。
su - Ruby
cm_ctl query -Cvd

如上图,集群状态为Degraded,cn_5001被剔除,状态为Deleted。
步骤 2 当前节点,执行以下命令,查看操作系统是否发生过重启。
who -b

如上图表示操作系统于2022-10-20 16:47发生过重启。
如发生过操作系统重启,若非人为主动重启,需联系华为技术支持排查操作系统重启原因,故障处理后执行节点修复加回被剔除的CN。
继续步骤3。
步骤 3 确认主机是否发生断网等。
如有断网发生,排查断网原因,故障处理后执行节点修复加回被剔除的CN,如不涉及,继续步骤4。
步骤 4 登录到CMS主节点,查看cm_server日志。
可通过查询集群状态获取CMS主节点:
cm_ctl query -Cvd

如上图,ecs-gaussdb-0003为CMS主节点。
执行如下命令,查看日志:
cd $GAUSSLOG/cm/cm_server
步骤 5 查看对应时间点的cm_server-***.log日志。
vim cm_server-*.log
如对应时间点的日志已被压缩,则查看对应的cm_server-****.log.gz日志。
步骤 6 在cm_server日志中搜索有关键词cn_down_to_delete=1。

如对应时间点存在该信息,则原因为CN组件Down 导致,参考2 CN故障-状态Down排查详细原因,确认原因及故障解决之后,执行节点修复加回被剔除的CN。
如不涉及继续步骤7。
步骤 7 在cm_server日志中搜索有关键词:isCnDnDisconnected=1。
如对应时间点存在该信息,则原因为CN组件与主DN断连导致,此时需要排查CN与主DN之间的网络,待网络恢复后,执行节点修复加回被剔除的CN。
如不涉及继续步骤8。
步骤 8 在cm_server日志中搜索有关键词:cmd_disable_cn=1。

如对应时间点存在该信息,则原因为CN组件被主动剔除,确认剔除原因后,后执行节点修复加回被剔除的CN。
如不涉及继续步骤9。
步骤 9 在cm_server日志中搜索有关键词cn instance restarts within ten minutes is more than:

如对应时间点存在此信息,则原因为CN组件频繁重启导致,出现此种情况,参考1 CN组件状态Normal-告警原因分析进一步定位,故障处理后执行节点修复加回被剔除的CN。
若不存在,继续步骤10。
步骤 10 若以上均不涉及,则联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)