GaussDB CN故障-状态Down
- 故障现象
查询集群状态,CN组件状态为Down,产生CN服务异常告警。
- 故障原因
可能原因有以下:
- 虚拟机故障产生CN服务异常告警。
- 磁盘故障导致CN组件Down,产生CN服务异常告警。
- 网卡故障导致CN组件Down,产生CN服务异常告警。
- 端口冲突导致CN组件Down,产生CN服务异常告警。
- 主动停止CN组件,产生CN服务异常告警。
- 处理方法
步骤 1 登录故障的CN节点,切换至Ruby用户,查询集群状态。
su - Ruby
cm_ctl query -Cvd

如上图,集群状态Degraded,CN组件Down。
若故障节点无法登录,则说明操作系统故障或网络等故障无法连接,需排查节点无法连接原因。
若可正常连接,继续向下执行。
步骤 2 当前节点,执行以下命令,查看操作系统是否发生过重启:
who -b

如上图表示操作系统于2022-10-20 16:47发生过重启。
如发生过操作系统重启,若非人为主动重启,需联系华为技术支持排查操作系统重启原因。
继续向下执行。
步骤 3 当前节点,执行以下命令,查看CN进程启动是否存在以及重启时间。
ps ux | grep cn | grep -v grep

如上图表示,CN进程在16:03启动。
如果进程存在,1min后再次查询集群状态,CN会恢复为Normal或者Deleted,若无变化,则联系华为技术支持进一步定位,若进程不断重启,则参考5 CN故障-启动失败章节定位。
若进程不存在,则继续步骤4。
步骤 4 当前节点,查看cm_agent日志,打开对应时间点的cm_agent-***.log日志。
如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志。
cd $GAUSSLOG/cm/cm_agent
vim cm_agent-*.log;

步骤 5 cm_agent日志中搜索关键词g_cnDiskDamage=1。
若存在,则原因为数据/日志磁盘损坏或磁盘满,参考步骤10。
若不存在,继续步骤6。

说明:
1.4(V005R001C20)版本及以前版本,搜索cn_disk_damage=1关键词,1.4(V005R001C20)以后版本搜索g_cnDiskDamage=1关键词。
步骤 6 cm_agent日志中搜索关键词port_conflict=1。
若存在,则原因为端口冲突,参考步骤11。
若不存在,继续步骤7。

步骤 7 cm_agent日志中搜索关键词g_cnNicDown=1。
若存在,则原因为网卡故障,参考步骤12。
若不存在,继续步骤8。

说明:
1.4(V005R001C20)版本及以前版本,搜索cn_nic_Down=1关键词,1.4(V005R001C20)以后版本搜索g_cnNicDown=1关键词。
步骤 8 cm_agent日志中搜索关键词cn_manual_stop=1。
若存在,则原因为手动停止,参考步骤13。
若不存在,则联系华为技术支持。

步骤 9 查看对应故障CN的磁盘是否有故障,数据目录是否存在以及权限是否正确,如无故障则检查是否磁盘满。
lsof -i:端口号

找到进程后重启进程。
kill -9 pid
须知:kill -9 pid为高危操作,执行前需联系华为技术支持确认。
步骤 12 查看是否有人手动停止,如非人为停止,则需要继续排查CMS日志,同时联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)