GaussDB CN组件状态Normal-告警原因分析
- 故障现象
查询集群状态,CN组件状态为Normal,历史产生CN服务异常告警。
- 故障原因
可能原因有以下:
- 虚拟机重启产生CN服务异常告警。
- CN进程异常重启产生CN服务异常告警。
- 主动重启CN产生CN服务异常告警。
- 处理方法
步骤 1 登录告警的CN节点,切换至Ruby用户,查询集群状态。
su - Ruby
cm_ctl query -Cvd

如上图,集群状态正常,CN组件Normal。
步骤 2 当前节点,执行以下命令,查看操作系统是否发生过重启。
who -b

如上图表示操作系统于2022-10-20 16:47发生过重启。
如发生过操作系统重启,说明CN告警是由于操作系统重启导致,确认非人为重启后,联系华为技术支持排查操作系统重启原因。
若未重启继续向下执行。
步骤 3 当前节点,执行以下命令,查看CN进程启动时间,确认告警时段内CN是否重启。
ps ux | grep cn | grep -v grep

如上图表示,CN进程在16:03启动。
如果没有重启,则联系华为技术支持进一步定位。
若发生过重启,确认告警时间段非人为主动重启,则继续执行。
步骤 4 进入当前节点的日志路径,查看是否有ffic_gaussdb-*.log日志文件生成。
ll $GAUSSLOG/ffic_log
vim ffic_gaussdb-1669881799.log
date -d @1669881799

如上图,16:03产生了ffic_gaussdb-1669881799.log日志。


上图表明,ffic_gaussdb-1669881799.log中的时间与进程重启时间一致。
如告警时间点有ffic_gaussdb-*.log日志,说明CN进程发生异常重启。
打开ffic日志文件,查看ffic_gaussdb-*.log中记录的时间是否与进程重启时间对应,若时间一致,则获取ffic_gaussdb-*.log文件后,联系华为技术支持。
若以上时间不一致或者没有此日志,则继续向下执行。
步骤 5 查看当前CN节点的cm_agent日志。
打开对应时间点的cm_agent-***.log日志,如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志。
cd $GAUSSLOG/cm/cm_agent
vim cm_agent-*.log

步骤 6 在cm_agent日志中搜索关键词:restart msg。

如告警时间点存在此日志信息,则说明是由cm_server下发重启命令给cm_agent重启CN,详细原因,可继续在此条日志继续向上查看。
若不存在,继续向下执行。
步骤 7 当前节点查询集群状态,获取CMS主节点,并登录到CMS主节点。
cm_ctl query -Cvd

如上图,ecs-gaussdb-0003为CMS主节点。
步骤 8 查看cm_server日志,打开对应时间点的cm_server-***.log日志。
cd $GAUSSLOG/cm/cm_server
vim cm_server-*.log
如对应时间点的日志已被压缩,则查看对应的cm_server-****.log.gz日志。
步骤 9 在cm_server日志中搜索关键词:send restart message。

如果存在,则说明是由cm_server主动重启CN。
若不存在,则联系华为技术支持。
步骤 10 若以上均不涉及,联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)