GaussDB DN组件状态Normal-告警原因分析
- 故障现象
查询集群状态,DN组件状态为Normal,历史产生DN服务异常告警。
- 故障原因
可能原因有以下:
- 虚拟机重启产生DN服务异常告警。
- DN进程重启产生DN服务异常告警。
- 主动重启DN产生DN服务异常告警。
- 处理方法
步骤 1 登录告警的DN节点,切换至Ruby用户,查询集群状态。
su - Ruby
cm_ctl query -Cvd

如上图,集群状态Normal,DN组件状态Normal。
步骤 2 当前节点,执行以下命令,查看操作系统是否发生过重启。
who -b

如上图表示操作系统于2022-10-20 16:47发生过重启。
如发生过操作系统重启,说明DN告警是由于操作系统重启导致,确认非人为重启后,联系华为技术支持排查操作系统重启原因。
若未重启继续步骤3。
步骤 3 当前节点执行以下命令查看DN进程启动时间,确认告警时段内DN是否重启。
如果没有重启,则联系华为技术支持进一步定位。
若发生过重启,确认告警时间段非人为主动重启,则继续步骤4。
ps ux|grep 'gaussdb --datanode' | grep -v grep

如上图,DN进程的启动时间为22:19。
步骤 4 进入当前节点的日志路径,查看是否有ffic_gaussdb-*.log日志文件生成。
如告警时间点有ffic_gaussdb-*.log日志,说明DN进程发生异常重启。
打开ffic日志文件,查看ffic_gaussdb-*.log中记录的时间是否与进程重启时间对应,若时间一致,则获取ffic_gaussdb-*.log文件,联系华为技术支持。
若时间不一致或者没有此日志,则继续步骤5。
ll $GAUSSLOG/ffic_log
vim ffic_gaussdb-1669904333.log
date -d @1669904333

如上图,22:18产生了ffic_gaussdb-1669904333.log日志。


上图表明,ffic_gaussdb-1669904333.log中的时间与进程重启时间一致。
步骤 5 当前节点查看cm_agent日志,打开对应时间点的cm_agent-***.log日志。
如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志。
cd $GAUSSLOG/cm/cm_agent
vim cm_agent-*.log
步骤 6 在cm_agent日志中搜索如下关键字restart msg from cm_server。
如告警时间点存在此日志信息,则说明是由cm_server发送重启命令给cm_agent重启DN,详细原因,可继续在此条日志继续向上查看。
若不存在,继续步骤7。

步骤 7 当前节点查询获取CMS主节点,并登录到CMS主节点,查看cm_server日志。
su - Ruby
cm_ctl query -Cvd

如上图,ecs-gaussdb-0003为CMS主节点。
cd $GAUSSLOG/cm/cm_server
步骤 8 查看cm_server日志,打开对应时间点的cm_server-***.log日志。
如对应时间点的日志已被压缩,则查看对应的cm_server-****.log.gz日志。
cd $GAUSSLOG/cm/cm_server
vim cm_server-*.log
步骤 9 在cm_server日志中搜索关键词send restart message。
如果存在,则说明是由cm_server主动重启DN。
若不存在,则联系华为技术支持。

步骤 10 若以上均不涉及,联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)