GaussDB DN故障-状态Unknown

举报
GaussDB 数据库 发表于 2025/12/09 15:00:26 2025/12/09
【摘要】 故障现象查询集群状态,DN组件状态为Unknown,产生DN服务异常告警。故障原因可能原因有以下:cm_agent无法连接DN。处理方法步骤 1     登录故障DN节点,切换至Ruby用户,查询集群状态。su - Rubycm_ctl query -Cvd如上图,dn_6008状态为Unknown。 步骤 2     如DN长时间处于Unknown状态,如需要快速恢复,则可使用以下命令处理...
  • 故障现象

查询集群状态,DN组件状态为Unknown,产生DN服务异常告警。

  • 故障原因

可能原因有以下:

cm_agent无法连接DN

  • 处理方法

步骤 1     登录故障DN节点,切换至Ruby用户,查询集群状态。

su - Ruby

cm_ctl query -Cvd

81.png

如上图,dn_6008状态为Unknown

 步骤 2     DN长时间处于Unknown状态,如需要快速恢复,则可使用以下命令处理,如需要先定位则跳过此步骤。

1. 查询故障DNPID

ps ux | grep dn_6008 | grep -v grep

dn_6008为示例,实际执行时需要更换为当前故障的DN

2. 重启DN进程。

kill -9 pid

pid为当前Unknown状态DN的进程的pid

须知:kill -9为高危操作,执行前需联系华为技术支持确认。

步骤 3     查看当前节点的cm_agent日志,打开对应时间点的cm_agent-***.log日志。

如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志。

cd $GAUSSLOG/cm/cm_agent

vim cm_agent-*.log

步骤 4     cm_agent日志中搜索关键词1 timeout expired

如存在,表明cm_agent连接不到DN,继续步骤5

如不存在,则联系华为技术支持。

84.png

步骤 5     当前节点执行以下命令,获取故障DN的堆栈信息,并联系华为技术支持。

gs_ctl stack -D datapath > /home/omm/dn_6008_stack.log

85.png

说明:

2.1(V500R002C10)以后版本,可使用gs_stack命令将堆栈信息重定向到指定文件。

datapath为当前DN的数据目录,可通过cm_ctl query -Cvd获取。

HCS场景,执行gs_stack需要进入沙箱。

步骤 6     若以上都不涉及,联系华为技术支持。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。