GaussDB CN故障-状态Down

举报
GaussDB 数据库 发表于 2025/12/09 14:45:59 2025/12/09
【摘要】 故障现象查询集群状态,CN组件状态为Down,产生CN服务异常告警。故障原因可能原因有以下:虚拟机故障产生CN服务异常告警。磁盘故障导致CN组件Down,产生CN服务异常告警。网卡故障导致CN组件Down,产生CN服务异常告警。端口冲突导致CN组件Down,产生CN服务异常告警。主动停止CN组件,产生CN服务异常告警。处理方法步骤 1     登录故障的CN节点,切换至Ruby用户,查询集群...
  • 故障现象

查询集群状态,CN组件状态为Down,产生CN服务异常告警。

  • 故障原因

可能原因有以下:

  1. 虚拟机故障产生CN服务异常告警。
  2. 磁盘故障导致CN组件Down,产生CN服务异常告警。
  3. 网卡故障导致CN组件Down,产生CN服务异常告警。
  4. 端口冲突导致CN组件Down,产生CN服务异常告警。
  5. 主动停止CN组件,产生CN服务异常告警。
  • 处理方法

步骤 1     登录故障的CN节点,切换至Ruby用户,查询集群状态。

su - Ruby

cm_ctl query -Cvd

21.png

如上图,集群状态DegradedCN组件Down

若故障节点无法登录,则说明操作系统故障或网络等故障无法连接,需排查节点无法连接原因。

若可正常连接,继续向下执行。

步骤 2     当前节点,执行以下命令,查看操作系统是否发生过重启:

who -b

22.png

如上图表示操作系统于2022-10-20 16:47发生过重启。

如发生过操作系统重启,若非人为主动重启,需联系华为技术支持排查操作系统重启原因。

继续向下执行。

步骤 3     当前节点,执行以下命令,查看CN进程启动是否存在以及重启时间。

ps ux | grep cn | grep -v grep

23.png

如上图表示,CN进程在16:03启动。

如果进程存在,1min后再次查询集群状态,CN会恢复为Normal或者Deleted,若无变化,则联系华为技术支持进一步定位,若进程不断重启,则参考5 CN故障-启动失败章节定位。

若进程不存在,则继续步骤4

步骤 4     当前节点,查看cm_agent日志,打开对应时间点的cm_agent-***.log日志。

如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志。

cd $GAUSSLOG/cm/cm_agent

vim cm_agent-*.log;

24.png

步骤 5     cm_agent日志中搜索关键词g_cnDiskDamage=1

若存在,则原因为数据/日志磁盘损坏或磁盘满,参考步骤10

若不存在,继续步骤6

25.png

说明:

1.4(V005R001C20)版本及以前版本,搜索cn_disk_damage=1关键词,1.4(V005R001C20)以后版本搜索g_cnDiskDamage=1关键词。

步骤 6     cm_agent日志中搜索关键词port_conflict=1

若存在,则原因为端口冲突,参考步骤11

若不存在,继续步骤7

26.png

步骤 7     cm_agent日志中搜索关键词g_cnNicDown=1

若存在,则原因为网卡故障,参考步骤12

若不存在,继续步骤8

27.png

说明:

1.4(V005R001C20)版本及以前版本,搜索cn_nic_Down=1关键词,1.4(V005R001C20)以后版本搜索g_cnNicDown=1关键词。

步骤 8     cm_agent日志中搜索关键词cn_manual_stop=1

若存在,则原因为手动停止,参考步骤13

若不存在,则联系华为技术支持。

28.png

步骤 9     查看对应故障CN的磁盘是否有故障,数据目录是否存在以及权限是否正确,如无故障则检查是否磁盘满。

步骤 10     查看端口占用进程。

lsof -i:端口号

210.png

找到进程后重启进程。

kill -9 pid

须知:kill -9 pid为高危操作,执行前需联系华为技术支持确认。

步骤 11     联系技术支持排查是否存在网卡故障。

步骤 12     查看是否有人手动停止,如非人为停止,则需要继续排查CMS日志,同时联系华为技术支持。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。