GaussDB节点修复/替换失败

举报
GaussDB 数据库 发表于 2025/12/09 14:27:15 2025/12/09
【摘要】 故障现象管控面节点修复/替换任务流失败或手动执行gs_replace失败。故障原因可能原因有以下:不满足节点修复/替换条件。替换节点与当前集群内其他节点网络不通,端口不可用,磁盘异常,所有节点MTU值不一致。说明:节点修复不涉及。om_agent不存在或报错时间点om_agent进程没启动导致pssh/pscp不可用。文件权限不足或二进制文件缺失。处理方法步骤 1     登录DBS运维管理...
  • 故障现象

管控面节点修复/替换任务流失败或手动执行gs_replace失败。

  • 故障原因

可能原因有以下:

不满足节点修复/替换条件。

替换节点与当前集群内其他节点网络不通,端口不可用,磁盘异常,所有节点MTU值不一致。

说明:

节点修复不涉及。

om_agent不存在或报错时间点om_agent进程没启动导致pssh/pscp不可用。

文件权限不足或二进制文件缺失。

  • 处理方法

步骤 1     登录DBS运维管理平台,查看节点替换任务流,找到失败步骤以及任务流下发节点。

步骤 2     登录任务下发节点。

步骤 3     查看/home/Ruby/log/adaptor_log/om_adaptor.log日志中任务流开始时间点后,查找相关报错。

可搜索关键字ERROR,failed,Failed,GAUSS-等关键字快速检索,记录报错时间,如果没找到也可直接跳到下一步。

步骤 4     查看/home/Ruby/log/om_agent/agent.log日志,搜索任务流开始到结束时间点是否有报错日志,看报错日志中是否有关键信息。

步骤 5     查看GAUSSLOG/om/gs_replace_xxx.log,如果是最后一次执行节点修复失败,可直接在日志最后查看报错信息。此时报错信息中如果有某个节点执行失败,执行下一步。

步骤 6     登录报错节点,查看$GAUSSLOG/om/gs_local_xxx.log,到文件最后查看关键信息。

步骤 7     联系华为技术支持。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。