GaussDB(DWS)快照失败排查讨论(内核侧排查,需要登录后台)

举报
上官寒雨 发表于 2022/11/10 11:20:16 2022/11/10
【摘要】 【问题描述】HC/HCS/HCSO集群DWS前端界面显示快照失败、纯软集群FI管控面调用备份任务显示失败、后台执行备份命令失败【问题影响】影响集群无可用备份集,快照失败对业务侧无影响【备份失败问题定位基础准备】1)备份调用流程:    DWS管控面/FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach2)备份失...

【问题描述】

HC/HCS/HCSO集群DWS前端界面显示快照失败、纯软集群FI管控面调用备份任务显示失败、后台执行备份命令失败

【问题影响】

影响集群无可用备份集,快照失败对业务侧无影响

【备份失败问题定位基础准备】

1)备份调用流程:

    DWS管控面/FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach

2)备份失败需要查看日志路径:

HC/HCS/HCSO集群,管控面调用日志,在下发节点沙箱外查看:

/home/Ruby/log/cloud-dws-deploy.log

管控面归档日志:/home/Ruby/archivelog 

HC/HCS/HCSO备份内核日志:/var/chroot/DWS/manager/backup/log

线下集群备份内核日志:$GAUSSLOG/roach/agent

【排查过程】

以下思路仅适合由于备份内核失败场景,管控面调度失败不适用

步骤1:找任意节点查看备份内核日志,确认备份下发节点:

沙箱内进行备份日志目录cd /DWS/manager/backup/log

注:此目录为HC/HCS/HCSO集群备份日志目录,线下集群进入对应备份目录。

grep -i "Master IP:" *

步骤2:登录备份下发节点确认首次备份报错节点:

从本次备份开始搜索ERROR关键字,根据本次备份第一次报错,找到上报失败节点:

步骤3:登录首次备份失败节点,查看备份失败原因

从本次报错开始搜索ERROR关键字,确定备份失败原因:

根据以上报错信息可知本次失败由于OBS返回错误码导致备份失败,继续协调OBS返回错误码原因。

注:根据以上步骤查到导致备份失败根本原因后现场规避采用方式不同,可联系华为工程师进行判断。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。