GaussDB(DWS)快照失败排查讨论(内核侧排查,需要登录后台)
【问题描述】
HC/HCS/HCSO集群DWS前端界面显示快照失败、纯软集群FI管控面调用备份任务显示失败、后台执行备份命令失败
【问题影响】
影响集群无可用备份集,快照失败对业务侧无影响
【备份失败问题定位基础准备】
1)备份调用流程:
DWS管控面/FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach
2)备份失败需要查看日志路径:
HC/HCS/HCSO集群,管控面调用日志,在下发节点沙箱外查看:
/home/Ruby/log/cloud-dws-deploy.log
管控面归档日志:/home/Ruby/archivelog
HC/HCS/HCSO备份内核日志:/var/chroot/DWS/manager/backup/log
线下集群备份内核日志:$GAUSSLOG/roach/agent
【排查过程】
以下思路仅适合由于备份内核失败场景,管控面调度失败不适用
步骤1:找任意节点查看备份内核日志,确认备份下发节点:
沙箱内进行备份日志目录cd /DWS/manager/backup/log
注:此目录为HC/HCS/HCSO集群备份日志目录,线下集群进入对应备份目录。
grep -i "Master IP:" *
步骤2:登录备份下发节点确认首次备份报错节点:
从本次备份开始搜索ERROR关键字,根据本次备份第一次报错,找到上报失败节点:
步骤3:登录首次备份失败节点,查看备份失败原因
从本次报错开始搜索ERROR关键字,确定备份失败原因:
根据以上报错信息可知本次失败由于OBS返回错误码导致备份失败,继续协调OBS返回错误码原因。
注:根据以上步骤查到导致备份失败根本原因后现场规避采用方式不同,可联系华为工程师进行判断。
- 点赞
- 收藏
- 关注作者
评论(0)