线下dws使用nbu备份场景故障处理思路

举报
dgt 发表于 2025/07/24 09:33:56 2025/07/24
【摘要】 DWS roach备份调用顺序:FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach

 一、场景提示

1、部署前提:roach_client需和部署节点的系统一致,版本和集群版本一致

2、命令调用顺序:FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach

3、日志路径:

controller日志:/var/log/Bigdata/mpp/omm/roach/controller

agent日志:/var/log/Bigdata/mpp/omm/roach/agent

 

二、故障排查

1、首先排查任意节点agent日志,确认主节点,即fi命令下发节点

grep -i "Master IP:" roach_agentxxx.log

2、master节点

查看controller日志,获取FI下发调GaussRoach.py命令备用:grep -i command_dict  controllerxxx.log

这里可以获取一些调用命令的参数信息,如:nbu-media-list参数获取roach_client客户端地址

 3、在master节点

继续排查controller和agent日志

从GaussRoach.py命令下发时间点开始,查找第一个error。

查看agent日志,同样查找第一个error,关注error前的日志,找到第一个报错节点。

注意,error前的部分info信息里可能也有用,向前多翻几页。

 4、在第一个报错节点:

查看agent日志,根据报错信息处理。 

5、如果涉及客户端问题,可以登录roach_client客户端节点

可以通过ps -ef|grep roach 过滤获得客户端日志分析。 

6、roach_client产生core的场景,可以在集群软件安装目录获取roach_client.symbol文件并使用gdb解core。

注意:symbol文件需和roach_client环境一致,并非和集群环境一致,如果客户端和集群环境不一致,需要额外途径获取symbol文件。

symbol文件压缩包路径:$GAUSSHOME/bin/GaussDB-xxxxxxxxxxxxxx-symbol.tar.gz

7、gdb调试,

基础命令:gdb roach_client core文件

打印堆栈:bt

更多gdb相关命令参考其它gdb使用文档。

 

参考:

https://bbs.huaweicloud.com/blogs/382926

https://bbs.huaweicloud.com/blogs/255344

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。