线下dws使用nbu备份场景故障处理思路
一、场景提示
1、部署前提:roach_client需和部署节点的系统一致,版本和集群版本一致
2、命令调用顺序:FI管控面-> GaussRoach.py(备份场景使用)/SyncDataToStby.py(容灾场景使用) -> gs_roach
3、日志路径:
controller日志:/var/log/Bigdata/mpp/omm/roach/controller
agent日志:/var/log/Bigdata/mpp/omm/roach/agent
二、故障排查
1、首先排查任意节点agent日志,确认主节点,即fi命令下发节点
grep -i "Master IP:" roach_agentxxx.log
2、master节点
查看controller日志,获取FI下发调GaussRoach.py命令备用:grep -i command_dict controllerxxx.log
这里可以获取一些调用命令的参数信息,如:nbu-media-list参数获取roach_client客户端地址
3、在master节点
继续排查controller和agent日志
从GaussRoach.py命令下发时间点开始,查找第一个error。
查看agent日志,同样查找第一个error,关注error前的日志,找到第一个报错节点。
注意,error前的部分info信息里可能也有用,向前多翻几页。
4、在第一个报错节点:
查看agent日志,根据报错信息处理。
5、如果涉及客户端问题,可以登录roach_client客户端节点
可以通过ps -ef|grep roach 过滤获得客户端日志分析。
6、roach_client产生core的场景,可以在集群软件安装目录获取roach_client.symbol文件并使用gdb解core。
注意:symbol文件需和roach_client环境一致,并非和集群环境一致,如果客户端和集群环境不一致,需要额外途径获取symbol文件。
symbol文件压缩包路径:$GAUSSHOME/bin/GaussDB-xxxxxxxxxxxxxx-symbol.tar.gz
7、gdb调试,
基础命令:gdb roach_client core文件
打印堆栈:bt
更多gdb相关命令参考其它gdb使用文档。
参考:
- 点赞
- 收藏
- 关注作者
评论(0)