GaussDB容灾搭建流程异常
- 故障现象
执行容灾搭建流程出现异常,如:
- 容灾搭建流程返回失败。
- 容灾搭建流程超时。
- 容灾搭建流程超出预期时间仍未结束。
- 故障原因
可能原因有以下:
- 主备集群间网络异常,容灾使用的IP或PORT未开放。
- 跨集群获取全量数据时因容灾用户信息异常,导致不断尝试连接无法完成容灾搭建。
- 在主集群数据量较大,或者异地网络带宽较小时,搭建流程设置超时时间不合理,可能会出现灾备集群未完成数据拷贝,主集群就已经超时退出容灾搭建流程的情况。
- 处理方法
步骤 1 查看OM日志。
登录到容灾搭建相关命令在灾备集群执行节点,执行如下命令进入OM日志目录:
cd $GAUSSLOG/om/
选择相关时间段gs_streaming_disaster_recovery-*.log日志,查看日志中对应时间点关键词:[prepare_disaster_info][streaming_disaster_recovery_start]。
容灾搭建所处流程判断:
1.prepare_disaster_info流程。
2.streaming_disaster_recovery_start流程。
步骤 2 不同流程中常见异常。
prepare_disaster_info流程中常见异常:
gs_ctl build -D xxx -M standby -b copy_secure_files
执行上述命令上报无法连接。
面对这类异常,请针对报错信息中显示的对端IP、PORT信息使用ping命令检测IP,curl命令检查PORT是否能正常访问。如果无法正常访问,需要先处理网络异常。
streaming_disaster_recovery_start流程中常见异常:
gs_ctl build -D xxx -M hadr_main_standby -r 7200 -q -Q force_copy_from_local -U <容灾用户名>
执行上述命令上报容灾用户信息非法,无法接入主集群。
面对这类异常,有以下处理方法:
− 请登录主集群数据库,使用select * from pg_user或者\du命令查询当前数据库用户信息,观察是否有容灾用户存在。
− 请登录主集群数据库,使用show default_transaction_read_only检查主集群是否处于只读状态,导致容灾用户未能创建。
步骤 3 容灾搭建出现主集群上报超时打印:
Result exception error : Failed to do check main standby connection. Because Waiting timeout: XXs
面对这类异常:
若灾备集群处于搭建过程中或者搭建已完成,可直接重入主集群容灾搭建流程,主集群会重新进入等待灾备连接状态。若能重新设置超时参数,可根据主集群数据量大小与异地网络带宽,重新估算超时时间后再执行重入。
若灾备集群搭建过程也失败了,需要先针对灾备集群进行故障处理,再重入集群容灾搭建流程。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)