GaussDB容灾搭建流程异常

举报
GaussDB 数据库 发表于 2025/12/09 15:10:28 2025/12/09
【摘要】 故障现象执行容灾搭建流程出现异常,如:容灾搭建流程返回失败。容灾搭建流程超时。容灾搭建流程超出预期时间仍未结束。故障原因可能原因有以下:主备集群间网络异常,容灾使用的IP或PORT未开放。跨集群获取全量数据时因容灾用户信息异常,导致不断尝试连接无法完成容灾搭建。在主集群数据量较大,或者异地网络带宽较小时,搭建流程设置超时时间不合理,可能会出现灾备集群未完成数据拷贝,主集群就已经超时退出容灾搭...
  • 故障现象

执行容灾搭建流程出现异常,如:

  1. 容灾搭建流程返回失败。
  2. 容灾搭建流程超时。
  3. 容灾搭建流程超出预期时间仍未结束。
  • 故障原因

可能原因有以下:

  1. 主备集群间网络异常,容灾使用的IPPORT未开放。
  2. 跨集群获取全量数据时因容灾用户信息异常,导致不断尝试连接无法完成容灾搭建。
  3. 在主集群数据量较大,或者异地网络带宽较小时,搭建流程设置超时时间不合理,可能会出现灾备集群未完成数据拷贝,主集群就已经超时退出容灾搭建流程的情况。
  • 处理方法

步骤 1     查看OM日志。

登录到容灾搭建相关命令在灾备集群执行节点,执行如下命令进入OM日志目录:

cd $GAUSSLOG/om/

选择相关时间段gs_streaming_disaster_recovery-*.log日志,查看日志中对应时间点关键词:[prepare_disaster_info][streaming_disaster_recovery_start]

容灾搭建所处流程判断:

1.prepare_disaster_info流程。

2.streaming_disaster_recovery_start流程。

步骤 2     不同流程中常见异常。

prepare_disaster_info流程中常见异常:

gs_ctl build -D xxx -M standby -b copy_secure_files

执行上述命令上报无法连接。

面对这类异常,请针对报错信息中显示的对端IPPORT信息使用ping命令检测IPcurl命令检查PORT是否能正常访问。如果无法正常访问,需要先处理网络异常。

streaming_disaster_recovery_start流程中常见异常:

gs_ctl build -D xxx -M hadr_main_standby -r 7200 -q -Q force_copy_from_local -U <容灾用户名>

执行上述命令上报容灾用户信息非法,无法接入主集群。

面对这类异常,有以下处理方法:

 请登录主集群数据库,使用select * from pg_user或者\du命令查询当前数据库用户信息,观察是否有容灾用户存在。

 请登录主集群数据库,使用show default_transaction_read_only检查主集群是否处于只读状态,导致容灾用户未能创建。

步骤 3     容灾搭建出现主集群上报超时打印:

Result exception error : Failed to do check main standby connection. Because Waiting timeout: XXs

面对这类异常:

若灾备集群处于搭建过程中或者搭建已完成,可直接重入主集群容灾搭建流程,主集群会重新进入等待灾备连接状态。若能重新设置超时参数,可根据主集群数据量大小与异地网络带宽,重新估算超时时间后再执行重入。

若灾备集群搭建过程也失败了,需要先针对灾备集群进行故障处理,再重入集群容灾搭建流程。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。