GaussDB容灾性能指标异常

举报
GaussDB 数据库 发表于 2025/12/09 15:16:49 2025/12/09
【摘要】 故障现象通过《管理员指南》中“两地三中心跨Region容灾 > 基于流式复制的异地容灾解决方案 > 基本操作 > 查询主备集群容灾状态”章节的操作描述,可以获得集群级RPO数值,在业务低谷期该数值持续增长,说明容灾出现了异常。灾备集群CN显示Need repair(Disconnected)。灾备集群节点CM_AGENT故障。该节点上CN实例状态显示为Deleted;DN、GTM实例状态显示...
  • 故障现象

通过《管理员指南》中“两地三中心跨Region容灾 > 基于流式复制的异地容灾解决方案 > 基本操作 > 查询主备集群容灾状态”章节的操作描述,可以获得集群级RPO数值,在业务低谷期该数值持续增长,说明容灾出现了异常。

灾备集群CN显示Need repair(Disconnected)

灾备集群节点CM_AGENT故障。该节点上CN实例状态显示为DeletedDNGTM实例状态显示为Unknown;部分首备显示Main Standby Need repair(Connecting)

  • 故障原因

灾备集群CN显示Need repair现象原因可能有以下:

  1. 灾备集群CN对应的主集群所有具有容灾关系的CN状态异常。
  2. 灾备集群CN与对应主集群所有具有容灾关系的CN之间网络异常。

灾备集群节点CM_AGENT故障原因可能有以下:

  1. 节点CM_AGENT发生故障。
  2. 该节点上CNDNGTM状态无法上报cm_serverCN实例发生剔除,DNGTM实例显示为Unknown
  3. 若该节点上存在首备实例(Main Standby),则会触发首备切换。由于原首备实例并无异常,并与主集群该分片主DN存在正常流复制关系,而主集群该分片主DN只允许一个首备的连接,导致新首备无法连接到主集群分片主DN,实例状态显示为Main Standby Need repair(Connecting)
  • 处理方法

灾备集群CN显示Need repair现象处理:

步骤 1     观察流式容灾CN断连告警“ALM_AI_StreamingDisasterRecoveryCnDisconnected”(告警描述参见《告警参考》)的details信息,可了解灾备集群CN对应的主集群所有具有容灾关系的CN信息。核查主集群对应CN是否存在故障,灾备集群CN对应的主集群所有具有容灾关系的CN之间网络是否存在异常并进行排除。

步骤 2     修复主集群所有具有容灾关系的CN,灾备集群CN会自行重连。故障排除后RPO可恢复。

步骤 3     灾备集群CN对应的主集群所有具有容灾关系的CN都无法及时修复,可主动调用

步骤 4     cm_ctl stop -n NODEID -D DATADIR命令停掉灾备集群的相关CN实例,RPO可恢复。等主集群具有容灾关系的CN被修复后,可使用cm_ctl start -n NODEID -D DATADIR重启灾备集群的CN

说明:

为避免网络闪断导致灾备集群CN对应的主集群CN频繁发生切换(切换会导致数据的重新拷贝),容灾CN优先尝试连接上一次成功连接的主集群CN 3000次,在这之后会在主集群所有具有容灾关系的CN之间进行轮询。在尝试连接的这个阶段可能会出现短暂的RPO增长,为正常现象。

----结束

灾备集群节点CM_AGENT故障处理:

步骤 1     观察灾备集群的cm_agent告警信息“ALM_AI_AbnormalCMSProcess”,并尝试修复发生故障的cm_agent(告警描述和修复方法参见《告警参考》)。故障排除后RPO可恢复。

步骤 2     如果故障的cm_agent短时间内无法修复,执行gs_ctl stop -D DATADIR命令或者kill命令手动停止该节点上的DN进程,RPO可恢复。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。