GaussDB容灾性能指标异常
- 故障现象
通过《管理员指南》中“两地三中心跨Region容灾 > 基于流式复制的异地容灾解决方案 > 基本操作 > 查询主备集群容灾状态”章节的操作描述,可以获得集群级RPO数值,在业务低谷期该数值持续增长,说明容灾出现了异常。
灾备集群CN显示Need repair(Disconnected)。
灾备集群节点CM_AGENT故障。该节点上CN实例状态显示为Deleted;DN、GTM实例状态显示为Unknown;部分首备显示Main Standby Need repair(Connecting)。
- 故障原因
灾备集群CN显示Need repair现象原因可能有以下:
- 灾备集群CN对应的主集群所有具有容灾关系的CN状态异常。
- 灾备集群CN与对应主集群所有具有容灾关系的CN之间网络异常。
灾备集群节点CM_AGENT故障原因可能有以下:
- 节点CM_AGENT发生故障。
- 该节点上CN、DN、GTM状态无法上报cm_server,CN实例发生剔除,DN、GTM实例显示为Unknown。
- 若该节点上存在首备实例(Main Standby),则会触发首备切换。由于原首备实例并无异常,并与主集群该分片主DN存在正常流复制关系,而主集群该分片主DN只允许一个首备的连接,导致新首备无法连接到主集群分片主DN,实例状态显示为Main Standby Need repair(Connecting)。
- 处理方法
灾备集群CN显示Need repair现象处理:
步骤 1 观察流式容灾CN断连告警“ALM_AI_StreamingDisasterRecoveryCnDisconnected”(告警描述参见《告警参考》)的details信息,可了解灾备集群CN对应的主集群所有具有容灾关系的CN信息。核查主集群对应CN是否存在故障,灾备集群CN对应的主集群所有具有容灾关系的CN之间网络是否存在异常并进行排除。
步骤 2 修复主集群所有具有容灾关系的CN,灾备集群CN会自行重连。故障排除后RPO可恢复。
步骤 3 灾备集群CN对应的主集群所有具有容灾关系的CN都无法及时修复,可主动调用
步骤 4 cm_ctl stop -n NODEID -D DATADIR命令停掉灾备集群的相关CN实例,RPO可恢复。等主集群具有容灾关系的CN被修复后,可使用cm_ctl start -n NODEID -D DATADIR重启灾备集群的CN。
说明:
为避免网络闪断导致灾备集群CN对应的主集群CN频繁发生切换(切换会导致数据的重新拷贝),容灾CN优先尝试连接上一次成功连接的主集群CN 3000次,在这之后会在主集群所有具有容灾关系的CN之间进行轮询。在尝试连接的这个阶段可能会出现短暂的RPO增长,为正常现象。
----结束
灾备集群节点CM_AGENT故障处理:
步骤 1 观察灾备集群的cm_agent告警信息“ALM_AI_AbnormalCMSProcess”,并尝试修复发生故障的cm_agent(告警描述和修复方法参见《告警参考》)。故障排除后RPO可恢复。
步骤 2 如果故障的cm_agent短时间内无法修复,执行gs_ctl stop -D DATADIR命令或者kill命令手动停止该节点上的DN进程,RPO可恢复。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)