GaussDB (DWS) 集群管理系列:DN redo慢告警
【摘要】 DN redo慢告警
DN redo慢告警
告警汇总
告警编号
- 十进制编号:
1078919280
- 十六进制编号:
0x404F0070
告警信息
-
中文名称:
DN日志Redo慢
-
英文名称:
DatanodeRedoSlow
代码中告警英文名称为
ALM_AI_DatanodeRedoSlow
-
英文附加信息:
Dn %u still has more than %s xlogs need to redo.
-
中文附加信息:
Dn %u redo未完成的日志量超过%s限制
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
-
DWS:
IMPORTANT
该告警项在snas_cm_cmd脚本中,与ALM_AI_StartPluginFailed告警项的ID重复。修复中。
告警规则
核心规则
- 当满足
DN角色为Standby,对端角色为Primary
时,检查DN上日志的replay
和flush
的位置并计算差值。当差值大于4G
时,上报告警;小于2G
时,消除告警;中间状态为临界区,保持告警类型不变。
补充规则
- 当不满足
DN角色为Standby,对端角色为Primary
的条件时,告警类型保持不变。 - cm_agent进程启动的5分钟内,不触发该告警。
可能存在的问题:当触发告警时,如果备机升主,该告警不会自动清除。
相关告警
- 暂无。
版本分析
- 内核版本
id | name | C80 | 651 | 8.0 | 8.1 |
---|---|---|---|---|---|
1078919280 | DatanodeRedoSlow | ❌ | ❌ | ✔️ | ✔️ |
- FIM支持情况待补充。
- DWS从8.1版本开始支持。
测试验证
白盒修改代码,控制备机replay
和flush
的差别超过4G。cm_agent日志如下:
Alarm LOG: Reporting alarm id 1078919280 with type 0 and info "Dn 6006 still has more than 4GB xlogs need to redo.".
告警日志信息如下:
alarm 1078919280 0 0009000000000009001200070090mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Dn#6006#still#has#more#than#4GB#xlogs#need#to#redo.#Dn#6006#redo未完成的日志量超过4GB限制
告警消除的日志信息如下:
alarm 1078919280 2 0009000000000009001200070001mpp1p1s1d127.0.0.1ecs-env-3108dn_6006#
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)