GaussDB (DWS) 集群管理系列:DN实例状态异常告警
【摘要】 DN实例状态异常告警
DN实例状态异常告警
告警汇总
告警编号
- 十进制编号:
1078919172
- 十六进制编号:
0x404F0004
告警信息
-
中文名称:
Datanode实例异常
-
英文名称:
AbnormalDatanodeInst
代码中告警英文名称为
ALM_AI_AbnormalDatanodeInst
-
英文附加信息:
Data instance %s is abnormal
-
中文附加信息:
数据实例%s异常
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
- DWS:
IMPORTANT
告警规则
核心规则
- 当DN自身和对端的角色为一主一备,即
(Primary, Standby)
或(Standby, Primary)
时,如果二者均处于Normal
状态,则消除告警;否则计算主DN当前sent
和flush
的日志差,如果差值大于4G
,则上报告警。receive_status.sender_flush_location
,receive_status.sender_sent_location
- 如果DN自身和对端的角色不为一主一备,且对端角色不是
Pending
(对端不是正在重启),则上报告警。 - 其余情况,保持当前告警类型不变。
简单来说,当DN发生故障、主备之间日志差异较大时,产生该告警。
补充规则
- cm_agent进程启动的5分钟内,不触发该告警。
- DN从备不触发该告警。
- 当DN异常时,自身和对端DN都可能上报实例异常的告警。
- cm_agent与DN长链接异常时,不触发该告警(不影响其它节点上的触发情况)。
相关告警
- DN实例异常告警的场景较为复杂,与其它告警都可能有关系,因此暂不一一列出。
版本分析
- 内核版本
id | name | C80 | 651 | 8.0 | 8.1 |
---|---|---|---|---|---|
1078919172 | AbnormalDatanodeInst | ✔️ | ✔️ | ✔️ | ✔️ |
- FIM支持情况待补充。
- DWS已支持。
测试验证
分别做如下操作:
- 杀死主DN进程
- 杀死主DN对端节点上的备DN进程
- 杀死备DN对端节点上的主DN进程
- 对本节点备DN执行switchover
cm_agent日志如下:
# 杀死主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 杀死对端主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".
# 杀死对端备DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 对本节点备DN执行switchover
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".
告警信息如下:
alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Data#instance#dn_6001#is#abnormal#数据实例dn_6001异常
alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Data#instance#dn_6006#is#abnormal#数据实例dn_6006异常
已知问题
8.0.0版本该告警并不判断主备日志差值大于4G
。备DN处于Catchup状态就会触发该告警。可根据下面流程判断是否属于这种情况:
-
判断是否为2020年330版本:
-
查看告警上报时间点的cm_server日志,是否存在相关DN处于Catchup状态:
备DN出现Catchup状态属于集群业务运行中的正常现象。如果只上报该告警,并且业务未受影响,则无需太过关注。后续版本已优化该机制,详情参考前面内容。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)