GaussDB (DWS) 集群管理系列:DN实例状态异常告警

举报
CloudGanker 发表于 2021/11/25 16:37:55 2021/11/25
【摘要】 DN实例状态异常告警

DN实例状态异常告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919172
  • 十六进制编号:0x404F0004

告警信息

  • 中文名称:Datanode实例异常

  • 英文名称:AbnormalDatanodeInst

    代码中告警英文名称为ALM_AI_AbnormalDatanodeInst

  • 英文附加信息:Data instance %s is abnormal

  • 中文附加信息:数据实例%s异常

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 当DN自身和对端的角色为一主一备,即(Primary, Standby)(Standby, Primary)时,如果二者均处于Normal状态,则消除告警;否则计算主DN当前sentflush的日志差,如果差值大于4G,则上报告警。
    • receive_status.sender_flush_location, receive_status.sender_sent_location
  • 如果DN自身和对端的角色不为一主一备,且对端角色不是Pending(对端不是正在重启),则上报告警。
  • 其余情况,保持当前告警类型不变。

简单来说,当DN发生故障、主备之间日志差异较大时,产生该告警。

补充规则

  • cm_agent进程启动的5分钟内,不触发该告警。
  • DN从备不触发该告警。
  • 当DN异常时,自身和对端DN都可能上报实例异常的告警。
  • cm_agent与DN长链接异常时,不触发该告警(不影响其它节点上的触发情况)。

相关告警

  • DN实例异常告警的场景较为复杂,与其它告警都可能有关系,因此暂不一一列出。

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919172 AbnormalDatanodeInst ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

分别做如下操作:

  • 杀死主DN进程
  • 杀死主DN对端节点上的备DN进程
  • 杀死备DN对端节点上的主DN进程
  • 对本节点备DN执行switchover

cm_agent日志如下:

# 杀死主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 杀死对端主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".
# 杀死对端备DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 对本节点备DN执行switchover
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".

告警信息如下:

alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Data#instance#dn_6001#is#abnormal#数据实例dn_6001异常
alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Data#instance#dn_6006#is#abnormal#数据实例dn_6006异常

已知问题

8.0.0版本该告警并不判断主备日志差值大于4G。备DN处于Catchup状态就会触发该告警。可根据下面流程判断是否属于这种情况:

  • 判断是否为2020年330版本:

    A3A03900-65C2-4DB5-A13A-0188A2E4EA17.png

  • 查看告警上报时间点的cm_server日志,是否存在相关DN处于Catchup状态:

    image-20211208191227939.png

备DN出现Catchup状态属于集群业务运行中的正常现象。如果只上报该告警,并且业务未受影响,则无需太过关注。后续版本已优化该机制,详情参考前面内容。

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。