GaussDB (DWS) 集群管理系列:GTM实例状态异常告警

举报
CloudGanker 发表于 2021/11/25 16:39:31 2021/11/25
【摘要】 GTM实例状态异常告警

GTM实例状态异常告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919170
  • 十六进制编号:0x404F0002

告警信息

  • 中文名称:GTM实例异常

  • 英文名称:AbnormalGTMInst

    代码中告警英文名称为ALM_AI_AbnormalGTMInst

  • 英文附加信息:GTM instance %s is abnormal

  • 中文附加信息:GTM实例%s异常

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 当GTM实例之间的链接正常时
    • 如果当前GTM角色为Primary,且处于Sync状态,则消除告警
    • 如果当前GTM角色为Standby,则消除告警
  • 当GTM实例之间的链接断开时
    • 如果当前GTM角色不为Pending,则上报告警
  • 其余情况为临界区,保持告警类型不变

补充规则

  • cm_agent进程启动的5分钟内,不触发该告警。
  • 当GTM异常时,自身和对端GTM都可能上报实例异常的告警。
  • cm_agent与GTM长链接异常时,不触发该告警(不影响其它节点上的触发情况)。

相关告警

  • GTM实例异常告警的场景较为复杂,与其它告警都可能有关系,因此暂不一一列出。

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919170 AbnormalGTMInst ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

分别执行如下操作:

  • 杀死对端GTM备(当前节点GTM为主)
  • 杀死对端GTM主(当前节点GTM为备)

cm_agent日志如下:

# 杀死对端GTM备
Alarm LOG: Reporting alarm id 1078919170 with type 0 and info "GTM instance gtm_1001 is abnormal".
# 杀死对端GTM主
Alarm LOG: Reporting alarm id 1078919170 with type 0 and info "GTM instance gtm_1001 is abnormal".

告警信息如下:

alarm 1078919170 0 0009000000000009001200080054mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001GTM#instance#gtm_1001#is#abnormal#GTM实例gtm_1001异常

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。