GaussDB (DWS) 集群管理系列:实例长链接失败告警

举报
CloudGanker 发表于 2021/11/25 16:40:39 2021/11/25
【摘要】 实例长链接失败告警

实例长链接失败告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919243
  • 十六进制编号:0x404F004B

告警信息

  • 中文名称:CM_AGENT链接数据库服务失败

  • 英文名称:AbnormalCmaConnFail

    代码中告警英文名称为ALM_AI_AbnormalCmaConnFail

  • 英文附加信息:Long conn to instance %s failed

  • 中文附加信息:长链接实例%s失败

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 当cm_agent与CN/DN/GTM的长链接断开,但是实例进程存在时,触发该告警。

补充规则

  • 当cm_agent与DN的长链接断开时,
    • 如果DN正在build,则从gaussdb.state读取DN信息。读取成功时不上报该告警;否则上报该告警。
    • 如果DN不在build,并且进程存在,则从gaussdb.state读取DN信息。当读取成功,并且读取结果表明DN角色Standby或Pending时,不上报该告警;否则上报该告警。
  • DN从备不触发该告警。

相关告警

  • 长链接断开通常意味着实例发生异常,可能同时产生进程重启、实例状态异常等告警,极端情况下可能产生实例进程异常的告警。
    • 1078919246 AbnormalInsRestart
    • 1078919170 AbnormalGTMInst
    • 1078919172 AbnormalDatanodeInst
    • 1078919176 AbnormalGTMProcess
    • 1078919177 AbnormalCoordinatorProcess
    • 1078919184 AbnormalDatanodeProcess
  • 对于DN实例,还可能对应build失败告警。
    • 1078919245 AbnormalBuildFail

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919243 AbnormalCmaConnFail ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

保证cm_agent正常运行,分别测试如下场景(概率性产生长链接失败告警):

  • 重启CN
  • 重启主DN
  • 重启备DN
  • 重启主GTM
  • 重启备GTM

也可以通过执行switchover,构造长链接失败的告警。

cm_agent日志如下:

# 重启CN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance cn_5001 failed".
# 重启主DN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance dn_6001 failed".
# 重启备DN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance dn_6006 failed".
# 重启主GTM
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance gtm_1001 failed".
# 手动执行swichover,重启备GTM
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance gtm_1001 failed".

告警相关日志信息如下:

# 重启CN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Long#conn#to#instance#cn_5001#failed#长链接实例cn_5001失败
# 重启主DN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Long#conn#to#instance#dn_6001#failed#长链接实例dn_6001失败
# 重启备DN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Long#conn#to#instance#dn_6006#failed#长链接实例dn_6006失败
# 重启主GTM
alarm 1078919243 0 0009000000000009001200080061mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Long#conn#to#instance#gtm_1001#failed#长链接实例gtm_1001失败
# 手动执行swichover,重启备GTM
alarm 1078919243 0 0009000000000009001200080061mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Long#conn#to#instance#gtm_1001#failed#长链接实例gtm_1001失败

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。