GaussDB (DWS) 集群管理系列:实例长链接失败告警
【摘要】 实例长链接失败告警
实例长链接失败告警
告警汇总
告警编号
- 十进制编号:
1078919243
- 十六进制编号:
0x404F004B
告警信息
-
中文名称:
CM_AGENT链接数据库服务失败
-
英文名称:
AbnormalCmaConnFail
代码中告警英文名称为
ALM_AI_AbnormalCmaConnFail
-
英文附加信息:
Long conn to instance %s failed
-
中文附加信息:
长链接实例%s失败
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
- DWS:
IMPORTANT
告警规则
核心规则
- 当cm_agent与CN/DN/GTM的长链接断开,但是实例进程存在时,触发该告警。
补充规则
- 当cm_agent与DN的长链接断开时,
- 如果DN正在build,则从
gaussdb.state
读取DN信息。读取成功时不上报该告警;否则上报该告警。 - 如果DN不在build,并且进程存在,则从
gaussdb.state
读取DN信息。当读取成功,并且读取结果表明DN角色Standby或Pending时,不上报该告警;否则上报该告警。
- 如果DN正在build,则从
- DN从备不触发该告警。
相关告警
- 长链接断开通常意味着实例发生异常,可能同时产生进程重启、实例状态异常等告警,极端情况下可能产生实例进程异常的告警。
- 1078919246 AbnormalInsRestart
- 1078919170 AbnormalGTMInst
- 1078919172 AbnormalDatanodeInst
- 1078919176 AbnormalGTMProcess
- 1078919177 AbnormalCoordinatorProcess
- 1078919184 AbnormalDatanodeProcess
- 对于DN实例,还可能对应build失败告警。
- 1078919245 AbnormalBuildFail
版本分析
- 内核版本
id | name | C80 | 651 | 8.0 | 8.1 |
---|---|---|---|---|---|
1078919243 | AbnormalCmaConnFail | ✔️ | ✔️ | ✔️ | ✔️ |
- FIM支持情况待补充。
- DWS已支持。
测试验证
保证cm_agent正常运行,分别测试如下场景(概率性产生长链接失败告警):
- 重启CN
- 重启主DN
- 重启备DN
- 重启主GTM
- 重启备GTM
也可以通过执行switchover,构造长链接失败的告警。
cm_agent日志如下:
# 重启CN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance cn_5001 failed".
# 重启主DN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance dn_6001 failed".
# 重启备DN
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance dn_6006 failed".
# 重启主GTM
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance gtm_1001 failed".
# 手动执行swichover,重启备GTM
Alarm LOG: Reporting alarm id 1078919243 with type 0 and info "Long conn to instance gtm_1001 failed".
告警相关日志信息如下:
# 重启CN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Long#conn#to#instance#cn_5001#failed#长链接实例cn_5001失败
# 重启主DN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Long#conn#to#instance#dn_6001#failed#长链接实例dn_6001失败
# 重启备DN
alarm 1078919243 0 0009000000000009001200070059mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Long#conn#to#instance#dn_6006#failed#长链接实例dn_6006失败
# 重启主GTM
alarm 1078919243 0 0009000000000009001200080061mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Long#conn#to#instance#gtm_1001#failed#长链接实例gtm_1001失败
# 手动执行swichover,重启备GTM
alarm 1078919243 0 0009000000000009001200080061mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Long#conn#to#instance#gtm_1001#failed#长链接实例gtm_1001失败
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)