GaussDB (DWS) 集群管理系列:实例进程异常重启告警

举报
CloudGanker 发表于 2021/11/25 16:41:47 2021/11/25
【摘要】 实例进程异常重启告警

实例进程异常告警

告警汇总

CM告警汇总链接

告警编号

CN进程异常

  • 十进制编号:1078919177
  • 十六进制编号:0x404F0009

DN进程异常

  • 十进制编号:1078919184
  • 十六进制编号:0x404F0010

GTM进程异常

  • 十进制编号:1078919176
  • 十六进制编号:0x404F0008

CM_SERVER进程异常

  • 十进制编号:1078919227
  • 十六进制编号:0x404F003B

告警信息

CN进程异常

  • 中文名称:Coordinator进程异常

  • 英文名称:AbnormalCoordinatorProcess

    代码中告警英文名称为ALM_AI_AbnormalCoordinatorProcess

  • 英文附加信息:Start up coordinator instance %s failed, reason:%s

  • 中文附加信息:数据实例%s启动失败,原因:%s

DN进程异常

  • 中文名称:Datanode进程异常

  • 英文名称:AbnormalDatanodeProcess

    代码中告警英文名称为ALM_AI_AbnormalDatanodeProcess

  • 英文附加信息:Start up datanode instance %s failed, reason:%s

  • 中文附加信息:数据实例%s启动失败,原因:%s

GTM进程异常

  • 中文名称:GTM进程异常

  • 英文名称:AbnormalGTMProcess

    代码中告警英文名称为ALM_AI_AbnormalGTMProcess

  • 英文附加信息:Start up GTM instance %s failed, reason:%s

  • 中文附加信息:GTM实例%s启动失败,原因:%s

CM_SERVER进程异常

  • 中文名称:CM_SERVER进程异常

  • 英文名称:AbnormalCMSProcess

    代码中告警英文名称为ALM_AI_AbnormalCMSProcess

  • 英文附加信息:CM_SERVER instance %s process abnormal

  • 中文附加信息:CM_SERVER实例%s进程异常

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 当CN/DN/GTM/CM_SERVER实例进程不存在时,并且连续启动次数不小于3次,则触发告警;当实例进程存在时,消除告警。
    • 部分场景有例外,见下面补充规则。
  • 即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。

补充规则

  • 即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。
  • CN
    • 下面情况可直接显示原因:
      • 实例被手动停止
      • 端口冲突
      • CN被剔除
  • DN
    • 当DN磁盘损坏或者被手动停止时,不改变其告警类型。
    • 下列情况可直接显示原因:
      • 端口冲突
      • 磁盘满(仅DN备和从备触发)
      • 实例被手动停止(与上一条规则矛盾,实际上这种情况不会触发告警)
  • GTM
    • 下面情况可直接显示原因:
      • 实例被手动停止
      • 端口冲突
  • cm_server
    • 当cm_server被手动停止时,不改变其告警类型。

相关告警

  • 实例进程无法启动时,可能产生实例异常的告警。
    • 1078919170 AbnormalGTMInst
    • 1078919172 AbnormalDatanodeInst

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919177 AbnormalCoordinatorProcess ✔️ ✔️ ✔️ ✔️
1078919184 AbnormalDatanodeProcess ✔️ ✔️ ✔️ ✔️
1078919176 AbnormalGTMProcess ✔️ ✔️ ✔️ ✔️
1078919227 AbnormalCMSProcess ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

分别做如下操作:

  • 停止CN
  • 删除DN二进制文件,并杀死主DN进程
  • 删除DN二进制文件,并杀死备DN进程
  • 删除DN二进制文件,并杀死从备DN进程
  • 停止主GTM
  • 停止备GTM
  • 删除cm_server二进制文件,并杀死cm_server进程

cm_agent日志如下:

# 停止CN
StartStop LOG: Do not start cn because cn on current node has been manually stopped.
Alarm LOG: Reporting alarm id 1078919177 with type 0 and info "Start up coordinator instance cn_5001 failed, reason:stopped by users".
# 删除DN二进制文件,并杀死主DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6001 failed, reason:unknown".
# 删除DN二进制文件,并杀死备DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6006 failed, reason:unknown".
# 删除DN二进制文件,并杀死从备DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_3003 failed, reason:unknown".
# 停止主GTM
Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users".
# 停止备GTM
Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users".
# 删除cm_server二进制文件,并杀死cm_server进程
Alarm LOG: Reporting alarm id 1078919227 with type 0 and info "CM_SERVER instance cms_1 process abnormal".

告警信息如下:

# cn
alarm 1078919177 0 0009000000000009001200070117mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Start#up#coordinator#instance#cn_5001#failed,#reason:stopped#by#users#数据实例cn_5001启动失败,原因:stopped#by#users
# 主dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Start#up#datanode#instance#dn_6001#failed,#reason:unknown#数据实例dn_6001启动失败,原因:unknown
# 备dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Start#up#datanode#instance#dn_6006#failed,#reason:unknown#数据实例dn_6006启动失败,原因:unknown
# 从备dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_3003Start#up#datanode#instance#dn_3003#failed,#reason:unknown#数据实例dn_3003启动失败,原因:unknown
# gtm
alarm 1078919176 0 0009000000000009001200080110mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Start#up#GTM#instance#gtm_1001#failed,#reason:stopped#by#users#GTM实例gtm_1001启动失败,原因:stopped#by#users
# cm_server
alarm 1078919227 0 0009000000000009001200050069mpp1p1s1d127.0.0.1ecs-env-3108cms_1CM_SERVER#instance#cms_1#process#abnormal#CM_SERVER实例cms_1进程异常

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。