GaussDB (DWS) 集群管理系列:实例进程异常重启告警
实例进程异常告警
告警汇总
告警编号
CN进程异常
- 十进制编号:
1078919177
- 十六进制编号:
0x404F0009
DN进程异常
- 十进制编号:
1078919184
- 十六进制编号:
0x404F0010
GTM进程异常
- 十进制编号:
1078919176
- 十六进制编号:
0x404F0008
CM_SERVER进程异常
- 十进制编号:
1078919227
- 十六进制编号:
0x404F003B
告警信息
CN进程异常
-
中文名称:
Coordinator进程异常
-
英文名称:
AbnormalCoordinatorProcess
代码中告警英文名称为
ALM_AI_AbnormalCoordinatorProcess
-
英文附加信息:
Start up coordinator instance %s failed, reason:%s
-
中文附加信息:
数据实例%s启动失败,原因:%s
DN进程异常
-
中文名称:
Datanode进程异常
-
英文名称:
AbnormalDatanodeProcess
代码中告警英文名称为
ALM_AI_AbnormalDatanodeProcess
-
英文附加信息:
Start up datanode instance %s failed, reason:%s
-
中文附加信息:
数据实例%s启动失败,原因:%s
GTM进程异常
-
中文名称:
GTM进程异常
-
英文名称:
AbnormalGTMProcess
代码中告警英文名称为
ALM_AI_AbnormalGTMProcess
-
英文附加信息:
Start up GTM instance %s failed, reason:%s
-
中文附加信息:
GTM实例%s启动失败,原因:%s
CM_SERVER进程异常
-
中文名称:
CM_SERVER进程异常
-
英文名称:
AbnormalCMSProcess
代码中告警英文名称为
ALM_AI_AbnormalCMSProcess
-
英文附加信息:
CM_SERVER instance %s process abnormal
-
中文附加信息:
CM_SERVER实例%s进程异常
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
- DWS:
IMPORTANT
告警规则
核心规则
- 当CN/DN/GTM/CM_SERVER实例进程不存在时,并且连续启动次数不小于3次,则触发告警;当实例进程存在时,消除告警。
- 部分场景有例外,见下面补充规则。
- 即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。
补充规则
- 即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。
- CN
- 下面情况可直接显示原因:
- 实例被手动停止
- 端口冲突
- CN被剔除
- 下面情况可直接显示原因:
- DN
- 当DN磁盘损坏或者被手动停止时,不改变其告警类型。
- 下列情况可直接显示原因:
- 端口冲突
- 磁盘满(仅DN备和从备触发)
实例被手动停止(与上一条规则矛盾,实际上这种情况不会触发告警)
- GTM
- 下面情况可直接显示原因:
- 实例被手动停止
- 端口冲突
- 下面情况可直接显示原因:
- cm_server
- 当cm_server被手动停止时,不改变其告警类型。
相关告警
- 实例进程无法启动时,可能产生实例异常的告警。
- 1078919170 AbnormalGTMInst
- 1078919172 AbnormalDatanodeInst
版本分析
- 内核版本
id | name | C80 | 651 | 8.0 | 8.1 |
---|---|---|---|---|---|
1078919177 | AbnormalCoordinatorProcess | ✔️ | ✔️ | ✔️ | ✔️ |
1078919184 | AbnormalDatanodeProcess | ✔️ | ✔️ | ✔️ | ✔️ |
1078919176 | AbnormalGTMProcess | ✔️ | ✔️ | ✔️ | ✔️ |
1078919227 | AbnormalCMSProcess | ✔️ | ✔️ | ✔️ | ✔️ |
- FIM支持情况待补充。
- DWS已支持。
测试验证
分别做如下操作:
- 停止CN
- 删除DN二进制文件,并杀死主DN进程
- 删除DN二进制文件,并杀死备DN进程
- 删除DN二进制文件,并杀死从备DN进程
- 停止主GTM
- 停止备GTM
- 删除cm_server二进制文件,并杀死cm_server进程
cm_agent日志如下:
# 停止CN
StartStop LOG: Do not start cn because cn on current node has been manually stopped.
Alarm LOG: Reporting alarm id 1078919177 with type 0 and info "Start up coordinator instance cn_5001 failed, reason:stopped by users".
# 删除DN二进制文件,并杀死主DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6001 failed, reason:unknown".
# 删除DN二进制文件,并杀死备DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6006 failed, reason:unknown".
# 删除DN二进制文件,并杀死从备DN进程
Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_3003 failed, reason:unknown".
# 停止主GTM
Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users".
# 停止备GTM
Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users".
# 删除cm_server二进制文件,并杀死cm_server进程
Alarm LOG: Reporting alarm id 1078919227 with type 0 and info "CM_SERVER instance cms_1 process abnormal".
告警信息如下:
# cn
alarm 1078919177 0 0009000000000009001200070117mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Start#up#coordinator#instance#cn_5001#failed,#reason:stopped#by#users#数据实例cn_5001启动失败,原因:stopped#by#users
# 主dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Start#up#datanode#instance#dn_6001#failed,#reason:unknown#数据实例dn_6001启动失败,原因:unknown
# 备dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Start#up#datanode#instance#dn_6006#failed,#reason:unknown#数据实例dn_6006启动失败,原因:unknown
# 从备dn
alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_3003Start#up#datanode#instance#dn_3003#failed,#reason:unknown#数据实例dn_3003启动失败,原因:unknown
# gtm
alarm 1078919176 0 0009000000000009001200080110mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Start#up#GTM#instance#gtm_1001#failed,#reason:stopped#by#users#GTM实例gtm_1001启动失败,原因:stopped#by#users
# cm_server
alarm 1078919227 0 0009000000000009001200050069mpp1p1s1d127.0.0.1ecs-env-3108cms_1CM_SERVER#instance#cms_1#process#abnormal#CM_SERVER实例cms_1进程异常
- 点赞
- 收藏
- 关注作者
评论(0)