GaussDB (DWS) 集群管理系列:Datanode磁盘坏块告警
【摘要】 Datanode磁盘坏块告警
Datanode磁盘坏块告警
告警汇总
告警编号
- 十进制编号:
1078919239
- 十六进制编号:
0x404F0047
告警信息
-
中文名称:
Datanode磁盘异常
-
英文名称:
AbnormalDiskError
代码中告警英文名称为
ALM_AI_AbnormalDataInstDisk
-
英文附加信息:
Data instance %s disk has problem, path: %s
示例:
Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1
-
中文附加信息:
数据实例%s磁盘异常, 路径:%s
示例:
数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
- DWS:
IMPORTANT
告警规则
在DN上执行
select sum(error_count) from pg_catalog.pg_stat_bad_block;
获取磁盘坏块数目newBadBlock
,并与上次检查时的坏块数目oldBadBlock
作比较。
显然坏块数目不可能小于零。
-
case 0:
newBadBlock == 0
消除告警
-
newBadBlock >= 0
-
case 1:
newBadBlock == oldBadBlock
告警临界区,维持当前告警类型不变
-
case 2.1:
newBadBlock > oldBadBlock
坏块增加,上报告警
-
case 2.2:
newBadBlock < oldBadBlock
DN进程重启或DN上执行了
pg_stat_bad_block_clear()
,而oldBadBlock
尚未更新,上报告警
-
版本分析
- C80版本
- 651版本
- 8.0版本
- 8.1.2版本(20210930)进行了告警功能重构,未改变告警规则。
测试验证
- case分类见《告警规则》小节
- 考虑
oldBadBlock
和oldBadBlock
分别取0, 1, 2
, 共9种情况,可精简4种
序号 | 说明 | case | oldBadBlock | newBadBlock | alarmType |
---|---|---|---|---|---|
1 | ✔️ | 0 | 0 | 0 | Resume |
2 | ✔️ | 0 | 1 | 0 | Resume |
3 | 同序号2 | ⭕️ | |||
4 | ✔️ | 2.1 | 0 | 1 | Fault |
5 | ✔️ | 1 | 1 | 1 | 保持不变 |
6 | ✔️ | 2.2 | 2 | 1 | Fault |
7 | 同序号4 | ⭕️ | |||
8 | 同序号4 | ⭕️ | |||
9 | 同序号5 | ⭕️ |
- cm_agent日志信息
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck WARNING: Bad blocks changed from 341 to 342.
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck DEBUG1: Disk bad block alarm id 1078919239 type 0.
2021-08-09 10:39:59.583 tid=31541 Alarm LOG: Reporting alarm id 1078919239 with type 0 and info "Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1".
- 将告警打印至系统日志
Aug 9 10:34:19 ecs-env-3108 cm_agent: Syslog MPPDB||ecs-env-3108||127.0.0.1||||||||Database||MppDB||||SYSLOG||dn_6001||Alarm||AbnormalDiskError||Datanode磁盘异常||1||0||6||||||||||||||Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1||数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1#012||||||||||||||||||||
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)