GaussDB (DWS) 集群管理系列:Datanode磁盘坏块告警

举报
CloudGanker 发表于 2021/11/25 16:27:21 2021/11/25
【摘要】 Datanode磁盘坏块告警

Datanode磁盘坏块告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919239
  • 十六进制编号:0x404F0047

告警信息

  • 中文名称:Datanode磁盘异常

  • 英文名称:AbnormalDiskError

    代码中告警英文名称为ALM_AI_AbnormalDataInstDisk

  • 英文附加信息:Data instance %s disk has problem, path: %s

    示例:Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1

  • 中文附加信息:数据实例%s磁盘异常, 路径:%s

    示例:数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

在DN上执行

select sum(error_count) from pg_catalog.pg_stat_bad_block;

获取磁盘坏块数目newBadBlock,并与上次检查时的坏块数目oldBadBlock作比较。

显然坏块数目不可能小于零。

  • case 0: newBadBlock == 0

    消除告警

  • newBadBlock >= 0

    • case 1: newBadBlock == oldBadBlock

      告警临界区,维持当前告警类型不变

    • case 2.1: newBadBlock > oldBadBlock

      坏块增加,上报告警

    • case 2.2: newBadBlock < oldBadBlock

      DN进程重启或DN上执行了pg_stat_bad_block_clear(),而oldBadBlock尚未更新,上报告警

版本分析

  • C80版本
  • 651版本
  • 8.0版本
  • 8.1.2版本(20210930)进行了告警功能重构,未改变告警规则。

测试验证

  • case分类见《告警规则》小节
  • 考虑oldBadBlockoldBadBlock分别取0, 1, 2, 共9种情况,可精简4种
序号 说明 case oldBadBlock newBadBlock alarmType
1 ✔️ 0 0 0 Resume
2 ✔️ 0 1 0 Resume
3 同序号2 0 2 0 ⭕️
4 ✔️ 2.1 0 1 Fault
5 ✔️ 1 1 1 保持不变
6 ✔️ 2.2 2 1 Fault
7 同序号4 2.1 0 2 ⭕️
8 同序号4 2.1 1 2 ⭕️
9 同序号5 1 2 2 ⭕️
  • cm_agent日志信息
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck WARNING: Bad blocks changed from 341 to 342.
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck DEBUG1: Disk bad block alarm id 1078919239 type 0.

2021-08-09 10:39:59.583 tid=31541 Alarm LOG: Reporting alarm id 1078919239 with type 0 and info "Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1".
  • 将告警打印至系统日志
Aug  9 10:34:19 ecs-env-3108 cm_agent: Syslog MPPDB||ecs-env-3108||127.0.0.1||||||||Database||MppDB||||SYSLOG||dn_6001||Alarm||AbnormalDiskError||Datanode磁盘异常||1||0||6||||||||||||||Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1||数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1#012||||||||||||||||||||

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。