GaussDB (DWS) 集群管理系列:DN build 失败告警

举报
CloudGanker 发表于 2021/11/25 16:35:09 2021/11/25
【摘要】 DN build 失败告警

DN build 失败告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919245
  • 十六进制编号:0x404F004D

告警信息

  • 中文名称:DN build 失败

  • 英文名称:AbnormalBuildFail

    代码中告警英文名称为ALM_AI_AbnormalBuild

  • 英文附加信息:Data instance %s build fail

  • 中文附加信息:数据实例%s build失败

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 由cm_agent获取到的DN状态决定所上报的告警类型:

    dbstate alarm type
    Normal ALM_AT_Resume
    Building ALM_AT_Resume
    BuildFailed ALM_AT_Fault
    其它 保持告警类型不变

    当DN状态不属于Normal, Building, BuildFailed时,处于临界区,此时保持当前告警类型不变。

相关告警

  • 通常由cm_agent负责执行DN build操作,因此该告警出现(即build失败)前,可能产生DN build告警。
    • 1078919244 BuildEvent
  • 该告警的出现,意味着DN出现异常,因此往往同时产生DN实例异常告警。
    • 1078919172 AbnormalDatanodeInst

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919245 AbnormalBuildFail ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

场景一

对备DN下发强制build,并修改数据目录的权限,cm_agent日志如下:

Dn6006StatusCheck LOG: open gaussdb state file "/home/1p1s1d/data/dnS3/gaussdb.state" failed, could not get the build information: Permission denied
Alarm DEBUG1: Reporting alarm id 1078919244 with type 4 and info "Datanode standby dn_6006 build".
Alarm DEBUG1: Reporting alarm id 1078919245 with type 0 and info "Data instance dn_6006 build fail".

场景二

在主DN目录下构造大文件,用于延长build时间,为后续操作提供足够时间窗:

for ((i=1;i<=5;i++)) do dd if=/dev/zero of=test_$i bs=1G count=1; done

对备DN下发build命令,然后构造下面故障之一:

  • mv主DN数据目录 + kill -9 主DN进程
  • 故障主DN网卡

cm_agent日志如下:

StartStop LOG: build failed, data_dir: /home/1p1s1d/data/dnS3, process_schedule: 62, build_pid: 21675; try to build again.
Alarm DEBUG1: Reporting alarm id 1078919245 with type 0 and info "Data instance dn_6006 build fail".

告警日志信息

告警日志信息如下:

alarm 1078919245 0 0009000000000009001200070058mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Data#instance#dn_6006#build#fail#数据实例dn_6006#build失败

恢复数据目录权限,build重入成功,消除告警的日志信息如下:

alarm 1078919245 2 0009000000000009001200070001mpp1p1s1d127.0.0.1ecs-env-3108dn_6006#

GaussDB(DWS)博文后缀.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。