我的 Promtheus 到底啥时候报警?

举报
格图洛书 发表于 2021/11/19 00:30:51 2021/11/19
【摘要】 Prometheus 为啥不报警?不妨写一篇文章来解决下面两个问题: 我的 Prometheus 为啥报警? 我的 Prometheus 为啥不报警? 从 for 参数开始 我们首先需要一些背景知识:Prometheus 是如何计算并产生警报的? 看一条简单的警报规则: - alert: K...

Prometheus 为啥不报警?不妨写一篇文章来解决下面两个问题:

  • 我的 Prometheus 为啥报警?

  • 我的 Prometheus 为啥不报警?

从 for 参数开始

我们首先需要一些背景知识:Prometheus 是如何计算并产生警报的?

看一条简单的警报规则:


  
  1. - alert: KubeAPILatencyHigh
  2.   annotations:
  3.     message: The API server has a 99th percentile latency of {
  4. $value }} seconds
  5.       for {
  6. $labels.verb }} {
  7. $labels.resource }}.
  8.   expr: |
  9.     cluster_quantile:apiserver_request_latencies:histogram_quantile{job="apiserver",quantile="0.99",subresource!="log"} > 4
  10.   for: 10m
  11.   labels:
  12.     severity: critical

这条警报的大致含义是,假如 kube-apiserver 的 P99 响应时间大于 4 秒,并持续 10 分钟以上,就产生报警。

首先要注意的是由 for 指定的 Pending Duration。这个参数主要用于降噪,很多类似响应时间这样的指标都是有抖动的,通过指定 Pending Duration,我们可以 过滤掉这些瞬时抖动,让 on-call 人员能够把注意力放在真正有持续影响的问题上。

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/107833021

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。