- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

Echo_Wish 发表于 2025/11/18 20:39:50 2025/11/18

【摘要】监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

——Echo_Wish原创

兄弟姐妹们，我混运维圈十几年，见过太多“年轻人刚上班、监控全靠吼”的场面：
服务挂了靠群里喊、CPU 爆了靠运气、日志一多服务器直接卡成 PPT。

说实话，在 DevOps 环境里如果监控和日志管理做不好，其他啥自动化、持续交付、微服务，全都白扯。这就像你家厨房油烟机坏了，你再好的厨具都要被烟熏哭。

今天咱就来聊聊：
在 DevOps 实战中，如何用 Prometheus + ELK 把监控和日志管理做到“运维不慌、开发不烦、领导放心”。

我会尽量用大家能听懂的方式，还给你整点代码，让你下班也能懂。

一、DevOps 的监控到底应该长啥样？

DevOps ≠ 工具链堆砌；真正的核心是 “持续反馈 + 快速响应”。

监控做不好，就像眼睛被蒙上布，再优秀的团队也得乱撞墙。

一个优秀的 DevOps 监控体系至少包括：

指标监控（Metrics）：CPU、内存、QPS、延迟
日志监控（Logs）：行为链路、业务异常、错误分析
链路追踪（Tracing）：请求在哪个微服务卡住了
告警管理（Alerting）：出了问题第一时间知道
可视化（Dashboard）：让领导看着“系统很稳”的界面

Prometheus 负责指标，ELK（Elasticsearch + Logstash + Kibana）负责日志，这是 DevOps 圈里最实用的“黄金搭档”。

二、Prometheus：真正让你知道系统什么时候要“喘不上气”

Prometheus 是运维人最懂你的监控系统。
一句话：拉取式采集 + 强大查询语法 + 告警灵活。

它最大的优点就是“朴实好用，不装花活”。

比如说监控 Nginx QPS，只需要加入 exporter，配置拉取地址即可。

示例：Prometheus 配置 Nginx Exporter

scrape_configs:
  - job_name: 'nginx'
    static_configs:
      - targets: ['192.168.10.10:9113']

几句话，监控搞定。

PromQL：运维人的“数学武器”

比如计算某个服务的 5 分钟平均 QPS：

rate(http_requests_total[5m])

计算 CPU 使用率：

100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

每次看到这玩意我都感叹一句：Prometheus 是把“指标可量化”做到了极致。

再说说告警（Alertmanager）

你可以设置这样的规则：

CPU 连续 5 分钟超过 85%
服务响应时间 p95 大于 400ms
请求错误率 > 10%

示例：

groups:
- name: node_alerts
  rules:
  - alert: HighCPULoad
    expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85
    for: 5m
    labels:
      severity: warning
    annotations:
      description: "主机 {{ $labels.instance }} CPU 负载过高"

你看是不是很像“自动化巡逻机器人”？
系统有点异常，它马上叮你一下，不用你天天盯着监控看。

三、为什么 Prometheus 不够？因为没日志你等于只有一只眼睛

Prometheus 告诉你：

“服务挂了，延迟爆了。”

但是 为什么挂？具体挂在哪？哪行代码吐血了？
Prometheus 说：哥我负责指标，你别为难我……

这时候就要 ELK 上场了。

四、ELK：日志界的“显微镜”，让你把问题看得一清二楚

日志是运维人最爱也是最恨的东西。
爱它是因为它能告诉你问题在哪；
恨它是因为没结构、难搜、服务器存不下。

ELK 就是为了解决这些痛点。

Elasticsearch：日志界的高速数据库

你扔多少日志都能消化，还能秒级搜索。

Logstash/Filebeat：负责把日志“喂”给 ES

比如收集 Nginx 日志：

filebeat.inputs:
  - type: log
    paths:
      - /var/log/nginx/access.log

output.elasticsearch:
  hosts: ["http://127.0.0.1:9200"]

Filebeat 就是运维界的“快递小哥”，负责把日志送得快、稳、准。

Kibana：运维人的“显微镜”+“显像仪”

你能在后台看到：

哪个 IP 访问最多
哪个 URL 最慢
哪个服务接口报错最多
请求趋势图
日志字段聚合统计

你还可以做类似这样的查询：

"match": { "status": 500 }

十秒不到，全站错误日志就摆到了你眼前。
这种感觉真不是吹：像黑暗里突然开了一盏灯。

五、Prometheus + ELK：神仙组合

Prometheus 通知你出现了问题（CPU、延迟、QPS），
ELK 告诉你问题具体在哪里（哪行日志、哪个接口、哪段调用链）。

这俩结合起来，就是：

Prometheus：报警
ELK：验尸
Prometheus：实时
ELK：深入分析

实际案例（我亲身踩过的坑）

有一次某服务 QPS 一下飙到三倍，用户疯狂反馈卡顿。
Prometheus 告警了，但看指标只知道“请求多了”。
用 Kibana 搜日志一查：

某活动上线后，某个接口被前端轮询请求 300 次/分钟。

然后找到问题代码：

setInterval(() => {
  fetch('/api/user/info');
}, 200);

看到这玩意我当时真的想把前端拉出来聊聊人生。

如果只有 Prometheus，我们只会知道“请求超多”；
如果只有 ELK，我们不会知道“具体哪小时开始爆的”。
组合起来问题 5 分钟内锁定。

六、我对运维监控未来的小预判

未来监控和日志管理一定会朝这几条路走：

可观测性一体化（Metrics + Logs + Tracing）
AI 智能告警（自动消除噪声）
自动根因分析（RCA）能力
无需人写规则，AI 自动发现异常模式
跨云、跨集群统一可观测

一句话：
运维人未来越来越像“系统调度官”，不是救火队员。

七、总结（接地气版本）

Prometheus 负责告诉你：

“兄弟，系统不太对劲。”

ELK 负责告诉你：

“我知道问题在哪，你跟我来。”

合起来负责让你：

“下班能准时走，凌晨消息少。”

监控与日志管理不是工具配置，它是你 DevOps 战斗力的底盘。底盘不稳，啥都白干。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

一、DevOps 的监控到底应该长啥样？

二、Prometheus：真正让你知道系统什么时候要“喘不上气”

PromQL：运维人的“数学武器”

再说说告警（Alertmanager）

三、为什么 Prometheus 不够？因为没日志你等于只有一只眼睛

四、ELK：日志界的“显微镜”，让你把问题看得一清二楚

Elasticsearch：日志界的高速数据库

Logstash/Filebeat：负责把日志“喂”给 ES

Kibana：运维人的“显微镜”+“显像仪”

五、Prometheus + ELK：神仙组合

实际案例（我亲身踩过的坑）

六、我对运维监控未来的小预判

七、总结（接地气版本）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

监控没做好，DevOps等于裸奔：Prometheus + ELK 的“稳态运营秘籍”

一、DevOps 的监控到底应该长啥样？

二、Prometheus：真正让你知道系统什么时候要“喘不上气”

PromQL：运维人的“数学武器”

再说说告警（Alertmanager）

三、为什么 Prometheus 不够？因为没日志你等于只有一只眼睛

四、ELK：日志界的“显微镜”，让你把问题看得一清二楚

Elasticsearch：日志界的高速数据库

Logstash/Filebeat：负责把日志“喂”给 ES

Kibana：运维人的“显微镜”+“显像仪”

五、Prometheus + ELK：神仙组合

实际案例（我亲身踩过的坑）

六、我对运维监控未来的小预判

七、总结（接地气版本）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品