- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

Echo_Wish 发表于 2025/12/03 22:49:12 2025/12/03

【摘要】别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

大家好，我是你们熟悉的 Echo_Wish。
最近运维圈子里有两个高频词：“指标异常” 和 “AIOps 自动化定位”。
但我发现一个现象：很多同学听到 AIOps，就以为是“让 AI 帮我找问题”；但真正要问“AI 到底是怎么定位到根因的？”时，99% 的人其实是模糊的。

今天我就带你从一个最朴素的问题讲起：

👉 系统有百万级指标，告警一响，到底怎么一步步走到“根因”？

别怕，这篇不是 PPT 式“理念吹风”，我会结合 流水线拆解 + 示例代码 + 真实运维场景，讲清楚 AIOps 背后的逻辑，让你一次理解彻底。

🚨 一、运维的本质不是“看到指标”，而是“找到真凶”

先来一个真实场景：

监控告警：“订单延迟升高”
大屏变红：延时 350ms → 2.5s
SRE 立刻冲到工位：
“后端挂了还是 Redis 爆了？又是数据库锁？”

结果查半天，根因是：

上游某个依赖服务限流策略误触发 → 导致调用堆积 → 订单超时

也就是说：

表面指标 = 延迟上升
真正根因 = 限流错误触发
中间还隔了三层链路

靠肉眼排查，不管你是王多鱼还是孙悟空，都得半小时起步。

而真正的 AIOps 流水线要解决的就是：

从 10 万指标 → 找到几条可疑链路 → 定位到事件 → 确认根因

接下来，我们把流程拆开讲。

🔍 二、AIOps 故障定位流水线全景图

我给你整一个最接地气的流水线图，所有厂的方案都是这个逻辑：

指标异常检测 → 关键指标关联 → 拓扑定位 → 事件聚合 → 根因推断 → 验证

一句话总结：

这不是让 AI 乱猜，而是“指标 → 组件 → 事件 → 根因”的完整链路。

下面每一步我都举例说明。

① 指标异常检测（Anomaly Detection）

这步不是“告警触发”，是“AI 发现异常”。
常用：

时间序列预测（ARIMA/Prophet）
深度学习（LSTM/TCN）
异常分布检测（Isolation Forest）

比如检测一个 QPS 曲线：

from sklearn.ensemble import IsolationForest

model = IsolationForest(contamination=0.01)
model.fit(data[['qps']])
data['anomaly'] = model.predict(data[['qps']])

检测出哪些点是“明显不正常”。

这一步的目的是：帮你从几十万指标里捞出 10 个最可能的问题指标。

② 关键指标关联（Correlation Link）

异常指标找到了，但它可能只是“表象”。

例如：
订单延时升高 可能与：

Web 接口响应慢
Redis get 变长
MySQL 慢查询
上游服务超时
网络延迟抖动

都有关。

这一步的目标是：

计算与核心异常指标相关性最高的其他指标。

常用方法：

Pearson 相关系数
Granger 因果关系
动态时间规整（DTW）

举个简单版本：

import numpy as np

def corr(a, b):
    return np.corrcoef(a, b)[0][1]

corr(redis_latency, order_delay)
corr(mysql_qps, order_delay)
corr(downstream_timeout, order_delay)

最终你可能能收敛出一个结论：

在所有子系统指标里，“上游调用 timeout 数”与订单延时的相关性最高。

这说明你该往链路上游查了，而不是满世界查 CPU 和 IO。

③ 拓扑定位（Service Topology Mapping）

任何一个系统都是链路化的：

Web → Order Service → Payment/Inventory/Promotion → DB/Redis/MQ

AIOps 会做两件事：

明确“异常指标属于哪个组件”
在拓扑图里 自动向上游和下游传播影响范围

最终会画出一个：

【订单延迟异常】  
↳ 【Order Service】
    ↳ 上游接口： Check Account（异常相关性最高）

这就是把问题从“十万指标”缩小到“一个服务 + 一个接口”。

④ 事件聚合（Event Correlation）

这一步非常关键，也最容易被误解。
指标异常 ≠ 根因。
真正的根因往往是一个事件：

发布（Deployment）
配置变更（Config Change）
限流策略调整
节点迁移 / 副本调度
网络丢包
容器 oom
磁盘读写抖动
数据库锁等待

因此 AIOps 会做：

把过去 10 分钟内所有事件聚合起来，匹配到相关的组件。

例如：

事件：2025-01-25 14:03  限流规则 push  
组件：Account Service  
影响指标：timeout 上升

这一下根因就呼之欲出了。

⑤ 根因推断（Root Cause Inference）

这是 AIOps 中最“神奇”的步骤，但其实逻辑很朴素：

异常指标 + 高相关组件 + 最近事件 = 最可能根因

一个典型逻辑：

root_cause_score = w1 * metric_corr + w2 * event_priority + w3 * topo_distance

它不是瞎猜，而是：

指标有关联强度
事件有影响权重
距离越近（拓扑路径越短），越可能是根因

最终推断结论可能是：

根因：Account Service 限流规则更新错误（命中率骤升）

⑥ 验证（Verification）

AIOps 必须负责：

让 SRE 验证结论
提供证据（指标趋势、事件时间戳、链路图）
支持回滚、限流关闭、调度迁移等自动化处理

最终呈现一个“闭环”。

🧩 三、真实案例：订单延时 → 上游限流

完整链路如下：

指标检测：订单延时异常
关联分析：上游 check-account timeout 峰值相关性最高
拓扑导航：定位到 Account Service
事件聚合：10 分钟前该服务发布了限流策略
推断根因：限流配置错误导致请求全部被拒
验证：关闭限流 → 延时恢复 → 故障结束

所有步骤清晰自然、可追溯、易复盘。

🧠 四、Echo_Wish 的一点“实话感悟”

说句心里话：

大部分运维人遇到问题不是能力不够，而是“指标太多、事件太复杂、链路太深”，人根本算不过来。

AIOps 真正解决的不是“让 AI 替代你”，而是：

✔ 帮你缩小搜索范围

✔ 优先从最高相关的线索入手

✔ 聚合所有信息，不遗漏

✔ 自动化执行高频重复操作

我觉得这才是技术应该带来的“善意”：
不是取代，而是增能；不是抢活，而是减压。

🏁 五、最后一句话总结

AIOps 的本质不是“机器找问题”，而是“把指标、拓扑与事件串成一条线，让根因浮出水面”。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

🚨 一、运维的本质不是“看到指标”，而是“找到真凶”

🔍 二、AIOps 故障定位流水线全景图

① 指标异常检测（Anomaly Detection）

② 关键指标关联（Correlation Link）

③ 拓扑定位（Service Topology Mapping）

④ 事件聚合（Event Correlation）

⑤ 根因推断（Root Cause Inference）

⑥ 验证（Verification）

🧩 三、真实案例：订单延时 → 上游限流

🧠 四、Echo_Wish 的一点“实话感悟”

✔ 帮你缩小搜索范围

✔ 优先从最高相关的线索入手

✔ 聚合所有信息，不遗漏

✔ 自动化执行高频重复操作

🏁 五、最后一句话总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

别只盯着 CPU 爆了！一篇文章带你看懂：从指标到根因的 AIOps 自动化故障定位流水线

🚨 一、运维的本质不是“看到指标”，而是“找到真凶”

🔍 二、AIOps 故障定位流水线全景图

① 指标异常检测（Anomaly Detection）

② 关键指标关联（Correlation Link）

③ 拓扑定位（Service Topology Mapping）

④ 事件聚合（Event Correlation）

⑤ 根因推断（Root Cause Inference）

⑥ 验证（Verification）

🧩 三、真实案例：订单延时 → 上游限流

🧠 四、Echo_Wish 的一点“实话感悟”

✔ 帮你缩小搜索范围

✔ 优先从最高相关的线索入手

✔ 聚合所有信息，不遗漏

✔ 自动化执行高频重复操作

🏁 五、最后一句话总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品