- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

Echo_Wish 发表于 2025/12/11 22:26:19 2025/12/11

【摘要】自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

作者：Echo_Wish

兄弟姐妹们，今天咱聊一个运维圈正在发生的“大迁徙”：
自动化运维的未来，到底是啥？

有人说是脚本更牛逼、有人说是平台更智能、有人说是 AIOps 能解决 80% 的问题……
但我自己这些年从 Shell 写到 Ansible、从 ansible 自动化走到 AIOps，再看到大模型介入，我越来越确信一句话：

自动化运维的尽头，一定不是脚本，而是智能决策体系。

换句话说，未来的运维系统不是“你告诉它怎么做”，而是“你告诉它目标，它自己想办法”。

别急，咱慢慢聊。

一、脚本时代：能跑就行的“人肉自动化”

咱都经历过这个阶段：

业务扩容用脚本
部署服务用脚本
log 刷一下也是脚本
甚至“重启大法”也封装成脚本

脚本确实解决了很多“重复手工操作”，但它有几个天然硬伤：

❌ 1. 谁写的脚本谁自己都忘

你闭着眼写的 Shell 脚本，半年后再看，一句注释都没有，像是在破案。

❌ 2. 全靠人驱动

脚本不自主触发，也不知道“什么时候该跑”，更不会判断“这件事值不值得跑”。

❌ 3. 风险巨大

一个 rm -rf 位置写错，脚本瞬间变“杀器”。

这就是为什么脚本永远是自动化的起点，而不是终点。

二、平台化时代：从“工具人”变成“半自动驾驶”

后来，大伙儿逐渐发现：

“脚本虽好，但太多脚本根本管不住。要不……弄个平台？”

于是：

Jenkins Pipeline
Ansible Tower
SaltStack
自动化运维平台（AutoOps）
自愈平台（Self-Healing）

开始在企业里遍地开花。

✔ 优点显著

执行标准化
权限统一管理
任务编排规范
人为操作减少

✔ 但问题也明显：它还是被动的

虽然自动化平台能管理脚本、可视化任务，但仍然是“运维决定触发什么”。

平台不会告诉你：

是否真的需要扩容？
这个告警是否需要处理？
哪条链路会受影响？

它只是比脚本“更好管理”。

自动化到了这一步，其实卡住了。

三、智能化时代：自动化开始“自己做判断”

我常说一句话：
智能运维（AIOps）不是自动化的延伸，而是自动化的升维。

你让脚本做事情，它会执行
你让平台做事情，它会编排
但你让智能系统做事情，它会判断是否有必要做

这就是质变的过程。

那智能决策系统到底怎么工作？

核心逻辑其实就三步：

感知（Sense）
收集指标、日志、事件、链路
分析（Analyze）
模型判断是否异常、风险、趋势、根因
行动（Act）
自动加机器、重启服务、降级流量、拉起资源、通知相关人

这就是所谓的 “S-A-A” 自动化决策链路（Sense → Analyze → Act）

四、例子：智能扩容 vs 人工扩容，差别大到可怕

假设你要扩容一个 Web 服务。

传统方式（人肉）

看到 CPU 80%
怀疑业务在高峰
ssh 上机器
确认进程正常
去发布平台申请扩容
等待创建实例
接入负载均衡
观察是否恢复
写值班记录

这一个动作，10~15 分钟少不了。

智能扩容（自动决策）

它可能是这样运作的：

QPS 最近 5 分钟增长趋势超过 20%
CPU、负载、延迟都在增长
模型判断为“高峰趋势 + 压力增长风险”
预测资源不足概率 87%
系统自动扩容两台
全链路延迟恢复正常
自动记录扩容事件和影响范围

你连“扩容”二字都没念完，它已经执行完了。

五、智能决策必须有代码支持？当然有！

下面给你一个 最简单的自动决策 Demo，展示如何根据指标趋势做“智能扩容判断”。

✔ Python：基于移动平均趋势预测是否需要扩容

import numpy as np

def need_scale_up(cpu_data, threshold=0.75, trend_factor=1.08):
    """
    cpu_data: 最近5分钟的CPU数据
    threshold: CPU平均值超过此阈值触发扩容
    trend_factor: 趋势增幅阈值
    """
    avg_cpu = np.mean(cpu_data)
    trend = cpu_data[-1] / (cpu_data[0] + 1e-5)

    if avg_cpu > threshold and trend > trend_factor:
        return True, avg_cpu, trend
    return False, avg_cpu, trend

cpu_series = [60, 65, 70, 75, 83]  # 看起来要爆了
result = need_scale_up(cpu_series)
print(result)

这段代码非常简单，但体现了智能决策的核心能力：

不看单点值，看趋势
不看阈值，看增长率
人不参与，系统自动判断

智能运维就是在这些基础逻辑之上，叠加更多数据源、更多特征、更多算法，最终实现自动决策。

六、自动化的终局形态：自主运维系统（Autonomous Ops）

未来的自动化运维是什么样？

它包含几个能力：

1. 自主发现问题（Anomaly Detection）

不依赖阈值，自动检测异常波动、趋势、模式突变。

2. 自主定位根因（Root Cause Analysis）

通过事件图谱、链路、时序做自动定位。

3. 自主决策动作（Decision Engine）

自动决定是扩容、降级、重启、切流，还是通知人。

4. 自主执行和回溯（Action & Review）

执行动作 + 有记录 + 回溯 + 后悔药（Rollback）

5. 持续学习（Learning）

模型会根据历史事件不断提升判断能力。

你会发现，这已经不是“自动化”了，
这是“自动驾驶的 IT 版本”。

七、写在最后：自动化不是为了减少运维，而是让运维更像“工程师”

我经常听到一句话：

“自动化会不会让运维岗位消失？”

不会。
但它一定会改变运维岗位的技能结构。

未来的运维更像：

数据工程师
自动化工程师
SRE
AIOps 训练师
系统架构师
平台设计者

你不再是拿命值班的“消防员”，
而是设计系统、制定规则、训练智能模型的人。

脚本解决重复劳动，
平台解决协作治理，
智能决策解决“不确定性”。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

一、脚本时代：能跑就行的“人肉自动化”

❌ 1. 谁写的脚本谁自己都忘

❌ 2. 全靠人驱动

❌ 3. 风险巨大

二、平台化时代：从“工具人”变成“半自动驾驶”

✔ 优点显著

✔ 但问题也明显：它还是被动的

三、智能化时代：自动化开始“自己做判断”

那智能决策系统到底怎么工作？

四、例子：智能扩容 vs 人工扩容，差别大到可怕

传统方式（人肉）

智能扩容（自动决策）

五、智能决策必须有代码支持？当然有！

✔ Python：基于移动平均趋势预测是否需要扩容

六、自动化的终局形态：自主运维系统（Autonomous Ops）

1. 自主发现问题（Anomaly Detection）

2. 自主定位根因（Root Cause Analysis）

3. 自主决策动作（Decision Engine）

4. 自主执行和回溯（Action & Review）

5. 持续学习（Learning）

七、写在最后：自动化不是为了减少运维，而是让运维更像“工程师”

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

一、脚本时代：能跑就行的“人肉自动化”

❌ 1. 谁写的脚本谁自己都忘

❌ 2. 全靠人驱动

❌ 3. 风险巨大

二、平台化时代：从“工具人”变成“半自动驾驶”

✔ 优点显著

✔ 但问题也明显：它还是被动的

三、智能化时代：自动化开始“自己做判断”

那智能决策系统到底怎么工作？

四、例子：智能扩容 vs 人工扩容，差别大到可怕

传统方式（人肉）

智能扩容（自动决策）

五、智能决策必须有代码支持？当然有！

✔ Python：基于移动平均趋势预测是否需要扩容

六、自动化的终局形态：自主运维系统（Autonomous Ops）

1. 自主发现问题（Anomaly Detection）

2. 自主定位根因（Root Cause Analysis）

3. 自主决策动作（Decision Engine）

4. 自主执行和回溯（Action & Review）

5. 持续学习（Learning）

七、写在最后：自动化不是为了减少运维，而是让运维更像“工程师”

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品