- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

确定性智能运维受邀亮相QECon大会共话SRE Agent探索与实践

华为云确定性运维发表于 2026/05/26 19:16:40 2026/05/26

【摘要】 5月22日，QECon全球软件质量&效能大会在深圳举行，华为云AIOPS/Agent算法工程师李国栋受邀出席“AI时代下的运维与SRE变革”论坛分享，深入阐述了华为云基于确定性智能运维体系，在SRE Agent方向的工程实践与技术思考。

5月22日，QECon全球软件质量&效能大会在深圳举行，汇聚全球专家共探软件工程前沿趋势。华为云AIOPS/Agent算法工程师李国栋受邀出席“AI时代下的运维与SRE变革”论坛，作题为《AI时代下的SRE Agent智能运维探索与实践》的专题分享，深入阐述了华为云基于确定性智能运维体系，在SRE Agent方向的工程实践与技术思考。

图：华为云 AIOPS/Agent 算法工程师李国栋现场分享

SRE Agent 从“辅助执行”逐步走向“安全自进化”

AI带来效率的同时，也带来了质量挑战。数字化转型的深水区，企业IT系统的规模与复杂度正以指数级增长，一个中大型云平台的运维对象可达百万级，日均告警量数以十万计。AI技术的迅猛发展在大幅重塑生产效率的同时，也伴随着应用落地与模型迭代中涌现出的各类新兴风险与挑战。

AI的质量逻辑与传统系统完全不同，需要重新思考AI的质量工程方法。传统系统依赖成熟的理论体系，追求设计可量化、测试可重复及结果的绝对正确。而AI Agent具有非确定性，相同输入可能产生不同输出与路径。因此，需转向评估工程范式，在运行态通过“思考-行动-观察”机制约束行为边界，接受测试不可重复的特性，转而追求系统的高成功率、可控性及全程可观测性。

大模型注定无法完美，训练过程中充满了各种能力上的权衡。Agent智能体正深陷多重技术权衡，为避过拟合，泛化往往以牺牲记忆精度为代价；思维链延长虽增强推理，却稀释了指令遵从性；稠密与稀疏架构分别在注意力分散与信息损失间博弈；加之长上下文处理中位置编码导致的长距离相关性衰减，关键信息识别愈发艰难。这些矛盾交织，构成了当前Agent技术突破的核心瓶颈。

SRE是生产环境最后一道安全屏障，安全性是首要前提。大模型的有效性和安全性负相关，已经成为了学术界的共识。可信赖AI Agent的构建，必须建立在"不赌概率·负向验证"的安全理念之上。李国栋分享华为云SRE Agent评测体系总体架构：三层两翼，三层评测体系覆盖评测集、评测平台与评测算法，两翼则分别指向正向有效性评估与负向安全性评估。安全性评估采用"一票否决"机制，在非生产环境中主动引导破坏以获取Agent能力边界，同时确保生产环境无论通过何种路径都无法被突破，这一安全性理念为Agent驱动智能运维的规模化落地提供了可量化的信任基础，真正关键的不是单点能力，而是“有效性+安全性+评测体系”三位一体，低风险场景先落地，高风险场景先评测，评测体系是SRE AI走向成熟的风水岭。

技术体系驱动 SRE Agent 能力快速跃升，加速能力迭代

工程范式在飞速演进，Agent工程对于大模型任务能力提升有显著成效。Harness工程可以解决模型如何系统运行、解决执行不可靠、任务不可持续问题，将非确定性大模型系统精炼为可靠生产体验的过程。

面向SRE场景，需要Agent架构与Harness工程的系统创新。为构建任务、信任与责任边界清晰的人智协同场景，需要针对人+Agent防差错设计：重构信任边界。对感知及决策阶段进行防差错设计，对人对Agent的信任程度变化进行建模和动态校准。同时建立SRE Agent场景分级模型，优先将Agent应用于中低风险场景，明确划分人智协同的任务分配与责任归属，实现高效安全的智能协作。

自进化 Agent ：下一代的SRE Agent像人类一样学习，自我演进实现运维经验的沉淀。运维智能化正迎来范式转移：从“技能堆砌”迈向“自进化智能”。传统人工主导的Agent往往依赖海量Skill的简单叠加，而新一代人工智能Agent则通过自学习机制实现能力的持续增强。鉴于运维专家经验的核心在于现网实战，在“运行态”而非“开发态”进行知识与技能的即时学习，被证明是更高效的路径。基于此，业界正加速构建具备私域知识完备性、依托强大Agent平台及大模型底座的“自进化智能体”，旨在通过实时吸收现网数据，实现运维能力的自我迭代与闭环优化，重塑智能运维的效率边界。

图：不可能三角

安全问题不能靠限制使用来解决，要靠技术体系解决。智能体能否实现“零人因故障”？表面上看，人类常见的操作失误与认知偏差，在AI中同样可能以算法偏见或逻辑幻觉的形式重现。尽管人类有规章制度与法律作为责任兜底，但AI目前尚缺乏明确的“责任主体”来约束其行为边界。基于“不可能三角”理论，一个Agent系统无法同时具备“持续自演化”、“完全隔离”与“安全不变性”这三个属性——这在数学上已被证明是不可行的。因此，追求绝对安全的“自演进AI Agent”并非追求零风险，而是确立一条安全下界不退化的底线思维。策略上，承认安全上限，摒弃盲目自演化。通过“环境分层”机制，在测试环境定向牺牲以换取探索空间，从而守住生产环境的安全底线。

生产力决定生产关系，生产关系也会反作用于生产力。如果制度跟不上技术，发展就会受阻。限制AI Agent技术发展的不是技术本身，而是组织形态、体系与评价的深层变革。从"人驱动机器"到"机器自主决策+人审核监督"，从"规则运维"到"推理运维"，运维组织的演进需要一场革命。AI在SRE的核心矛盾，不是能不能做，而是如何在提效、自进化与生产安全之间找到可落地平衡。未来真正被运维的对象，不只是生产环境，更是能够持续自进化、可评测、可管控的SRE Agent体系。

面对大模型时代的技术浪潮，华为云持续深耕智能运维领域，与业界同行共建开放生态。通过维享会等交流平台，华为云联合全球客户共论业务上云后的管理之道，推动企业从“基本运维”迈向“确定性运维”与“Agent驱动智能运维”的新阶段。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

确定性智能运维受邀亮相QECon大会共话SRE Agent探索与实践

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

确定性智能运维受邀亮相QECon大会 共话SRE Agent探索与实践

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

确定性智能运维受邀亮相QECon大会共话SRE Agent探索与实践