确定性智能运维受邀亮相QECon大会 共话SRE Agent探索与实践

举报
华为云确定性智能运维 发表于 2026/05/26 19:16:40 2026/05/26
【摘要】 5月22日,QECon全球软件质量&效能大会在深圳举行,华为云AIOPS/Agent算法工程师李国栋受邀出席“AI时代下的运维与SRE变革”论坛分享,深入阐述了华为云基于确定性智能运维体系,在SRE Agent方向的工程实践与技术思考。

      5月22日,QECon全球软件质量&效能大会在深圳举行,汇聚全球专家共探软件工程前沿趋势。华为云AIOPS/Agent算法工程师李国栋受邀出席“AI时代下的运维与SRE变革”论坛,作题为《AI时代下的SRE Agent智能运维探索与实践》的专题分享,深入阐述了华为云基于确定性智能运维体系,在SRE Agent方向的工程实践与技术思考。

1234.PNG

图:华为云 AIOPS/Agent 算法工程师李国栋现场分享

      SRE Agent 从“辅助执行”逐步走向“安全自进化”

      AI带来效率的同时,也带来了质量挑战。数字化转型的深水区,企业IT系统的规模与复杂度正以指数级增长,一个中大型云平台的运维对象可达百万级,日均告警量数以十万计。AI技术的迅猛发展在大幅重塑生产效率的同时,也伴随着应用落地与模型迭代中涌现出的各类新兴风险与挑战。

      AI的质量逻辑与传统系统完全不同,需要重新思考AI的质量工程方法。传统系统依赖成熟的理论体系,追求设计可量化、测试可重复及结果的绝对正确。而AI Agent具有非确定性,相同输入可能产生不同输出与路径。因此,需转向评估工程范式,在运行态通过“思考-行动-观察”机制约束行为边界,接受测试不可重复的特性,转而追求系统的高成功率、可控性及全程可观测性。

      大模型注定无法完美,训练过程中充满了各种能力上的权衡。Agent智能体正深陷多重技术权衡,为避过拟合,泛化往往以牺牲记忆精度为代价;思维链延长虽增强推理,却稀释了指令遵从性;稠密与稀疏架构分别在注意力分散与信息损失间博弈;加之长上下文处理中位置编码导致的长距离相关性衰减,关键信息识别愈发艰难。这些矛盾交织,构成了当前Agent技术突破的核心瓶颈。

      SRE是生产环境最后一道安全屏障,安全性是首要前提。大模型的有效性和安全性负相关,已经成为了学术界的共识。可信赖AI Agent的构建,必须建立在"不赌概率·负向验证"的安全理念之上。李国栋分享华为云SRE Agent评测体系总体架构:三层两翼,三层评测体系覆盖评测集、评测平台与评测算法,两翼则分别指向正向有效性评估与负向安全性评估。安全性评估采用"一票否决"机制,在非生产环境中主动引导破坏以获取Agent能力边界,同时确保生产环境无论通过何种路径都无法被突破,这一安全性理念为Agent驱动智能运维的规模化落地提供了可量化的信任基础,真正关键的不是单点能力,而是“有效性+安全性+评测体系”三位一体,低风险场景先落地,高风险场景先评测,评测体系是SRE AI走向成熟的风水岭。

      技术体系驱动 SRE Agent 能力快速跃升,加速能力迭代

      工程范式在飞速演进,Agent工程对于大模型任务能力提升有显著成效。Harness工程可以解决模型如何系统运行、解决执行不可靠、任务不可持续问题,将非确定性大模型系统精炼为可靠生产体验的过程。

      面向SRE场景,需要Agent架构与Harness工程的系统创新。为构建任务、信任与责任边界清晰的人智协同场景,需要针对人+Agent防差错设计:重构信任边界。对感知及决策阶段进行防差错设计,对人对Agent的信任程度变化进行建模和动态校准。同时建立SRE Agent场景分级模型,优先将Agent应用于中低风险场景,明确划分人智协同的任务分配与责任归属,实现高效安全的智能协作。

      自进化 Agent :下一代的SRE Agent像人类一样学习,自我演进实现运维经验的沉淀。运维智能化正迎来范式转移:从“技能堆砌”迈向“自进化智能”。传统人工主导的Agent往往依赖海量Skill的简单叠加,而新一代人工智能Agent则通过自学习机制实现能力的持续增强。鉴于运维专家经验的核心在于现网实战,在“运行态”而非“开发态”进行知识与技能的即时学习,被证明是更高效的路径。基于此,业界正加速构建具备私域知识完备性、依托强大Agent平台及大模型底座的“自进化智能体”,旨在通过实时吸收现网数据,实现运维能力的自我迭代与闭环优化,重塑智能运维的效率边界。


55.PNG图:不可能三角

      安全问题不能靠限制使用来解决,要靠技术体系解决。智能体能否实现“零人因故障”?表面上看,人类常见的操作失误与认知偏差,在AI中同样可能以算法偏见或逻辑幻觉的形式重现。尽管人类有规章制度与法律作为责任兜底,但AI目前尚缺乏明确的“责任主体”来约束其行为边界。基于“不可能三角”理论,一个Agent系统无法同时具备“持续自演化”、“完全隔离”与“安全不变性”这三个属性——这在数学上已被证明是不可行的。因此,追求绝对安全的“自演进AI Agent”并非追求零风险,而是确立一条安全下界不退化的底线思维。策略上,承认安全上限,摒弃盲目自演化。通过“环境分层”机制,在测试环境定向牺牲以换取探索空间,从而守住生产环境的安全底线。

      生产力决定生产关系,生产关系也会反作用于生产力。如果制度跟不上技术,发展就会受阻。限制AI Agent技术发展的不是技术本身,而是组织形态、体系与评价的深层变革。从"人驱动机器"到"机器自主决策+人审核监督",从"规则运维"到"推理运维",运维组织的演进需要一场革命。AI在SRE的核心矛盾,不是能不能做,而是如何在提效、自进化与生产安全之间找到可落地平衡。未来真正被运维的对象,不只是生产环境,更是能够持续自进化、可评测、可管控的SRE Agent体系。

      面对大模型时代的技术浪潮,华为云持续深耕智能运维领域,与业界同行共建开放生态。通过维享会等交流平台,华为云联合全球客户共论业务上云后的管理之道,推动企业从“基本运维”迈向“确定性运维”与“Agent驱动智能运维”的新阶段。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。