华为云确定性运维亮相2024QECon,共享AIOps运维创新实践
2024年5月25日,2024QECon全球软件质量&效能大会深圳站召开,华为云SRE AI使能专家张曦博士受邀出席大模型在DevOps的创新应用(AIOps)专场,和技术爱好者分享确定性运维在LLM和Multi-agent在运维领域的实践探索经验。
在数字化时代,企业和组织的IT系统日益庞大且复杂,导致运维工作面临着前所未有的挑战和难度。为了有效应对这些挑战,AIOps智能运维技术应运而生。随着大模型技术的崛起,AIOps具备了更强大的计算能力、决策精准度和自我学习能力,极大地推动了IT运营的自动化进程,显著提升了运维效率。
在AIOps中,大模型是一个非常重要的组成部分,它可以通过分析海量的数据来识别问题和异常,并提供智能化的解决方案。张曦博士从智能运维面临的挑战和痛点出发,介绍企业运维领域应用AIGC的实践案例,基于确定性运维的实践经验,提出以LLM为中心,基于多Agent协同的运维方案,并提出在大模型时代下,对下一代智能运维的思考。
华为云SRE AI使能专家张曦博士在QECon现场分享
大模型给AIOps带来新机遇
大模型时代,传统智能运维方案面临着很多痛点,包括扩展性有限、手动维护自动运维规则、无法有效利用专家经验和领域知识、人机交互不友好等。大模型提升在运维领域的能力,从而更好地优化流程和提高效率。首先,华为云针对运维领域海量知识可以快速获取、辅助诊断和故障分享能力;其次,针对多模态数据进行快速高效准确的异常检测能力;最后,针对多源复杂部署的运维数据进行快速根因定位能力。
华为云积极运用大模型技术来精准定位运维事故的根源,并即时提供有效的故障缓解措施。通过不断收集和分析AIOps的反馈数据,持续优化算法和模型,以提升其预测准确性和操作效率,结合确定性运维体系的实践经验,构建了针对多模态、多源运维数据的异常检测基础模型,对于Metric数据,采用分组聚合、多维度时序特征提取、时序融合以及时序聚类等先进技术,实现了高效且准确的异常检测。
基于大模型和多Agent相结合的运维方案
华为云基于多Agent协同的编排调度,实现更全能的多模态数据异常检测基础模型, 结合多Agent协同完成运维主流程,异常检测->根因定位->故障分析->修复建议,且框架与算法不依赖具体特定应用场景。结合大模型实现较强的泛化能力,华为云通过多个子领域agent协同工作,实现运维故障自动诊断和多个任务模型的编排,提升运维效率。
大模型时代下智能运维演进趋势展望
多Agent协同给智能运维带来的变化,实现真正的模块可插拔,由Agent自主讨论决策运维动作,选择对应运维工具,参与聊天或者代替主管Agent发布指令,通过大模型的强大能力,实现更高效、更主动、更直观的运维工作。
2024QECon现场
确定性运维融合大模型,构建稳定可靠的数字化场景
稳定可靠是企业的“生命线”,华为云基于内部实践的“确定性运维”能力体系及解决方案,与业界同行积极开展互动,吸取各家云上客户意见,梳理出一套能力成熟度模型,给更多处于数字化转型期的企业参考,通过大模型的应用,帮助企业精准地识别运维过程中的痛点和短板,从而制定出符合企业实际需求的运维变革目标和转型措施,实现企业从“基本运维”能力迈向“确定性运维”能力的转变。
面对不断变化的业务需求和日益复杂的IT环境,华为云携手业界同行,共同探索大模型在运维领域的应用,推动企业共建开放生态的合作。华为云面向全球客户推出确定性运维经验交流分享会——维享会,与会员共论业务上云后的管理之道,联合会员共创,编写专刊、白皮书和案例集等内容,碰撞行业前沿资讯,加快云上业务创新,共同为产业贡献价值。
大模型将为智能运维带来更多自动、自主的可能,通过智能预测、自动化操作、资源优化等手段,显著提升企业运维效率,保障系统稳定运行。华为云确定性运维未来和更多企业一起拥抱大模型,共同引领数字化转型的浪潮,让运维成为智能世界变革的加速器。
- 点赞
- 收藏
- 关注作者
评论(0)