基于确定性运维 趣丸与华为云共同探索大模型时代下的智能运维
2023年9月20日,在华为全联接大会2023确定性运维论坛上,来自趣丸科技研发中心技术保障部负责人刘亚丹受邀出席活动,现场分享“大模型时代智能运维趣丸科技的思考和实践”。
稳定可靠的运维体系是企业智能化的保障,如今企业逐步进入深度云化时代,从关注资源上云到云上业务创新,需要运维、IT治理、成本等运营手段来深度用云和高效管云。华为云基于确定性运维实践,帮助趣丸在大模型时代下,应对业务上云后面临安全可信、稳定可靠、资源高效、业务敏捷的挑战,加速企业高质量增长,让运维成为智能世界变革的加速器。
华为云承载趣丸70%以上的IT业务运行,不但包含计算、存储和网络等基础底座,业务运行还使用了华为云大量的数据库、中间件等高阶服务,华为云为趣丸核心业务的高可靠、高稳定运行进行7*24小时的保驾护航。
图:趣丸科技研发中心技术保障部负责人刘亚丹分享
大模型对运维数字化服务变革意义
过去,智能运维化门槛较高。现在,GPT像人一样思考,AI逐渐走向平民化。展望未来,智能化运维迈向确定性运维高级阶段,大模型在运维数字化变革具有重要意义,重塑运维数字化服务流程,改善产品服务体验。提升效率和降低成本,帮助企业应对不同变化的运维需求和业务场景。
刘亚丹表示:“大模型重塑运维数字化服务流程有两个关键,一个是原来需要极高人力成本才能实现自动化的场景,可以用大模型低成本实现。一个是基于大模型能力,简化过程或者流程复杂度。”
首先,在效率提升方面,大模型可以自动化处理大量数据,从而提高运维的效率和准确性。运维工作中使用大模型,在智能稳定、智能决策、容量预测等领域,企业可以更快检测和修复问题,减少人工干预。以运维工单为例,过去生成工单需要用户自己填写,现在有了GPT强大的能力,可以基于聊天记录自动生成工单表单,并发起流程。以故障根因定位为例,过去故障根因定位,排查过程和步骤是非常复杂和繁琐的,如果基于大模型的AI能力来定位,简化过程复杂性,效率将大幅提升。
其次,在质量保障方面,大模型可以实现异常检查、故障诊断、故障自愈,帮助企业提前采取措施,避免潜在风险。例如,通过大模型分析数据,可以预测故障,从而提前采取措施,保障系统性能稳定。
此外,在成本治理方面,大模型通过成本优化、资源优化、容量规划、性能优化等处理海量数据。通过自动化和智能化处理常规任务,提高资源利用率,极大提升运维效率并降低成本。
图:大模型带来的运维变革
如何快速构建LLMOps能力
在LLMOps架构设计和演进思路上,明确服务的场景和目标,根据业务需求,拆分出具体的模块和特征。
第一阶段,围绕应用层的能力提升。结合知识问答,提高运维效率和准确性,采用提示词和向量数据库技术对大规模容器编排和监控数据进行处理和分析,进行根因定位,实现更高效的性能检测、故障发现和故障总结,实现运维工单自动化。
第二阶段,围绕能力层的能力提升。结合长记忆技术对历史日志进行建模和分析,建立运维知识图谱和提示词工程,实现对容器编排和监控中的问题自动发现和关联分析。通过引入深度学习、向量知识库等技术,建立知识图谱,引出记忆管理,可以训练出更精准的模型,提高问题定位的准确性和效率。同时,可以利用系统协同技术,实现各系统之间的信息共享和协同工作,整合不同系统和组件,建立统一的运维协同平台,联接各系统之间的信息互通和自动化协作。
第三阶段,围绕多模态的能力提升。将不同领域的模型进行整合,以实现多模型的LLMOps能力。这些模型来自不同的开源模型库,对模型集成在统一的框架,以此实现多模态数据的深度理解和处理。企业可以根据特有的模型进行整合,对集成的模型进行微调,以此发挥其特点和优势,提升模型的精度和效果。
图:LLMOps架构设计和演进思路
大模型技术接入智能运维场景,多方面提升运维效率
场景一,大模型实现故障处理过程同步和结果总结。GPT能够实时同步故障的背景和进度,帮助相关人员了解故障情况,定时输出故障简报,提供最新的故障信息和进展,自动录入故障平台,快速准确记录和存储故障信息,提高处理效率。
图:GPT故障异常通报
场景二,大模型实现故障问题根因分析。分步骤进行获取故障信息。第一步,获取容器Pod状态和日志;第二步,Istio网格的依赖和语法分析;第三步,GPT总结输出解决方案,提升容器服务故障根因定位效率。大模型实践可以提高容器服务故障根因定位效率,增强监控数据,分析容器产生的日志信息,自动检测容器服务的异常行为,从而提前预警故障的发生。
图:GPT总结输出解决方案
场景三,大模型提升产品的体验。通过IM聊天对话式运维助手,产品入口从web转入聊天对话,实现故障诊断的能力,自动化处理常见的运维任务。同时通过对话的方式可以及时响应用户的需求,快速定位和解决问题,通过实时监控和预警信息,提升运维效率。并可以归纳过去的运维经验,形成知识库,方便团队成员查询和学习,优化资源配置,提升资源利用效率。
大模型改善数字化产品服务体验改善数字化产品服务体验,核心是通过运维助手,高效提供信息检索服务和内容生成。举个例子,在故障处理过程中,我们要不断的群里沟通信息,信息比较杂乱,这个时候如果群里的运维助手可以高效准确汇总信息,这将提升故障处理的效率。另外,在过程还需要查看各类监控信息,可以直接通过运维助手获取监控图,并展示在群里。最终,智能运维在感知,认知,行动三个方面形成闭环,智能化运维将进入生成式自动化(AIGA)的阶段,AIGA的显著特点是:用已有知识(感知)自动生成行动链(认知),并执行(行动),自动检测行动链的执行结果,将行动链的执行结果沉淀为新知识。
图:IM聊天对话式运维助手设计逻辑
运维实践的智能化是大模型时代的重要趋势,大模型技术的应用推动运维实践的变革,逐渐从传统的手动操作转向自动化和智能化,带来广泛的应用场景和表现能力。未来,大部分的场景都可以用大模型来替换,人工的参与将被大大减少,而机器的智能将被充分发挥。繁琐的手动步骤将被智能化处理,响应速度将得到极大的提升,帮助运维人员管理和优化系统的性能和资源,意味着全面智能化运维时代已经到来。
“维享会”开创一个全新的交流平台,华为云未来愿意和趣丸等更多企业,联合共探创新方案,进行实践经验分享,共同编写标准,相互启发与碰撞,共建“管云”交流平台,引领更多企业进行数字化转型,在大模型时代下开启快车道,迈向更加智能化的未来。
文章来源:华为云头条号 https://www.toutiao.com/article/7283811122384224803/?log_from=fe3739482b20c_1696660236463
- 点赞
- 收藏
- 关注作者
评论(0)