大模型与智能运维的双向奔赴

举报
华为云确定性运维 发表于 2024/09/13 15:14:39 2024/09/13
【摘要】 本文主要介绍在大模型智能运维场景下,通过大小模型的结合,结合系统运行状态进行概括、溯源、推理根因,输出故障状态摘要和根因诊断结果,最终实现故障检测能力和运维效率提升。

来源:华为云确定性运维专刊(第五期)

1.PNG

      在当今科技发展的汹涌浪潮中,云原生技术与大模型的融合正以前所未有的速度重塑着各个领域的格局。随着数据量的爆炸式增长、计算需求的日益复杂、人工智能技术的深入发展及业务场景的不断拓展,基于云原生的大模型应运而生,成为推动技术创新和产业升级的关键力量。在这一背景下,智能运维能力显得尤为重要。

      云原生已成为支撑大模型的基础技术,使得模型的训练和推理更加高效。同时,智能运维实践可以帮助企业更好地理解和管理这些复杂的系统。通过分析自动发现IT系统中的问题,并定位根因,自动恢复系统,增强IT系统稳定性、性能和可用性,为IT运维提供“端到端”的解决方法。

      大模型能够基于深度学习技术,自动识别运维中的异常模式,而智能运维则能依据大模型的分析结果,迅速制定并执行相应的应对策略,实现快速响应和高效解决问题。两者相互赋能,形成了一个良性的循环。大模型为智能运维注入了强大的智慧力量,智能运维则为大模型提供了丰富的实践经验和数据支撑,共同推动运维领域向更加自动化、智能化的方向发展。

      大模型赋能智能运维

      大模型成为智能运维的指挥大脑,与其他智能体协同工作。在这个过程中,终端用户、SRE、运维机器人和数据中心发挥各自的价值与协同作用,这种协同工作不仅提高了运维效率,还能够实现更高级别的自动化,为企业带来巨大的经济效益。

      ● 终端用户将通过与运维机器人的交互,实现对系统的实时监控和故障排查。大模型可以通过分析用户行为和反馈业务情况,预测和诊断潜在的问题,如用户反映“业务变慢:为什么请求变慢?”等问题,直接反馈业务需求到SRE角色,SRE结合大模型能力,进行分析和判断,进行下一步的动作。 

       ● SRE将作为大模型的重要组成部分,通过对系统的深入理解和优化,实现对系统的持续改进。大模型可以通过对系统性能和可用性的实时监控和分析,发现和解决潜在的故障和瓶颈,提高系统的可靠性和稳定性,从而保证业务的连续性和可持续发展。

       ● 运维机器人将通过大模型的分析和决策,实现对系统的自动化运维。运维机器人将大模型作为“大脑”和可观测工具作为“感官”,能够感知环境并做出相应的决策。当系统出现故障时,机器人可以通过“感官”获取相关信息,结合大模型进行分析和决策,通过“大脑”对运维知识进行系统的理解,并对运维数据进行系统观察,同时借助运维工具进行系统干预,最终实现对系统的自动化运维。

       ● 大模型也将通过对数据中心的分析和预测,实现对系统的优化和改进。通过对数据中心的大量数据进行深度学习和分析,大模型可以预测未来的需求和趋势,对数据中心的分析和预测,可以帮助数据中心实现对系统的优化和改进,提高数据中心的运行效率和稳定性。

2.PNG

      基于大模型的云故障根因定位分析

3.PNG

      通过大模型做到智能运维如何通过大型语言模型对云事件进行自动根本原因分析。

      数据采集与整合:将云环境中的服务器日志、监控指标、配置文件、应用程序日志、用户操作记录等各类数据,进行整合和预处理,使其能够被大语言模型有效读取和理解。

      模型选择与训练:选择合适的序列数据和文本数据的大语言模型架构,使用标注好的历史云事件数据对模型进行训练,让模型学习事件特征与归因之间的关联模式。
      归因推理:将新发生的云事件数据输入训练好的模型,模型根据学习到的知识和模式,对事件的可能归因进行预测和分析。

      结果解释与验证:对模型输出的归因结果进行解释和评估,判断其合理性和准确性,结合领域知识和人工经验,对归因结果进行验证和修正。

      持续优化:根据新的数据和反馈,不断调整模型的参数,改进特征工程,以提高归因分析的准确性和可靠性。

      在整个过程中,数据的质量和标注的准确性对模型的性能有着至关重要的影响。同时,结合领域专家的知识和经验进行人工干预和验证,能够有效提高归因分析的效果和可信度。

      基于多智能体的多模态数据融合根因定位方法

4.PNG

      以上整体架构方案包括四个部分:

      ● LLM-based交互层:此模块用于理解用户的查询信息,提取出用户给出的基础任务和参数。使用ChatGLM2作为基础模型,在源文件代码中加入self-consistency 、CoT 和 in-context learning的逻辑,使模型更能理解我们的场景并能更好地做出回答。

      ● Multi-agent异常检测:由于涉及多种模态的数据源,采用单一检测模块难以获得高准确率且容易产生假阳性,因此我们采用multi-agent的检测方案。我们针对trace、log、metric三种模态数据均设计了异常检测agent。

      ● 基于多模态数据融合的根因分析模型:算法将调用链、日志和指标等多模态数据转换成统一的事件表达,利用无监督的频繁项集挖掘的方法找出故障模式,在资源和代码块级别定位细粒度根因。同时该方法还能通过对比故障前后的模式变化对故障进行解释。

      ● LLM-based故障分析器:采用多LLM Agent轮询问答的方式,不同的LLM Session作为不同角色,生成故障报告工单。

      在众多异常中,找到问题根本原因,故障报告生成能力。即根据分析结果生成故障报告和恢复建议。

5.PNG

      我们同时开启四个LLM会话,作为四个具有不同角色的agent。第一个agent的角色是receiver,其接收上游输入的根因列表并拆解成多个自然语言描述的根因。第二个agent是summarizer,根据拆解得到的多个根因描述,汇聚形成根因摘要。第三个agent是advisor,对每个单独的根因进行分析,并给出对应的故障恢复方案。第四个agent是scorer,对方案进行评价,如果不满足预期,则重复进行新的一轮迭代。

      最后输出一个报告单,总结根因摘要和恢复方案。

6.PNG

      大模型赋能智能运维

      大模型可观测性

      ● 大模型训练和推理具有复杂的软件栈,亟需可观测性。大模型训练和推理的过程涉及到复杂的软件栈,这意味着在这个过程中,我们需要对各种组件和模块进行有效的管理和监控。这就需要一种可观测性的方法,以便我们理解和跟踪模型的行为,以及在出现问题时能够快速地进行调试和修复。

7.PNG

      ● 国外某创业公司给出观察大模型的5个维度即评价、调用链、提示工程、搜索和查询、微调实现大模型可观测性。大模型可观测性是一个复杂的过程,需要对模型进行全面的评价、追踪和提示验证。首先,我们需要对模型进行评价,以确定其性能和效果。然后,我们需要追踪模型的运行情况,以便及时发现和解决问题状。接着,我们需要进行搜索和查询,以获取更多的信息和数据,以帮助我们更好地理解和优化模型。最后,我们需要进行微调,以实现大模型的可观测性,使其能够更好地适应不同的环境和需求。

      ● Meta提出了基于profiling的多模态数据关联方法。这种方法基于 profiling,可以用于多模态数据的关联。多模态数据是指来自不同传感器或来源的数据,例如图像、语音、文本等。这种方法的目标是将这些不同类型的数据关联起来,以便进行更深入的分析和理解,这种基于profiling的多模态数据关联方法具有很高的实用价值,可以应用于多种领域,例如医疗、金融、社交媒体等。

8.PNG

      ● 基于eBPF的跨层次、跨节点大模型请求追踪;Meta提出了一种基于profiling的多模态数据关联方法,该方法结合了基于eBPF uprobe的CUDA监控。通过对不同模态数据的分析和关联,可以更准确地理解系统的运行状况和性能瓶颈。同时,通过使用eBPF uprobe技术对CUDA进行监控,可以实时获取GPU的运行状态和性能指标,为系统优化提供更精准的数据支持。这种方法在高性能计算和人工智能领域具有广泛的应用前景。

9.PNG

      大模型故障定因

      知识图谱驱动的渐进式根因定位方法。知识图谱驱动的渐进式根因定位方法是一种先进的技术,它利用知识图谱的强大能力来帮助我们找到问题的根源。这种方法的核心思想是,我们可以通过逐步的推理和分析,从知识图谱中获取到与问题相关的信息,然后根据这些信息来定位问题的根源状因。这种方法的优点在于,它可以帮助我们在复杂的问题中找到问题的根源,而不是仅仅找到问题的表面原因。这是因为,知识图谱可以提供关于问题的全面和深入的理解,包括问题的背景、相关的实体和事件、以及可能的原因和影响。通过这种方式,我们可以更准确地找到问题的根源,从而更有效地解决问题。

10.PNG

11.PNG

      多智能体协作的智能运维。METAGPT框架是一种非常强大的多AGENT协作框架,它可以帮助开发者更加高效构建多AGENT系统,并提供了多种不同的协作方式。在METAGPT框架中,开发者可以使用元编程技术来动态地生成AGENT代码,从而实现不同AGENT之间的协作。

12.PNG

      大模型驱动的操作系统。基础操作系统(base OS)是计算机系统的根基,它负责管理硬件资源和提供基本的系统功能。基于机器学习的端到端资源管理、工作负载环境要求、环境下的最优资源管理、机器人、云、边缘,基于单基座自动适应不同的设置。在现代计算机系统中,底层操作系统的设计和优化已经变得越来越复杂。为了提高系统的性能和效率,许多研究人员开始使用机器学习技术来进行端到端的资源管理。这种方法可以根据工作负载的环境要求,自动调整和优化系统资源的分配,以实现最优的资源管理。

13.PNG

      基于确定性运维实践 实现大模型与智能运维双向奔赴 

      在大模型与智能运维的协同中,我们不仅仅使用LLM去搭建一个完整的端到端大模型,而是采用大小模型融合的思路。大模型主要负责处理一些不涉及具体系统本身,但需要按人类思维进行分析的任务,如决策制定、问题解决等。而小模型则专注于处理垂向问题的专业任务,如网络故障预测、性能优化等。这种大小模型的结合,可以充分利用大模型的通用知识,同时减轻LLM幻觉带来的危害。

      然而,大模型在应用的过程中,我们也面临着一些挑战。这些挑战都是在运维领域用好大模型需要去认真思考和回应的。我们需要找到一种方法,既能充分利用大模型的优势,又能有效地解决这些挑战。这可能需要我们在大模型的训练和使用过程中,不断地进行优化和调整,以适应不断变化的环境。

      总的来说,大模型与智能运维的协同是一个复杂而富有挑战性的过程。我们需要在充分利用大模型的优势的同时,也要注意解决其带来的问题和挑战。基于确定性运维实践的经验,达成确定性的运维结果,只有这样,我们才能真正地将大模型应用于智能运维,为企业带来更大的价值。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。