人工智能运维的发展与新机遇

举报
华为云确定性运维 发表于 2024/09/13 09:13:54 2024/09/13
3.5k+ 0 0
【摘要】   由于大模型等新一代人工智能技术的突破和高速发展,为 SRE 和智能运维(AIOps)领域提供了全新的发展机遇和广阔的创新空间,本文从人工智能运维的定义、大模型的发展、SRE 结合 AI 实现人工智能运维以及带来的改变等多个角度展开分析和探讨。

来源:华为云确定性运维专刊(第五期)

截图.PNG

      背景:
      由于大模型等新一代人工智能技术的突破和高速发展,为 SRE 和智能运维(AIOps)领域提供了全新的发展机遇和广阔的创新空间,本文从人工智能运维的定义、大模型的发展、SRE 结合 AI 实现人工智能运维以及带来的改变等多个角度展开分析和探讨。

      人工智能运维的定义:

      “AIOps”(人工智能运维)这个术语是由Gartner在2016年创造的,最初用于描述一个新兴的行业类别,旨在使用ML(机器学习)来解决“运维超大规模云基础设施”所产生的问题。 AIOps 作为一种实践与前面的 ITOA(IT 运维分析)密切相关。

1.PNG

注:ITOA单独利用大数据分析,而AIOps是使用ML和AI的实践演进。

      在实践中,基于机器学习的AIOps(智能运维),基本实现思路是要求组织利用大数据(BD)和机器学习(ML)功能来加速、自动化和简化 与保持系统性能高效、可靠运行相关的所有任务。 

      二.“观测、介入、行动”(OEA)循环

2.PNG

      国际上对于基于机器学习的AIOps(智能运维)提出了,“观测、介入、行动”(OEA)循环的框架模型,OEA是一个概念,它代表了人工智能系统与其环境交互的循环过程,通常用于人工智能驱动的自动化和决策系统的上下文中。

      以下是关于 OEA 循环中每个阶段的概述: 

      1. 观测:

      在观测阶段,人工智能系统从其环境中收集数据和信息。这可能涉及监控各种数据源、传感器、日志、用户交互或其他相关输入。系统观测和分析可用数据,以获得洞察并理解环境的当前状态。 

      2. 介入:

      一旦 AI 系统观测和分析了数据,它就会进入介入阶段,在此阶段,系统根据其分析和决策能力与环境或相关利益相关者进行交互,它可以根据预定义的规则、策略或机器学习模型提供建议、告警、通知或启动运维。 

      3. 行动:

      行动阶段涉及根据前一阶段产生的洞察和建议执行行动或做出决策。人工智能系统执行特定任务、执行运维或触发流程以实现预期结果。这些运维的范围可以从简单的自动化任务到涉及多个步骤和交互的复杂工作流。行动后,循环从观测阶段再次开始,在各个阶段中不断循环以适应不断变化的环境并完善系统的响应。
OEA 循环使 AI 系统能够随着时间的推移动态学习和改进其决策和自动化功能。

      OEA 环路通常用于需要实时或近实时交互的各个领域,例如自治系统、IoT(物联网)应用程序、客户服务聊天机器人或 AIOps 平台。它使人工智能系统能够有效地收集信息、分析信息并采取适当的行动,从而在动态环境中实现智能自动化和决策。 (资料来源:https://research.aimultiple.com/aiops/)

      三.人工智能加速迈向AGI(Artificial General Intelligence)时代


3.PNG

资料来源:中国信息通信研究院华东分院整理

4.PNG

    四. 大模型技术的特点和发展趋势

5.PNG

资料来源:中国信息通信研究院华东分院整理

      大模型(大规模预训练模型)是指通过在大规模数据上进行预训练后能快速适应一系列下游任务的深度学习模型。主要技术特点如下:

      1. 具有涌现能力:在特定任务上,随着模型规模提升,模型突然出现性能提升。

      2. 参数规模庞大:参数规模不少于10亿(1B),严格意义上需要超过100亿(10B)。

      3. 具有通用性:通过提示、微调,能够适应广泛的下游任务。

      基于大模型技术的发展SRE专委会提出了更新版的OEA模型:全面可观测+大模型+OEA,以利于业内充分利用大模型等新技术赋能智能运维赛道。

      五. SRE结合AIGC实现智能运维

6.PNG

      在大模型为代表的新一代AI环境下,SRE聚焦生产环境(PROD)的AI应用—SRE结合AI技术,在各个运维场景实验和验证机器学习、大模型技术,深化和创新“生产智慧”,落实运维管理智能化,持续优化服务“稳定性”。

      六.SRE社区专家关于人工智能运维的探讨

      1、如何看待智能运维?

      智能运维可以总结为,通过应用算法、模型和深度学习,针对特定场景进行智能运维。在这个过程中,数据的关键特征决定了机器学习的效果上限。然而,模型和算法只是用来逼近这一上限的技术手段。因此,在进行许多工作时,数据治理也是一个重要的工作领域。

      我们可以将今年视为AIGC元年,目前AI业界已经成功实现了我们期望已久的人工智能工作模式,一些AI工具已能够进行一定程度的逻辑推理。
当前AIGC仍然存在一些限制,主流的概率性AIGC生成模型通常被认为是不可控的。在许多场景下,它面临着不确定性和幻觉问题,尤其是我们试图要求AIGC按照特定规则执行任务时,这种问题尤为显著。

      2、AIGC到底带来了什么?

      AIGC到底带来了什么?最大改变在于该模型具备通识能力和推理能力。过去,我们的故障分析主要依赖于数据的强关联,并利用这些数据关联的特征进行故障预测。而AIGC不仅能够收集这些隐含的关联关系,还能够结合白盒信息,例如将代码或业务特点传递给大模型,以便发现更广泛范围内的隐藏问题。这有助于我们快速建立智能运维体系。

      我们在一些细分领域已经可以看到AIGC的能力对生产力的提升,此外有许多可探索的未知领域,而这些领域以前是不存在的。前者已经具备一定的确定性,例如代码生成、图像生成、机器人客服等;而后者则以多AI分工协作、个性化伴侣/助手等其他形态展开。

      与此同时,AIGC在业务实践中也带来了许多突破和场景拓展。这些方面包括但不限于IT运维中的故障根因分析、运维知识库生成、故障处理方案以及方案的自动执行。此外,它可以帮助运维研发编写代码和实施工程,应用于测试领域中的测试方案和测试用例,以及更业务场景化的领域。

      对于AIOps方面,目前语言大模型是基于概率模型的生成模型。这意味着它们在生成方案时具有潜力,例如将已发生的几种故障扩展成更多种类,并提示可能的指标和异常情况。然而,在使用AIGC生成文档内容或方案时,需要注意生成内容本质上是一个概率分布,其中可能包含许多有用的信息,但也可能包含冗余甚至错误的内容。因此,在使用时需要注意筛选并结合人工判断,以确保生成的内容准确和有用。

      3、AIGC对运维或运维研发的影响是什么?

      AIGC对运维或运维研发的影响相应的分为两类,偏落地改造既有流程的,可以通过CodeLlama/StarCoder等模型来实现代码辅助生成、通过微调模型来实现自动化的测试用例编写/漏洞检测/提交信息扩展等;而另外一类则有更大的野心,例如ChatDev/Autogen对于软件工程多角色Agent化的方式实现对既有软件工程的全部AI化,这部分工作对于复杂场景的效果目前还不太理想,不过很值得期待。

      对于相对简单且逻辑上不太复杂的问题,例如磁盘告警或多次磁盘告警直接关联到写入失败的情况,AI大模型可以提供显著的改进。因此,在实际应用时,需要清楚语言大模型的能力边界,这将有助于更客观地评估其在不同场景中的应用潜力。

      我们认为这在广义的代码生成领域也是一种形式,而其他领域,如测试代码生成,特别是在游戏开发企业中,提交代码时的提交信息可能不够详细,需要进行扩充,甚至需要对其提交的代码进行摘要,以确认其是否包含无效代码,或者其提交的代码内容是否与提交信息一致。

      在整个运维研发领域,AIGC应该非常擅长。至于运营方面,像企业文档和企业知识库,这正是当前自然语言大型模型的擅长领域之一,工作内容已经相当成熟,这里不再赘述这一点。

      注:内容参考来源:
      1、What is AIOPS, Top 3 Use Cases & Best Tools? in 2024 ;Written by Cem Dilmegani
      https://research.aimultiple.com/aiops/
      2、中国信息通信研究院华东分院整理资料

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。