数据+机理双驱动的智能化运维模型
文章来源:《确定性运维专刊第6期》
一、 智能化时代运维模型的新特征
当今社会已经全面步入智能化时代,智能机器人、智能汽车、智能监控等各类终端均以前所未有的速度蓬勃发展,智能化的快速发展得益于具有强大算力的巨系统支持,涉及大量、异构的物理设备。智能化运维应以提升巨系统稳定性为出发点、降低巨系统构建成本为立足点、从整体角度挖掘抓手作为切入点,提升运维系统智能性的同时体现运维系统的价值。
从系统工程的视角分析,和传统的应用相比,智能化运维呈现以下三点新的特征:
- 更自主地系统管控行为。20多年来学术界和工业界一直关注如何提升复杂系统的场景适应能力和泛化能力,当前的智能化场景又对其提出了更高的要求:在难以预测的环境中,要求系统具备主动感知能力,并能够理解环境所具有的更加动态开放的特性,并有能力在面对相互冲突的目标时迅速做出合乎人类的管控决策。
- 更紧密地与各类用户交互。用户是系统运行的驱动力,智能化运维一方面需要以更自然、直觉的方式与未受专门培训的用户进行交互,还需要具有主动识别未显式表达的用户意图的能力。另一方面,智能化运维需要实现海量动态运维知识的精确检索,以更简便、更高效的方式和开发工程师进行交互。
- 更广泛地融入真实社会。当今许多智能化应用都已经接入了社交网络、电子支付等数字社会基础设施,由数字基础设施构建的虚拟社会是线下真实社会的映射,智能化运维要确保巨系统在实现自身功能的同时确保其向善的社会责任,促进社会和谐、繁荣发展。
二、 数据机理双驱动运维面临的难题
运维数据泛指由音视频、图像和文本所构建的经验数据,是各种系统历史事件的载体,富含大量的运维知识,也是机器学习模型建立的根基。数据驱动的机器学习能从海量数据中挖掘潜在模式,有效模拟复杂的环境与系统行为。然而,随着运维数据呈现出海量、多模态的特点,如何充分挖掘这些数据的价值,提升其利用效能,成为当下智能化运维领域亟待攻克的关键问题
机理泛指由服务约束、部署约束、功能依赖等构建的系统机制数据,是各种规则的源头。规则约束和增强是提升机器学习模型性能、提高不同场景下的模型理解能力的重要手段,如何设计符合运行机制的系统运行模型是智能化运维面临的另外一个挑战。
最后,轻量化是实现模型落地应用的根基,如何从输入数据压缩、模型规模压缩、模型部署加速等维度实现模型的轻量化快速部署,是模型能否在真实环境中得到应用的基础。
三、 数据驱动:检索增强的知识利用机制
数据是实现运维模型智能化的根基,其中蕴含大量复杂的知识,这些数据除了大数据的4V特征外,还具有多源、时变、异质的特点,是典型的复杂大数据。这些数据可以构建高质量的运维领域知识库,采用外部知识检索增强的生成技术可实现运维策略的自主设计,从而提运维的智能化程度。运维领域的数据形式多样,包含结构化的数据库、日志文件、报表以及非结构化的音视频、图片等多模态数据,这些数据的使用包括以下两个基本步骤。
1. 结构化建模
运维数据是经过专家分析和验证过的专家知识,是解决常见问题的重要依据。但是这些知识是典型的碎片化知识,需要对其进行结构化处理和关联分析,才能为运维动作提供更强的决策支持力。高效运维正在变成一个大数据分析问题,急需提出针对大规模碎片化专家知识的结构化建模和关联分析算法。
在知识抽取阶段,不但需要解决多源、时变、异质问题,也需要解决小样本问题。解决多源问题的典型思路是实体对齐,解决时变问题的典型思路是增量或持续学习,解决异质问题的典型思路是跨模态学习,而解决小样本问题可用方法众多。大模型呈现的强大的内容聚合和生成能力,为解决上述问题提供了有力的工具。
在结构化建模阶段,典型的思路是使用知识图谱对所获得的知识进行结构化处理,提升数据的可利用性。面对海量的运维经验数据,图谱需要由浅入深的呈现数据中蕴含的知识,满足不同层次人员的使用需求。从点、线、面三个粒度组织呈现上述知识可实现数据的结构化建模。点,主要围绕同一个知识点的相关联知识展开;线,进一步呈现事件的前因和后果;面,则更进一步呈现不同事件之间的关联。
图1:结构化建模思路
2. 知识检索
外部知识库在提升机器学习模型在垂直领域性能方面起着重要的作用,在面向具体业务场景的知识库检索任务中,检索模型需要同时处理不同形式的数据,但目前基于大模型的数据检索系统存在数据模态间关联的索引能力欠佳和查询语义匹配不精准等问题,导致关联检索过程中容易丢失关键语义或引入冗余信息。如何实现海量运维数据的精确检索是数据利用的另外一个难题。而融合语义切分、多维度图像特征存储与Small-to-Big索引三者的检索方法可以克服传统RAG方法中因文本块(Chunks)大小和排序带来的不足。语义切分负责保证每个chunk内语义具有一致性,而chunk间的语义又有较为明显的不同,缓解切分时造成的上下文语义丢失问题;多维度图像特征存储主要实现多模态数据的处理,在检索时能够兼顾不同模态的语义逻辑信息和视觉信息;Small-to-Big索引构建则可确保检索的高召回率,实现运维经验知识的精确检索,提升运维效率。
图2:多模态运维数据的高效利用
四、 机理驱动:多层耦合的系统运行机制
随着巨系统复杂性的提升,主语将呈现典型的模块化、层次化演变趋势,不同模块和层次之间的协同,是提升巨系统性能的基本途径,建立系统的抽象模型是深入理解系统、构建高效运维模型的基本前提。与功能单一的软件系统不同,现有系统中可能存在多个不同类型的操作手段,并且这些操作手分散在不同的模块或层次中,由于不同模块或层次之间的结构和设备是异构的,模块和层次之间的交互和依赖强度具有较大的差异性。这种系统可以用多层耦合的抽象模型来刻画,不同的层次刻画不同的宏观目标,而层次内部则用于刻画微观目标。
层次内部的依赖特征可以采用有向图来描述,其中节点表示特定的功能模块或者对应的微服务,边线表示不同功能模块之间的依赖关系。信息流或者数据流在不同节点之间的流动表示不同的依赖模式,主要体现在时延方面,不同的时延代表不同的演化模式。层次内部的依赖关系可以采用矩阵来刻画,而演化模式可以采用矩阵分析的方法获得。层次间的依赖特征同样可以采用有向图来刻画,其中图的构建方式和层内的构建方式相同。更进一步,图分析领域的成熟理论也为机理分析提供了有力工具。
图3. 多层耦合的系统建模
五、 模型轻量化:落地应用的前提
分析模型轻量化是指能够对所构建的多模态数据或者依赖图快速给出计算结果,主要解决数据动态更新和巨大图面临的计算耗时问题,是保证运维系统实时稳定运行的基础。
实现模型的轻量化,可以从模型自身、模型输入和模型部署三个维度着手,针对模型参数多、模型臃肿导致的模型利用难问题,在设计学习模型时需要考虑到模型参数的压缩;针对所构建的有向图稀疏庞大的难题,进行数据计算时需要考虑不同类型数据之间的依赖性,以实现输入数据的压缩;最后,利用模型计算过程的特征实现模型的优化加速部署。
输入时变数据 数据关联压缩 模型参数压缩 加速部署
图4. 模型轻量化思路
六、 总结
智能化运维具有更自主的管控行为、更紧密的用户交互以及更广泛的社会融入等新特征,复杂的特性要求运维系统设计时应整合数据驱动和机理驱动两个角度的优势。数据驱动方面,可通过结构化建模和知识检索,解决运维数据多源、时变、异质等问题,提升数据利用效能;机理驱动则可借助多层耦合的系统运行机制,分析复杂系统模块和层次间的依赖关系,深入理解系统运行规律。此外,轻量化是模型落地应用的基础,可从模型自身、输入和部署三个维度出发,缓解计算耗时问题,确保运维系统实时稳定运行。
综合多模态运维数据和巨系统运行机理,是提升复杂系统运维智能可行的解决方案。在未来,随着技术的不断发展,这一融合思路有望在学术界和工业界得到进一步优化和广泛应用,持续推动运维系统智能化发展,助力各行业在运维领域实现突破,提升整体运维水平和效率。
- 点赞
- 收藏
- 关注作者
评论(0)