以智能可观测技术,构建数据驱动的主动治理体系
引言
随着云原生架构的普及和AI技术的快速发展,系统的复杂性与数据规模呈指数级增长,传统运维模式已难以满足高效、精准的稳定性保障需求,在此背景下,智能可观测性技术成为解决动态系统治理难题的关键。本文基于中国信通院在可观测性领域的标准研究,结合行业技术演进方向,探讨如何以智能可观测性技术构建数据驱动的主动治理体系。
1、背景
1.1 AI时代下,可观测技术与智能化技术加速融合
AI与可观测性技术的结合,旨在通过数据驱动实现“观测、分析、决策、优化”闭环,实现系统稳定性保障从“人工经验主导”向“算法协同驱动”的范式跃迁。其核心价值如下:
-
复杂系统与数据规模的治理需求
微服务、容器化等技术促使系统拓扑结构日趋动态化,传统人工监控难以应对海量指标(Metrics)、日志(Logs)、追踪(Traces)等多模态数据的实时分析。通过智能化技术实现数据自动化关联与异常模式识别,可显著降低人工干预成本,提升复杂环境下的运维鲁棒性(鲁棒性是指系统在面对各种内外部干扰时,仍能保持其性能稳定的能力)。 -
诊断能力强化与根因定位优化
基于算法与模型的自动化分析机制可初步实现问题根因的快速定位,尤其在固定场景(如服务链路中断、资源过载)中,其准确率接近专家经验水平。此类技术通过因果推理与历史数据比对,减少故障排查对个体经验的依赖,缩短平均修复时间。 -
实现未知问题的探索和创新
针对低频异常事件与非结构化数据(如日志文本),可借助无监督学习与模式识别等智能技术,实现对系统潜在问题的主动探索与发现,如业务逻辑缺陷或安全漏洞等。这类能力突破了传统阈值告警只能识别已知异常的局限,推动系统在未知问题识别与创新性诊断方面迈出关键一步。 -
优化资源利用与运维效率
通过时序预测与自适应算法,智能化可观测系统可动态优化资源分配策略,实现负载均衡与成本控制,同时,其预测性运维能力可将故障响应从“事后补救”转向“事前预防”,推动运维模式从被动响应升级为主动治理。
1.2 凝聚共识,中国信通院联合行业持续开展可观测性标准研究
中国信通院自2021年起牵头开展可观测性技术及标准研究,陆续发布《可观测性平台能力要求》、《根因分析平台能力要求》、《可观测性能力建设成熟度模型》、《可观测性技术发展研究报告》等多项标准和研究成果;2024年12月,中国信通院联合行业头部企业共同发布《云计算系统智能化可观测性能力成熟度模型》,并在中国通信标准化协会完成行业标准立项,这些标准为企业提供了技术建设的路径参考和能力评估框架。
2、数据治理:智能可观测技术落地的基石
在智能可观测体系的构建过程中,数据治理是实现高质量智能模型落地的坚实基础。智能模型的有效运行依赖于“数据+算法+算力”的协同驱动,其中数据作为基础要素,其质量直接决定了模型的可用性与泛化能力。
在实际应用中,数据质量面临诸多挑战,如故障数据稀缺、数据来源杂乱、数据模型不统一以及持续标注维护难度大等问题,这成为智能化可观测技术落地过程中最大的瓶颈。在此背景下,我们需要构建可观测底座能力,通过被观测对象的管理、资源管理、数据管理(包括数据采集、标准化、存储、安全与处理)、构建可视化能力、告警管理等一系列环节,实现全面、有效、持续、高质量的可观测数据的获取和有效治理,为智能化技术的应用提供坚实的基础。
3、场景聚焦:智能可观测技术落地的核心
在数据治理的基础上,智能可观测能力的落地需进一步结合实际场景开展探索与应用。当前,智能化可观测技术的建设路径呈现出明显的“任务驱动”或“场景驱动”特征。不同系统场景下的业务需求差异巨大,因此往往需要构建具备针对性的算法模型,既可以基于专家规则进行定制,也可以通过端到端的AI模型进行自动学习与推理。这种灵活建模机制使得智能可观测系统能够适配多样化的场景需求,实现从感知、诊断到优化的全过程闭环。
3.1 智能告警基线
智能告警基线可以有效解决误告警的问题,它是指针对大量观测对象的指标时域变化趋势自动生成告警基线,基线随业务峰值特点等进行动态调整的能力。
在很多业务场景下,如果告警阈值定得过高,会漏掉真实的故障问题;阈值过低,则会产生大量无效告警。因此可通过以下方式优化:
- 区分业务场景、区分昼夜差异,在空间维度和时间维度设置不同基线,提升告警准确性;
- 设置基于规则的动态基线;
- 使用智能化手段生成定制化、动态化告警基线(如从历史数据挖掘动态阈值、面向不同指标类型自适应生成告警基线、基于历史数据天/周/月变化趋势生成告警基线,对未超动态阈值的突变/畸变智能产生告警等)。
3.2 智能告警收敛
智能告警收敛的价值在于对真实问题告警的合并,它是指通过智能化的算法和策略对海量的告警事件进行关联分析、合并和智能抑制的能力。具体实现方式包括:
- 设置规则在同维度进行收敛;
- 基于识别的问题根因、同一根因和依赖关系进行收敛;
- 利用AI算法和策略对海量告警事件进行关联分析、合并和智能抑制。
3.3 异常检测
异常检测是根据历史可观测性数据进行数据分析和训练得到AI模型,在系统运行时,从监控数据中使用训练得到的AI模型进行实时推理发现异常,为后续的诊断提供基础。
传统的异常检测模型存在依赖个人经验、配置复杂、随业务变更需不断调整、受大促和异常值影响大的痛点;而融合AI能力的智能化异常检测在突增、突降等异常场景下效果好,适用于关键业务风险感知和变更风险感知。
3.4 趋势分析
相对于异常检测,趋势预测是一种主动运维方法,它通过对时间维度的数据趋势分析和可能出现的故障分析来预测趋势劣化和故障发生可能性,在系统亚健康状态下能够提前发现系统隐患,主动开展健康度巡检,防患于未然。该能力适合在基础监控指标的预测、业务预测和容量规划场景落地。
3.5 智能根因分析
在异常检测或趋势预测系统发现故障或劣化趋势后,需要使用根因分析进行定界定位。智能根因分析是通过数据挖掘、数据分析,运用机器学习或大模型方法,自动或辅助识别问题根因。在传统根因分析方法的基础上,可通过以下方式增强应用效果:
- 使用大语言模型(LLM)赋能根因分析:通过大模型结合小模型和Agent,使用带有样例的提示词,推理得到根因/根因排序的能力;
- 根据RAG(检索增强生成)推荐处理建议:使用RAG结合历史故障案例和故障知识图谱(知识库)给出推荐处理建议的能力;
- 根因分析模型离线/在线更新:如大模型通过预训练完成,小模型和提示词可以离线/在线重新进行数据分析和训练完成更新。
4、智能体:推动可观测技术从工具发展为问题解决者
与传统的AI工具不同,智能体不仅具备决策能力,还能够执行相关任务,类似于给“大脑”配备了“手”,使其具备了更加全面的行动力。因此,智能体的出现推动了AI从单纯的工具角色升级为“自主问题解决者”,这一变革为各行业的可观测性技术提供了新的发展方向,业界当前不断涌现出更多的落地场景和应用,如:
- 自然语言检索:利用自然语言直接查询和检索数据库或数据仓库中的数据的技术;
- 自然语言可视化:利用自然语言生成数据可视化的技术,旨在让用户通过简单的文字描述生成符合意图的数据图表;
- 自然语言分析问题:通过自然语言输入自动识别、诊断并分析问题的技术;
- 自然语言站内辅助:通过自然语言对话为用户提供实时帮助的技术。
5、未来展望
未来,随着AI与大模型的深度渗透,智能可观测性技术应用将从“辅助工具”迈向“自主治理”,推动运维体系向更高阶的智能化、自动化阶段演进。在此,从十个维度分析并给出智能可观测性技术的发展趋势,具体如下:
- 运维模式:从AIOPS到ChatOPS,演进路径为“人工运维→自动化运维→平台化运维→AIOps→ChatOps”;
- 场景覆盖:从小场景到全链路,智能可观测技术的应用场景将持续增加,最终覆盖故障前、中、后的全链路场景,甚至全面覆盖IT运维的全生命周期流程;
- 模型选择:从单模到融合,机器学习算法对数据处理有天然优势,大模型对语义识别和逻辑推理有天然优势,两者结合可更好地融合场景落地;
- 策略选择:从被设定到自适应,系统能够根据环境的变化和数据反馈,自动调整自身的行为、策略或参数;
- 思考过程:从黑盒到白盒,传统模型存在可解释性差的问题,思维链(CoT)可展示思考的逻辑步骤,使故障定位/根因分析过程可追溯、可验证;
- 信任程度:从告知到决策,当前的智能可观测技术是“告诉人类问题原因”,未来将升级为“知道原因后自主决策并执行下一步动作”;
- 认知迭代:从静态知识到实时更新,当前大模型无法实现参数的实时更新,未来将和人类一样,根据不断变化的信息实现自驱的认知迭代;
- 岗位职责:从执行者到开发者,传统运维工程师主要负责监控系统、排查故障、处理告警等日常任务,角色将逐渐转变为智能运维系统和Agent的开发者;
- 协作模式:从单智能体到多体协同,在多Agent系统中,多个AI Agent协同工作,通过管理者和指挥者的协调,实现故障诊断和运维活动的增强;
- 角色定位:从智能助手到数字员工,当前的智能化技术仅能充当助手角色,未来将逐步承担更多人类职责。
- 点赞
- 收藏
- 关注作者
评论(0)