大模型时代下的应用可观测性方案探索与实践
— 华为GTS与基调听云在面向未来的应用可观测性方案上的探索与实践
来源:华为云确定性运维专刊(第五期)
作者:王福强 杨金全
一、背景
在当今数字化转型的浪潮中,企业越来越依赖复杂的应用程序和服务来支持其业务运作。这些应用程序不仅需要快速响应,还必须具有高可用性和可靠性。为了确保这些应用的性能和稳定性,应用性能管理(APM)和可观测性工具变的至关重要。
传统的APM工具主要集中在监控应用的性能指标,如响应时间、吞吐量和错误率等。然而,随着技术的快速发展和业务需求的变化,单纯的性能监控已经无法满足现代应用的需求。云计算、微服务架构、容器化技术、DevOps实践、人工智能、物联网(IoT)与边缘计算、5G技术的普及,共同推动了应用可观测性方案的创新和发展。这些技术不仅为企业提供了灵活的资源管理和服务部署能力,也带来了新的监控挑战。企业必须构建更为先进和全面的监控系统来应对云环境的动态性、微服务的复杂性、容器的短暂性和DevOps的快速迭代。同时,人工智能和机器学习的进步为监控数据的深度分析提供了新工具,而5G和IoT的发展则进一步扩展了监控的范围和深度。
现代应用不仅需要监控性能指标,还需要具备更强的可观测性,包括日志、指标、分布式追踪等数据源的整合与分析。仅依赖传统的监控方法已无法全面反映应用程序的健康状态和运行性能。
在 GTS 内部,所有应用均已改造为依托于华为云,基于云原生技术构建的现代应用。为保障这些应用的稳定性,历史上已经建设了非常多的系统或工具,建立了一套一体化监控+AIOPS 的运维监控体系,在当前看来存在一些明显问题。
图1:那些年我们一起趟过的坑
二、基于大模型技术的可观测性方案
在大模型时代,可观测性平台也需要与时俱进,利用大模型技术,可以实现更智能化的故障检测和预警,自动化的根因分析以及精准的容量预测。利用大模型对海量数据的分析处理,整合及关联不同数据源,可观测性平台不仅能够提高运维效率,还能提供更准确和及时的决策支持,全面提升系统的稳定性和可靠性。
图2:大模型时代的可观测性全景
基于以上全景图,GTS 和基调听云提出大模型时代的可观测性方案主要包括以下几个方面:
1.建立可观测性数据模型
建立系统化的可观测性数据模型是提升应用可观测性的关键。该模型包括几个核心要素:首先,模型分类在CNCF的五大信号基础上,新增了拓扑、业务属性、用户旅途、元数据和网络等信号,形成了十大全面的数据模型。数据源定义则明确了日志、指标、追踪数据等各种数据源的类型和结构,包括传统监控数据和新兴的大模型生成数据。通过数据分类与标签化,对数据进行系统分类和标签,便于后续的查询和分析。数据关联建立了不同数据源之间的关系,提供了全面的数据视图,支持跨模型、跨系统和跨应用的深入分析。数据标准化制定了统一的数据格式和标准,确保不同数据源的数据能够无缝集成和分析。这一综合模型将显著提升应用的可观测性,帮助企业更高效地利用数据,优化系统性能。
2.运维对象的自动纳管和全面全量的数据收集与融合
自动纳管通过自动化工具和智能平台,实现对服务器、应用、服务等运维对象的自动发现和纳管,确保新部署的资源自动纳入监控范围。全面全量数据收集使用分布式技术,保证日志、指标、分布式追踪等所有关键数据的完整性和准确性。数据融合则将不同来源的数据整合,形成统一的数据视图,实现跨系统的数据集成和分析,提供更全面的可观测性。这些技术共同提升了运维的自动化和智能化水平,为系统的高效管理奠定基础。
UniAgent针对运维对象自动发现、自动识别、自动采集、智能关联,支持超过600+技术栈,内置175类实体和119种关系,实现全面全量的数据采集与关联。
图3:UniAgent 采集即治理
采集即治理是本方案的核心,通过对数据模型、数据计算标准和数据关联关系的治理,为 AI 提供高质量可观测性数据。
3.可观测性基础软件平台建设
该平台具备高可用、高性能的数据处理和存储能力,以支持大规模数据的实时处理和分析。在面向未来的可观测性体系中,数据湖仓是可观测平台的核心技术。
图4:数据湖仓:全栈可观测性大数据基础设施
4.大模型应用建设
大模型技术为可观测性引入了智能分析的新维度。通过利用大数据平台和机器学习框架,大模型在异常检测、根因分析和预测分析中得到了优化。它能自动分析日志、指标和追踪数据,识别异常模式、定位故障根因并提供优化建议。同时,大模型还支持多源数据融合与深层次信息挖掘,帮助发现潜在问题和优化机会。
图5:基于大模型的可观测性平台架构
5.统一运维体系建设
在未来的应用可观测性方案中,统一运维体系建设是确保系统高效运转和跨部门协作的关键。该体系包含四个核心能力:Dashboard、指标体系、多维分析和全局拓扑。
1)Dashboard提供了一个集中化、可视化的界面,用于实时监控系统的健康状态和性能,并支持自定义视图和动态交互分析。
2)指标体系定义了需要重点监控的各种系统性能和业务指标,包括关键性能指标(KPI)和告警阈值设定,为系统稳定性提供衡量标准。
3)多维分析则通过多维度数据切片、趋势分析和根因分析,深入探讨系统行为和性能变化,帮助定位问题根源。
4)全局拓扑可视化展示系统中各组件和服务的关系,支持动态拓扑视图和故障传播路径分析,实现依赖关系管理和自动化拓扑更新。
这一体系为企业提供了全面的运维视角,确保系统的高效、稳定运行。
6.智能运维(AIOPS)体系建设
GTS和基调听云在智能运维体系的建设中,重点关注异常检测、告警收敛、基于因果关系的确定性根因分析、故障管理和容量管理等关键模块,以打造一个更智能、更高效的运维生态系统。
图6:智能运维体系架构
在智能运维(AIOPS)体系中,异常检测、告警收敛、基于因果关系的确定性根因分析和故障管理是核心模块,确保系统的稳定性和高效性。
1)异常检测通过多维数据分析和机器学习模型,实时识别系统中的异常行为,自动调整阈值以适应动态环境,并在检测到异常时立即触发告警。
2)告警收敛则通过告警聚合、优先级排序和智能关联分析,减少告警噪音,确保运维人员专注于关键问题。
3)基于因果关系的确定性根因分析利用因果关系模型和历史数据匹配,快速定位故障根源,并提供实时更新的分析报告,提升根因分析的精准度。
4)故障管理模块通过自动化手段检测和修复故障,详细记录并追踪每次故障的全过程,推动系统的持续改进与学习。
这些模块的集成为企业构建了一个智能、高效的运维体系,显著提升了系统的可靠性和响应速度。
三、总结与展望
在数字化转型的背景下,企业应用系统变得越来越复杂,这对传统的运维方式提出了巨大的挑战。GTS和听云通过引入智能运维(AIOPS)体系,构建了面向未来的可观测性方案,利用先进的人工智能和自动化技术,不仅提升了运维效率,还提高了系统的稳定性和可靠性。
智能运维体系的实施让企业能够更快速、更精准地响应系统问题,减少业务中断,并优化资源利用。通过大规模数据分析和机器学习模型的应用,AIOPS体系能够自动识别问题、优化资源配置,并在复杂环境中保持高效运行,为企业带来了巨大的运营价值。
展望未来,随着大模型技术和人工智能的进一步发展,智能运维将会变得更加智能和自动化。未来的AIOPS体系将不仅仅局限于被动的监控和响应,而是能够主动预测和预防潜在问题,实现真正意义上的自愈和自优化。同时,随着5G、物联网和边缘计算等新兴技术的普及,运维的可观测性将进一步扩展,涵盖更多的应用场景和数据源,为企业提供更加全面和深入的运维支持。未来的运维体系也将朝着更高的智能化、自动化和自适应性方向发展,为企业的数字化转型提供坚实的技术保障,并推动业务的持续创新与发展。在这个过程中,华为GTS和听云将继续引领行业前沿,探索并实践更加先进的可观测性方案,助力企业实现卓越的运营效率和业务增长。
- 点赞
- 收藏
- 关注作者
评论(0)