All in One, 快速搭建端到端可观测体系
来源:华为云确定性运维专刊(第四期)
作者:王磊
随着云原生技术的应用,可观测成为云服务的主角,应用程序的部署密度及变化频率较传统环境有着巨大的变化,需要可观测性来清晰地发现和记录主机快速变化的应用行为,可观测性对于IT治理水平、业务在线化以及用户体验等方面具有重要作用,有助于提升在不断强化复杂系统架构下的业务连续性保障能力。
当前传统监控体系面临的诸多局限,比如企业多种监控工具、数据无法统一管理、研发测试问题定位 过程沟通难度大,网络不好、接口问题、前/后端同时变化情况下的问题无法复现,数据采集不全、数据难以关联分析以及数据难以快速发挥价值等问题,这都是企业在运维中需要解决的痛点,可观测系统能够帮助理解系统内部,即使在复杂的微服务体系结构中,也可以更轻松地从故障定位到原因。
华为云可观测性分析全景:统一接入、统一存储、统一观测
华为云结合云服务特点、客户痛点和应用场景,构建了全栈的可观测性能力,通过指标、日志、调用链的采集可以实现统一观测,从资源到中间件到应用和业务都可以端到端监控查询和告警,同时构建了统一接入和统一存储的统一架构。便于用户使用和维护。
典型业务架构,建立可观测性体系
不同的客户应用部署结构、观测对象等存在着很大的差异,观测对象可能会包含端侧应用、接入层组件、应用、中间件和数据,这些对象可能会分布在终端设备、浏览器、IDC和云上,针对多种部署形态华为云提供了可观测性构建的全栈解决方案,实现从日志、指标、调用链层面达到看的全、快、准的目标。
华为云可观测性平台包含应用运维管理(AOM)、云日志服务(LTS)、应用性能管理服务(APM) 、云监控服务(CES)四大服务,广泛应用在互联网、政企等行业,驱动高效决策,向下覆盖云边端,向上连接业务与最终用户体验,实现基于业务视角和业务场景的可观测。
全景数据接入:开箱即用,简易配置,快速接入
华为云面向租户面的可观测方案,结合客户业务场景,通过结合确定性运维技术体系,帮助企业构建稳定可靠高质量的业务,针对观测分析,实现业务监控、应用监控、中间层监控、基础设施监控等数据洞察,统一接入、统一存储、统一观测,支撑业务敏捷发展,保障业务在云原生的环境的稳定、高效运行,实现故障快速恢复、变更风控管控、资源慰问管理、韧性评估优化等运维可观测的能力的提升。
图:华为云可观测体系
统一可观测大屏 实现系统监控和智能运维
华为云可观测监控大屏,对数据进行实时的查询和分析,了解系统的过去的状态和运行情况,一旦出现异常或故障,立即进行预警和通知,确保问题得到解决,同时,可以帮助企业负责人在优化系统配置、调整资源分配等作出准确的决策。
监控大屏通过运维数据可视化,覆盖指标/性能/日志,包含应用/云服务/容器/Prometheus/LB日志等数十种数据源。在业务指标上,提供基于elb日志/业务接口SLA提取的业务指标数据;在应用指标上,将应用/组件的性能指标、容器Prometheus指标、中间件指标;在资源指标上,关联云服务资源指标数据,如ECS/VPC等。
日志DSL加工:一站式日志加工平台。DSL(Domain Specific Language)加工是LTS提供的一站式日志加工平台,基于领域自定义的脚本语言和200多个内置函数,可以在LTS控制台实现端到端的日志规整、富化、分裂、脱敏、过滤等加工任务。
海量日志搜索:百亿级日志秒级搜索,千亿级日志迭代搜索。LTS自研搜索引擎,实现百亿级日志秒级返回搜索结果;多次点击查询,返回千亿级日志的精确搜索结果。
日志DSL加工:一站式日志加工平台
容器洞察 云原生用户更关注短、平、快
在容器化应用运维和开发过程中,提高可观测性和有效排查故障是至关重要,动态高效地定位并解决突发性问题,在系统不可用时,快速了解问题现状及原因,有效预防故障发生,构建可观测能力,通过5大能力助力快速问题定界:
» 健康诊断:及时关注和处理中高危集群;
» 资源盘点:覆盖Cluster 概览、Node 统计、Deployment 统计、Job统计、事件;
» 数据分析:3类数据关联分析,逐层下钻;
» 监控大盘:集overview、Deployment-view、cluster等功能,满足开箱即用;
» 告警:48+最佳实践告警规则,满足多种告警场景处理规范。
应用性能管理 端到云全链路追踪
端到云全链路追踪覆盖全部关联IT系统,完整记录用户行为在系统间调用路径与状态的实践方案,对于页面加载性能、API请求时延、服务端调用链等场景。基于全链路的拓扑发现,在端侧进行用户体验监控;在接入层进行服务端性能分析;在数据库进行数据调用,使决策更加敏捷、可信。
端到云全链路不仅可以满足端侧监控和实现性能专项分析,还可以为业务带来端到端问题诊断、系统间依赖梳理、自定义标记透传等核心价值,通过分析和诊断系统响应情况,优化业务流程,提高价值的可观察性、可优化性,实现更便捷管理和优化系统。
总结
观测性是云原生时代下能够联动IT与业务的能力,随着云原生的发展,通过高效、灵活和可扩展性的端到端可观测体系,满足应用运维、日志分析、等保合规、运营分析、性能诊断等应用场景,实现IT系统的持续优化和业务价值的提升,完善业务稳定性体系能力建设,提高IT治理水平和发展能力,为企业的运维运营提供有力保障。
- 点赞
- 收藏
- 关注作者
评论(0)