All in One, 快速搭建端到端可观测体系

举报
华为云确定性运维 发表于 2023/12/20 11:26:13 2023/12/20
【摘要】 可观测包含指标、日志、调用链,它是运维运营的基础能力,所有的运维运营动作都要基于可观测进行分析和决策,所以让客户在云上可以看的全、看的快、看的准是我们可观测领域追求的目标,也是客户信赖我们的基础。

来源:华为云确定性运维专刊(第四期)

作者:王磊

      随着云原生技术的应用,可观测成为云服务的主角,应用程序的部署密度及变化频率较传统环境有着巨大的变化,需要可观测性来清晰地发现和记录主机快速变化的应用行为,可观测性对于IT治理水平、业务在线化以及用户体验等方面具有重要作用,有助于提升在不断强化复杂系统架构下的业务连续性保障能力。

      当前传统监控体系面临的诸多局限,比如企业多种监控工具、数据无法统一管理、研发测试问题定位 过程沟通难度大,网络不好、接口问题、前/后端同时变化情况下的问题无法复现,数据采集不全、数据难以关联分析以及数据难以快速发挥价值等问题,这都是企业在运维中需要解决的痛点,可观测系统能够帮助理解系统内部,即使在复杂的微服务体系结构中,也可以更轻松地从故障定位到原因。

      华为云可观测性分析全景:统一接入、统一存储、统一观测

      华为云结合云服务特点、客户痛点和应用场景,构建了全栈的可观测性能力,通过指标、日志、调用链的采集可以实现统一观测,从资源到中间件到应用和业务都可以端到端监控查询和告警,同时构建了统一接入和统一存储的统一架构。便于用户使用和维护。

1.PNG

      典型业务架构,建立可观测性体系

      不同的客户应用部署结构、观测对象等存在着很大的差异,观测对象可能会包含端侧应用、接入层组件、应用、中间件和数据,这些对象可能会分布在终端设备、浏览器、IDC和云上,针对多种部署形态华为云提供了可观测性构建的全栈解决方案,实现从日志、指标、调用链层面达到看的全、快、准的目标。
      华为云可观测性平台包含应用运维管理(AOM)、云日志服务(LTS)、应用性能管理服务(APM) 、云监控服务(CES)四大服务,广泛应用在互联网、政企等行业,驱动高效决策,向下覆盖云边端,向上连接业务与最终用户体验,实现基于业务视角和业务场景的可观测。

      全景数据接入:开箱即用,简易配置,快速接入

      华为云面向租户面的可观测方案,结合客户业务场景,通过结合确定性运维技术体系,帮助企业构建稳定可靠高质量的业务,针对观测分析,实现业务监控、应用监控、中间层监控、基础设施监控等数据洞察,统一接入、统一存储、统一观测,支撑业务敏捷发展,保障业务在云原生的环境的稳定、高效运行,实现故障快速恢复、变更风控管控、资源慰问管理、韧性评估优化等运维可观测的能力的提升。

2.PNG

图:华为云可观测体系

      统一可观测大屏 实现系统监控和智能运维

      华为云可观测监控大屏,对数据进行实时的查询和分析,了解系统的过去的状态和运行情况,一旦出现异常或故障,立即进行预警和通知,确保问题得到解决,同时,可以帮助企业负责人在优化系统配置、调整资源分配等作出准确的决策。
      监控大屏通过运维数据可视化,覆盖指标/性能/日志,包含应用/云服务/容器/Prometheus/LB日志等数十种数据源。在业务指标上,提供基于elb日志/业务接口SLA提取的业务指标数据;在应用指标上,将应用/组件的性能指标、容器Prometheus指标、中间件指标;在资源指标上,关联云服务资源指标数据,如ECS/VPC等。
      日志DSL加工:一站式日志加工平台。DSL(Domain Specific Language)加工
是LTS提供的一站式日志加工平台,基于领域自定义的脚本语言和200多个内置函数,可以在LTS控制台实现端到端的日志规整、富化、分裂、脱敏、过滤等加工任务。

      海量日志搜索:百亿级日志秒级搜索,千亿级日志迭代搜索。LTS自研搜索引擎,实现百亿级日志秒级返回搜索结果;多次点击查询,返回千亿级日志的精确搜索结果。

4.PNG

日志DSL加工:一站式日志加工平台

      容器洞察 云原生用户更关注短、平、快

      在容器化应用运维和开发过程中,提高可观测性和有效排查故障是至关重要,动态高效地定位并解决突发性问题,在系统不可用时,快速了解问题现状及原因,有效预防故障发生,构建可观测能力,通过5大能力助力快速问题定界:

      » 健康诊断:及时关注和处理中高危集群;
      » 资源盘点:覆盖Cluster 概览、Node 统计、Deployment 统计、Job统计、事件;
      » 数据分析:3类数据关联分析,逐层下钻;
      » 监控大盘:集overview、Deployment-view、cluster等功能,满足开箱即用;
      » 告警:48+最佳实践告警规则,满足多种告警场景处理规范。

5.PNG

      应用性能管理 端到云全链路追踪

      端到云全链路追踪覆盖全部关联IT系统,完整记录用户行为在系统间调用路径与状态的实践方案,对于页面加载性能、API请求时延、服务端调用链等场景。基于全链路的拓扑发现,在端侧进行用户体验监控;在接入层进行服务端性能分析;在数据库进行数据调用,使决策更加敏捷、可信。

      端到云全链路不仅可以满足端侧监控和实现性能专项分析,还可以为业务带来端到端问题诊断、系统间依赖梳理、自定义标记透传等核心价值,通过分析和诊断系统响应情况,优化业务流程,提高价值的可观察性、可优化性,实现更便捷管理和优化系统。

      总结

      观测性是云原生时代下能够联动IT与业务的能力,随着云原生的发展,通过高效、灵活和可扩展性的端到端可观测体系,满足应用运维、日志分析、等保合规、运营分析、性能诊断等应用场景,实现IT系统的持续优化和业务价值的提升,完善业务稳定性体系能力建设,提高IT治理水平和发展能力,为企业的运维运营提供有力保障。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。