全链路可观测性体系实践 构筑汽车应用系统云上堡垒

举报
SRE确定性运维 发表于 2023/09/08 11:08:59 2023/09/08
【摘要】 本案例结合一站式可观测性运维平台实践,通过应用运维管理服务(AOM)、云日志服务(LTS)、应用性能管理服务(APM)等服务,实现全链路管理,提高运维效率,助 力汽车业务应用系统稳定运行,提升用户体验。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG

      对于传统汽车企业而言,数字化起步相对较晚,缺乏成熟的数字化战略和转型路线,这可能导致企业在数字化转型过程中无法快速响应市场需求,将数字化融入企业基因。汽车行业的数字化转型是一个复杂的过程,需要解决业务系统庞大、业务系统应用多、分布广、跨系统、跨区域、跨应用的调用频繁等问题,业务所用的系统有成百上千个应用服务组成,服务之间的关系错综复杂,如何构建一体化数字化服务平台业务系统,持续为用户打造一个更加个性化,智能化的出行体验,成为汽车企业迫切需要解决的难题。

业务现状.PNG

      当前业务面临的挑战主要体现在以下方面:
      (1)运维数据分散,缺少统一的运维平台。指标、性能、日志等可观测性数据分散在各个运维系统中,未进行统一的管理,运维数据的价值未能充分利用。
      (2)无法实时监控应用健康状态。无法实时监控应用及云资源,采集各项指标及事件等数据分析应用健康状态。
      (3)系统新的功能模块在调试阶段,调用链路长,功能性能定位困难,研发测试人力投入大,影响上线时间。
      (4)分布式应用性能问题分析定位困难。如何保障应用正常、快速完成问题定位、迅速找到性能瓶颈,成为亟需解决的难题。
      (5)应用体验差导致用户流失。无法实时感知并追踪体验差的业务,不能及时诊断应用异常,严重影响用户体验。
      (6)日志服务可用性不高。自建日志管理系统投入成本高,功能不全面,性能不高,无法采集云服务日志,且对运维人员技能要求高,配置繁杂,需要可行性更高,服务更全面,性能更优化,成本更低的日志服务。
      (7)自建日志系统SQL分析能力弱,无法提供专业的业务报表信息,例如页面的PV、UV、停留时间等。
      (8)告警能力不足。自建运维系统告警通知方式不足,无法对接日常信息接发工具,面对可能产生的海量告警风暴,无法及时采取应对措施。

方案实践.PNG

      为解决转型面临的挑战,企业引入可观测性运维解决方案。可观测性运维,可以提供一站式可观测性分析和自动化运维方案,通过采集、监控和分析指标、性能及日志数据,按照一定规则配置告警,帮助业务及时发现故障,全面掌握应用、资源及业务的实时运行状况。基于CMDB为复杂应用提供可观测性分析能力,兼容Kubernetes云原生技术,提供短、平、快的容器洞察能力。8.JPG

      1、应用运维管理服务(AOM)
      AOM可统一管理运维插件,提供指令下发功能。通过应用管理、资源搜索等功能,将所有资源对象与应用统一管理,为上层运维场景服务提供准确、及时、一致的资源配置数据。基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。并且支持原生PromQL、API等方式上报数据,可通过grafana查看数据,通过kafka转储数据。此外,还可无缝对接应用管理与运维(ServiceStage)、函数工作流(FunctionGraph)和微服务引擎(CSE)等上层运维服务,采集指标数据并实时、可视化呈现。

      2、应用性能管理服务(APM)
      APM可提供应用性能监控服务,主要包括应用指标监控、应用拓扑、调用链追踪和URL跟踪等能力。APM Agent会采集Java、Python、Go、Php、.Net和Node.js应用的JVM、GC、服务调用、异常数据,并自动发现应用所用的外部调用、数据库访问以及其它中间件的指标数据。
      (1)APM应用指标监控可以度量应用的整体健康状况,帮助用户全面掌握应用的运行情况。针对应用的调用情况,对调用进行全方面的监控,可视化地还原业务的执行轨迹和状态,协助性能及故障快速定位。
      (2)应用拓扑可展示服务之间一段时间的调用关系,清晰地展示应用间关系、调用数据(服务、实例指标)、健康状况等详细内容,既可从调用方统计,又可从被调用方统计,通过拓扑图,可以自动梳理服务之间的调用关系,从全局视角查看服务之间调用是否正常,快速定位问题所在。

      (3)调用链追踪能够针对应用的调用情况,对调用进行全方面的监控,可视化地还原业务的执行路线和状态,协助性能及故障快速定位,可查看某个调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。
      (4)URL跟踪可以帮助分析某个重要应用调用的拓扑关系,比如某业务系统创建订单的接口调用,由于URL跟踪消耗资源较大,并不会默认将入口的URL调用标示为URL跟踪,需业务自己将某个环境的某个监控项的调用标示为URL跟踪,APM会重点跟踪由此引起的下游的一系列调用关系,帮助从更细粒度角度发现问题。

      3、云日志服务(LTS)
      LTS为客户提供了云日志服务,可收集来自主机和云服务的日志数据,通过海量日志数据的分析与处理,可以将云服务和应用程序的可用性和性能最大化,提供实时、高效、安全的日志处理能力,帮助业务快速高效地进行实时决策分析、设备运维管理、用户业务趋势分析等。此外,LTS还提供了日志转储能力,日志转储基于复制的转储机制,业务可将需要长期存储的日志数据转储至对象存储服务(OBS)、数据接入服务(DIS)或分布式消息服务(DMS)中长期保存,转储时不会在LTS被删除。

      可观测性运维平台提供了告警管理的增强能力,业务可以对指标、性能和日志数据自定义配置告警规则,在达到设定的告警条件时,会触发告警并及时上报信息,并将告警发送到客户自定义的告警通知渠道(包括邮件、短信等),以便客户在第一时间获取到服务的异常状况,进而迅速处理故障,避免造成业务损失。此外,还提供了告警降噪能力,客户可配置分组、抑制、静默等告警降噪规则,运维平台在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。

业务提升.PNG

      1. 使用成本降低30%:企业基于容器化部署应用服务,在购买容器时可默认开通CCE接入AOM和LTS,也可根据CCE接入LTS的指导,实现应用日志及所用云服务日志一键式接入LTS;无需更改应用代码,只需在CCE中对应用的工作负载部署APM Agent,修改应用启动参数,就可以实现应用指标性能监控。界面化简单操作,一键式便捷运维,可整体节约30%的运维接入和使用成本。
      2. 运维效率提高40%:通过告警管理、指标监控、链路追踪和日志查看分析能力,可随时随地快速感知故障,并进行定位定界,找到故障发生点,补齐监控能力短板,通过链路追踪使运维人员更聚焦业务的稳定性提升,可提高运维效率约40%。
      3. 用户体验提升:在用户日常使用业务系统的过程中,可以通过APM、LTS对用户行为、体验做分析,找到并解决卡点问题,改进用户体验。此外,还可在重大活动前进行性能压测,提前发现并解决性能问题,保障系统在活动期间的稳定性,确保用户体验不受影响。

案例总结.PNG

      一站式可观测性管理平台通过应用运维管理服务(AOM)、云日志服务(LTS)、应用性能管理服务(APM)、云监控服务(CES)四大服务,提供监控、日志、性能管理等全方面可观测性能力,帮助业务解决分布式应用关系错综复杂,应用性能问题分析定位困难等问题,满足应用运维、日志分析、等保合规、运营分析、性能诊断等应用场景,是实现可观测性运维的利器,达成业务增长而IT投入不增长,提高运维效率,实现降本增效的目标,助力企业构建一体化数字化服务平台业务系统,持续为用户打造更加个性化、智能化的体验。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。