[运维月刊] 详细剖析华为云应用立体运维解决方案

“全方位掌控系统的运行状态,快速响应各类问题”一直以来作为应用运维的目标。

资源运行状态上:资源是否充足?机器、网络等是否有问题?

应用运行状态上:出问题了是容器、中间件还是OS的问题?应用有bug,具体是哪段代码引起的?

用户体验保障上:业务运行是否正常?如何能清楚的了解各地域用户体验情况?

上面这些问题,作为运维统统都要hold住。而随着云时代到来,企业应用上云之后,挑战也越来越大:


1、传统运维工具那么多,云上怎么办呢,使用和维护成本太高了。

image.png


2、云化常见下分布式应用问题分析更加困难

image.png


3、如何掌握应用用户体验情况,找到体验差的地方并改进?

image.png


针对这些挑战,华为云推出云应用立体运维解决方案,融合了华为云的应用运维管理服务(AOM)应用性能管理服务(APM),对基础设施层、应用层、业务层实时多维度监控,并通过应用与资源告警关联、日志分析、智能阈值、分布式调用追踪、手机APP异常分析等技术,实现分钟级问题快速诊断和修复,保障应用长稳运行。

图1_03.png


立体运维解决方案具有一下特点:

01  统一运维监控管理:资源、应用、业务一站式监控与分析

支持集群、虚机、网络、磁盘、数据库、应用、容器及业务等上百种监控指标与秒级监控,通过集群与虚机、虚机与应用、应用与资源统一建模,对各种指标智能关联分析,用户通过统一的告警入口和下钻找到问题根因。

640.jpg


02  日志分析:分布式日志集中搜索与实时查看

将虚机上的应用、开源组件、系统等日志集中采集到ElasticSearch集群中,用户通过日志管理快速找到应用实例日志,提供实时刷新、日志上下文查看、秒级搜索、日志下载等常用功能。

640 (1).jpg


03  应用拓扑分析:应用关系与异常一目了然、故障下钻

对应用健康状态可视化管理,包括应用运行状态、时延、错误、负载、依赖关系,包括数据库、缓存、消息中间件、NOSQL等各类开源组件。


04  分布式调用追踪:大海捞针技术,实时监控所有进程每一次调用

直接帮助用户找到异常的代码函数,同时可还原每个函数调用堆栈、出入参、返回值及详细的堆栈信息,性能瓶颈及代码异常无处躲藏。


05  在线调试:对指定的类及方法设置断点和跟踪

用户配置完类名、方法名和参数名后,当该方法被调用时,可自动捕获该方法的调用者、详细的堆栈以及各类参数,帮助开发快速锁定问题现场。


06  业务会话监控:监控每笔交易的KPI数据,提升用户体验

运营视角,了解每个业务的运行状况,包括交易次数、时延、错误率,并通过调用链找到异常代码,同时可以帮助运营人员了解活动期间的交易体验。





现在就使用AOMAPM服务:

体验馆免费体验——使用您自己的账号登录AOM,通过体验馆免费体验AOMAPM功能。


demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。


使用应用运维——使用您自己的账号登录AOM,进一步了解AOMAPM服务功能或将AOMAPM服务接入您自己的应用。



扫码关注公众号,获取更多精彩。

image.png