四步优化海量业务故障的快速诊断能力

举报
SRE确定性运维 发表于 2022/11/25 16:16:37 2022/11/25
【摘要】 通过华为云诊断能力的引入,实现华为云高阶服务快速感知底层磁盘隐患和网络隐患的请求级别监控;且通过持续的迭代,优化算法和融入专家经验,华为云实现磁盘类、网路类故障准确率从60%到90%+的提升。

来源:华为云SRE确定性运维专刊(第二期)1.PNG

      云计算的IaaS资源承载在通过以硬件为基础单元的数据中心内部,PaaS资源承载在以计算、存储网络等逻辑实例为基础单元的IaaS层内部;当数据中心内的某一硬件出现问题后,如何做到客户业务层到底层链路的快速诊断,如何做到快速关联底层链路的故障对客户业务层的影响关联,一直是云计算厂商面临的大问题之一。
      某日均订单量千万级的客户提出的要求——快速诊断故障
      华为云SRE用“确定性运维”能力支撑了华为云“稳定可靠”,做到了底层硬件的损坏上层资源实例秒级切换,客户业务感知度在秒级;例如DCS依赖的EVS池硬件故障突发后,EVS集群可做到秒级隔离故障节点,客户的业务感知也为秒级;
      但日均千万级订单数量级的客户的诉求并不仅限于快速恢复,因为如此大批量订单下秒级的抖动可能就面临着少量订单量的损失,快速定界定位成了客户对华为云的新要求;例如以上举的例子中,客户业务->DCS->EVS->某一硬件/网络节点的链路中,实现其中某一点的故障可在分钟级定位到原因与故障影响面,实现故障的快速诊断。
      如何做到快速诊断故障
     快速诊断故障,需要打通上下层服务运维能力,实现联合定位定界。首先需要“看的细”。所谓的“看的细”,是关键的组件、网元需要具备“秒级”监控、同时具备系统调用和业务调用的埋点能力,做到感知上下层资源“细微”故障。其次,需要具备完善的上下层资源关联能力和智能故障诊断能力,通过资源组成关系关联底层硬件设备、虚拟化资源、通过网络链路关联请求经过的网元设备;最后通过全栈资源的监控、trace、日志、变更等数据进行智能诊断和根因推测,一键定位故障根因。

2.PNG

      一、通过EBPF技术实现请求级别的埋点和监控,实现精细化监控。
      故障定位过程中,对于SRE来说,最重要的定位数据,即业务和OS系统的监控和日志。华为云对故障进行抽象和分类,通过EBPF对系统请求和业务请求进行埋点和监控,同时对业务软件进行协议解析和埋点,通过非侵入式实现业务软件不修改下,实现请求成功率、时延的端到端监控:
      » 对IO请求的系统调用进行埋点,感知系统IO请求的质量,并且关联到对应的业务进程。精细监控IO质量、精准关联业务影响。
      » 对网络socket进行埋点,感知对端网络慢、丢包情况。
      » 对业务进程进行埋点和协议解析,通过非侵入式方式,
      在不修改业务源码的情况下,对业务请求进行SLI指标监控,感知业务隐患。
      通过epbf技术采集,并且将数据和故障关联。数据统一入湖治理,作为故障定位和智能分析的数据来源。

3.PNG

      二、通过九州平台构建站点数字化数据能力,助力快速恢复
      九州平台构建站点数字化数据能力,包含空间数据、时序数据、运维作业数据等,消除数据断裂点,建立基于图的站点空间数据关系,叠加时序数据、运维作业数据,形成运维知识图谱,释放数据价值,助力故障快速定位定界场景;
      空间数据:通过提供华为云站点三类空间数据(租户资源拓扑、网络流量路径与服务架构依赖),提供从租户资源实例、物理网络到基础设施风火水电等全局视野,支撑快速识别服务影响与租户影响范围;
      知识图谱:基于以上空间数据,结合告警、变更、监控与事件等核心运维数据,通过整合整理,再提取出故障线索,形成发现即定界能力,提升黑盒和自愈恢复触达效率;
      三、通过网络大脑构建网络链路的资源关联能力。
      网络传输经过哪些交换机,涉及数据中心的网络路由配置,是网络问题定位的关键。华为云通过网络拓扑配置、设备配置信息等数据对链路通信路径进行推演、还原。在指定源和目的信息时,快速关联通信链路涉及的网元设备,包括物理网络路由器和虚拟网络网关组件。
      四、结合监控、日志、和埋点调用链和拓扑数据构建多元数据推理模型,智能检测根因
      在获得拓扑和设备的日志、KPI、告警、调用链等异常数据后,根因分析引擎通过历史故障的模式匹配来充分利用历史经验提升准确率、图表征神经网络推理实现了多维异质数据的融合分析,加强了结果的可信。

4.PNG

      整体方案总结
      华为云通过资源的秒级监控、A-Ops平台的埋点技术、九州平台与网络大脑实现PaaS层服务快速感知底层磁盘隐患和网络隐患的请求级别监控,通过持续的迭代,优化算法和融入专家经验,实现磁盘类、网路类故障准确率从60%到90%+的提升。

5.PNG

拓展阅读:华为云SRE确定性运维专刊(第二期)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。