【云驻共创】应用智能运维,CCE云原生可观测性能力全新升级

举报
kaliarch 发表于 2023/10/19 22:23:47 2023/10/19
【摘要】 云原生技术的高度分布式和动态性为企业带来了灵活性、可用性、敏捷性和安全性等优势,但也带来了复杂性的挑战。为了解决这些挑战,华为云针对可观测性进行了升级和改进。 华为云云容器引擎CCE推出了全栈容器监控、健康诊断、日志管理和告警助手等新特性,提升了用户对云原生环境的洞察和故障诊断能力,保障系统的稳定性。这些功能帮助用户及时发现和处理故障,让企业能够专注于创新和业务发展。

概述

云原生技术的高度分布式和动态性为企业带来了灵活性、可用性、敏捷性和安全性等优势,但也带来了复杂性的挑战。为了应对这些挑战,华为云在可观测性方面进行了全新升级,推出了全栈容器监控、健康诊断、日志管理和告警助手等特性,以提升用户对云原生环境的洞察和故障诊断能力,确保系统的稳定运行。此外,华为云UCS还推出了容器智能分析平台,旨在为客户提供全栈、全场景的跨云多集群统一可观测性。


一 多云环境可观测性趋势与挑战

可观测性的成功实施对企业发展至关重要,可观测性在复杂的云环境中扮演着重要角色,它为我们带来信心。可观测性是近年来备受关注的话题,被认为是2023年四大战略趋势中排名第二的重要因素。可观测性的价值体现在以下几个方面。首先,它提升了我们的信心。不论是作为运维人员管理系统,还是作为产品经理运营产品,我们都需要了解系统的运行状态和客户体验。缺乏可观测性将使我们变得盲目,丧失信心。可观测性提供了关键的数据和指标,使我们能够更好地监控和分析系统。通过实时的监控和性能指标,我们可以及时发现潜在的问题和异常情况,并迅速采取措施加以解决。这种及时的反馈和响应能力增强了我们对系统稳定性和可靠性的信心。

另外,可观测性还有助于识别和理解系统的瓶颈和瓶颈所在。通过收集和分析各种数据,我们可以深入了解系统的性能瓶颈和瓶颈所在,从而针对性地进行优化和改进。这种深入的了解和洞察力进一步增强了我们对系统的信心。敏捷开发方面,可观测性对敏捷开发至关重要。良好的可观测性能够加速开发过程,使开发团队能够快速将代码从开发环境迁移到预发布和生产环境,并进行快速迭代。同时,可观测性还能降低系统故障的恢复时间,提高故障排查和修复的效率。因此,可观测性在提升开发速度和系统稳定性方面发挥着重要作用。同时可观经验还有增进团队合作、降低运营成本、加速创新等优势。


虽然可观测性对于我们很重要,但是可观测性的实施其实没有这么简单,分布式云原生架构让可观测性实施变得异常复杂。首先,复杂的多云环境增加了挑战。在分布式云原生架构中,私有云和公有云需要在多个级别上相互集成,包括基础架构、数据、网络和应用程序。这种多样性带来了复杂性,使得可观测性的实施变得更加困难。

其次,Kubernetes(K8S)架构的复杂性也是一个挑战。K8S架构包含控制节点和工作节点,每个节点都包含一组相互通信的组件,如kube-apiserver、etcd、kubelet等。这些组件的相互作用和配置关系使得可观测性的监控和管理变得复杂,需要综合考虑各个组件的状态和指标。

另外,微服务和容器的动态性也增加了可观测性的复杂性。在分布式云原生架构中,应用的迭代更新更加快速和灵活,容器和服务可能会频繁销毁和重建。同时,微服务架构中应用数量激增,彼此之间存在复杂的依赖关系。当出现问题时,快速定位到根本原因变得更加困难,需要综合考虑多个微服务的日志、指标和分布式跟踪数据。

分布式云原生架构给可观测性的实施带来了异常复杂性。理解和应对复杂的多云环境、K8S架构的组件和微服务动态性的挑战,是确保可观测性在分布式云原生环境中有效实施的关键。


成功实施可观测性充满挑战。根据采访数据,有相当比例的受访者(4%至46%)认为监控是当前最大的挑战。挑战包括缺乏跨服务的统一可见性、故障解决速度下降、监控工具维护成本高以及无法访问所需的监控视图等。在不断发展的可观测性中,融合AI、OPS和自动化的趋势成为重要方向,可让我们更主动地预防故障和改善用户体验。成功实施可观测性需要克服这些挑战,建立统一的可见性,采用适合的监控工具,提高监控视图的访问性,以及整合AI、OPS和自动化技术。这样才能有效应对挑战,提升系统稳定性和用户满意度。




可观测性的发展趋势呈现两个方面的变化。首先,融合AIOPS与自动化的可观测性成为一项重要趋势。通过引入人工智能和自动化技术,我们能够更加主动地预防故障并改善用户体验。AIOPS可以通过分析海量数据、自动化决策和智能警报来提前预测和解决潜在问题,从而提高系统的稳定性和可靠性。

其次,多样化的工具选择导致数据孤岛问题,并在团队之间造成不同的见解和分歧。为解决这一问题,一站式可观测性解决方案成为必然趋势。这种综合性解决方案可以整合不同的监控工具和数据来源,提供统一的可见性和一致的数据视图,帮助团队共享和理解监控数据,促进协作和决策的一致性。

可观测性的发展趋势从被动向主动转变,通过融合AIOPS和自动化实现故障预防和用户体验的改善。同时,一站式可观测性解决方案的出现解决了多样化工具选择带来的数据孤岛问题,提供统一的数据视图,促进团队间的协作和一致性。这些趋势将推动可观测性从多样化和被动的状态向更高效、一体化的方向发展。

二 云容器引擎CCE云原生可观测性实践

CCE云原生可观测性全景图,在容器监控、告警助手、健康诊断、日志管理等方面进行了全面优化升级。

2.1 容器全栈监控

华为云CCE在全栈监控方面进行全面优化。

1. 可扩展性:CCE提供可扩展的Prometheus实例,能够应对大规模场景下的海量监控数据存储需求,确保数据的可靠存储和管理。

2. 自动化运维:CCE提供免运维的监控解决方案,通过轻量化的指标采集和托管存储,降低了运维负担,使团队能够更专注于业务创新和发展。

3. 统一监控视图:CCE的监控中心提供容器洞察、仪表盘等功能,用户可以一键开启,无需复杂的配置即可获得统一的监控视图,方便快速地了解容器集群的运行状态。

4. 轻量采集和低资源占用:CCE推出了轻量化的Prometheus采集插件,运维成本和资源占用极低,可以轻松应对超大规模集群的监控采集挑战。

5. 成本效益:CCE的全栈容器监控方案支持超过400+的容器指标免费存储,覆盖了绝大多数容器基础监控指标,相比于开源自建方案,具有更低的成本。

华为云CCE基于Prometheus的全栈容器监控提供了可扩展性、自动化运维、统一监控视图、轻量采集和低成本等优势,为用户提供了便捷、高效和可靠的容器监控解决方案。


2.2 告警助手,容器告警一键配置


华为云CCE的告警助手和容器告警一键配置功能,可以帮助用户轻松配置以下三个方面的规则集:

  • 工作负载规则集:
  1. Pod状态异常:通过告警助手,用户可以配置规则集以监测工作负载中Pod的状态异常情况,如崩溃、未就绪等,及时发出告警通知。
  2. 工作负载副本数不匹配与资源使用率过高:容器告警一键配置功能可帮助用户设置规则集来监测工作负载副本数是否与期望值不匹配,并检测资源使用率是否超过设定的阈值,一旦超过,将触发告警提醒。
  • 节点规则集:
  1. 节点状态异常:通过告警助手,用户可以配置规则集以监测节点的状态异常情况,如节点宕机、离线等,及时发出告警通知。
  2. 节点CPU/内存水位过高和PV存储使用率过高:容器告警一键配置功能可帮助用户设置规则集来监测节点的CPU和内存使用率是否超过设定的阈值,以及PV存储使用率是否过高,一旦超过,将触发告警提醒。
  • 集群规则集:
  1. 集群整体水位过高和集群状态异常:通过告警助手,用户可以配置规则集以监测集群整体的资源使用率是否超过设定的阈值,以及集群状态是否异常,如网络故障、调度问题等,一旦超过或异常,将触发告警通知。

以上三个方面的规则集配置可以通过华为云CCE的告警助手和容器告警一键配置功能实现,帮助用户及时监测和处理工作负载、节点和集群的异常情况,提高运维效率和系统稳定性。


2.3 健康诊断,集成容器运维专家经验,主动守护集群健康状态


华为云CCE健康诊断是基于SRE(Site Reliability Engineering)运维案例的解决方案,通过调用AOM(Application Operations Management)等接口获取集群的监控数据、日志事件、应用配置和安全组等关联资源信息,实现对集群健康状态的监测和判断。

为进一步提升诊断能力,华为云CCE集成了容器运维专家的经验,采用专家系统和AIOPS(Artificial Intelligence for IT Operations)技术。专家系统可以通过分析历史数据和运维经验,识别潜在的问题和异常情况,提供准确的诊断报告。AIOPS技术则能够自动化地分析和处理监控数据,发现隐藏的问题,并提供自动化修复的建议和操作。华为云CCE健康诊断的解决方案通过集成容器运维专家经验,利用专家系统和AIOPS技术,主动守护集群的健康状态。它能够提供更丰富的诊断能力,包括诊断报告和自动化修复建议,帮助用户及时发现和解决集群中的问题,提升运维效率和系统稳定性。

2.4 CCE容器日志管理,高性能、轻量、灵活


CCE容器日志管理提供了高性能、轻量和灵活的解决方案,支持多种类型的日志采集和控制面日志的管理。

对于业务日志,CCE容器日志管理支持多种类型的日志采集,包括容器标准输出、容器内日志、节点日志和Kubernetes事件的采集。采用云原生日志采集组件,可以灵活地配置日志的多行合并,并提供灵活的采集策略,通过CRD机制实现配置的灵活性。

对于控制面日志,CCE容器日志管理能够管理Kube-apiserver、Kube-controller-manager、Kube-scheduler以及Kubernetes审计日志。用户可以方便地收集、存储和管理这些关键组件的日志信息。

CCE容器日志管理基于轻量化的fuent-bit采集器,具有卓越的性能和低资源占用。它能够高效地采集和传输日志数据,确保日志管理的效率和可靠性。

CCE容器日志管理提供了高性能、轻量和灵活的解决方案,支持多种类型的日志采集,并能够有效地管理控制面日志。这为用户提供了便捷、高效和可靠的容器日志管理能力,帮助他们更好地监控和分析业务运行情况。


三 华为云UCS分布式云原生可观测性探索


华为云UCS提供了无处不在的云原生服务,具有以下特点:

1. 统一:华为云UCS通过统一的平台和工具,实现了一致的体验,用户可以在不同的场景和部署方式下使用相同的服务,简化了管理和操作的复杂性。

2. 应用生态:华为云UCS提供了150+生态应用的一键部署和上架,支持全面分发和快速部署,帮助企业快速构建应用生态系统。

3. 7x24健康守护:华为云UCS提供智能运维功能,通过全天候的健康守护,实时监测和管理应用的运行状态,保障业务的稳定性和可靠性。

4. 兼容生态:华为云UCS兼容开源生态和多家厂商的解决方案,避免了厂商锁定,提供更大的灵活性和选择性。

5. 全域治理:华为云UCS提供全域的流量治理和策略丰富的管理能力,支持东西向和南北向流量的统一治理,包括流量切分、灰度发布和故障倒换等功能。

6. 跨云弹性:华为云UCS具备跨云的弹性能力,可以根据业务需求进行算力调度和全域调度,实现对CPU、内存和存储等资源的灵活管理和调配。

7. 全场景覆盖:华为云UCS支持多种场景的资源接入,包括华为云、运营商云、边缘计算和私有云等,实现全域的资源接入和管理。

华为云UCS以统一、全域、智能和兼容的特点,为企业分布式业务提供了全面的云原生服务,帮助用户构建强大的应用生态系统,并实现灵活的资源管理和治理能力。



华为云UCS(Unified Cloud Service)提供了全域观测和全栈巡检的功能,以实现全面的可观测性和检查集群健康度。

全域观测方面,UCS通过轻量化的Prometheus插件,支持对CCE、多云集群和UCS本地集群等多种类型的集群进行统一数据采集,并遵循统一的指标规范。同时,通过Global汇聚查询的能力,UCS能够统一存储和查询分布在不同地点的数据,克服了网络和成本等问题。

全景视图功能使用户能够跨云和多集群进行全面可视化观测,灵活分析分布在不同区域和类型的集群。这为用户提供了统一的观测平台,方便监测和管理各个集群的状态。

在全栈巡检方面,UCS提供了资源水位巡检、应用可用性巡检和集群健康度巡检。资源水位巡检帮助用户检查资源是否不足,是否需要进行扩容,以确保业务的正常运行。应用可用性巡检用于检查应用是否存在异常和性能问题。而集群健康度巡检则评估整体集群的健康状况,并提供优化建议,帮助用户优化集群的性能和稳定性。

通过UCS容器智能分析,用户可以实现全栈、全场景的可观测性。UCS提供了全域观测和全景视图,支持统一的数据采集和查询,并提供全栈巡检功能,以帮助用户全面了解和管理分布式业务的状态。这些功能使得UCS成为一个强大的工具,提供全面的监测和分析能力,提升业务的效率和稳定性。


四 总结

云原生技术的高度分布式和动态性为企业带来了灵活性、可用性、敏捷性和安全性等优势,但也带来了复杂性的挑战。为了解决这些挑战,华为云针对可观测性进行了升级和改进。

华为云云容器引擎CCE推出了全栈容器监控、健康诊断、日志管理和告警助手等新特性,提升了用户对云原生环境的洞察和故障诊断能力,保障系统的稳定性。这些功能帮助用户及时发现和处理故障,让企业能够专注于创新和业务发展。

此外,华为云UCS推出了容器智能分析平台,旨在为客户提供全栈、全场景的跨云多集群统一可观测性。这个平台能够帮助用户洞察分布式动态环境中发生的一切,并进行及时的故障诊断。它提供了全面的监测和分析能力,让企业能够更好地管理和监控分布式业务的状态。

华为云通过升级和创新的可观测性功能,为企业的数字化转型提供了强大的支持。这些功能提升了用户对云原生环境的洞察力和故障诊断能力,确保系统的稳定运行,并让企业能够专注于创新和业务发展。



本文参与华为云社区【内容共创】活动第24期

任务25:2023华为开发者大赛 · 大赛大咖说系列直播:应用智能运维,CCE云原生可观测性能力全新升级


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。