【云驻共创】华为云云原生运维解决方案——“生”好应用,“养”好应用

举报
菜鸟级攻城狮 发表于 2024/01/11 17:40:21 2024/01/11
【摘要】 随着数字化转型的深入进行,云原生技术正在成为企业IT架构的核心。云原生应用的快速迭代和灵活部署为企业带来了巨大的创新机会,然而,云原生环境下的应用管理和运维也面临着新的挑战。为了满足企业在云原生环境下的运维需求,华为云推出了云原生运维解决方案,旨在帮助企业“生”好应用、 “养”好应用,助力业务持续发展。

前言

随着数字化转型的深入进行,云原生技术正在成为企业IT架构的核心。云原生应用的快速迭代和灵活部署为企业带来了巨大的创新机会,然而,云原生环境下的应用管理和运维也面临着新的挑战。为了满足企业在云原生环境下的运维需求,华为云推出了云原生运维解决方案,旨在帮助企业“生”好应用、 “养”好应用,助力业务持续发展。


一、运维的三个发展阶段

企业数字化转型进入云原生阶段,从以“资源”为中心到以“应用”为中心的转变

企业数字化转型的发展三个阶段:


第一阶段:设备为中心的本地数据中心

这个阶段可能是五年前到十年前。企业主要通过自建的数据中心管理其IT资源。在这个时期,服务器、存储和网络设备等硬件是运维的核心。运维人员需要直接接触到物理设备,并且运维工作往往是手动进行的,虽然这个时期也开始有了一些自动化工具的尝试和应用,但整体上还是以人工操作为主。企业主要关注的是如何维护和升级这些物理资源,以确保业务连续性和数据的安全性。


第二阶段:资源为中心的云化转型

大约在三到五年前,企业开始大规模地迁移到云平台。随着公有云和混合云的兴起,企业不再专注于物理硬件,而是将注意力转向由云服务商提供的虚拟资源。这些资源包括虚拟机、虚拟网络和虚拟存储等。在这一阶段,运维人员的工作焦点从硬件维护转移到了虚拟资源的管理上。企业开始利用云平台的弹性和可扩展性优势,这使得资源的分配和调整更加灵活和高效。应用程序也开始考虑云环境的特性,但仍旧有很大一部分是传统架构的迁移版本。


第三阶段:应用为中心的云原生阶段

这个阶段是现在及未来数年内企业数字化转型的重点。云原生是指在云中构建和运行应用程序的方法,它充分利用了云计算的特性,如微服务架构、容器化、持续集成和持续部署(CI/CD)、DevOps等。在云原生阶段,企业的转型已经不再仅仅关注资源的采购和配置,而是更加关注应用的开发、部署和运营效率。在这种环境下,可能存在成千上万个微服务和应用,它们之间有着复杂的依赖和通信关系。同时,底层云资源可能达到数万到数十万的规模。在这种情况下,传统的资源管理方式已经不再适用,企业需要采用新的工具和方法来自动化和优化资源的使用,以及确保应用的高可用性和高性能。


二、传统运维与云原生运维的差异

传统运维与云原生运维差异:换个角度看世界


在讨论传统运维与云原生运维的差异时,我们可以从两个不同的视角来看待运维的聚焦点和方法。在传统运维中,运维人员通常从底层资源的角度来进行管理,这种方法更注重于资源本身的状态和性能,而在云原生运维中,更多的是从应用和服务的角度出发,关注应用的性能、可用性和用户体验。


传统运维的特点通常包括:

1. 以资源为中心:运维人员关注物理服务器、存储和网络设备等的状态,性能和配置。

2. 静态环境:环境相对固定,变动不大,变更周期较长。

3. 手动操作:许多运维任务需要手动执行,自动化程度较低。

4. 集中管理:通常使用CMDB(配置管理数据库)来管理资源的属性、关系和状态。

5. 独立部署:应用程序通常独立部署在特定的服务器或虚拟机上。


而云原生运维则展现出不同的特性:

1. 以应用为中心:运维关注应用的部署、扩展、性能和可用性。

2. 动态环境:基于容器和微服务架构,应用可以快速地在云环境中部署和扩展。

3. 自动化与编排:使用如Kubernetes这类的容器编排工具来自动化部署和管理应用。

4. 声明式配置:通过声明式的配置文件来定义应用的状态和行为,增强了可管理性和可移植性。

5. 微服务架构:应用通常被设计为一组小型、松耦合的服务,可以独立部署和扩展。


在云原生环境中,运维人员的角色也逐渐发生变化:

1. 理解业务:运维人员需要了解业务逻辑、业务需求以及业务在不同地域的服务策略。

2. 保障高可用:重点是确保业务流程的连续性和可用性,而不仅仅是底层资源的可用性。

3. 提升用户体验:关注用户的实际体验,如应用响应时间、无中断服务等。

4. 快速交付:在互联网快速变化的环境中,应用和功能的更新需要快速交付到生产环境。

5. 智能运维:采用人工智能和机器学习技术来处理庞大和复杂的运维任务,提高效率和准确性。

因此,云原生运维不是取代传统运维,而是在保留传统运维的有效元素的基础上,加入新的技术和方法,从而形成一个更加灵活、自动化和以业务为中心的运维体系。这种新的运维体系更适应于当前快速发展和不断变化的技术环境。

三、当前云原生运维面临着哪些挑战?

云原生运维挑战:如何维护一个庞大、复杂且快速变化的分布式系统

问题1:运维工具割裂

运维工具繁多:基于开源软件或自己构建,无统一的数据接入、监控、诊断、数据治理体系,各工具能力参差不齐。运维组织、人员能力及知识体系需要快速发展。


问题2:快速迭代对稳定性持续冲击

业务软件快速迭代,业务上线速度和现网稳定性之间的冲突。

传统软件开发周期以月计,二十分钟煮一锅饭,熟透。

DevOps模式发布周期以天计。五分钟煮一碗饭,偏硬。

发布周期变短的代价是每个版本都没有经过充分的现网验证。


问题3:平台的复杂性掩盖风险

系统整体可用性依赖全栈可用性。业务复杂性高,运维者如何利用数据被动变主动。及时发现问题,精准定位问题面临挑战。


问题4:业务内部外安全越加重要

外部:外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露代价更大。

内部:运维操作人员的可行带来业务安全的不确定性。


解决方法:

1、业务软件的快速迭代与稳定性之间的平衡:

在云原生环境中,敏捷开发和持续集成/持续部署(CI/CD)流程使得软件更新频繁,这能够带来快速的创新与响应市场的能力。然而,这种快速迭代也可能增加了系统不稳定的风险。为了应对这一挑战,可以采取以下措施:

- 引入强健的自动化测试流程,确保每次迭代都经过充分的测试。

- 使用金丝雀部署、蓝绿部署等策略,逐步推出新版本,以便在不影响所有用户的情况下测试新更改。

- 建立监控和预警系统,能够在问题发生时快速发现并响应。


2、运维工具的选择与集成:

市场上的确有很多运维工具,但能力参差不齐且缺乏统一标准。为了建立高效的运维体系,需要:

- 选择符合企业需求和团队技能的工具集,以确保工具能够得到正确的使用。

- 对工具进行合理的集成,通过API、中间件等技术手段实现数据的互通互联。

- 持续评估和优化工具堆栈,淘汰不再适用的工具,引入新的更有效的工具。


3、 业务复杂性的管理:

云原生架构带来的服务化和微服务架构增加了系统的复杂性。管理这种复杂性需要:

- 利用服务网格(如Istio)、微服务设计模式和标准化的API协议来管理服务间的通信。

- 使用分布式追踪、日志聚合和性能监控工具来监控和理解系统的行为。

- 建立全面的服务目录和依赖关系映射,确保服务的发现和可用性。


4、安全性和合规性的保障:

随着系统的快速迭代和复杂性的提高,安全和合规性变得更加重要。需要采取的措施包括:

- 实施持续的安全测试和审计流程,确保及时发现和修复安全漏洞。

- 强化身份和访问管理(IAM),确保合理的权限分配和访问控制。

- 构建合规性检查点,确保所有的部署都符合相关法律、法规和标准。


Gartner发布2023年十大战略技术趋势之一的平台工程,将有效应对挑战

Gartner预测,到2026年,80%的软件工程组织将建立平台团队,其中75%将包含开发者自助服务门户。

平台工程是指将传统运维中的规范和流程整合到一个统一的平台中,以提升开发、运维和运营效率。在传统运维中,很多规范和流程都是以纸面形式存在,并依赖人工遵守和执行,这会导致效率和质量无法得到有效保障。因此,华为云将这些工具和流程直接融入到平台中,使平台使用者自动符合规范要求,同时也减少了出错的机会。
平台工程的主要指导思想是通过平台来规范和约束操作,只允许用户进行符合规范的操作,而不允许进行可能带来风险的额外操作。

通过华为云提供的平台工程能力,内部和外部开发者可以借助这一平台,实现更高效的开发、运维和运营。平台工程将规范和流程融入到平台中,用户只需要使用平台执行操作,即可符合规范要求,避免了犯错的机会。平台工程成为原生运维的主要指导思想,为整个运维过程提供了指引和支持。


四、怎样“生”好应用

“生”好应用:使应用具备云原生能力,可持续治理

云原生应用是一种基于云计算的应用开发和部署方法。它要求使用不可变基础设施、容器化、服务网格、微服务和声明式API。从运维角度来看,云原生应用可以通过通道进行微服务之间的通信,实现故障隔离和观测性,并实现独立部署、更新、扩展和重启。

在运维中,关注快速部署到生产环境是重点。我们需要找到一种工具或方法,能够可靠地将应用从开发阶段交付到生产环境,并确保测试环境与生产环境的一致性。开发和运维之间的协同也与快速部署密切相关,可能需要将在现网发现的故障反馈到开发状态以解决问题。

持续交付是云原生应用的一个重要特点,它要求频繁发布、快速交付、快速反馈并降低发布风险。我们需要具备灰度发布和多种变更模式的能力来实现这一目标。

容器化也是云原生应用的核心要求,它包括不可变基础设施和可编排调度。不可变基础设施意味着我们将基础设施变为不可更改的状态,以确保业务无状态化,并能够无差别地进行替换和更新。可编排调度是实现快速扩容和缩容的关键能力,在互联网场景下非常重要。

“生”好应用:从云原生堆栈实现可运维度量

在云原生应用开发中,需要遵循一系列规范来确保应用的质量和可运维性。这些规范包括使用不可变基础设施、容器化、服务网格、微服务和声明式API,以及实现持续交付和可编排调度等能力。在这些规范的基础上,我们可以提取出一些度量规则,通过这些规则来衡量应用的质量。这些规则包括业务逻辑代码的质量、微服务开发框架的控制能力、工程化能力、运行时状态的依赖关系和高可用性设计等。我们可以将这些规则细化成一个可运维基线度量统计表,通过评估来确定应用是否符合要求。最终,在应用进入生产环境之前,需要确保它具备良好的质量和可运维性。这样才能保证应用的稳定性和可靠性,为用户提供更好的服务体验。


“生”好应用:应用可运维能力治理流程

在云原生应用开发中,为了确保应用的质量和可运维性,我们需要从需求阶段开始就设计好每一层的关键点,并在上线前进行验证和控制。具体来说,这个过程可以分为三个阶段:部署前、测试和交付、以及运营状态。在部署前,我们需要确保所有设计要求都已经实现,并在测试和交付阶段进行验证。在发布阶段,我们需要控制文件的发布和流控规则等细节,而在运营状态下,我们需要对运行效果和流控规则等进行持续度量和自我检测,形成一个闭环。如果发现问题,我们需要及时调整并将其放到源头进行改进。这样才能确保应用的质量和稳定性,为用户提供更好的服务体验。


五、怎样“养”好应用?

“养”好应用:实现应用运维的质量、成本、效率、安全均衡


在现代的应用运维领域,确保应用的稳定性和高质量服务是首要任务。如果质量无法保障,那么后续的讨论都是无意义的。因此,运维人员在平台工程中必须优先考虑质量保障。其次,成本是一个重要的考虑因素。近年来,降低成本、提高效率成为热门话题,这也是当前环境下大家关注的焦点。因此,在运维过程中,需要优化业务资源的使用以及网络消耗等方面,实现成本的控制和效益的提升。

另外,效率也是运维过程中需要关注的一个方面。在复杂的应用场景下,人工解决已经不再可行。因此,我们需要利用实时机制和工具,通过少量人力管理更多设备的能力来提高效率。

最后,安全是一个至关重要的问题。安全包括防止数据被获取或破坏等方面的保护。然而,安全和效率常常是相互矛盾的。安全要求越严格,效率可能会降低;而效率越高,则往往牺牲一定的安全性。因此,在运维过程中需要在这几个方面进行平衡。

具体而言,质量保障涉及稳定性的建设;成本管理主要包括容量和资源的有效管理;效率方面则需要自动化工具和内外网防护能力;安全则需综合考虑数据保护和防护措施等。通过在这些方面取得均衡,可以实现高质量、低成本、高效率和安全可靠的运维过程。


“养”好应用:应用质量管理

应用质量管理是通过两个视角来进行的。首先,在防止故障发生方面,可以采取应用健康管理的巡检措施。这包括根据监控指标或用户指标对应用进行巡检,并根据评分判断应用的健康状态。如果应用处于亚健康状态,需要进行整改以使其达到健康状态,从而减少故障发生的可能性。另外,还可以进行故障演练,主动制造可控范围内的故障,以快速定位和恢复故障,同时尽量减少对外界的影响。

在华为的实践中,每年进行8000多次故障演练,几乎每天都会有故障发生。这样的频繁演练可以全面扫描应用的各个部分,尽量减少故障的发生。然而,无法保证绝对没有漏网之鱼,特别是某些流量冲击引起的故障。对于这种情况,可以从应用视角出发进行处理。如果用户在应用层面上没有问题,那么底层的异常事件可以被当作异常处理,而不是故障处理。因此,应用的环境指标非常重要,例如对于直播类应用,响应时间可能是关键的指标;对于下载业务,吞吐量可能是敏感指标。根据应用类型定义相应的环境指标,并使用可观测性数据进行测试和计算,得出动态阈值。如果检测到业务异常,可以启动根因诊断能力,通过分析关联下降等数据来定位问题的最大节点,并进行相应的替换、流控或修复操作,以快速恢复故障。

以上方法和策略可以帮助管理应用质量,确保应用在运行过程中尽量不发生故障,且能够快速定位和恢复故障,减少故障时间。


“养”好应用:应用成本管理

在华为云内部,成本管理涉及到规划、建设和优化三个阶段,每个阶段都有相应的步骤。

规划阶段
1、预算控制:制定成本预算,明确可以花费的金额。
2、五级管理:对成本和收入进行分类管理,并将其作为指标来监控和评估。
3、后台管理层关注:CTO后台管理关注成本与收入的情况。
建设阶段:
1、资源选择:选择适合的资源来控制成本,以达到最优化的建设成本。例如,服务划线、资源配合管理和选择适合的规格等工具支持。
2、工具支持:提供各种工具来辅助建设,例如优化评估能力、CDN调度优化、存储网络优化、容器的弹性伸缩和GPU管理调度等能力。
维护和优化阶段:
1、工具支持:提供多种工具来支持维护和优化工作,例如优化评估能力、CDN调度优化、存储网络优化、容器的弹性伸缩和GPU管理调度等能力。
2、运营管理:通过图表和运营思路来管理规划、建设和优化的效果,形成闭环,建立整体的大体系。


“养”好应用:应用效率管理

在应用效率的管理方面,以下是两个例子:

代码化变更管理:传统的变更管理过程可能需要花费大量时间和资源,包括编写变更方案、准备操作步骤、验证和回滚措施等。通过采用RAC(Release as Code)的概念,将这些过程转化为代码化操作,可以极大地提高效率。在代码化变更管理中,我们可以明确指定要执行操作的对象和具体的步骤,不再需要编写繁琐的文档。对于评审人员来说,阅读代码也更加清晰明了。此外,基于代码的执行可以更加灵活,根据具体对象的变化点进行针对性的验证。这样一来,部署和变更的效率就得到了显著提升。


自动化流程管理:在传统的变更管理中,通常需要经过多个环节,包括审批、执行、评估、验证和关闭等。而现在我们可以利用自动化流程来简化这一过程。通过自动化流程,只有红色标注的部分需要人工介入,其他环节都可以自动化进行。在这种自动化流程中,我们可以根据设备的关键性和操作的风险性进行评估。如果评估结果是低风险,就可以继续自动化执行;如果是高风险,可能需要人工介入。一旦批准通过,后续的过程都完全自动化。相比传统的运维方式,这种自动化流程能够带来至少一个数量级的效率提升。


“养”好应用:应用安全管理

在应用安全管理方面,主要基于华为云产品来进行管理。华为云提供了多种安全工具,包括WAF(Web应用防火墙)产品、主机漏洞扫描产品以及安全态势感知系统SIEM(Security Information and Event Management)等。通过使用这些产品,我们可以构建一个完整的入侵防御体系。


具体而言,我们可以将应用安全管理划分为五个步骤:IPDRR(Identification, Protection, Detection, Response, and Recovery)以及持续的安全运营和运维。在每个步骤中,我们可以利用华为云的产品来应对不同的场景和需求。

此外,报告是应用安全管理中的重要环节。可以向用户、合作方或者内部团队提供详尽的报告,以展示安全情况和所采取的措施。

在应用安全管理中,我们的主要目标是保护四类核心资产:业务数据、运维数据、运营数据和用户个人数据。通过对这些关键数据资产进行反复的安全评估和防护措施,可以确保应用的安全性和可靠性。

通过基于华为云产品的应用安全管理,我们能够构建起一个多层次的安全防护体系,保护核心资产的安全,并持续提升应用的安全运营和运维能力。



六、应用平台AppStage及华为实践经验,如何助力支撑终端业务全球12亿+用户、5亿+并发

华为云AppStage云原生解决方案:一站式应用管理平台

应用平台(AppStage)是基于平台工程(Platform Engineering)理念打造的下一代应用全生命周期管理平台,帮助客户快速高效地实现应用全生命周期管理,为应用构建、运维和运营等生命周期管理活动提供自助式服务能力,目标是通过标准化和自动化的服务来提升用户体验,促使客户可以专注于交付应用逻辑和云上业务创新。

应用平台(AppStage)将平台能力产品化,采用产品管理思维来设计和维护对用户友好而且满足不同用户和角色的期望和需求。通过一套平台实现如下能力:

• 提供自助式云原生工具和技术的平台,开发人员可以使用这些工具和技术来构建、测试、部署、监控或执行与应用程序开发和交付有关的几乎任何事情,同时尽可能减少开销,提升用户的体验和效率。

• 统一主数据平台和概念模型, 管理应用生命周期中组织、产品、服务/微服务与项目等信息。建立贯穿产品设计,DEV,OPS全周期产品信息管理能力,供接入云原生的各系统消费。包含新建、迁移纳管、属性维护、变更通知,保证数据的一致性和稳定性。实现统一的架构治理。

• 通过工具的集成,构建应用全生命周期自动化流程,打破工具间的信息孤岛,实现不同角色和团队间协作,持续改进和自动化,提升效率和应用的服务水平。

• 在用户使用应用平台过程中逐步将知识体系固化到平台中,从而使得工程方式标准化、流程化和规模化并持续改善,用户可以对流程、模板进行定制和扩展,并通过与工具库的集成来高效、稳定、全面地实践。实现知识不断迭代积累,从而发挥规模化效应,应对未知挑战,提升价值转化速率。

运维中心:一站式智能化运维平台,助力应用提升运维质量、效率与可靠性

应用平台由以下几个主要服务及其功能构成:

• 开发中心

开发中心为软件开发提供端到端的常用功能:从需求管理到部署服务,开箱即用,实现敏捷交付、提供各种模板和实践。基于项目维度提供从需求、设计、开发、测试、发布、变更、部署全场景一站式研发门户,支撑开发所有角色统一在一站式门户协同工作,提升用户体验及研发效率。

• 运维中心

基于租户业务应用场景打造,应用平台致力于为租户提供服务。应用平台以运维作业视角设计端到端作业流程,构建自动化、数据化、智能化的运维平台,逐步实现无人值守运维。

• 运行时引擎

提供NUWA微服务框架,兼容开源SpringBoot微服务,预集成构建云服务业务分布式架构所需的各个组件(微服务框架、数据库、通用中间件、安全中间件、公共服务等)及DFX能力,业务开发人员专心撰写业务代码,屏蔽全球多个站点环境的复杂差异,开箱即用,缩短开发时间,提升交付效率。

• 运营中心

面向运营人员提供运营管理服务,提供应用数据接入、数据模型构建、指标开发、指标管理、指标开放的应用数据运营分析底座,支撑各类数据指标及模板快速构建和生成,支撑应用用户运营和持续增长。


服务优势:

1、围绕云原生业务场景打造,从传统运维的以资源管理为核心升级为以应用管理为核心

2、智能化运维,SRE人均运维2000+节点

3、一站式运维平台,避免各云厂商提供的多个运维工具拼凑,带来极致效率与质量提升


关键特性:

1、应用生命周期管理

以应用为运维对象,支持应用上下线变更、可靠&可用性、成本、安全等管理。

2、数智化运维

应用全栈全链路数据可观测,使用AIOps算法支撑应用自动化灰变更、故障智能化诊断与恢复等场景。

3、一站式运维

应用生命周期数据可视化,避免数据孤岛,一个Portal完成所有运维工作。


终端云实践:支撑终端业务在全球服务12亿+用户,5亿+并发


HMS Core(华为移动核心服务)是华为移动服务(HMS,HUAWEI Mobile Services)提供的端、云开放能力的合集,助力开发者高效构建精品应用,是华为为其设备生态系统提供的一套应用程序和服务,开发者只需集成HMS SDK即可使用华为的多个开放能力。

HUAWEI Mobile Services是华为云的一个重要组成部分,它为华为手机和其他移动设备上的应用提供强大的后端支持。目前,HUAWEI Mobile Services已经服务了12亿用户,并能够支持5亿并发用户量。这种规模的系统支撑需要极高的技术实力和运维能力。

具体而言,HUAWEI Mobile Services每天要处理大量的数据,每个月可以增加60P的数据,数据下载带宽可以达到12T,主机规模可以达到20万,3000P的存储规模。

为了保证这样规模的系统支撑,华为云在全球范围内部署了15个数据中心,服务超过200个国家和地区。这些数据中心都采用了先进的技术方案,配备了高效的运维工具和人员。这使得HUAWEI Mobile Services能够提供高可靠性、高安全性、高扩展性的服务,满足不同应用的需求。

基于AIOps运维智能实现无人值守变更,帮助企业提升运维效率

基于智能运维AIOps,实现无人值守变更。通过Everything as a Code (XaC)声明,华为云应用平台AppStage运维中心将变更的评审、执行和验证等步骤自动化,避免人因失误,缩短变更过程中的步骤和操作时间,实现无人值守变更,帮助企业提升了运维效率


服务优势

1、部署与变更不需要人工干预,无需写变更计划、操作指导、回退方案,减少人因犯错的机会,保障变更质量。

2、10分钟完成一个服务全新部署,省去运维人员控制台购买资源、配置数据库、调测时间,极致高效。


关键特性

Everything As a Code(XAC)

1、资源、业务、配置等代码描述,避免传统变更方面理解差异强—致性,任何环境、任何地点执行结果一致。

2、易复用、易版本化管理。


变更全流程自动化:

1、自动化评审,在可控的风险、适合的时间执行变更,降低人工评审成本,减少人为判断失误。

2、自动化执行,全过程灰度,保障业务变更平滑执行,避免人因操作故障。

3、自动化验证,全局服务运行状态评估,避免验证遗漏,提升验证效率。


变更过程与结果可信

1、提供变更风险评估、准入评估、过程灰度评估和结果评估多阶评估能力,确保变更过程平滑、风险可控。

2、具备变更可中断、可回滚、灰度能力。


故障生命周期智能化管理,降低应用故障恢复时间,提升应用质量

通过端、管、边、云的联动监控,实现故障生命周期智能化管理。华为云应用平台AppStage运维中心通过端、管、边、云的联动监控,让指标、日志、调用链全栈可观测,打通了数据孤岛。在端侧告警后,通过AI异常检测算法及AI根因诊断等能力,实现1分钟发现、5分钟定位、10分钟恢复,大大降低了故障恢复时间,提升了业务质量


服务优势

端边云联动监控,快速发现用户体验问题,从而改善故障1分钟发现-5分钟定位-10分钟恢复


关键特性

全栈全链路可观测:

1、 端、管、云全链路可观测,打通数据孤岛

2、 指标、日志、调用链全栈可观测,数据有机关联


智能运维底座:

对资源、配置、事件、可观测数据建模管理,数据驱动运维AI算法库,支持无人值守变更、故障根因诊断等场景,实现AIOps运维。


故障全生命周期管理:

1、定期巡检,度量业务健康状况,提前处理,将故障消灭在萌芽状态

2、主动故障演练,发现隐患并优化,提升业务抵抗故障韧性。

3、基于可观测数据与Al异常检测,实现1分钟发现故障

4、基于AIOps知识图谱与根因诊断算法,实现5分钟定界定位

5、基于故障恢复预案与微服务治理体系,实现故障10分钟恢复


构建业务稳定性度量体系,助力应用可用性达到99.99%

通过混沌工程故障注入,充分验证应用可靠性。华为云应用平台AppStage运维中心支持80多种故障注入方式,预定义了50多种故障演练场景,通过模拟各种故障、全自动化演练,主动给应用“打疫苗”,使业务对故障具备免疫能力,提升了业务的稳定性


高可用

应用平台内置了可靠性(负责均衡、双云组网、服务发现等),韧性(灰度策略、弹性伸缩、数据库治理、网络治理等),安全(证书托管、密钥管理、敏感配置等),可运维(可观测性、故障诊断、容灾演练、优雅上下线等)基础能力,以服务化的方式供应用调用。


1.高可用能力内置,使得应用可用度原生99.99%。

2.基于NUWA微服务开发框架,预集成构建云服务业务分布式架构所需的各个组件及高可用能力,实现开箱即用。

3.提供业务运行时管理,支持业务优雅启停、启动加速、在线诊断等能力。

4.提供流量控制、资源动态伸缩、容错容灾等能力,使能业务具备韧性。

5.提供云原生中间件与数据库管理,结合华为面向10亿+移动用户应用治理经验,兼具高并发与高可靠能力。


服务优势

1、主动给应用注入“故障”,给应用打“疫苗”,使业务对故障具备免疫能力

2、量化评估应用稳定性,混沌工程与应用稳定性方法论已成为信通院标准


关键特性

稳定性指标量化度量:

1、按laaS-PaaS-SaaS分解可靠性要求,形成应用稳定性指标体系,进行度量与治理

2、体系成为信通院《分布式系统稳定性建设指南》组成部分


混沌工程自动化:

1、 具备80多种故障注入方法,支持laaS-PaaS-SaaS层故障注入能力,全方位模拟各种故障

2、 预定义50多种故障演练场景,支持业务快速演练

3、 演练过程精准观测与控制爆炸半径,防止演练故障变成真故障演练过程全自动化,支持每天上百次演练,全范围发现应用稳定性死角

4、 能力成为中华人民共和国通信行业标准《混沌工程平台能力要求》组成部分


七、从财务角度看运维(FinOps)

FinOps运维成本可视化,帮助企业降本增效。华为云应用平台AppStage运维中心通过将AIOps的灰度评估、告警归并、异常检测、故障根因诊断等能力,嵌入运维的各个活动中,将以前的被动运维转为主动运维,帮助企业优化资源利用,实现降本增效。


服务优势

1、让企业IT感知每一分钱花在什么地方,花的是否合理,是否存在浪费

2、提供多种方法与工具,帮助企业IT优化资源利用,节省成本


关键特性

成本感知:

成本可视化:预算、资源用量、基于预测的趋势分析。成本浪费识别:与计费API整合的费用展示。


成本优化:

1、预测为王:基于算法预测的弹性伸缩,提前扩容,保证服务质量

2、优化为本:基于预测的资源再分配、多维扩缩容、提升资源利用率

3、稳定性为根:基于业务优先级的增强QoS、基于自定义水位线的干扰检测和主动回避能力,确保高优任务SLO


持续运营:

Bl化分析业务预算、成本、利用率,持续运营优化


总结

华为云云原生运维解决方案致力于帮助企业“生”好应用、“养”好应用,助力业务持续发展。通过华为云应用平台AppStage运维中心将华为内部沉淀多年的构建、管理、使用和维护大规模云原生应用的经验构建到平台上来,通过平台化的开放,让更多的能力、经验共享出来,实现向产业‘经验即服务’的能力复制。以往需要大量工作的可靠性、韧性、安全等基础的工程能力,都通过平台提供,让企业可以聚焦于业务代码。华为云为企业提供了全方位的云原生运维服务,帮助企业应对云原生环境下的挑战,实现业务的持续创新和增长。帮助更多企业降低应用维护和使用云原生应用的门槛,实现应用维护智能化,为企业应用稳定性保驾护航。


本文参与华为云社区【内容共创】活动第25期

任务6:《相约开天aPaaS》第七期 华为云云原生运维解决方案——“生”好应用,“养”好应用

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。