【DTSE Tech Talk 精选问答】NO.60丨构筑云原生时代的应用稳定性

举报
云小宅 发表于 2024/07/10 11:47:39 2024/07/10
【摘要】 在云原生的浪潮中,开发者们面临着前所未有的挑战,你是否曾因技术的复杂度和工具的碎片化而感到困惑?是否在寻找一种方法,既能应对业务的快速迭代,又能确保应用的稳定性和高效运维?本期直播,我们特别邀请到华为云应用平台AppStage的高级专家带来丰富的运维经验分享,揭秘10亿+高并发应用如何实现高效稳定的开发和运维,无论你是云原生技术的新手,还是正在寻求优化方案的资深开发者,都将为你答疑解惑!

在云原生的浪潮中,开发者们面临着前所未有的挑战,你是否曾因技术的复杂度和工具的碎片化而感到困惑?是否在寻找一种方法,既能应对业务的快速迭代,又能确保应用的稳定性和高效运维?本期直播,我们特别邀请到华为云应用平台AppStage的高级专家带来丰富的运维经验分享,揭秘10亿+高并发应用如何实现高效稳定的开发和运维,无论你是云原生技术的新手,还是正在寻求优化方案的资深开发者,都将为你答疑解惑!

Q:AppStage 如何与企业的现有技术栈集成?

A:AppStage是一站式应用平台,可以提供开发、运维、运营等全生命周期的软件工程支持。今天我讲的主要是运维平台,就运维平台而言,我们是基于华为云的技术栈构建的,只要是正常使用华为云的ECS、CCE、RDS等资源服务,就可以使用我们我们AppStage运维中心做应用运维。

Q:“一键式单点故障注入能力,10分钟自动化完成一次故障演练”,能举例说明一下它具体是如何实现的吗

A:AppStage运维中心混沌工程演练模块提供了50多种常见的故障演练场景和80多种故障注入方式,并支持自定义故障注入脚本,SRE可以指定演练对象和时间即可进行进行演练,实现10分钟自动完成一次故障演练。

Q:针对不同规模的企业,appstage是否有不同的应用场景?

A:AppStage支持公有云逻辑多租,不论企业规模大小,都可以申请公测接入使用

Q:如何利用AppStage实现应用的自动化备份和恢复?

A:AppStage运维中心提供自动作业平台,SRE可以编写备份脚本,然后批量在服务器执行做备份

Q:运维中心除了提供语音和短信的告警通知,还支持其他方式吗

A:运维中心对于告警支持Web页面的声音提示、短信通知、电话通知、welink群消息通知。

Q:AppStage 对业务快速迭代提供了哪些具体支持?

A:

1、AppStage运维中心部署模块核心是通过基础设施即代码,将资源、配置、环境、状态等进行声明化定义,避免传统变更理解的差异,可确保任何环境、任何地点执行结果的一致性。在变更的评审、执行和验证过程中,实现全流程的自动化。
2、通过一系列的变更灰度评估以及中断回滚等保险措施,确保变更过程和结果的安全可信。
3、部署和变更的过程完全不需要人工干预,减少了人员误操作的可能,保障了变更质量。

Q:微服务架构中,服务间如何通信以确保稳定性和响应性?

A:微服务的注册、发现与通信由微服务架构自身保证,AppStage运维中心是运维工具,可以针对微服务提供端到端的可观测性,确保微服务的稳定性。

Q:AppStage运维平台如何对应用进行实时监控和故障排查?

A:

1、AppStage运维中心通过对端、管、云全链路可观测能力,打通数据孤岛,将这些数据有机关联起来。
2、通过智能化的运维底座,将资源、配置、事件、可观测数据建模管理,配合AIOps智能算法,驱动根因诊断和异常检测等运维的高阶智能化应用。
3、通过定期业务巡检、监控告警、故障演练等活动,做到故障全生命周期管理,实现1分钟AI异常检测和故障发现,5分钟故障根因诊断定界定位,并基于预编排的故障恢复模板和微服务治理体系,实现核心业务场景10分钟故障快速恢复。

Q:华为云云原生方案对于应用开发和运维的效率有哪些提升?

A:

1、面向应用全生命周期管理,贯穿业务的规划、应用的开发、运维和运营等各个环节,提供一站式平台,让各类岗位和角色人员实现高效的协同,提升全流程效率。
2、智能化的运维中心,助力企业提升运维质量和可靠性,持续降本提效
3、可信Built-in平台,使能在应用平台上运行的业务可信

Q:运维中心的XAC能力能展开讲讲吗?怎么理解它能够实现无人值守变更的

A:XaC就是Everything as a Code的简称,是基础设施即代码的延伸,是实现无人值守变更的基础,有以下特点

1、针对资源、业务、配置等做代码描述,避免传统变更方面理解差异
2、强一致性,任何环境、任何地点执行结果一致
3、易复用、易版本化管理

Q:动态告警阈值是如何 避免业务繁忙时段误触发 和 空闲时段无法触发告警的问题

A:可以举例说明,比如一个网站,业务量每天随时间周期变化,每天0点至6点是业务低谷期,晚上20点到22点是业务峰值期,假设设定针对业务量设置固定阈值1000TPS,高于1000TPS就触发告警,那么凌晨0点至6点即使服务发生故障业务返回慢,但因为业务量小,所以也无法达到1000TPS的阈值,所以无法触发告警,这是漏告警;到了晚上20点至22点,服务正常,但是因为业务请求量大,可能请求量超过了1000TPS而触发告警,这是误告警。 动态阈值可以很好的解决这一难题,动态阈值是通过对最近7天(可设置)指标采样数据进行AI算法训练,拟合的一条随时间周期变化的告警阈值曲线,可以提高告警的召回率和准确率,减少漏告警和误告警。

Q:怎么理解AI异常检测算法?能展开讲讲它是如何快速感知告警以及快速定位告警吗

A:AIOps通过无监督学习,使用少量标注数据就能实现高效训练,自动提取有效异常特征,更准确地识别异常,实现端到端的自动化特征提取和异常检测。能够提前预警、快速定位问题,并提高运维效率。 AppStage运维中心有多名专职AIOps算法开发专家,其算法获得华为公司欧洲研究所伽利略奖,通过多年的经验积累,有丰富的华为内部应用运维实践经验。

Q:云原生环境中,appstage如何确保数据一致性和高可用性?

A:AppStage运维中心是一站式运维工具,可以为应用提供告警、巡检、故障管理、主动治理等服务,可以提高业务可用性。业务自身数据的一致性需要业务来保证。

Q:高并发下 AppStage 如何保证服务质量?

A:AppStage提供SLB模块可以提供流量控制能力,SRE也可以通过混沌演练模块针对高并发做故障演练,通过这些提升应用自身应对业务浪涌和高并发时的高可用性。

Q:AppStage 如何应对突发的流量高峰?

A:AppStage提供SLB模块可以提供流量控制能力,SRE也可以通过混沌演练模块针对高并发做故障演练,通过这些提升应用自身应对业务浪涌和高并发时的高可用性。

Q:云原生应用与传统应用在开发和运维方面有哪些区别?

A:云原生应用采用微服务架构以及利用云计算的弹性和自动化特性,与传统应用相比,开发和运维更加敏捷、高效,同时提高了应用的可靠性。 在架构设计方面,传统架构通常采用单体应用或垂直应用架构,所有功能集成在一个应用中。云原生架构则采用微服务架构,将应用拆分成多个独立、可扩展的服务。 开发方式方面,传统架构的开发方式通常遵循瀑布模型,而云原生架构更倾向于敏捷开发和DevOps方法。 资源利用方面,传统架构往往依赖于固定的硬件资源,资源利用率较低,且扩展困难。云原生架构利用云计算的弹性伸缩特性,根据业务需求动态调整资源,实现资源的最大化利用。 高可用性方面,传统架构通常需要手动配置和管理容灾和备份。云原生架构借助云服务的以扩容特性,可以实现更高的自动扩容性能和故障恢复速度,够轻松应对高峰期的流量压力。

Q:这个平台对算力有哪些要求

A:AppStage支持逻辑多租,用户不需要额外部署,只需要在服务器安装监控Agent即可使用

Q:混沌工程支持多少种场景?

A:AppStage运维中心混沌工程模块预定义50多种故障演练场景,80多种故障注入方法,支持IaaS-PaaS-SaaS层故障注入能力,全方位模拟各种故障,支持业务快速演练,演练过程精准观测与控制爆炸半径,防止演练故障变成真故障,演练过程全自动化,支持每天上百次演练,全范围发现应用稳定性死角。

Q:如何理解动态阈值告警?

A:可以举例说明,比如一个网站,业务量每天随时间周期变化,每天0点至6点是业务低谷期,晚上20点到22点是业务峰值期,假设设定针对业务量设置固定阈值1000TPS,高于1000TPS就触发告警,那么凌晨0点至6点即使服务发生故障业务返回慢,但因为业务量小,所以也无法达到1000TPS的阈值,所以无法触发告警,这是漏告警;到了晚上20点至22点,服务正常,但是因为业务请求量大,可能请求量超过了1000TPS而触发告警,这是误告警。 动态阈值可以很好的解决这一难题,动态阈值是通过对最近7天(可设置)指标采样数据进行AI算法训练,拟合的一条随时间周期变化的告警阈值曲线,可以提高告警的召回率和准确率,减少漏告警和误告警。

Q:在云原生环境下,如何保证应用的稳定性和可靠性不受环境变化的影响?

A:通过XaC,就是Everything as a Code的简称,是基础设施即代码的延伸,是实现无人值守变更的基础,有以下特点

1、针对资源、业务、配置等做代码描述,避免传统变更方面理解差异
2、强一致性,任何环境、任何地点执行结果一致
3、易复用、易版本化管理

Q:AppStage 在应对工具碎片化方面是否有何独特策略?

A:AppStage来源于华为SRE自身经验的积累,是华为SRE自己用的工具,将自己好的工具和能力集成在一起,打磨变成一站式智能化运维平台,然后对外的经验外溢。

Q:如何评估云原生业务应用稳定性?通常有哪些度量指标?

A:云原生应用稳定性需要分层Iaas-paas-saas评估,分别制定度量指标,举例,IaaS层服务器的指标一般包括CPU使用率、内存使用率、网络出人速率、磁盘读写IOPS、磁盘空间等;PaaS数据库监控指标一般包括请求数,并发数和连接池大小等;SaaS层应用自身的监控指标一般包括成功率、失败率、时延等。

Q:在云原生环境下,如何保证应用的稳定性和可靠性不受环境变化的影响?

A:通过一些可靠性技术可以减少环境变化的影响,比如多活部署,灵活的切换策略,快速的扩容能力等。

Q:如何利用AppStage运维中心实现应用版本的自动化管理和控制?

A:

1、AppStage运维中心部署模块核心是通过基础设施即代码,将资源、配置、环境、状态等进行声明化定义,避免传统变更理解的差异,可确保任何环境、任何地点执行结果的一致性。在变更的评审、执行和验证过程中,实现全流程的自动化。
2、通过一系列的变更灰度评估以及中断回滚等保险措施,确保变更过程和结果的安全可信。
3、部署和变更的过程完全不需要人工干预,减少了人员误操作的可能,保障了变更质量。

Q:APPStage运维中心是否支持自动扩展和负载均衡?

A:AppStage运维中心提供EAP模块可以给应用做变更的预编排,当应用设置好扩容的操作步骤后,通过预编排好的流程一键实现自动扩容 AppStage提供SLB模块,应用安装使用后可以提供负载均衡能力

Q:华为云应用平台AppStage与AI结合后,针对高并发场景能解决哪些问题?

A:AppStage提供SLB模块可以提供流量控制能力,SRE也可以通过混沌演练模块针对高并发做故障演练,通过这些提升应用自身应对业务浪涌和高并发时的高可用性。

Q:华为云应用平台AppStage基于AI,后续发展方向是怎么样的?

A:我们规划了运维大模型、运维知识图谱和运维数字机器人(RPA)

Q:在自动化运维过程中,如何确保系统的稳定性和安全性?

A:AppStage运维中心提供的自动化运维是建立在华为自身应用多年运维经验的积累之上的,经过大规模应用检验过的能力。其提供的自动化的方法结合SRE自身经验,比如SRE预编排的故障恢复和变更自动执行脚本,SRE可以做验证测试。

Q:您认为云原生技术的未来发展趋势是什么?有哪些新技术或概念值得我们关注?

A:云原生技术以微服务架构、容器化部署为代表,基于此的容器化编排、安全访问等也在快速发展。



想要了解更多华为云应用平台AppStage相关知识,欢迎观看DTSE Tech Talk 系列技术直播

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。