终端云智能化运维思考与探索——华为终端云SRE部部长黄启辉
来源:华为云SRE确定性运维专刊(第二期)
黄启辉,现任华为终端云SRE部部长,近五年负责华为终端云服务全球的运维管理工作。华为云SRE有幸邀请到黄启辉先生担任专刊受访嘉宾,就终端云及智能化运维进行分享,与大家共同探讨高质量高效率的智能化运维。
一、谈一谈您在华为终端云的工作经历
我叫黄启辉,现任华为终端云SRE部部长,近五年负责华为终端云服务全球的运维管理工作。通过云服务Ops运维平台和流程持续开发和优化、全球运维组织建设,支撑华为终端及鸿蒙生态云服务的高质量、高体验运行,并持续降低基础设施成本。
二、华为终端设备在全球销售,据了解2018 年就有2 亿部手机的销量,终端云SRE 是如何组织海量设备的全球运维?
1)华为终端云,服务所有“华为”品牌的各类终端,为用户提供有价值的数字云服务,构建华为终端产品可持续发展的云服务生态。截止22年9月,帐号XXX亿,月活XXX亿;应用市场单日下载峰值XXX亿次;MeCloud照片日上传峰值XXX亿张, 存储共XXXP.。
2)全球3+1站点,XXX万台服务器,全球三个运维中心有效协同,保障连续5年业务可用性SLA 99.99%,无重大连续性和安全事故的挑战目标达成。
3)终端云SRE通过建设SD服务部署、ITR问题管理、BCM混沌工程三个活动的数字SRE能力,提升数据化(感知)、智能化(决策)、自动化(执行)水平,加速向数字SRE自动驾驶转型,实现更高效的运维治理,创造数字SRE100+个。
三、终端云服务器规模达到了约XXX万台,实现连续多年平稳运行,无疑有巨大挑战,中间有哪些故事可以给大家分享?
1、围绕运维三个活动流程构建能力,持续提升效率、提升业务连续性,为业务保驾护航。
» SD:通过IaC(基础设施及代码)以及灵活的编排能力,实现变更过程可信、执行自动化、效率连续3年持续提升30%(变更时长降低30%),目前终端云现网版本部署100%自动化。
» ITR:有完善的故障生命周期自动化管理能力,基于大数据构建AIOps异常检测、根因诊断、问题定位能力,在ServiceInsight问题管理平台构建健康管家、专家诊断工具、运维知识图谱、知识编排、ChatOps、服务画像、资源画像等低代码工具,SRE自主开发,实现了故障预防、检测、诊断、通报、恢复的IT化和自动化,正在深耕AI运维部分,持续提升现网问题自动恢复率。
» BCM:基于混沌工程构建WiseChaos平台,设计了故障模式库、智能评估能力,致力于从注入到恢复后评估端到端无人干预演练模式,从“按剧本演练”演进到“随机注入故障演练”。保证现网从“端管边云”各环节可靠性SLA99.99%,包括我们的全球骨干环网也即将实现双环双活。业务维度也从集群负载、AZ多活、智能调度、业务流控降级等方式,构建多重容错能力。
2、能力持续落入运维工具,进入智能化运维深水区。
终端云SRE部仅有XXX人,通过全球运维平台、流程及组织能力建设,持续提升效率,以XXX倍人力增长支撑XXX倍收入增长、XXX倍主机数量增长。主要原因就是将我们的专家经验持续的沉淀到平台、固化在工具、适配入流程。将我们的变更和运维事件的处理效率大幅提升。
四、在华为公司内部,终端云和华为云是如何分工配合的?
1、终端业务作为华为云的一个租户,使用华为云的IaaS、PaaS服务。
2、终端业务自身构建了上云的关键能力:
构建祥云平台,业务与I层解耦,让业务看不到云,软件开发与部署Cloud Native,业务聚焦特性高效开发。
祥云aPaaS架构上具备多云管理能力,全球化多Region部署。
业务层分级(AZ/Region、实例、数据库)实现快速迁移和调度,4个9可靠性。
五、作为华为云最大的内部客户之一,在云化和使用的过程中,有哪些经验和故事可以跟大家分享?
终端业务上华为云关键阶段:
终端云从17年开始全面上云,国内和欧洲、俄罗斯3大区域实现从IDC全面上云,主要使用IAAS为主,计算、存储和CDN、网络等。
» 2019年“516”后2天内,承载亚非拉业务的新加坡站点,从A云切换到华为云。
» 2019年Q3~Q4,MeCloud(云空间)全面使用对象存储OBS服务。
» 2020年,开始使用云高阶服务数据库服务、DCM等,支撑HMS生态。
» 2021年,中国区数据库全面上云,微服务容器化Pod数XXX万。
» 2022年,GaussDB数据库、容器CCE Turbo、EI大数据开始持续上云。
» 2015年至今,终端云的在持续上云的道路上,我作为全程的亲历者,感到了公有云快速、高质量的发展,使得云上客户可以快速开发自己的业务,稳定运行自己的业务,持续盈利,公有云为业务提供了坚实的底座。同时,通过终端云的大数据量、大容量、高并发的业务也极大的牵引了华为云的产品和技术能力提升,双方协同共同提升。
1、截至目前,终端云业务在华为云上的累计规模:弹性计算服务XXX万虚拟主机、GaussDB共XXX实例,MRS节点XXX万台,OBS对象存储 XXXP、裸金属BMS XXX万台、CDN XXXGbps。
2、终端云使用公有云XXX服务,在终端云首次应用的核心能力已有XXX个,2022年已规划实施进行中的有XXX个。
降成本:计算、网络、存储经过近几年持续上云和治理,不断优化基础设施的资源配置,提升资源利用率。通过在线业务的服务画像和治理、离线业务存算分离、CDN的AI调度优化等关键技术和措施实现性能倍增。2020年共计优化成本XXX万美元,2021年共计优化成本XXX万美元,2022年共计优化成本XXX万美元。
保质量:通过持续提升可信能力(韧性/安全性/隐私性/可靠性/可用性),容灾/双云系统等建设及持续演练,整体SLA保持100%;2022年暂无质量事故。
优体验:基于公有云全球的基础设施,终端云构建全球极简网络Wise-WAN,实现全球TOP区域一跳接入骨干网,通过“端管边云”及自研协议持续优化,已完成多国业务性能指标超过/持平友商。
六、对终端云智能化运维,未来是如何规划的,有什么可以给业界分享的?
如前面介绍的,终端云业务承载了十亿级用户,我们的业务场景越来越多,运维场景也越来越复杂。所以我们构建了一套更智能、更高度自动化的数字SRE智能运维系统,来支撑业务发展。这就是终端云数字SRE产生的背景,也是终端云数字SRE的价值所在。
智能数字化劳动力(数字SRE)概念的提出,重新定义人与机器的关系(角色),人回归人的价值,人机各展所长,重构运维模式。围绕“感知-决策-执行”构建能力、迭代循环优化,持续落地数字SRE:
» 感知数字化:构建实时数字化、精准感知能力,构建实时数据采集能力,对网络进行栅格化标识,对设备进行坐标级管理。
» 决策智能化:构建智能算法决策能力如异常检测、全链路根因诊断和基于知识编排的分析决策服务,支撑运维统一智能决策。
» 执行自动化:基于分布式、云原生服务化能力,构建规则自动执行、业务集中调度、自动化执行能力。
终端云目前整体处于L3有条件自动运维阶段,正朝着L4阶段迈进。22年已实现了XXX个服务接入基础设施即代码IaC3.0,实现了部分场景端到端变更无人值守;构建了一系列aPaas服务&中间件的根因诊断能力,XXX个服务接入了根因诊断、诊断成功率97%;完成了演练自动化报告生成、AI演练评估能力构建和试点;整体创造了100+个数字SRE。
相信我们构建这样一套智简AI运维系统,持续提升数字SRE核心竞争力,能够更好的保障运维高效可信、最优用户体验,助力云服务、1+8+N全场景、鸿蒙生态业务成功!
拓展阅读:华为云SRE确定性运维专刊(第二期)
- 点赞
- 收藏
- 关注作者
评论(0)