助力客户数字化转型,构建全新的运维体系

SRE确定性运维 发表于 2022/06/22 16:21:11 2022/06/22
【摘要】 最近几年,数字化浪潮席卷而来,各行各业面临着以ICT技术为驱动的第四次工业革命的冲击,包括云、AI、5G等新型技术的爆发式增长,传统行业面临更大挑战。数字化浪潮正在重新构建世界经济格局,数字经济正在成为全球可持续性增长的新引擎。

作者:晋彪

      在新一代数字技术的驱动下,企业由制造迈向“智造”,IT运维的压力成倍增长,对运维服务和平台带来了巨大挑战,华为云“确定性运维”方案帮助企业在运维过程中找到新的突破口,构建全新的运维体系,为客户上云提供安全、专业、高效的服务。
      华为云成为客户数字化转型的重要引擎
      华为云客户是一家国有大型通信基础设施服务企业,在进行传统通信服务业务的同时,公司正在积极开展科技创新。
      华为云SRE工程师在与客户项目负责人洽谈时,结合企业业务特点,让业务能力生于云,长于云。生于云是基于华为云的智能运维平台来构建企业运维,长于云是充分利用云的优势助力客户应用和业务发展,将客户的数字化建设和业务智能升级带入新的阶段。
      项目保障正式启动后,华为云SRE、CRE、TAM、RDPM成员迅速进场,联合客户对业务进行系统分析,识别全量风险、依托监控最佳实践协助客户整改、输出可靠性加固方案及容灾方案,推进准生产/生产环境完成MAS双AZ双活容灾方案落地。
      华为云团队联合客户对业务系统从实例状态、版本、容量性能、过载保护、操作合规性、业务模块可靠性、故障爆炸半径、逃生及应急预案等多个方面进行分析和评估,显性提出风险项,与客户对标风险清除方案并实施。针对无法消除的风险,定期进行应急预案的故障演练,确保故障可快速恢复。
      “确定性运维”体系赋能数字化运维转型
      在业务巡检和变更管控上,重点从客户硬件故障隐患、后台实例状态检查、云服务深度巡检方面,识别风险并整改,针对各类变更,域内评审+重大变更评审双层把关。
      在全链路监控体系中,根据客户业务特点,以稳定性为核心诉求,进行多轮阈值和告警配置优化,据业务运行情况持续优化监控指标阈值。

130.PNG


      在系统容量分析上,当前业务系统容量可应对单AZ级资源故障场景的业务延续性。分层级按照业务模块分析相关 Redis、MongoDB、RabbitMQ、Kafka、CCE、ELB、NAT、ECS,8个核心业务的关键云服务容量评估。
      在容灾演练上,设定演练场景,分别为故障处理流程演练、突袭随机故障演练、单组件故障演练、整系统故障容灾演练等,并通过演练,熟悉故障应急预案,缩短现网故障业务恢复时长。
      在架构加固上,通过三个阶段实现客户架构加固。在第一阶段,关键实例可靠性加固、多AZ部署:主备实例跨AZ改造且实现冗余集群Redis、MongoDB跨AZ容灾部署,实现多集群通过内容DNS进行主备倒换;在第二阶段,应急小程序灾备环境容灾:跨Region部署微信小程序灾备环境,实现核心业务的快速容灾切换。华为云保障团队配合客户进行方案落地实施并完成联合演练等动作,保障应急小程序顺利上线;在第三阶段,基于华为云MAS多活高可用解决方案(消费者云多活容灾孵化方案),输出主业务跨AZ双活容灾方案。
      经过一系列努力,最终帮助客户实现IT运维统一管理、统一防护、统一监测,建立起全面的安全监测、通报预警和应急处置工作机制,大幅提升了运维质量和效率。

24.PNG

      华为云通过行业运维指标体系持续迭代和重构,实现智能运维对企业数字化转型业务的保驾护航。通过整套运维保障解决方案,保障了客户海量设备和业务应用平稳运行,华为云持续以业务支撑为导向,以运维体系为指引,以运行平台为支撑,不断提升客户运维管理与服务水平,保障业务可持续发展,全面满足客户需求,精细化服务水平,助力客户数字化转型的成功。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。