《华为云确定性运维案例集——稳定可靠篇》正式发布!

举报
华为云确定性运维 发表于 2023/09/08 18:28:06 2023/09/08
【摘要】 《华为云确定性运维案例集——稳定可靠篇》正式发布,案例集涉及不同行业、不同规模和不同运维场景,具有广泛的代表性和应用性,深度剖析企业实际应用运维工作的关键点和难点,助力企业又快又稳云上业务管理。

      如今企业逐步进入深度云化时代,从关注资源上云到云上业务创新,需要运维、IT治理、成本等运营手段来深度用云和高效管云。华为云将企业在云上不确定中的因素通过运维变成确定性,结合优秀案例实践,为行业提供可复制可操作的业务经验,保障企业业务快速增长,赋能千行百业运维变革。

      《华为云确定性运维案例集— —稳定可靠篇》正式发布!案例集涉及不同行业、不同规模和不同运维场景,具有广泛的代表性和应用性,深度剖析企业实际应用运维工作的关键点和难点,助力企业又快又稳云上业务管理。

      点击下载:《华为云确定性运维案例集— —稳定可靠篇》

33333.jpg

1.JPG

2.PNG

3.PNG

4.PNG

      案例集目录:

      >>运维体系构建

      1、运维体系变革促进云端改革 企业数字化转型的加速器
      https://bbs.huaweicloud.com/blogs/410493 

      摘要:本案例结合确定性运维转型实践,通过覆盖运维组织、流程、平台以及六大领域运维能力的确定性运维体系构建,促进企业云端变革,助力企业成功转型。

      >>高可用设计

      2、高可用架构技术实践 亿级用户数字业务的坚强后盾
      https://bbs.huaweicloud.com/blogs/410501 

      摘要:本案例针对企业的业务现状,通过广告业务部署架构优化、广告业务逃生方案、广告业务架构优化以及广告业务链路稳定性分析等关键行动,达成业务高可用,保障亿级用户数字业务的稳定。

      3、全链路可观测性体系实践 构筑汽车应用系统云上堡垒
      https://bbs.huaweicloud.com/blogs/410502 

      摘要:本案例结合一站式可观测性运维平台实践,通过应用运维管理服务(AOM)、云日志服务(LTS)、应用性能管理服务(APM)等服务,实现全链路管理,提高运维效率,助 力汽车业务应用系统稳定运行,提升用户体验。

      4、结合开源工具与云平台能力 构建可视化监控体系
      https://bbs.huaweicloud.com/blogs/410504 

      摘要:本案例通过提升基础资源监控平台自动化、监控观测指标标准化、数据治理智能化,构建一体化运维监控平台,帮助企业实现基础监控指标全覆盖,监控规范化、标准化和自动化,有效提升运维工作效率,增强云上业务稳定性。

      >> 上线管理
      5、PRR实践确保业务上线质量与效能双提升
      https://bbs.huaweicloud.com/blogs/410516

      摘要:本案例引入PRR流程,通过构筑可用性、可运维性的前端能力,使服务及产品能够摘要 高质量快速上云,确保生产就绪,提升业务上线效率。

     >> 确定性恢复

      6、综合可用性方案 保障机房重大风险时业务零中断
      https://bbs.huaweicloud.com/blogs/410517

      摘要:本案例介绍机房高温故障恢复实践案例,通过建设高效稳定的监控告警系统、标准规范的故障管理体系和故障演练平台,实现故障精准定位,快速恢复,保障机房出现重大风险时业务零中断。

      7、IT系统混沌工程实践 构建综合“演练”方案
      https://bbs.huaweicloud.com/blogs/410518

      摘要:本案例通过故障模式识别、演练风险分析、风险控制、故障注入、监控与应急恢复、复盘改进等一系列演练方案实践,构建混沌工程能力,持续实践,提升业务的高可用性和稳定性。

      >>风险治理

      8、告警优化专家经验与工具固化实践 
      https://bbs.huaweicloud.com/blogs/410519 

      摘要:本案例基于常见的告警问题场景分析,通过正向分析法和逆向分析法等相关优化措施,构建智能运维告警平台,有效降低告警工单90%+。

      9、云上重保 为赛事直播保驾护航 
      https://bbs.huaweicloud.com/blogs/410521 

      摘要:本案例结合赛事直播运维保障面临的挑战,通过制定上线应用识别、风险识别、安全评估、应急方案以及系统监控等保障活动,实现应急有序的重大赛事保障服务,确保赛事直播整个过程“0故障、0中断”。

      10、故障预测与健康管理 为海量并发业务保驾护航
      https://bbs.huaweicloud.com/blogs/410520 

      摘要:本案例通过构建智能故障预测关键能力,解决出行海量业务缺乏主动通知、实时监测和预警以及预防性维护能力等问题,实现故障预防,全局资源统一管理,快速精准定位故障,减少运维压力,保障系统持续平稳运行。

     11、数据智能运营平台开发 助力广义SRE能力构建
      https://bbs.huaweicloud.com/blogs/410522 

      摘要:SREBI通过完善数据仓库建设、提升平台通用能力建设和优化业务视角设计等方式,解决领域内业务场景复杂性高、业务需求多线并行、数据分析时间成本高等问题,提高运维效率与数据准确性,帮助企业实现降本增效。

      >>资源治理

      12、容量规划和调优策略 助力企业降本增效
      https://bbs.huaweicloud.com/blogs/410524 

      摘要:本案例结合容量评估与优化最佳实践,通过对容量指标的分析和预测,在确保业务系统稳定运行的同时,节约IT基础设施成本,为业务提供科学有效的IT采购与容量优化,帮助企业实现云上资源容量有效管理与成本敏捷运营。

      >>运维合规

      13、做好ABAC账号权限管理 守护安全生产底座
      https://bbs.huaweicloud.com/blogs/410526  

      摘要:安全生产是运维安全管理中的重要环节,本案例主要围绕典型事件对运维工具管理、安全生产人员权限管理以及安全生产稽查等方面进行剖析,以帮助企业提高质量与安全生产建设,保障现网稳定运行。

1.jpg

2.jpg

3.jpg

4.jpg

5.jpg


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。