《华为云确定性运维案例集——稳定可靠篇》正式发布!
如今企业逐步进入深度云化时代,从关注资源上云到云上业务创新,需要运维、IT治理、成本等运营手段来深度用云和高效管云。华为云将企业在云上不确定中的因素通过运维变成确定性,结合优秀案例实践,为行业提供可复制可操作的业务经验,保障企业业务快速增长,赋能千行百业运维变革。
《华为云确定性运维案例集— —稳定可靠篇》正式发布!案例集涉及不同行业、不同规模和不同运维场景,具有广泛的代表性和应用性,深度剖析企业实际应用运维工作的关键点和难点,助力企业又快又稳云上业务管理。
案例集目录:
>>运维体系构建
1、运维体系变革促进云端改革 企业数字化转型的加速器
https://bbs.huaweicloud.com/blogs/410493
摘要:本案例结合确定性运维转型实践,通过覆盖运维组织、流程、平台以及六大领域运维能力的确定性运维体系构建,促进企业云端变革,助力企业成功转型。
>>高可用设计
2、高可用架构技术实践 亿级用户数字业务的坚强后盾
https://bbs.huaweicloud.com/blogs/410501
摘要:本案例针对企业的业务现状,通过广告业务部署架构优化、广告业务逃生方案、广告业务架构优化以及广告业务链路稳定性分析等关键行动,达成业务高可用,保障亿级用户数字业务的稳定。
3、全链路可观测性体系实践 构筑汽车应用系统云上堡垒
https://bbs.huaweicloud.com/blogs/410502
摘要:本案例结合一站式可观测性运维平台实践,通过应用运维管理服务(AOM)、云日志服务(LTS)、应用性能管理服务(APM)等服务,实现全链路管理,提高运维效率,助 力汽车业务应用系统稳定运行,提升用户体验。
4、结合开源工具与云平台能力 构建可视化监控体系
https://bbs.huaweicloud.com/blogs/410504
摘要:本案例通过提升基础资源监控平台自动化、监控观测指标标准化、数据治理智能化,构建一体化运维监控平台,帮助企业实现基础监控指标全覆盖,监控规范化、标准化和自动化,有效提升运维工作效率,增强云上业务稳定性。
>> 上线管理
5、PRR实践确保业务上线质量与效能双提升
https://bbs.huaweicloud.com/blogs/410516
摘要:本案例引入PRR流程,通过构筑可用性、可运维性的前端能力,使服务及产品能够摘要 高质量快速上云,确保生产就绪,提升业务上线效率。
>> 确定性恢复
6、综合可用性方案 保障机房重大风险时业务零中断
https://bbs.huaweicloud.com/blogs/410517
摘要:本案例介绍机房高温故障恢复实践案例,通过建设高效稳定的监控告警系统、标准规范的故障管理体系和故障演练平台,实现故障精准定位,快速恢复,保障机房出现重大风险时业务零中断。
7、IT系统混沌工程实践 构建综合“演练”方案
https://bbs.huaweicloud.com/blogs/410518
摘要:本案例通过故障模式识别、演练风险分析、风险控制、故障注入、监控与应急恢复、复盘改进等一系列演练方案实践,构建混沌工程能力,持续实践,提升业务的高可用性和稳定性。
>>风险治理
8、告警优化专家经验与工具固化实践
https://bbs.huaweicloud.com/blogs/410519
摘要:本案例基于常见的告警问题场景分析,通过正向分析法和逆向分析法等相关优化措施,构建智能运维告警平台,有效降低告警工单90%+。
9、云上重保 为赛事直播保驾护航
https://bbs.huaweicloud.com/blogs/410521
摘要:本案例结合赛事直播运维保障面临的挑战,通过制定上线应用识别、风险识别、安全评估、应急方案以及系统监控等保障活动,实现应急有序的重大赛事保障服务,确保赛事直播整个过程“0故障、0中断”。
10、故障预测与健康管理 为海量并发业务保驾护航
https://bbs.huaweicloud.com/blogs/410520
摘要:本案例通过构建智能故障预测关键能力,解决出行海量业务缺乏主动通知、实时监测和预警以及预防性维护能力等问题,实现故障预防,全局资源统一管理,快速精准定位故障,减少运维压力,保障系统持续平稳运行。
11、数据智能运营平台开发 助力广义SRE能力构建
https://bbs.huaweicloud.com/blogs/410522
摘要:SREBI通过完善数据仓库建设、提升平台通用能力建设和优化业务视角设计等方式,解决领域内业务场景复杂性高、业务需求多线并行、数据分析时间成本高等问题,提高运维效率与数据准确性,帮助企业实现降本增效。
>>资源治理
12、容量规划和调优策略 助力企业降本增效
https://bbs.huaweicloud.com/blogs/410524
摘要:本案例结合容量评估与优化最佳实践,通过对容量指标的分析和预测,在确保业务系统稳定运行的同时,节约IT基础设施成本,为业务提供科学有效的IT采购与容量优化,帮助企业实现云上资源容量有效管理与成本敏捷运营。
>>运维合规
13、做好ABAC账号权限管理 守护安全生产底座
https://bbs.huaweicloud.com/blogs/410526
摘要:安全生产是运维安全管理中的重要环节,本案例主要围绕典型事件对运维工具管理、安全生产人员权限管理以及安全生产稽查等方面进行剖析,以帮助企业提高质量与安全生产建设,保障现网稳定运行。
- 点赞
- 收藏
- 关注作者
评论(0)