华为云确定性运维专刊(第四期)
在与各行业客户交流的过程中,“不确定性”是千行万业面临的共同挑战。
《华为云确定性运维专刊》第四期约稿了精准故障注入、高可用架构设计、构建可观测体系、运维保障实践、容灾演练等领域的文章,希望能够给大家带来更多启发,同时也期待更多朋友们一起来分享观点和经验。
推荐语:(排名不分先后)
>>前沿观点
一、精准故障注入方法探索,作者:中山大学副教授、博士生导师陈鹏飞
链接: https://bbs.huaweicloud.com/blogs/418214
摘要:本文通过故障注入背景及现状分析,论证精准故障注入的必要性,提出控制故障爆炸范围的解决方案,并从程序语句级、系统调用级、请求级、SQL 级等多层次多粒度进行精准故障注入方案解读,帮助用户实现面向云原生系统的一站式故障注入。
二、华为云高可用架构设计提升云上业务稳定性,作者:华为云SRE首席架构师李浩
链接:https://bbs.huaweicloud.com/blogs/418218
摘要:本期邀请到李浩先生围绕华为云 SRE 发展、高可用架构设计等实践经验进行分享,与大家共同探讨如何实现云上业务的稳定可靠。
>>大咖访谈
三、数智融合:让运维开发者从“消防员”向 “建筑师” 转型,作者:顺丰科技运维专家金可印
摘要:随着物流行业规模快速增长,面对海量 C 端用户及行业客户,如何提供高效、可靠、安全的物流 IT 服务,提升物流服务差异化竞争力,是包括顺丰在内的很多物流企业的探索和实践的方向。
链接:https://bbs.huaweicloud.com/blogs/418221
四、UGC沙盒创意平台的基建建设之旅,作者:迷你创想平台技术团队负责人刘琪
链接:https://bbs.huaweicloud.com/blogs/418270
摘要: 本文结合确定性运维理念实践,围绕变更风险评审流程、混沌工程、容器化改造等进行优化升级,保障业务稳定可靠。
五、“2+6”确定性运维解决方案, 管云无忧之迁移/运维/云财务管理,作者:华为云数字化平台部部长李锋
链接:https://bbs.huaweicloud.com/blogs/418276
摘要:在华为全联接大会 2023 确定性运维论坛上,华为云正式提出“2+6”确定性运维解决方案,使能客户管云无忧。本文对其中的迁移解决方案、运维解决方案、云财务治理解决方案等套件深度解析,阐述各解决方案是如何助力客户管好云,使能客户数字化转型。
>>技术创新
六、All in One, 快速搭建端到端可观测体系,作者:王磊
链接:https://bbs.huaweicloud.com/blogs/418277
摘要: 可观测包含指标、日志、调用链,它是运维运营的基础能力,所有的运维运营动作都要基于可观测进行分析和决策,所以让客户在云上可以看的全、看的快、看的准是我们可观测领域追求的目标,也是客户信赖我们的基础。
七、逻辑多租场景下, 故障爆炸半径的控制实践,作者:王福强 陈子栋
链接:https://bbs.huaweicloud.com/blogs/418281
摘要:本文对多租架构的典型故障场景进行分析,面对单租户 APP 异常导致的故障,提出应对的分级隔离方案,将单租户的运行资源消耗控制在确定的边界内,用确定性的故障隔离机制应对不确定的故障场景,以控制故障爆炸半径,减少平台级故障的发生。
八、全冗余、全监控、全自动, 实现华为云官网零中断,作者:吴奇、文俊
链接:https://bbs.huaweicloud.com/blogs/418283
摘要:本文重点介绍华为云官网在零中断方面的实践经验,围绕全冗余架构、全链路监控、全自动化故障恢复,实现官网零中断的 高可用目标。
>>业务提升
九、云容器、云搜索、云数据库在线验证, 提前发现隐患,作者:孙红涛 田瑞东 方翔宇 詹加晓
链接:https://bbs.huaweicloud.com/blogs/418284
摘要:本文通过深入分析业务架构和实时获取业务场景,结合故障模式方法,制定多项数据面故障模式,并在测试环境和现网环境进行真实演练,有效发现隐患并及时进行架构优化、代码优化以及输出确定性的应急预案,提升业务运行稳定性,助力企业用云无忧。
十、OES面向零售行业的落地与经验总结,作者:唐余鹏
链接:https://bbs.huaweicloud.com/blogs/418296
摘要:本文总结华为云在零售行业的实践经验,通过 OES 使能服务对其运维组织、流程、平台等能力的评估和咨询规划,促进企业云端变革,助力企业数字化成功转型。OES:Operation Enabling Service 使能服务。
十一、政务云SRE团队客户用云优化能力分享,作者:康镇 李国强 刘纯纯 殷阁朕
链接:https://bbs.huaweicloud.com/blogs/418304
摘要:相对于公有云的用云模式,政务行业的维护模式需要更广泛的服务边界,为此华为构建了 1 中心 +N 节点的运维架构。运维团队驻扎在客户本地,聚焦于专属局点客户的业务需求,政务云运维中心作为华为云运维团队的分支,多年来专注于服务政务行业,以联合维护的成熟运维模式保障客户云平台的安全稳定,客户可以更专注与本领域的业务系统发展。
十二、跨AZ容灾演练实践 让云业务处变不惊,作者:卢三超、杨淼、刘晨皓
链接: https://bbs.huaweicloud.com/blogs/418298
摘要:本文针对当前云业务于各站点管理面容灾及逃生现状,以推进云服务、中间件及公共组件均具备容灾能力为前提,对整 AZ 注入断网、掉电、亚健康等场景制造故障,完成整 AZ 容灾逃生。此演练可识别各服务版本、架构、现网配置等诸多隐患, 校验整 AZ 容灾能力,助力云业务更加安全。
- 点赞
- 收藏
- 关注作者
评论(0)