华为云确定性运维专刊(第四期)

举报
SRE确定性运维 发表于 2023/12/20 17:59:42 2023/12/20
【摘要】 华为云确定性运维专刊(第四期)发布!

       在与各行业客户交流的过程中,“不确定性”是千行万业面临的共同挑战。

     《华为云确定性运维专刊》第四期约稿了精准故障注入、高可用架构设计、构建可观测体系、运维保障实践、容灾演练等领域的文章,希望能够给大家带来更多启发,同时也期待更多朋友们一起来分享观点和经验。

       点击立即下载>>华为云确定性运维专刊(第四期)

33.jpg

推荐语:(排名不分先后)

5.PNG

2.PNG

3.PNG

4.PNG

       专刊目录:

      >>前沿观点        

       一、精准故障注入方法探索,作者:中山大学副教授、博士生导师陈鹏飞

       链接: https://bbs.huaweicloud.com/blogs/418214  

       摘要:本文通过故障注入背景及现状分析,论证精准故障注入的必要性,提出控制故障爆炸范围的解决方案,并从程序语句级、系统调用级、请求级、SQL 级等多层次多粒度进行精准故障注入方案解读,帮助用户实现面向云原生系统的一站式故障注入。

      二、华为云高可用架构设计提升云上业务稳定性,作者:华为云SRE首席架构师李浩

      链接:https://bbs.huaweicloud.com/blogs/418218  

      摘要:本期邀请到李浩先生围绕华为云 SRE 发展、高可用架构设计等实践经验进行分享,与大家共同探讨如何实现云上业务的稳定可靠。

      >>大咖访谈 

      三、数智融合:让运维开发者从“消防员”向 “建筑师” 转型,作者:顺丰科技运维专家金可印

      摘要:随着物流行业规模快速增长,面对海量 C 端用户及行业客户,如何提供高效、可靠、安全的物流 IT 服务,提升物流服务差异化竞争力,是包括顺丰在内的很多物流企业的探索和实践的方向。

      链接:https://bbs.huaweicloud.com/blogs/418221

      四、UGC沙盒创意平台的基建建设之旅,作者:迷你创想平台技术团队负责人刘琪

      链接:https://bbs.huaweicloud.com/blogs/418270 

      摘要: 本文结合确定性运维理念实践,围绕变更风险评审流程、混沌工程、容器化改造等进行优化升级,保障业务稳定可靠。

      五、“2+6”确定性运维解决方案, 管云无忧之迁移/运维/云财务管理,作者:华为云数字化平台部部长李锋

      链接:https://bbs.huaweicloud.com/blogs/418276

      摘要:在华为全联接大会 2023 确定性运维论坛上,华为云正式提出“2+6”确定性运维解决方案,使能客户管云无忧。本文对其中的迁移解决方案、运维解决方案、云财务治理解决方案等套件深度解析,阐述各解决方案是如何助力客户管好云,使能客户数字化转型。

       >>技术创新

      六、All in One, 快速搭建端到端可观测体系,作者:王磊

      链接:https://bbs.huaweicloud.com/blogs/418277

      摘要: 可观测包含指标、日志、调用链,它是运维运营的基础能力,所有的运维运营动作都要基于可观测进行分析和决策,所以让客户在云上可以看的全、看的快、看的准是我们可观测领域追求的目标,也是客户信赖我们的基础。

     七、逻辑多租场景下, 故障爆炸半径的控制实践,作者:王福强 陈子栋

      链接:https://bbs.huaweicloud.com/blogs/418281 

      摘要:本文对多租架构的典型故障场景进行分析,面对单租户 APP 异常导致的故障,提出应对的分级隔离方案,将单租户的运行资源消耗控制在确定的边界内,用确定性的故障隔离机制应对不确定的故障场景,以控制故障爆炸半径,减少平台级故障的发生。

       八、全冗余、全监控、全自动, 实现华为云官网零中断,作者:吴奇、文俊

      链接:https://bbs.huaweicloud.com/blogs/418283 

      摘要:本文重点介绍华为云官网在零中断方面的实践经验,围绕全冗余架构、全链路监控、全自动化故障恢复,实现官网零中断的 高可用目标。

       >>业务提升

       九、云容器、云搜索、云数据库在线验证, 提前发现隐患,作者:孙红涛 田瑞东 方翔宇 詹加晓

       链接:https://bbs.huaweicloud.com/blogs/418284

      摘要:本文通过深入分析业务架构和实时获取业务场景,结合故障模式方法,制定多项数据面故障模式,并在测试环境和现网环境进行真实演练,有效发现隐患并及时进行架构优化、代码优化以及输出确定性的应急预案,提升业务运行稳定性,助力企业用云无忧。

      十、OES面向零售行业的落地与经验总结,作者:唐余鹏

      链接:https://bbs.huaweicloud.com/blogs/418296

      摘要:本文总结华为云在零售行业的实践经验,通过 OES 使能服务对其运维组织、流程、平台等能力的评估和咨询规划,促进企业云端变革,助力企业数字化成功转型。OES:Operation Enabling Service 使能服务。

      十一、政务云SRE团队客户用云优化能力分享,作者:康镇 李国强 刘纯纯 殷阁朕

      链接:https://bbs.huaweicloud.com/blogs/418304 

      摘要:相对于公有云的用云模式,政务行业的维护模式需要更广泛的服务边界,为此华为构建了 1 中心 +N 节点的运维架构。运维团队驻扎在客户本地,聚焦于专属局点客户的业务需求,政务云运维中心作为华为云运维团队的分支,多年来专注于服务政务行业,以联合维护的成熟运维模式保障客户云平台的安全稳定,客户可以更专注与本领域的业务系统发展。

      十二、跨AZ容灾演练实践 让云业务处变不惊,作者:卢三超、杨淼、刘晨皓

       链接: https://bbs.huaweicloud.com/blogs/418298     

      摘要:本文针对当前云业务于各站点管理面容灾及逃生现状,以推进云服务、中间件及公共组件均具备容灾能力为前提,对整 AZ 注入断网、掉电、亚健康等场景制造故障,完成整 AZ 容灾逃生。此演练可识别各服务版本、架构、现网配置等诸多隐患, 校验整 AZ 容灾能力,助力云业务更加安全。

1234.JPG

3.jpg

4.jpg


6.jpg

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。