华为云确定性运维专刊(第五期)
在与各行业客户交流的过程中,“不确定性”是千行万业面临的共同挑战,AI正在重塑千行万业,为云上的发展提供新的机遇。
《华为云确定性运维专刊》第五期约稿了大模型实践、AI大规模集群训练、应用可观测、云服务过载控制、架构设计及应急切换等领域的文章,希望能够给大家带来更多启发,同时也期待更多朋友们一起来分享观点和经验。
推荐语:(排名不分先后)
专刊目录:
>>前沿观点
一、人工智能运维的发展与新机遇,作者:SRE专委会(SRE社区)发起人刘峰
链接:https://bbs.huaweicloud.com/blogs/434767
摘要:由于大模型等新一代人工智能技术的突破和高速发展,为 SRE 和智能运维(AIOps)领域提供了全新的发展机遇和广阔的创新空间,本文从人工智能运维的定义、大模型的发展、SRE 结合 AI 实现人工智能运维以及带来的改变等多个角度展开分析和探讨。
二、LLM和Multi-Agent在运维领域的实验探索,作者:华为云AI使能专家,犹他州立大学统计学博士张曦
链接:https://bbs.huaweicloud.com/blogs/434778
摘要:本文从智能运维面临的挑战和痛点出发,介绍企业运维领域应用 AIGC 的实践案例,基于确定性运维的实践经验,提出以LLM 为中心,基于多 Agent 协同的运维方案,并提出在大模型时代下,对下一代智能运维的思考。
>>大咖访谈
三、乘云启航,打造面向未来的数字化新零售商业体— i 百联业务中台全量上云实践分享,作者:百联全渠道电子商务有限公司副总经理王善良
链接:https://bbs.huaweicloud.com/blogs/434784
摘要:本文重点介绍百联全渠道业务中台全量上云实践经验,在面临集团业务多元性、架构复杂性及上云的复杂性的挑战下,通过上云试点、灰度切流、测试和演练等,确保业务系统顺利割接上云,乘云启航,打造面向未来的数字化新零售商业体。
四、双轮驱动,构建运维“数循环”,作者:云智慧副总裁陆兴海、云智慧首席咨询顾问黄晓、云智慧咨询总监伍杰
链接:https://bbs.huaweicloud.com/blogs/434793
摘要:本文构建了数据驱动运维方法论,提出“数据驱动运维”(DDOps: Data Driven Operation)的观点,构建运维领域的“数循环”,以数据为抓手打造完整的智能化运维实践方法论,为客户提供“道”、“法”、“术”一体的完整解决方案,希望对行业“用数据做运维”实践有所启发与帮助。
五、大模型与智能运维的双向奔赴,作者:中山大学教授、博士生导师陈鹏飞
链接:https://bbs.huaweicloud.com/blogs/434796
摘要:本文主要介绍在大模型智能运维场景下,通过大小模型的结合,结合系统运行状态进行概括、溯源、推理根因,输出故障状态摘要和根因诊断结果,最终实现故障检测能力和运维效率提升。
六、AI大规模训练集群稳定性实战,加速智能跃迁,作者:华为云SRE高级专家童琳
链接:https://bbs.huaweicloud.com/blogs/434798
摘要:本文通过AI大模型训练集群稳定性挑战分析,引出华为云针对AI集群构建的从异常感知、诊断到故障自愈的完整闭环能力及实战经验分享,为AI集群的稳定可靠提供有效的保障系统,加速智能跃迁。
>>技术创新
七、大模型时代下的应用可观测性方案探索与实践,作者:华为云云服务SRE专家王福强、基调听云首席技术官(CTO)杨金全
链接:https://bbs.huaweicloud.com/blogs/434802
摘要:本文主要介绍华为GTS与基调听云基于大模型技术的应用可观测性方案的探索与实践,通过分析其背景、实施方案以及落地效果,以创新技术提升应用的可观测性,确保企业能够在复杂多变的技术环境中保持竞争力。
八、云服务过载控制“三部曲”,作者:郑磊
链接:https://bbs.huaweicloud.com/blogs/434805
摘要:云服务场景下面临不确定的客户应用,不确定的公网请求变化,不确定的系统负载挑战,如何做到云服务、微服务及租户的高可用,避免这些不确定的因素产生服务过载,如何使租户面的业务不受影响是本文重点讨论的话题。
>>业务提升
九、政务云架构设计与应急切换能力优化 实现业务安全稳定高质量,作者:康镇 李国强 刘纯纯 殷阁朕
链接:https://bbs.huaweicloud.com/blogs/434809
摘要:本文主要介绍政务云SRE基于华为确定性运维能力体系,通过一系列系统高可用架构优化以及应急演练能力优化方案和用云优化实践,实现业务安全稳定高质量,助推政务客户实现数字化转型。
十、租户业务架构韧性提升 保障上云用云稳定可靠,作者:晋彪
链接:https://bbs.huaweicloud.com/blogs/434811
摘要:本文围绕大客户业务架构韧性展开,聚焦 CRE(CRE:Customer Reliability Engineering ,客户稳定性工程师)团队通过高可用架构部署、弹性扩缩容、性能过载保护、故障可逃生、爆炸半径可控制等方式提升业务 SLA,以确定性方案解决不确定性风险,保障客户云上业务稳定可靠。
- 点赞
- 收藏
- 关注作者
评论(0)