第八届数字中国建设峰会召开,确定性运维赋能城市共启AI CITY新未来
近日,第八届数字中国建设峰会在福建福州举行,现场汇聚院士、国内外知名专家、典型城市及头部企业代表,分享智慧城市的实践经验与技术路径,期间华为云发布一系列数智研究成果和解决方案,提供专业、安全、可靠的云上服务。同时,华为云AI CITY“1234MNX”架构首次公开,分享AI运维的确定性运维体系,通过故障快恢、风险识别与消除、运维合规等能力,保障城市云上系统安全、稳定、可靠,赋能城市高质量发展。
图:华为云AI CITY“1234MNX”架构
链接:《华为云AI CITY“1234MNX”架构首次公开!一图看懂→》
随着全球迈向深度智能化时代,AI成为重塑世界的核心力量,不同于“一城一云一模型”,AI CITY采用了1234MNX的架构:1个分布式智能云底座,AI安全和AI运维构成的2个保障体系,AI模型平台、AI数据平台、AI原生应用平台组成的3套AI工程平台,M个数据资产、N个模型资产,涵盖算力及云服务运营、模型运营、数据运营、应用创新及生态运营的4类运营,以及泛政府、工业制造、矿山、气象、文旅、医疗医药等X个应用创新。
智能化已成为确定性发展趋势,云和AI成为推动企业创新和增长的核心驱动力。华为云通过持续创新,从“一城一云”到“一城一云一模型”,再到“AICITY”,助力众多城市实现从“政务云”到“城市云”的数智升级。AI运维不仅能够显著提升IT系统的稳定性和效率,优化资源分配,提高服务效率和质量,从而确保城市的各项智能应用和服务稳定、高效地运行,推动智慧城市的发展。
确定性运维AI加速行业云上变革,与客户共赢AI新CITY
确定性运维通过OES 2.0(operation enabling service)专家服务配合工具平台,将故障快恢、可观测、故障快恢验证等能力落地,使能千行万业迈向“确定性”;MS 2.0(Management Service)提供端到端的基础设施管理及应用管理,达到业务、资产情况全链路可观测的同时,围绕组织/流程/工具等构建确定性恢复能力,助力客户聚焦核心业务,实现降本增效,通过持续构建稳定性核心能力体系,加速在实际场景中的落地应用。
图:确定性运维体系支撑客户业务稳定持续增长
·故障快恢,提升系统稳定性与用户体验提升。集群规模越大,单次故障对业务影响越大。随着集群规模增大,支持的参数规模也就越大,单次故障成本也越来越高。在进行AI训练任务时,由于Step之间需要进行强同步,因此需要保证集群资源的利用率达到90%以上。同时,由于每一步都需要进行集群数据同步,任何硬件故障都会导致同步失败,进而造成训练任务失败。确定性恢复时间(MTTR),这种快速恢复能力,保证了系统的稳定性和业务连续性;在软件层面,遇到异常时,能够重新安排任务执行顺序,以及实现作业的“自愈”机制;进一步深入应用层,在面对局部故障时,系统应具备智能识别和恢复能力,能够自动识别作业层的断点,即任务执行的暂停点,通过记录和保存任务状态,确保在故障恢复后,能够从上次中断的地方继续执行,而无需重新开始,从而保证历史作业的完整性和可信恢复。
图:全栈故障模式库和关键能力
·风险识别和治理:构建安全可靠的IT环境。华为云与客户共同提升识别风险规则场景,如高可用架构、配置管理要求、版本一致性、监控能力、故障管理等关键能力,在关注高可用架构时,逐一审查并确保架构具备确定性的可靠性、可恢复性和故障影响范围控制等关键能力,并通过PRR (pilot readiness review)和ORR(Operational Readiness Review)等手段进行常规检查,如一致性管理、健康状况监控、弹性扩展以及成本管理等方面的智能化提升,提高运维整体效率。
·运维合规:确保业务持续发展与法律遵从性。华为云通过一系列的管理策略及技术手段对运维各项活动进行合规性管理,保障现网质量。从人员、工具、流程规范等方面在安全预防、过程监控、结果稽查等维度进行安全生产管理。在安全生产能力加强建设,通过对安全生产相关维度的衡量指标设定及考核,持续提升安全生产合规性。
运维合规框架图
从一城一云到AI CITY,确定性运维AI保障云端客户的确定性
华为基于三十多年的安全累积和安全理念,联合2000+研发专家共同组成业务守护团队,华为云的AI CITY解决方案提供了新算力基础设施、新数据基础设施、新AI模型、应用生态以及安全保障体系、工程化能力、运营管理在内的一整套服务。在华为云的使能下,AI CITY的建设,考验的不再是城市的禀赋,每一个城市都能释放AI的先进生产力,为产业升级、民生改善、城市治理注入持续动能。
图:确定性运维支撑算力资源集群可用度及MFU最佳
过去几年,华为云基于确定性运维的实践,持续不断的优化与提升快恢能力,提升AI集群的高可用能力,目前在LLM,AIGC,CV,及自动驾驶领域都有重大突破,并通过高校合作、产业合作和维享会等形式,实现能力的不断外溢,支撑AI产业和生态能力能力拓展。
图:确定性运维AI赋能千行万业
未来,随着人工智能(AI)算力需求的急剧增长,大集群的可用性和线性度满足度一定是关键能力。华为云确定性运维积极拥抱AI智算集群的规模商用,通过AIOps平台,IT组织可以实现运维自动化并提升运维实践,并对其业务服务的性能进行持续的洞察。持续进行技术创新和生态构建,为AI智算集群提供全方位的支持,从硬件设施的布局,到软件算法的优化,再到运维管理的智能化,提升集群的可用度与线性度,为用户提供最稳定、最高效的AI计算服务,华为云期待与更多客户、伙伴一起,共筑城市智能体,共赢AI新CITY,加快推进数字中国建设。
- 点赞
- 收藏
- 关注作者
评论(0)