华为云确定性运维实践 拥抱AI智算集群规模商用
近日,全国智能计算标准化工作组算力互联互通研究组启动会在北京召开,华为云应用服务SRE总监郑磊现场分享华为云在提供大规模算力集群方面的思考和实践。
图:华为云应用服务SRE总监郑磊现场分享
每一次技术革命都会对社会经济产生影响,AI智算的影响可能会更大。每次工业革命都标志着思维的飞跃,革新了企业的竞争力并深刻影响了社会经济结构。从机械到电气,从信息技术到当今的人工智能,技术不断解放人类的体力与脑力,证明了科技作为首要生产力的关键作用。从解放双手到探索新领域,再至增强计算与记忆能力,科技进步一直是推动社会变迁的重要力量。
AGI(通用人工智能)驱动智算产业革命,学术界AGI思潮与OpenAI工程创新。AGI思想正在进行Scaling实验,通过不断提升算力集群的规模,实现更加先进的人工智能产品。AGI产品路标也正在逐步完善,为未来的AI发展奠定基础。目前,算力集群已经开始商用,为推动人工智能技术的发展提供了强有力的支持。
自2007年以来,人工智能技术快速发展,不断迭代更新。随着参数模型规模越来越大,计算能力也逐步提升,从单机单卡到多机多卡并行计算。同时,模型应用也越来越行业化,从基础模型L0到行业模型L1再到细分场景模型L2,不断推进人工智能技术的应用和发展。经过快速演进,人工智能智商将越来越高,这将为各行各业带来更多的机遇和挑战。
AI智算集群大规模商用的可用性挑战
图:集群规模单次故障成本预测
集群规模越大,单次故障对业务影响越大。集群规模和参数规模之间存在一定的关系,随着集群规模增大,支持的参数规模也就越大,单次故障成本也越来越高。在进行AI训练任务时,由于Step之间需要进行强同步,因此需要保证集群资源的利用率达到90%以上。同时,由于每一步都需要进行集群数据同步,任何硬件故障都会导致同步失败,进而造成训练任务失败。因此,集群规模越大,故障率也就越高,单次业务受损时间也就越长。
图:集群可用度
图:MFU影响因子
业界AI竞争力聚焦在集群MFU,而集群的MFU在运维态强依赖集群的可用度和线性度,通过运维措施/平台实现集群的可用度和线性度提升。
从运维态分析,集群可用度&集群线性度成为影响MFU的关键因素。其中集群利用率的高低直接影响着MFU的水平,进而影响客户训练与推理作业的成功运行。因此,对于集群使用者和稳定性看护者而言,需要系统性的制定优化措施和提升运维服务能力,提高集群的可用度及MFU水平,从而保障集群的稳定运行。
确定性运维支撑线性度和算力集群高可用优化,进而支撑AI集群规模商用
为了确保训练和推理作业的高可用性,确定性运维使用先进算力资源集群和最佳MFU策略来优化资源分配。在确定性运维支撑AI集群规模商用方面,如业务需求、算力资源、成本等各种因素,并进行全面的评估和测试。通过这些动作,保证AI集群在商用环境下拥有高可用性和稳定性,为客户提供更加优质的服务。
图:确定性运维能力矩阵
华为云基于确定性运维模型,基于华为云专家系统、九州平台,流水线,从四个维度构建快恢能力。
● 全栈监控:服务异常1min感知,通过全栈监控,可以实时了解服务的状态,快速定位问题并推荐解决方案,提高服务的可靠性和稳定性。同时,全栈监控还能够分层自愈,即在服务异常发生时,自动进行分层处理,保证服务的高可用性。全栈可视化功能则能够让我们更加直观地了解服务的运行状态,以便更好地进行管理和优化。
● 在线诊断:10min定位,在遇到异常情况时,依赖于对海量日志的实时分析,通过深度理解和解析这些日志数据,系统能够快速定位问题所在,甚至在问题表面化之前,就预测并预防潜在的故障。性能诊断是另一个关键环节,其中 Profiling分析和性能分析的在线化,使得系统能够持续监控和优化其性能表现。此外,"早期失效激发"机制则进一步增强了系统的可靠性,有效延长硬件寿命,减少因硬件故障带来的服务中断风险。
● 快速恢复:MTTR<30min,确定性恢复时间(MTTR),这种快速恢复能力,保证了系统的稳定性和业务连续性;在软件层面,遇到异常时,能够重新安排任务执行顺序,以及实现作业的“自愈”机制;进一步深入应用层,在面对局部故障时,系统应具备智能识别和恢复能力,能够自动识别作业层的断点,即任务执行的暂停点,通过记录和保存任务状态,确保在故障恢复后,能够从上次中断的地方继续执行,而无需重新开始,从而保证历史作业的完整性和可信恢复。
● 一键诊断:昇腾大脑一键故障在线诊断,快速诊断与精准溯源。结合全栈模式库和关键能力建设提升系统可靠性和稳定性,通过基于故障知识图谱的构建,建立一个AI集群故障传播链。采用正向设计和逆向分析的方法,完善模式库,构建故障场景传播链,并优化根因推导算法。量化实体间关系强度,衍生出根因溯源与剪枝的方法。这些方法和技术的应用,能够帮助我们更快速、准确地诊断和解决故障问题。
图:全栈故障模式库和关键能力
● 慢节点预防与治理:除了构建慢节点特征库和实时感知,根据节点负载情况和任务需求动态调整任务分配,避免慢节点出现。同时,可以加强节点监控和故障诊断能力,及时发现和解决慢节点问题。
● 慢网络解决预防与治理:进行作业级拓扑可视化和慢网络感知优化,进一步优化网络拓扑和路由算法,减少网络延迟和丢包率。同时,引入多路径传输技术,提高网络带宽利用率和可靠性。
● 隐形丢包感知与治理:通过九州平台、昇腾大脑及RP代答等技术,构建分钟级隐性丢包检测与预测能力。
过去几年,华为云通过确定性运维的实践,持续不断的优化与提升快恢能力,提升AI集群的高可用能力,目前在LLM,AIGC,CV,及自动驾驶领域都有重大突破,并通过高校合作、产业合作和维享会等形式,实现能力的不断外溢,支撑AI产业和生态能力能力拓展。
图:确定性运维AI赋能千行万业
未来,随着人工智能(AI)算力需求的急剧增长,大集群的可用性和线性度满足度一定是关键能力。华为云确定性运维积极拥抱AI智算集群的规模商用,通过过持续的技术创新和生态构建,为AI智算集群提供全方位的支持,从硬件设施的布局,到软件算法的优化,再到运维管理的智能化,提升集群的可用度与线性度,为用户提供最稳定、最高效的AI计算服务。未来,华为云与业界同仁共同探索,共同成长,共同见证AI技术驱动的产业变革,共同推动产业生态的共赢发展。
- 点赞
- 收藏
- 关注作者
评论(0)