AI大规模训练集群稳定性实战,加速智能跃迁
来源:华为云确定性运维专刊(第五期)
AI大模型训练集群稳定性挑战
从行业看,AI大模型稳定性关注度越来越高,训练任务通信流向复杂、对网络时延和带宽敏感,AI大模型训练集群的可靠性面临如下挑战:
1、伴随大模型参数量的增长,集群规模越来越大,网络中元器件故障次数也会增加,整体通信网络更加容易受损,进而导致任务训练故障概率呈指数上升。
2、大模型训练任务流量模型复杂,通信链路长,通信跨域多类型的基础设施与云服务,故障类型包含带宽不足导致训练慢、损失发散、GPU Lost、训练任务运行失败、卡死、变慢等,原因和种类繁多,导致故障定界定位困难。
3、故障发生后训练恢复的过程慢,特别是checkpoint加载非常耗时,一般长达几个小时,行业大规模集群MTBF仅数小时,每次故障时长长达10h以上。
4、故障会导致训练任务不断回滚和重启,集群整体资源利用率低,浪费算力资源,业界AI训练集群平均资源利用率仅30%-40%左右。
综合来看,故障带来AI训练任务运行效率的问题和费用成本急剧上升。因此大模型集群的稳定、可靠将极大帮助企业提升效率、节约成本;
AI集群稳定性挑战一:监控精度不足,训练任务对网络依赖强
在AI集群的可观测性领域,面临采集精度不足、网络质量和性能检测要求高等问题。
1、传统网络设备流量监控以SNMP协议为主,一般只能精确到秒级,而大模型训练以计算、通信两阶段交替进行,流量波形变化以ms为单位来统计;另外传统监控采集计数器存在10~20ms的软件误差,导致监控结果失真和错位,最终结果是无法精确测量AI集群训练任务的真实流量特征。
2、传统运维只能检测光模块彻底故障,由于光模块长期运行,性能逐步衰减,形成亚健康状态,且故障特征多种多样。伴随AI集群规模增加,光模块亚健康对AI集群训练任务影响会逐步放大,因此光模块故障亚健康检测、以及故障的预防在AI训练集群中比传统应用集群更加重要。
AI集群稳定性挑战二:快速定位定界难度大,故障恢复慢
在业务受损场景下,特别是硬件和网络亚健康状态,AI集群故障的定界定位极其困难:
1、故障模式复杂多样:慢节点、慢网络、慢计算、慢通信等疑难故障,均体现在训练业务中断、卡顿、失败,而某些类型故障无明显白盒指标告警,一般难以快速定界;
2、故障链路长:大规模训练任务涉及多对多的GPU通信,且通信链路涉及的服务器、设备、端口、链路、光模块,跨越多种网元,业务故障需关联分析的对象种类多;
3、诊断效率低:传统诊断依赖训练任务的海量日志,分析时间长,同时由于缺失网络流量实时拓扑,需要分析海量监控指标和数据。
AI集群稳定性平台能力构建
为了应对上述挑战,华为云在内部成熟运维平台基础上,针对AI集群构建了一套从异常感知、诊断到故障自愈的完整闭环能力,构建AI集群稳定性平台能力全景图。
1、故障感知阶段,通过故障快速检测和预测,尽可能先于客户发现故障,在华为内部已构筑内存/硬盘/光模块等对象的故障预测算法,能提前发现大部分硬件隐患和亚健康故障;同时感知系统将持续自动采集网络连接拓扑和流量路径变化,为诊断提供全面的数据支撑。
2、故障诊断阶段,通过全链路拓扑还原技术,自动绘制业务实时拓扑,结合流特征实时的差异性变化,能快速识别网络拥塞问题,同时结合关联对象的指标、日志、告警,快速进行故障根因溯源和推荐。
3、故障恢复阶段,决策系统基于图配置库,实时分析计算故障影响面(包含影响的节点范围、客户等),基于设定好的故障预案模型,使用代价最小、效率最高的策略来快速恢复业务。
白盒和黑盒相结合的可观测性能力,监控无盲点
依托于华为云大数据的平台能力,构建毫秒级指标采集、存储、计算、分析的监控平台,支撑AI集群的可观测性能力落地。在传统监控系统基础上,强化以下3个关键能力:
1、高精度指标采集能力:通过Telemetry采集技术,除针对传统的接口速率、报文丢弃的毫秒级监控之外,还实现了PFC收发报文、队列拥塞丢包、端口带宽使用率等关键指标的毫秒级感知能力,能快速感知网络微突发场景。
2、网络丢包实时感知能力:通过网络芯片内置丢包检测能力,主动检测流级丢包异常和原因,通过分布式探针采集和压缩、汇聚,上报到服务端形成事件并进一步传输给监控平台进行告警。
3、黑盒监控能力:不同于传统的pingmesh是基于ICMP、TCP、UDP等标准协议来拨测,针对AI集群的隐形丢包,构建基于HCCL通信协议集合的链路级全覆盖的黑盒拨测系统,慢网络等故障可秒级感知。
AI加持的光模块亚健康预测,提前预防问题发生
针对光模块故障检测和预测领域,通过空间、时间和多维指标来提升故障检测能力。具体来讲基于光模块的历史故障特征(厂商、型号、故障原因等)、日志特征、指标特征(电流电压、温度、光功率等)、时间维度(使用年限)等综合因素,结合光模块拓扑链路本端和对端的相似指标综合分析。
结合这些多维度的数据,利用特征工程、回归分析AI算法来识别已发生故障、和正在发生指标劣化但尚未发生故障的光模块(包括脏污、松动等故障场景),并进行故障画像评分和寿命预测,成检测报告,并按照阈值自动生成告警和提交维修单,这样就可以在业务受影响之前,替换掉将会发生故障的光模块。
基于全链路路径还原技术,5min内直达问题根因
针对AI集群的故障快速定界,通过自研的全链路诊断系统,结合全景图配置数据库,能快速计算训练任务涉及的任意1台源和1台目的主机的流量路径,路径涵盖服务器、GPU卡、端口、链路、单板、交换机等所有网元。
诊断分析模块结合实时拓扑中对象的指标、日志、告警等,通过知识图谱进行故障根因推荐,在数分钟内识别出故障单元,该技术目前广泛使用在华为云内部,确保了故障定界时长<5min。
决策恢复模块具备全自动化故障预案处理能力,支持端口故障隔离、流量调度、任务迁移等手段,快速恢复业务。
以上是我们针对AI大模型训练集群稳定性挑战的一个完整实践,通过白盒监控和黑盒监控相结合进行故障秒级感知和预防,再基于全链路拓扑故障诊断到具体网元,最后通过三板斧进行故障恢复,从而为AI集群的稳定可靠提供一个有效的保障系统,这样AI的业务发展才能加速跃迁。
- 点赞
- 收藏
- 关注作者
评论(0)