我们在华为云搞AI平台,近距离感受AI浪潮
新机遇vs新挑战
随着AI技术如生成式大模型的迭代出新,尤其是以 ChartGPT、Stable-Diffusion,Sora这种可以AI问答,文生图,文生视频为代表的AI大模型的快速迭代,让所有人都看到了人工智正在快速改变世界的游戏规则。从英伟达屡创新高的市值中就可以看到这一波AI浪潮来势汹汹…
AI的火热除了本身算法的进步外,也离不开AI平台的支撑,各类AI训练、AI推理平台层出不穷:
由于AI大模型的参数量越来越大,什么7B,13B,130B一个比一个大。现在已经达到几个月才能训练出一个AI大模型了。所以通过扩展分布式训练规模来加速训练,是当前主要的手段。然而,将AI训练扩展到数万个NPU带来了前所未有的挑战。况且,在云上这些万卡级的AI集群还要支持不同用户的训练作业混部。如何高效+稳定的支持AI业务,就是我们AI平台的职责。
我们在做什么
正如前面图中提到的,一个AI平台需要包含的内容非常的多:数据管理,模型管理,训练管理,推理管理,开发管理,workflow工作流等等。仅仅底下那个Cloud-Native AI Infrastructure 就够大家忙活一阵子了。
华为云的AI平台(ModelArts云服务)也涵盖了这些维度的特性,并且将它打造成一个公有云服务,允许用户随时随地在云上使用。用华为云老大的话就是:打造AI算力沃土(from华为云CEO张平安)。
这里唐老师画了一张当前我们在华为云搞的AI平台中所做的一些事情,你一定可以在其中找到你所擅长的地方:
正如最近一篇万卡训练论文所说的,AI平台面临的巨大的挑战:第一个挑战是在大规模集群上实现训练的“高效性”。第二个挑战是在大规模集群上实现训练的“高稳定性”。对于AI大模型训练来说,故障和中断是常态而不是例外,故障的代价非常昂贵(训练中断,到再次启动并恢复到中断前的状态,耗时+成本很高)。考虑到AI集群规模之大,减少故障恢复时间至关重要。所以可靠性向来是各大AI平台的重点投入方向。
此外,对企业来说,AI训练是纯投入(亏钱的),AI推理才是产出(有机会赚钱)。所以未来可以预见:一定是推理的规模大于训练的,因此作为AI平台,除了支撑好训练之外,还得支撑好AI推理的各个场景:离线推理,在线推理,启动提速,弹性扩缩,性能加速等等。
可以学到什么
AI平台主要是服务于AI模型的,虽然不直接开发AI大模型(这个现在由盘古大模型团队负责),但是对于AI大模型的各类术语及原理,还是可以近距离接触并学习的,因为AI平台,最佳实践向来都是推荐「算法+系统 共同设计」。
在这里,可以学习到基本的如什么是CUDA,什么是RDMA,AI训练是在干嘛,为什么要分布式训练,AI推理如何部署,以及为什么也需要分布式推理。
可以了解大语言模型(LLM)推理中,预填充(Prefill)和解码(Decode)是什么意思。
了解什么是MOE(Mixture of Experts)混合专家模型,知道LoRA是一种AI大模型的微调技术,而不是人名。
学习大规模AI分布式训练的并行策略,如什么是数据并行(DP)、流水线并行(PP)、和张量并行(TP)等。以及这些并行策略对集群通信的要求。
可以了解RDMA网络如何影响训练效率,如ECMP(Equal-Cost MultiPath routing)哈希冲突对训练性能的影响。
可以了解各种开源大模型如LLAMA,LLAMA2,GLMV,Stable-Diffusion等的最新动态。
还能学习超大规模的分布式训练中,如何做到高效且稳定的。整个机房服务器是如何连接在一起,集群是如何组织来运行大规模的AI训练&推理的。
虽然很多时候,工作不一定跟AI直接相关,比如集群的管理,和任务调度,作业管理,负载的扩缩容,云服务的对接这些。但是至少这些都是离AI最近的工作,因为所做的都是为「AI稳定+高效运行」服务的。
也许你负责的只是整个平台中很小的一部分,但正如C919大飞机一样,每颗小螺丝都其必不可少的一部分。在这里,你可以近距离了解AI这架“大飞机”的最新进展,近距离感受AI的魅力。
最后,这里可以“真刀真枪”的参与一场“战争”,近距离了解在N卡被A国制裁之下,国产昇腾NPU卡,是如何构筑AI算力集群,实现自主突围的。
在 AI 大模型飞速发展的今天,所有的模型交付都在争分夺秒,走,上车~
由什么样的人组成
可以看到,整个AI平台的构建,涉及到IT的多个方向,硬件,操作系统,虚拟化,集群管理,任务调度,云服务化,运维监控,资源运营,web界面等等。因此,AI平台不仅需要算法人才,需要MLSys人才,也需要系统类人才:
- 我们有的小组,负责AI算法、AI框架,提供最佳的AI沃土。
- 我们有的大拿,精通Kubernetes,了解Docker,有丰富的云原生相关开发经验。
- 我们有的小伙伴,熟于云服务相关开发,打造出优秀的云服务操作体验。
- 我们有的高手,对Linux系统各种脚本非常熟练,可以快速参与系统问题定位。
- 我们有的同事,熟悉GO语言编程,参数代码特性开发,打造精致“小螺丝”。
虽然有时候我们不同方向的工作迥然不同,但是我们在这里可以互相学习,一群肯学爱学的人,可以快速的从周边小组了解到,大家正在如何给这片AI沃土提供更好的肥力。
所以AI这波浪潮,不一定非得懂AI算法的人才可以参与,各种方向的IT程序员,一样在此参与并发挥作用。
想“进一步”了解华为云AI平台的更多信息,可以联系唐老师同事:yuyujie1@huawei.com
- 点赞
- 收藏
- 关注作者
评论(0)