高纯度云原生 AI!Volcano在KubeCon China 2024的技术分享
8 月 21 日至 23 日,由云原生计算基金会(CNCF)和 Linux 基金会联合主办的KubeCon + CloudNativeCon + Open Source Summit + Al_dev China 2024 大会将在中国香港隆重举行。作为三大重量级会议组成的综合盛会,本届大会汇集全球顶尖开发者、行业领袖和技术专家,共同探讨云原生、开源及 AI 等领域的最新进展、核心技术及最佳实践。
Linux 基金会执行董事 Jim Zemlin、Linux 与 Git 的创始人 Linus Torvalds、CNCF 首席技术官 Chris Aniszczyk、CNCF 执行董事 Priyanka Sharma、LF AI & Data 基金会执行董事 Ibrahim Haddad、Linux 基金会研究员 Greg Kroah-Hartman 等 200 多位国际演讲嘉宾将亲临现场,分享各自领域的深刻见解和宝贵经验。
Volcano云原生批量计算社区将在本届大会上带来多个技术演讲、圆桌分享等精彩议程。Volcano 是业界首个云原生批量计算引擎,项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到广泛应用,完成对 Spark、Flink、Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene、Ray 等众多主流计算框架的支持,并构建起完善的上下游生态。社区生产环境落地用户超过50+,吸引了900+全球TOP级企业贡献者。
聚焦云原生与AI的参会者们,和这么高纯度“云原生AI”属性的Volcano来一场淋漓尽致的现场探讨准没错!Volcano社区技术专家在本届大会上的精彩分享如下:
▍利用拓扑建模和拓扑感知调度加速LLM训练
演讲嘉宾:
William Wang, Huawei
时间:
地点:
Level 1 | Hung Hom Room 7
在LLM训练和推断时代,瓶颈已经从计算转变为网络。许多高吞吐量和低延迟的互连技术被广泛使用,例如nvlink、nvswitch用于构建超级计算机,如nvidia超级Pod、谷歌多片、AWS放置组。 然而,Kubernetes尚未有效地解决拓扑意识问题,导致在资源配置不佳时性能较低。 本次演讲将探讨节点间通信和节点内部资源的互连。还将分析这两个拓扑因素如何影响AI工作负载的运行性能,特别是对于大型语言模型训练。
演讲内容包括:
-
如何对底层资源(如NUMA、机架、超级计算机)建模拓扑
-
如何使调度程序意识到拓扑并进行最佳调度
-
如何协调拓扑感知调度与节点上的DRA
▍如何让 Volcano 激活下一波智能应用
演讲嘉宾:
Xuzheng Chang, Huawei
时间:
地点:
Level 1 | Hung Hom Room 6
根据Gartner的预测,到2026年将有30%的新应用程序将使用人工智能技术。然而,人工智能应用的普及也面临挑战。 本次讲座将介绍这些挑战、解决方案,并展示如何利用Volcano实现智能应用。 Volcano是一个云原生批处理平台,也是CNCF的第一个容器批处理计算项目。它通过提供以下功能来优化人工智能和大数据:
-
作业的全生命周期管理
-
批处理工作负载的调度策略 - 支持异构硬件
-
高性能工作负载的性能优化
今年,Volcano的贡献者取得了巨大进展,帮助用户解决智能应用的挑战。许多新功能正在开发中,以加速GPU/Ascend NPU训练效率,优化大规模集群的资源利用率,并提供细粒度调度。
▍Kubernetes调度社区碎片化现状及如何应对AI/ML工作负载带来的挑战
演讲嘉宾:
William Wang, Huawei
Kante Yin & QiuPing Dai, DaoCloud
Ren, Bytedance
Wang Jianyu, Alibaba
时间:
地点:
Level 1 | Hung Hom Room 1
调度器是Kubernetes中最经常定制的组件之一,这归功于其可扩展性。然而,过多的调度器会导致用户决策瘫痪,这在过去的KubeCon中已经被广泛讨论过。为了帮助减轻用户的困惑,我们邀请了来自各个社区(Godel-Scheduler、Koordinator、Kubernetes SIG-Scheduling和Volcano)的四位维护者来介绍这些项目背后的背景和用例。 此外,本小组讨论将探讨上游Kubernetes和下游项目之间的差距,并尝试提炼出可以推送到上游的常见模式或功能,以避免重新实现轮子,以及什么应该保持松散定义以保留可扩展性。 此外,随着人工智能的兴起,在Kubernetes中调度AI工作负载面临着重大挑战,本小组讨论将探讨我们目前的状况以及我们未来的发展方向,以及合作的机会。
▍通过Volcano增强的智能基础设施优化LLM工作流程
演讲嘉宾:
Xuzheng Chang, Huawei
Xin Li, qihoo360
时间:
地点:
Level 1 | Hung Hom Room 2
随着大型语言模型(LLMs)革新我们生活的各个方面,许多公司构建他们的云原生人工智能平台来训练和微调LLM。然而,管理大规模LLM训练和推理平台面临更为关键的挑战,如训练效率、容错性、资源碎片化、运营成本和机架和超级节点上的拓扑感知调度。在这场演讲上,演讲者将分享他们在使用基于Kubernetes的智能基础设施(由Volcano增强)管理数千个GPU并处理qihoo360中涉及数千个LLM训练和推理作业的月度工作负载的经验。本次演讲将涵盖:故障检测、快速作业恢复和自愈大幅提高效率。处理异构GPU上LLM训练的长时间停机。智能GPU工作负载调度以减少资源碎片化和成本。机架/超级节点上的拓扑感知调度以加速LLM训练。
扫码添加社区小助手
回复Volcano进交流群
- 点赞
- 收藏
- 关注作者
评论(0)