昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧
1 引言
在大模型推理场景下,随着模型batch size的增大,Prefill阶段的性能会线性降低,Decode阶段会额外占用更多的内存。两阶段对资源的需求不同,部署在一起导致资源分配不均,成本居高不下。通过LLM-DataDist构建的大模型推理分离式框架有效地解决了该问题。在该分离式框架中,将Prefill和Decode分别部署在不同规格和架构的集群中,不仅提升了性能和资源利用效率,还显著提高了大模型推理系统的吞吐量。
LLM-DataDist作为大模型分布式集群和数据管理组件,提供了高性能、零拷贝的点对点数据传输的能力,该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路(RoCE/HCCS),可实现跨实例和集群的高效KV Cache传输,支持与主流LLM推理框架vLLM等的集成,并可用于构筑分布式数据管理系统。
为了让开发者更好地了解LLM-DataDist,昇腾社区文档中心全新上线《LLM DataDist开发指南 (Python)》和《LLM DataDist开发指南 (C++)》,可点击链接查看。
下面以《LLM DataDist开发 (Python)》为例,带您体验手册全貌。
2 通过学习向导,快速了解手册内容
如果您对LLM-DataDist不太了解,请通过学习向导快速get手册全貌,按需访问对应章节。
3 介绍概念和应用场景,提供背景知识
LLM-DataDist的相关概念和应用场景,是学习如何使用LLM-DataDist的必备知识。
4 详尽开发流程、完整代码样例,全面体验LLM-DataDist功能
LLM-DataDist开发的基本流程为“LLM-DataDist初始化 > 建链操作 > 申请KV Cache > 推理脚本进行分离部署 > 拉取缓存的KV Cache > 执行推理脚本 > 释放资源”,LLM-DataDist提供了接口供上层框架调用,实现上述流程。
Python接口样例主要介绍如何将一个Pytorch的大模型脚本迁移为可以全量和增量分离部署的脚本。
5 提供基本功能介绍和功能示例,助力开发者玩转LLM-DataDist接口
LLM-DataDist功能主要包括:链路管理和KV Cache管理。这些功能通过简易的API开放给用户,可以实现高性能、零拷贝的点对点数据传输的能力。
6 更多功能
更多功能,比如公共前缀,KV Cache换入换出,请参考专题章节和接口参考章节。
- 点赞
- 收藏
- 关注作者
评论(0)