3月24日直播|HCCL集合通信专用引擎CCU技术介绍
【摘要】 在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。关键组成部分CCUM和CCUA单元CCUM:控制单元,解析任务描述符并执行通信任务。CCUA:数据处理单元,处理数据传输和规约。基本构成单元Memory Slice (MS):4KB...
在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。
关键组成部分
-
CCUM和CCUA单元 -
CCUM:控制单元,解析任务描述符并执行通信任务。 -
CCUA:数据处理单元,处理数据传输和规约。 -
基本构成单元 -
Memory Slice (MS):4KB片上缓存。 -
Gather Scatter Address (GSA):存储内存地址的寄存器。 -
General Purpose Register (Xn):存储数据长度和循环控制信息。 -
Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。
功能特性亮点
CCU支持完整的指令集,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持高效写入数据,减少减少读写次数。
性能优势体现
-
节省访存带宽:降低通信算子的访存需求,提升性能。 -
确定性归约:确保归约运算精度和顺序确定性。 -
低时延通信:不占用计算资源,提供独立硬件支持。 -
零拷贝:直接访问业务内存,降低通信时延。
在AI大模型训练、多机多卡推理等核心业务场景中,CCU能够显著提升集合通信性能,更好地支持AI核心业务场景。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)