3月24日直播|HCCL集合通信专用引擎CCU技术介绍

举报
昇腾CANN 发表于 2026/03/24 14:20:05 2026/03/24
【摘要】 在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。关键组成部分CCUM和CCUA单元CCUM:控制单元,解析任务描述符并执行通信任务。CCUA:数据处理单元,处理数据传输和规约。基本构成单元Memory Slice (MS):4KB...

在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。

关键组成部分

  1. CCUM和CCUA单元
    • CCUM:控制单元,解析任务描述符并执行通信任务。
    • CCUA:数据处理单元,处理数据传输和规约。
  2. 基本构成单元
    • Memory Slice (MS):4KB片上缓存。
    • Gather Scatter Address (GSA):存储内存地址的寄存器。
    • General Purpose Register (Xn):存储数据长度和循环控制信息。
    • Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。

功能特性亮点

CCU支持完整的指令集,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持高效写入数据,减少减少读写次数。

性能优势体现

  1. 节省访存带宽:降低通信算子的访存需求,提升性能。
  2. 确定性归约:确保归约运算精度和顺序确定性。
  3. 低时延通信:不占用计算资源,提供独立硬件支持。
  4. 零拷贝:直接访问业务内存,降低通信时延。

在AI大模型训练、多机多卡推理等核心业务场景中,CCU能够显著提升集合通信性能,更好地支持AI核心业务场景。

0324.png

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。