文档上新:集合通信用户指南全新发布,欢迎登陆昇腾社区体验~

举报
昇腾CANN 发表于 2024/10/26 09:59:13 2024/10/26
【摘要】 HCCL(Huawei Collective Communication Library)是基于昇腾AI处理器的高性能集合通信库,向上提供API供框架调用,向下屏蔽底层复杂细节,完成单机多卡、多机多卡间的高效数据传输。

随着神经网络规模的快速增长,分布式并行训练作为提升训练性能的重要优化手段,应用场景越来越多。分布式并行训练中,计算节点间的数据同步往往是耗时瓶颈,集合通信技术可有效解决此问题,可让所有计算节点并行、高效、有序地执行信息交换,大幅提升数据同步效率,减少时间开销。 

HCCL(Huawei Collective Communication Library)是基于昇腾AI处理器的高性能集合通信库,向上提供API供框架调用,向下屏蔽底层复杂细节,完成单机多卡、多机多卡间的高效数据传输。

为了让开发者更好的了解HCCL,昇腾社区文档中心全新上线《集合通信用户指南》,先来一睹为快吧!

介绍相关概念与软件架构,夯实基础背景知识

HCCL在系统中的位置、基本概念及软件架构,是学习如何使用HCCL的必备先验知识。

 1.png

提供全量通信原语介绍,帮助了解HCCL基本操作

集合通信是一个进程组的所有进程都参与的全局通信操作,其最为基础的操作有发送、接收、复制、节点间进程同步等,这些基本的操作经过组合构成了一组通信模板,也称为通信原语,通过相应的集合通信算子实现。

 2.png

提供详尽的开发流程、完整代码样例,轻松实现集合通信功能

集合通信功能开发的基本流程为“通信域初始化—》集合通信操作—》通信域销毁”,HCCL提供了C++与Python两种语言的接口供上层框架调用,实现上述流程。文中以单算子模式的C++接口为例,描述通信功能开发流程并给出各场景下的代码样例,让开发者轻松上手通信功能的开发。

3.png

丰富的常见案例,让问题解决更高效

对于集合通信功能开发和使用过程中的常见问题,给出可能原因及解决方法,让开发者可根据报错信息快速找出解决方法。

4.png

通信算法与通信算子定制开发指导,助力开发者玩转HCCL源码

HCCL源码仓Ascend/cann-hccl中已开放了部分通信算法的实现源码,支持对通信算法有定制需求的开发者灵活修改,满足个性化需求。同时,cann-hccl仓中提供了《源码定制开发指南》,介绍了HCCL软件执行流程,存储/流/Transport链路等基础知识,通信算法与通信算子开发的流程,辅助开发者更好地解读源码。

5.png

相关链接:

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。