文档上新:集合通信用户指南全新发布,欢迎登陆昇腾社区体验~
随着神经网络规模的快速增长,分布式并行训练作为提升训练性能的重要优化手段,应用场景越来越多。分布式并行训练中,计算节点间的数据同步往往是耗时瓶颈,集合通信技术可有效解决此问题,可让所有计算节点并行、高效、有序地执行信息交换,大幅提升数据同步效率,减少时间开销。
HCCL(Huawei Collective Communication Library)是基于昇腾AI处理器的高性能集合通信库,向上提供API供框架调用,向下屏蔽底层复杂细节,完成单机多卡、多机多卡间的高效数据传输。
为了让开发者更好的了解HCCL,昇腾社区文档中心全新上线《集合通信用户指南》,先来一睹为快吧!
介绍相关概念与软件架构,夯实基础背景知识
HCCL在系统中的位置、基本概念及软件架构,是学习如何使用HCCL的必备先验知识。
提供全量通信原语介绍,帮助了解HCCL基本操作
集合通信是一个进程组的所有进程都参与的全局通信操作,其最为基础的操作有发送、接收、复制、节点间进程同步等,这些基本的操作经过组合构成了一组通信模板,也称为通信原语,通过相应的集合通信算子实现。
提供详尽的开发流程、完整代码样例,轻松实现集合通信功能
集合通信功能开发的基本流程为“通信域初始化—》集合通信操作—》通信域销毁”,HCCL提供了C++与Python两种语言的接口供上层框架调用,实现上述流程。文中以单算子模式的C++接口为例,描述通信功能开发流程并给出各场景下的代码样例,让开发者轻松上手通信功能的开发。
丰富的常见案例,让问题解决更高效
对于集合通信功能开发和使用过程中的常见问题,给出可能原因及解决方法,让开发者可根据报错信息快速找出解决方法。
通信算法与通信算子定制开发指导,助力开发者玩转HCCL源码
HCCL源码仓Ascend/cann-hccl中已开放了部分通信算法的实现源码,支持对通信算法有定制需求的开发者灵活修改,满足个性化需求。同时,cann-hccl仓中提供了《源码定制开发指南》,介绍了HCCL软件执行流程,存储/流/Transport链路等基础知识,通信算法与通信算子开发的流程,辅助开发者更好地解读源码。
相关链接:
- 点赞
- 收藏
- 关注作者
评论(0)