- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

了解集合通信与模型并行策略

yd_294961020 发表于 2025/06/24 14:28:15 2025/06/24

【摘要】了解集合通信基础概念及常见的集合通信原语；以及大模型并行策略：包括数据并行、流水并行、张量并行和专家并行。

集合通信

集合通信基础

了解通信相关术语：
了解场景硬件架构图：
1.A+K(8P):

通过HCCS实现两两互联（Full Mesh），如NPU与NPU之间，CPU与CPU之间；NPU和CPU之间通过PCIE连接。
Full Mesh是指在一个网络拓扑中，每个节点都直接连接到其他节点，形成一个完全互联的网络结构。在Full Mesh网络中，任何两个节点之间都可以直接通信。

2.A+X(16P):

双mesh组网（8P Full-mesh）

集合通信原语

一对多
Broadcast：将通信域内root节点的数据广播到其他rank

Scatter：将通信域内root节点的数据均分并散布至其他rank
多对一
多对多

模型并行策略

数据并行（Data Parallelism，DP）

数据并行是指将一个批次（batch）的训练数据分成若干个小批次，分发给多个计算节点来进行训练的并行方式。

流水并行（Pipeline Parallelism，PP）

对于分布式训练，当模型规模太大而无法存放在单个计算节点上时，可以使用流水并行。在流水并行中，模型被逐层拆分成几个阶段，每个计算节点仅存储并执行其中的一个阶段（一个阶段可以是一层，也可以是相邻的多层）。这样可以有效减轻每个节点内的存储压力。

张量并行（Tensor Parallelism，TP）

如果单层/单阶段的模型依然太大而无法放在单个节点上怎么办？那就将它的参数进一步切分到多个节点上，每个节点计算部分结果，再通过通过节点间的通信获取到最终结果，这就是张量并行。简言之，流水并行是模型的层间切割，而张量并行是模型的层内切割。这两种模型并行的方式是可以同时存在的。

专家并行（Experts Parallelism，EP）

专家并行是在分布式学习中专门针对MoE场景的并行策略，其主要思想就是将不同专家放在不同计算节点上进行并行计算。专家并行与之前所有的并行相比，最大的不同在于，输入数据需要通过一个动态的路由选择机制分发给相应专家，此处会涉及到一个所有节点上的数据重分配的动作，然后在所有专家处理完成后，又需要将分散在不同节点上的数据按原来的次序整合起来。

参考资料

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

了解集合通信与模型并行策略

集合通信

集合通信基础

集合通信原语

模型并行策略

参考资料

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

了解集合通信与模型并行策略

集合通信

集合通信基础

集合通信原语

模型并行策略

参考资料

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品