昇腾AI互动式学习路径第五阶段 结构图汇总(二)

举报
黄生 发表于 2025/06/05 17:52:00 2025/06/05
【摘要】 昇腾AI互动式学习路径https://edu.huaweicloud.com/programs/ascend_zone.html第五阶段:DeepSeek快速入门学习本学习路径对DeepSeek中MoE、MLA、MTP、FP8等核心内容进行讲解,并基于DeepSeek模型完成图谱挖掘、Agent构建等任务。通过本学习路径,学员将对DeepSeek以及R1相关理论有深刻认识,并学会如何基于De...

昇腾AI互动式学习路径
https://edu.huaweicloud.com/programs/ascend_zone.html

第五阶段:DeepSeek快速入门学习
本学习路径对DeepSeek中MoE、MLA、MTP、FP8等核心内容进行讲解,并基于DeepSeek模型完成图谱挖掘、Agent构建等任务。通过本学习路径,学员将对DeepSeek以及R1相关理论有深刻认识,并学会如何基于DeepSeek进行应用开发。

传统MoE的典型痛点

d21.png


DSV3-调整后的gating方式

d22.png
DSV3-专家亲和度添加偏置

d23.png
MTP(多token预测)的首次提出,DS-V3-MTP的灵感来源

d24.png


DSv3-MTP实现示意

d25.png

一对单独的前向和后向区块的重叠策略

d26.png
两个方向上PP=8 mbs=20的双管道调度示例,标mbs数字的都是正方向的PP

d27.png


不同的流水线并行方法之间的流水线气泡和内存使用情况的比较:对比1F1B:Bubble显著降低,峰值内存增加1/PP、参数内存增加1X,整网内存未明显增加。

d28.png

ALL2ALL通信方案示意,附朴素方案的猜测对比

d29.png
DS-V3MoE跨节点ALL2ALL通信方案的完整过程

d30.png


华为NPU的ZeroCopy通信优化

d31.png

FP8混合精度训练框架,为了说明问题,这里只对线性运算符进行展示

d32.png
细粒度量化方法,以Fprop进行说明,其中Nc=128

d33.png

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。