昇腾AI互动式学习路径第五阶段 结构图汇总(三)
昇腾AI互动式学习路径
https://edu.huaweicloud.com/programs/ascend_zone.html
第五阶段:DeepSeek快速入门学习
本学习路径对DeepSeek中MoE、MLA、MTP、FP8等核心内容进行讲解,并基于DeepSeek模型完成图谱挖掘、Agent构建等任务。通过本学习路径,学员将对DeepSeek以及R1相关理论有深刻认识,并学会如何基于DeepSeek进行应用开发。
此文是最后一篇。
语言大模型预训练损失函数就是CE loss
推理阶段,模型将通过自回归的方式,根据前面的内容不断生成新的内容
大模型CoT事实上是一种改进的prompt技术
Zero-Shot-CoT vs Few-Shot-CoT
Zero-Shot-CoT
与手动prompt来诱发CoT不同,DeepSeek R1在它在训练阶段就内置了CoT的输出格式,其模板如下
PPO算法四个模型
GRPO算法计算流程
推理模型DeepSeek-R1-Zero 和 DeepSeek-R1
DeepSeek-R1-Zero中间阶段版本,模型推理出现“Aha”时刻
DeepSeek-R1训练全流程
通过使用DeepSeek-R1生成的80万条样本,对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力
用R1同款方式RL训练Qwen-32B-base模型,得到DeepSeek-R1-Zero-Qwen-32B;用蒸馏R1的方式得到了DeepSeek-R1-Dsitill-Qwen-32B
DeepSeek V3-0324评测
- 点赞
- 收藏
- 关注作者
评论(0)