华为大咖说丨DeepSeek-R1训练过程的通俗讲解--一个天才学生的成长之路
网上有许多DeepSeek训练技术的相关文章,但大部分都涉及到大量技术术语,非专业人士不容易理解。为了让大家能够快速理解DeepSeek,笔者把网络知识结合自己的思考,用一种通俗的方式来给大家讲解DeepSeek的训练技术。
DeepSeek-R1中提到的模型训练流程如下:
看不懂?没关系,接下来我们用通俗的例子来讲明白里面原理。
01 R1-Zero (R1模型的前世)
DeepSeek团队不走平常路,目标要培养一个天才学生(R1-Zero),与普通学生“刷题”(灌大量语料)不同,他们认为只会刷题的学生只能死记硬背,无法推理解决复杂的问题。而天才是会自己独立思考的,光靠填鸭式的刷题无法培养天才,于是他们尝试一开始就不给他做各种基础练习题(不准备SFT(Supervised Finetuning, 监督微调)训练语料),而是直接让他去考试或者去挑战一些难题,自己对考试的错题进行分析、回溯、反思,不断摸索、不断进步!回顾学生时代,哪个学霸是认真听课的呢,都是自己在做难题!
结果你猜怎么着? 这种看似“野蛮”的训练方式,竟然也培养出了推理能力超强的天才学生!DeepSeek-R1-Zero 在各种推理能力测试中表现惊艳,甚至还展现出一些意想不到的“超能力”:
◆ “自我验算”技能 (Self-Verification): 模型自己做完题后,还会“回头检查”,看看答案对不对,如果发现错了,还会自己改正! 这简直就像考试时,学霸做完题还会认真验算一样,太自觉了!
◆“反思总结”技能 (Reflection): 模型还能“反思”自己的思考过程,分析哪里做得好,哪里做得不好,简直就是“学而时习之”的AI版!
◆“超长解题思路” (Long CoT): 模型能够生成非常详细的解题步骤,一步一步地展示它是怎么思考的。这就像学霸考试时,不仅写出答案,还把详细的解题过程都写出来(但是写得有点乱,一般人看不懂)!
总结一下,DeepSeek-R1-Zero 的这些推理能力,都是纯粹通过强化学习“自己长出来”的,没有借助任何“刷题”数据的帮助。 这就像在证明,即使不“刷题”,只要方法对了,“野路子”也能练成天才学生!
注明:图片由AI生成
02 R1 (终成王者)
R1-Zero机器完全自主学习出来的推理步骤可读性差、还混杂了不同的语言表达方式,因此R1-Zero不是一个用户友好的模型,需要对它进行规范化和调教才能使用!
从天才学生的视角来看,R1-Zero解题能力很强,但是它的演算过程乱七八糟,别人看不懂,需要DeepSeek团队通过各种针对性锻炼(强化学习训练)提升他的综合能力。毕竟人类在答题的时候,总得写个“答:”吧,那R1-Zero的解题也要有推导过程。
下面我们用一个通俗的例子——天才学生的成才之路来说明四个阶段训练过程,并对一些关键知识点进行解释。
我们把最上面的图圈出4个部分,分别用数字1、2、3、4标识代表不同训练阶段,如下所示:
第一阶段(Code Start):几千高质量合成的long CoT(长链思维)数据做冷启动
【通俗解释】教会天才学生学会用标准的格式来书写解题过程,让别人可以看懂。
【知识点-数据冷启动】冷启动数据的作用:
- 让AI 训练更稳定:避免AI 训练初期陷入“胡乱生成答案”的混乱状态。
- 提升推理质量:让AI 在强化学习前就具备一定的推理能力,而不是完全从零开始。
- 改善语言表达:减少AI 生成的语言混杂和重复内容,让推理过程更清晰、可读性更高。
第二阶段 (Reasoning-oriented RL): 通过GRPO RL(强化学习)增强基础推理能力
【通俗解释】提升天才学生在数学、代码、逻辑推理的硬实力,就像请了“金牌教练”来辅导。
*为了规避语言混杂的问题,在ORM(Object-Relationl Mapping,对象关系映射,ORM是一种技术,用于解决面向对象编程与关系数据库之间的互不匹配问题)中添加了语言一致性奖励,CoT过程中符合要求的语言比例越高则奖励越高。
【知识点-GRPO】GRPO强化学习的特点:
GRPO 要求每个问题生成多个答案,形成一组,组内答案相互比较,计算每个答案的"好坏程度"(优势值):优势值 = (当前答案的得分 - 组内平均分) / 组内标准差 。
举例:假设一道数学题,生成4个答案,得分分别是: 90, 80, 70, 60分;平均分 = 75。90分答案的优势值 = (90-75)/标准差。高于平均分的答案获得正优势值,反之为负。
第三阶段(Rejection Sampling and Supervised Fine-Tuning): 基于高质量文科生数据(200K)+推理数据(600K),将第一阶段的模型加上一些抽样,结合其他领域的SFT数据,增强模型在写作、角色扮演和其他通用任务中的能力
【通俗解释】指导天才学生刷各种科目的题,可以去参加语数外全科竞赛,全面发展。
【知识点-Rejection sampling】拒绝采样
- “拒绝采样”严格意义是“接纳-拒绝采样”,用通俗的例子来解释:天才学生可能会尝试用自己熟悉的某种方法去解题,这就是一次随机采样。比如,他首先想到用全等三角形的方法来证明,但在解题过程中发现,根据题目所给的条件,无法通过全等三角形的定理来完成证明,也就是这次尝试不符合解题的标准,于是他就会放弃这种方法,这就是 “拒绝” 操作。
- 拒绝采样微调通常是说在一个微调过的模型基础上面进行K个样本采样。
- 然后我们有一个拒绝或者接受函数来对模型采样生成的样本进行过滤筛选出符合我们目标分布的样本,再进行模型微调。
第四阶段 (Reinforcement Learning for all Scenarios): 在更大的尺度上对齐,增强其通用能力,比如对齐reasoning是规则,对齐Human是preference
【通俗解释】让天才学生接触更多人和事,参加各种社会实践,成为可以解答一切问题的超级通才。
【知识点-Reinforcement Learning】强化学习
✨强化学习(Reinforcement Learning)是一种机器学习技术,通过让智能体在环境中进行试错学习,以最大化累积奖励。假设把学生看作是一个智能体,学习环境就是学校和家庭等学习场所,而学习的各种知识和技能就是环境中的不同状态。学生的行为包括上课听讲、完成作业、参加课外辅导、进行自我复习等,而考试成绩和老师、家长的反馈等可以视为奖励信号。
✨对于推理任务就用基于规则的奖励来指导,对于一般任务就用RLHF(人类反馈强化学习)这种方式来进行。
简单总结:冷启动数据类似教练提供的经典例题模板,而多阶段RL则像逐步增加题目难度和多样性。
最终,经过了四个阶段的训练,R1-Zero训练成为R1,天才学生终成天才少年,成为能够给社会做贡献的人。笔者对于DeepSeek-R1训练过程的通俗讲解到此为止,大家有什么其他想法也欢迎在评论区讨论。
- 点赞
- 收藏
- 关注作者
评论(0)