大模型原理--大模型的成长之路(GPT系列)
1.1 概述
读史知兴替。回顾 GPT 系列的发展演化,对生成式大模型的祛魅,以及对深入理解大语言模型的技术路径与能力形成的机制具有重要意义。
1.2 GPT-1
(1) 架构
GPT-1 采用了 Transformer Decoder-only 结构,并在此基础上进行了适配性调整。具体结构如下图所示,整个模型可分为输入层、Transformer Block层与输出层三个部分:

架构的创新:
1.Decoder-only 结构
从 Encoder-Decoder 架构简化为Decoder-only 结构,既可以通过预测下一次词学习语义规律,又可以适配自回归生成任务.
2.可学习位置嵌入
使用可学习位置嵌入,取代正余弦位置编码,使模型能够在训练过程中自适应地学习词序关系。但是因为可学习的位置嵌入是需要首先确定最长的上下文的长度,会锁死模型在训练和预测的上下文长度。
3.权重共享机制
输入嵌入层与输出词表权重共享,减少参数量并提升训练稳定性。
(2)主要参数
|
参数项 |
数值 |
|
模型层数(Layers) |
12 |
|
隐藏维度(Hidden Size) |
768 |
|
注意力头数(Attention Heads) |
12 |
|
前馈层维度(FFN Size) |
3072 |
|
参数总量 |
1.17 亿 |
(3)训练
GPT-1 的训练采用了“预训练(Pre-training)+ 微调(Fine-tuning)”的两阶段范式。
1.预训练阶段
在预训练阶段(Pre-training),使用高质量英文语料作为训练数据,以“给定前文预测下一个词(Next-Token Prediction)”为目标,让模型具备了理解与生成自然语言的基础能力。
2.微调阶段
在微调阶段(Fine-tuning),通过在模型顶部加入轻量的任务分类层(Task Classifier),并在少量标注数据上进行有监督训练,模型能够快速适应不同任务场景。
结果表明,微调后的 GPT-1 在多个 NLP 任务上显著优于从零训练的传统模型,验证了“预训练+微调”范式的有效性与通用性。
(4)总结
GPT-1 首次验证了Decoder-only架构与预训练+微调模式的有效性,为后续 GPT 系列和整个大语言模型时代奠定了方法论基础。
1.3 GPT-2
(1)架构
GPT-2 延续了 GPT-1 的 Transformer Decoder-only 架构。
架构的创新:
1.规模扩展
参数量相比 GPT-1 提升约十倍,最大模型达到 15.42 亿参数。
2.LayerNorm
采用Pre-LayerNorm,缓解大模型训练中梯度不稳定问题。

(2)主要参数
|
参数项 |
数值 |
|
模型层数(Layers) |
48 |
|
隐藏维度(Hidden Size) |
1600 |
|
注意力头数(Attention Heads) |
25 |
|
前馈层维度(FFN Size) |
6400 |
|
参数总量 |
15.42亿 |
(3)训练
GPT-2 的训练仍采用 自回归语言建模(Autoregressive Language Modeling)目标,即在给定前文的条件下预测下一个词(Next Token Prediction)。
(4)总结
1.GPT-2 揭示了规模效应(Scaling Effect):随着模型参数与数据规模的增长,模型性能在多种任务上持续提升。
2.生成的文本质量达到当时最优水平。
3.任务泛化方面,GPT-2 首次展现出零样本学习能力。模型无需针对特定任务进行微调,仅通过自然语言提示(Prompt)即可完成翻译、问答、摘要等多种任务,体现出初步的通用语言理解与迁移能力。
1.4 GPT-3
(1)架构
GPT-3 延续了 Transformer Decoder-only 架构。
架构创新:
与 GPT-2 相比,GPT-3 的主要区别在于在各个 Transformer Block 中交替使用稠密注意力(Dense Attention)和局部带状稀疏注意力(Locally Banded Sparse Attention)模式。局部带状稀疏注意力是一种仅在局部窗口内计算注意力权重的稀疏化机制,能够显著降低计算和显卡内存占用。

(2)主要参数
|
参数项 |
数值 |
|
模型层数(Layers) |
96 |
|
隐藏维度(Hidden Size) |
12288 |
|
注意力头数(Attention Heads) |
96 |
|
前馈层维度(FFN Size) |
49152 |
|
参数总量 |
1750 亿 |
(3)训练
GPT-3 依旧采用自回归语言建模(Autoregressive Language Modeling) 方式进行训练和在数千块 NVIDIA V100 GPU 上进行分布式并行训练。
(4)总结
1.通过规模效应(Scaling Effect)增强文本生成质量和零样本学习能力(通过输入任务描述和少量示例,即可理解任务意图并生成正确输出)。
2.工程进步。通过上千块显卡的分布式训练,处理大规模的数据和模型。
3.局部带状稀疏注意力优化计算和显卡占用。
1.5 InstructGPT
(1)架构
InstructGPT延续了GPT-3的架构
架构创新:
InstructGPT并未架构上进行新的改动。其主要创新点不在于模型架构,而在于训练范式的变革。
(2)主要参数
|
参数项 |
数值 |
|
模型层数(Layers) |
96 |
|
隐藏维度(Hidden Size) |
12288 |
|
注意力头数(Attention Heads) |
96 |
|
前馈层维度(FFN Size) |
49152 |
|
参数总量 |
1750 亿 |
(3)训练
InstructGPT 的训练以GPT-3的预训练语言模型为基础,进一步采用了三阶段训练范式。
1.监督微调(Supervised Fine-tuning, SFT)
在第一阶段,OpenAI 收集了由人工标注者撰写的高质量 “指令-回答” 样本,组成训练数据集。这些样本覆盖常见的用户指令及对应的理想响应,具有较高的语言质量。在训练过程中,模型在这些“指令-回答”对上进行监督微调,训练目标仍为“给定前文预测下一个词”(Next Token Prediction)。

通过该阶段,增强模型理解并执行自然语言指令的能力,能够较好地完成指令驱动的任务响应。
2. 奖励模型(Reward Model, RM)
第二阶段构建奖励模型,用于后续强化学习过程中的反馈评估器。
操作流程如下:
(1)使用经过 SFT 微调后的模型,针对同一条指令生成多个候选回答;
(2)人工标注者根据回答的质量、相关性、礼貌性、有用性等维度,对这些回答进行排序;
(3)利用排序结果训练一个奖励模型,使其能够为任意给定回答输出一个偏好评分。
奖励模型的核心目标是模仿人类的偏好判断,为语言模型的输出提供方向性反馈。
3. 强化学习(Reinforcement Learning from Human Feedback, RLHF)
这一阶段的核心目标是:通过人类偏好引导模型输出更加符合人类意图的回答。
具体步骤如下:
(1)指令输入
从预构建的指令数据集中选取一条指令,作为模型输入。
(2)模型生成回答
使用经过SFT微调的模型对指令生成回答。
(3)奖励模型评分
使用奖励模型对生成的回答进行打分。
(4)强化学习(Proximal Policy Optimization,PPO)优化
模型根据奖励模型打分的结果,调整自身参数,使其更倾向于生成高分回答。
(4)总结
突出了模型预训练后对齐的作用,提供了对齐的范式。
1.6 ChatGPT
(1)架构
ChatGPT 是与 InstructGPT 同一技术路线下的兄弟模型,架构设计与 InstructGPT 类似,但具体细节未公开。
(2)参数
具体细节未公开。
(3)训练
ChatGPT 的训练方法采用与 InstructGPT 相同的人类反馈强化学习(RLHF)策略,其核心区别在于数据集的设计与处理方式。
ChatGPT 使用了特别构建的对话格式数据集。这些数据由标注人员通过模拟用户与 AI 助手的对话生成,内容更加贴近真实交互场景。相比 InstructGPT 所使用的“指令-单轮回答”数据,ChatGPT 所采用的数据具有多轮对话结构,强调上下文保持与连续问答能力。

(4)总结
GPT 系列的发展推动了现代大语言模型训练范式的逐步成熟,形成了以 “预训练—监督微调—对齐” 为核心的三阶段开发框架。如下:
预训练(Pre-training)
基于超大规模无标注语料进行自监督学习,使模型获得通用语言建模能力、广泛的世界知识以及基本的推理与泛化能力。
要点主要有:Decoder-only 架构的优越性;模型参数和语料规模都尽可能大(Scaling Effect);通过局部架构创新,可以节省参数和提高计算效率,但是不影响预训练效果。
监督微调(Supervised Fine-tuning, SFT)
利用人工构建的指令—响应示例或高质量对话数据对模型进行进一步训练,使其能够更好地理解指令,并输出更加规范、稳定且贴合任务需求的内容。
要点:根据任务需要构建示例数据集可以规范化模型的输出形式,获取预期的效果。
对齐(Alignment)
通过引入人类偏好、行为规范、安全约束与价值观等因素,使模型的行为更符合用户期望。
要点:RLHF(奖励模型 + 强化学习)
这“三阶段”开发范式在实践中得到广泛验证,已成为业界主流的大语言模型训练框架。
- 点赞
- 收藏
- 关注作者
评论(0)