从零开始理解大模型(九):Scaling Law——为什么”大力出奇迹”有效

欢迎阅读「从零开始理解大模型」系列 —— 十篇文章,从"下一个词预测"到完整的大模型心智模型。每篇配可运行代码。
第一篇:一切从"猜下一个词"开始
第九篇:Scaling Law——为什么"大力出奇迹"有效(本文)
第十篇:从大模型到 Agent——下一个词预测如何长出手脚
* 本系列配套运行代码,可在公众号后台回复“大模型”完整获取。
作者:十一
前八篇我们搞清楚了大模型的结构、训练、推理和上下文窗口。但有一个问题一直悬而未决:
为什么模型越大就越聪明?
GPT-2 有 1.2 亿参数,预测 “Thank you very” 后面接什么,“much” 只排第一但概率并不算碾压。GPT-4 据估计有上万亿参数,同样的问题它几乎 100% 答对,还能写代码、做数学、理解复杂指令。
从 1 亿到 1 万亿,参数多了 1 万倍。能力提升是碰巧的吗?有规律可循吗?还能继续提升吗?
这就是 Scaling Law(缩放定律)要回答的问题。
一、先说结论
| 你以为的 | 实际的 |
| 模型越大越好,没有规律 | 有精确的数学关系:Loss 和参数量、数据量、算力都是幂律关系 |
| 参数量是唯一重要的 | 参数量、数据量、算力三者缺一不可,要均衡增长 |
| 70B 的能力是 7B 的 10 倍 | 不是线性关系——参数翻 10 倍,Loss 只降一点点 |
| 大力出奇迹没有尽头 | 目前还没看到天花板,但收益递减越来越明显 |
| 小模型没有用 | 小模型在特定任务上可以很强,性价比可能更高 |
一句话版本:Scaling Law 说的是——模型的 Loss 随参数量、数据量、算力的增长呈幂律下降。规律极其稳定,甚至可以用小实验预测大模型的表现。
二、Scaling Law 的核心发现
2020 年 OpenAI 发表了一篇重要论文,发现了一个惊人的规律:
模型的 Loss 和三个因素之间存在简洁的幂律关系:
L(N) ∝ N^(-α) // Loss 和参数量 N 的关系 L(D) ∝ D^(-β) // Loss 和数据量 D 的关系 L(C) ∝ C^(-γ) // Loss 和算力 C 的关系
其中 α、β、γ 是常数(大约在 0.05~0.1 之间)。
翻译一下:参数量翻倍,Loss 下降一个固定的百分比。数据量翻倍,Loss 也下降一个固定的百分比。不管你现在在什么规模,这个比例都是一样的。
这意味着什么?
2.1 用小实验预测大模型
既然关系是一条直线(在 log-log 坐标下),那你可以:
- 先训练几个小模型(比如 1000 万、5000 万、1 亿参数)
- 测量它们的 Loss
- 在 log-log 图上画一条直线
- 沿着直线外推,预测 700 亿参数的模型 Loss 是多少
不用真花几千万美元训一个 70B 模型,就能提前知道它大概有多强。这是 Scaling Law 最大的实用价值——它让大模型的研发从”赌博”变成了”工程”。
2.2 幂律关系长什么样
Log-Log 坐标下的 Scaling Law(示意):
Loss
(log)
3.0 ┤ ●
│ ●
2.5 ┤ ●
│ ●
2.0 ┤ ●
│ ●
1.5 ┤ ●
│ ●
1.0 ┤ ●
│ ●
0.5 ┤ ●
└───────────────────────
10M 100M 1B 10B 100B 1T
参数量 N (log)
→ 在 log-log 坐标下几乎是一条直线!
这条直线跨越了 4 个数量级(从 1000 万到 1 万亿参数),始终保持同一个斜率。这在自然界中是非常罕见的——说明背后有某种深层的规律在起作用。
三、三个变量怎么配合——Chinchilla 定律
OpenAI 2020 年的研究侧重于参数量。2022 年 DeepMind 的 Chinchilla 论文补充了一个关键发现:
参数量和数据量要均衡增长。
之前的做法是”模型越大越好,数据差不多就行”。Chinchilla 发现,给定固定的算力预算,最优策略是:
最优数据量 ≈ 20 × 参数量 即: 7B 参数的模型 → 需要约 140B token 的训练数据 70B 参数的模型 → 需要约 1.4T token 的训练数据
如果参数很多但数据不够,模型会”吃不饱”——参数的表达能力没被充分利用。如果数据很多但参数太少,模型”记不住”——再多数据也装不下。
3.1 一个具体例子
假设你有固定的算力预算(比如 1000 张 A100 跑一个月),你有两个选择:
| 方案 | 参数量 | 训练 token 数 | 结果 |
| A:大模型少数据|70B|300B | 70B | 300B | Loss 较高——模型太大,数据不够 |
| B:均衡配比 | 20B | 1T | Loss 更低——参数和数据匹配 |
方案 B 用了更小的模型,但因为数据配比更合理,最终效果更好。Chinchilla(70B 参数,1.4T token)就是用这个思路打败了 Gopher(280B 参数,300B token)。
这说明参数量不是唯一重要的——数据量同样重要,两者要均衡。
3.2 Chinchilla 之后的趋势
Chinchilla 的 20:1 比例是在”训练成本固定”的假设下得出的。但在实际中,很多团队选择”过度训练”(over-training)——用远超 20 倍的数据量训练较小的模型。
原因是:训练成本是一次性的,推理成本是持续的。一个 7B 模型训练时多花点钱,但部署后每次推理都比 70B 模型快 10 倍、省 10 倍。长期算下来更划算。
LLaMA 系列就是这个策略的代表——7B 参数但用了 1T+ token 训练,远超 Chinchilla 的最优比例。
四、“涌现”——量变引起质变
Scaling Law 描述的是 Loss 的平滑下降。但实际使用中,你会发现一个更惊人的现象:
有些能力不是渐渐变好的,而是在模型达到某个规模后突然出现的。
比如:
- 少样本学习(Few-shot):给模型几个例子它就能学会新任务——小模型完全做不到,大到一定程度突然就会了
- 思维链推理(Chain-of-Thought):让模型”一步一步想”——小模型加了这个提示也没用,大模型加了之后准确率飙升
- 代码生成:写正确的程序——小模型只能写出看着像代码的文本,大到一定程度突然能写出能跑的代码
这些叫涌现能力(Emergent Abilities)。
能力表现 │ │ ● ● ● ← 突然出现! │ ● │ ● │ ● ● ● ● ● ● ● ● ● ← 之前一直很差 │ └────────────────────────────────── 小模型
Loss 是平滑下降的,但某些具体任务的表现是阶跃式的。这就像水从 99°C 到 100°C——温度只变了 1%,但水开始沸腾了。量变引起质变。
这也是为什么第一篇里 GPT-2(1.2 亿参数)对 “The capital of France is” 只给了 “Paris” 3.2% 的概率,而 GPT-4 能给出接近 100%——不只是”稍微好一点”,而是质的飞跃。
注意:关于涌现能力是否是”真正的突变”,学术界有争论。有研究认为如果换一种评估指标(比如用 log 概率而不是准确率),“突变”就消失了,变成了平滑提升。但不管怎么解释,大模型确实能做到小模型做不到的事情。
五、Scaling Law 对你意味着什么
5.1 选模型:大的不一定是最佳选择
Scaling Law 说”越大越好”,但它说的是同等训练条件下的 Loss。实际使用中你还要考虑:
| 因素 | 大模型(70B+) | 小模型(7B) |
| 能力 | 更强,复杂推理更好 | 简单任务够用 |
| 速度 | 慢(每 token 耗时长) | 快 10 倍 |
| 成本 | API 单价高 | 单价低,可本地部署 |
| 部署 | 需要多张 GPU | 量化后单卡可跑 |
不是所有任务都需要最大的模型。 “Thank you very → much” 这种简单预测,GPT-2 就能做到 99.2%。你不需要用 GPT-4 来做这件事。
Agent 场景尤其要权衡:Agent 每次任务可能调用 LLM 5-10 次(第七篇讲过),如果每次都用最大模型,成本会很高。一种常见策略是”简单决策用小模型、复杂推理用大模型”。
5.2 理解行业趋势
Scaling Law 解释了为什么 AI 公司在疯狂扩大算力:
OpenAI: GPT-3 (2020) → GPT-4 (2023) → GPT-5.4 (2026)
参数量与算力持续 10 倍级增长,前沿模型已进入万亿参数时代
Google: PaLM (2022) → Gemini (2024) → Gemini 3.1 (2026)
训练算力增长约 5-10 倍,Gemini 系列快速迭代
Meta: LLaMA (2023) → LLaMA 3 (2024) → LLaMA 4 (2025)
训练数据增长超 2 倍,LLaMA 4 预训练数据超 30T tokens,采用 MoE 架构
每一代模型都在沿着 Scaling Law 的曲线往前推。参数更多、数据更多、算力更大——Loss 更低、能力更强。即使具体参数量和精确算力数字在 2025 年后已较少公开披露,但行业整体仍在沿着幂律规律持续大规模投入——训练成本、集群规模、数据清洗均呈指数级增长。
5.3 Scaling 的尽头在哪
目前还没有看到明确的天花板。但有几个可能的瓶颈:
- 数据瓶颈:互联网上高质量的文本是有限的。虽然公开文本总量可达数百 T token,但经过去重、过滤低质量内容后,可用的高质量数据远少于此。随着模型规模继续增长,高质量数据的供给可能跟不上需求——这也是合成数据(用 AI 生成训练数据)成为热门研究方向的原因。
- 算力瓶颈:训练一个 1T 参数的模型可能需要几万张 GPU 跑几个月,成本上亿美元。能负担得起的公司越来越少。
- 收益递减:Scaling Law 是幂律——参数翻 10 倍,Loss 只降一点点。越往后,每一点提升需要的投入越大。
这就是为什么行业开始探索”Scaling 之外”的路径——更好的数据、更好的训练方法、更好的架构、推理时计算(test-time compute)等。
六、Scaling Law 和前八篇的联系
Scaling Law 不是一个独立的概念,它串联了前面讲的所有东西:
和第五篇(Transformer 全景)的关系:Scaling Law 中的”参数量 N”具体是什么?就是第五篇拆过的那些——Embedding 表 + Attention 的 Q/K/V/O 矩阵 × 层数 + FFN 的 W₁/W₂ × 层数。把层数加深、维度加宽,参数量就上去了。
和第六篇(训练)的关系:Scaling Law 中的”数据量 D”就是训练时喂了多少 token。“算力 C”就是跑了多少次前向+反向传播。三个变量都在训练阶段确定。
和第七篇(推理)的关系:参数越多,推理越慢(每步要做更多计算)。KV Cache 越大(第八篇)。这就是 Scaling 的代价——你用 Loss 的下降换来了推理成本的上升。
和第一篇的关系:Scaling Law 衡量的 Loss 就是第一篇讲的那个——“预测下一个词猜得有多准”。整个系列的核心任务始终是同一个:预测下一个词。Scaling Law 告诉你,只要把这件事做到足够大的规模,“智能”就会涌现。
七、结语
Scaling Law 可能是大模型时代最重要的经验发现。
它说的事情朴素到不可思议:**把模型做大、数据喂够、算力砸够,Loss 就会按幂律下降。** 没有花哨的算法创新,没有精巧的架构设计——就是加大规模。而且这个规律跨越了几个数量级,稳定到可以用来做预测。
这就是为什么 AI 行业从 2020 年开始进入了”军备竞赛”——不是因为大家不想创新,而是因为 Scaling Law 告诉你,最确定的提升路径就是加大投入。创新是锦上添花,规模是确定回报。
“The bitter lesson is that the only thing that scales is compute.”* — Rich Sutton
苦涩的教训是:唯一能 scale 的东西是算力。
下一篇是系列的收官——我们把大模型和 Agent 连起来。大模型只能生成文本,怎么就长出了”手脚”,能调用工具、执行任务、和真实世界交互?

扫码回复“大模型”
获取本系列文章完整配套代码
「从零开始理解大模型」是「从零开始理解 Agent」的姊妹系列。Agent 系列讲"四肢",本系列讲"大脑"。建议对照阅读 专栏入口。
- 点赞
- 收藏
- 关注作者
评论(0)