从零开始理解大模型(九):Scaling Law——为什么”大力出奇迹”有效

举报
AGENT魔方 发表于 2026/04/24 17:27:56 2026/04/24
【摘要】 本文为「从零开始理解大模型」系列第九篇。本系列共十篇,从基础的下一词预测出发,层层递进构建完整大模型认知体系,每篇均附带可运行代码。本篇围绕 Scaling Law 展开,拆解模型规模、数据量与效果的演化规律,解析大模型领域「大力出奇迹」背后的底层原理与客观边界。

专栏1.png

欢迎阅读「从零开始理解大模型」系列 —— 十篇文章,从"下一个词预测"到完整的大模型心智模型。每篇配可运行代码。

* 本系列配套运行代码,可在公众号后台回复“大模型”完整获取。

作者:十一


前八篇我们搞清楚了大模型的结构、训练、推理和上下文窗口。但有一个问题一直悬而未决:

为什么模型越大就越聪明?

GPT-2 有 1.2 亿参数,预测 “Thank you very” 后面接什么,“much” 只排第一但概率并不算碾压。GPT-4 据估计有上万亿参数,同样的问题它几乎 100% 答对,还能写代码、做数学、理解复杂指令。

从 1 亿到 1 万亿,参数多了 1 万倍。能力提升是碰巧的吗?有规律可循吗?还能继续提升吗?

这就是 Scaling Law(缩放定律)要回答的问题。


一、先说结论

你以为的    实际的  
模型越大越好,没有规律 有精确的数学关系:Loss 和参数量、数据量、算力都是幂律关系
参数量是唯一重要的  参数量、数据量、算力三者缺一不可,要均衡增长 
70B 的能力是 7B 的 10 倍 不是线性关系——参数翻 10 倍,Loss 只降一点点
大力出奇迹没有尽头 目前还没看到天花板,但收益递减越来越明显
小模型没有用 小模型在特定任务上可以很强,性价比可能更高     


一句话版本:Scaling Law 说的是——模型的 Loss 随参数量、数据量、算力的增长呈幂律下降。规律极其稳定,甚至可以用小实验预测大模型的表现。


二、Scaling Law 的核心发现

2020 年 OpenAI 发表了一篇重要论文,发现了一个惊人的规律:

模型的 Loss 和三个因素之间存在简洁的幂律关系:

L(N) ∝ N^(-α)    // Loss 和参数量 N 的关系
L(D) ∝ D^(-β)    // Loss 和数据量 D 的关系
L(C) ∝ C^(-γ)    // Loss 和算力 C 的关系

其中 α、β、γ 是常数(大约在 0.05~0.1 之间)。

翻译一下:参数量翻倍,Loss 下降一个固定的百分比。数据量翻倍,Loss 也下降一个固定的百分比。不管你现在在什么规模,这个比例都是一样的

这意味着什么?

2.1 用小实验预测大模型

既然关系是一条直线(在 log-log 坐标下),那你可以:

  • 先训练几个小模型(比如 1000 万、5000 万、1 亿参数)
  • 测量它们的 Loss
  • 在 log-log 图上画一条直线
  • 沿着直线外推,预测 700 亿参数的模型 Loss 是多少

不用真花几千万美元训一个 70B 模型,就能提前知道它大概有多强。这是 Scaling Law 最大的实用价值——它让大模型的研发从”赌博”变成了”工程”。

2.2 幂律关系长什么样

Log-Log 坐标下的 Scaling Law(示意):

  Loss
  (log)
   3.0 ┤ ●
       │   ●
   2.5 ┤     ●
       │       ●
   2.0 ┤         ●
       │           ●
   1.5 ┤             ●
       │               ●
   1.0 ┤                 ●
       │                   ●
   0.5 ┤                     ●
       └───────────────────────
       10M  100M  1B  10B  100B  1T
              参数量 N (log)

  → 在 log-log 坐标下几乎是一条直线!

这条直线跨越了 4 个数量级(从 1000 万到 1 万亿参数),始终保持同一个斜率。这在自然界中是非常罕见的——说明背后有某种深层的规律在起作用。


三、三个变量怎么配合——Chinchilla 定律

OpenAI 2020 年的研究侧重于参数量。2022 年 DeepMind 的 Chinchilla 论文补充了一个关键发现:

参数量和数据量要均衡增长

之前的做法是”模型越大越好,数据差不多就行”。Chinchilla 发现,给定固定的算力预算,最优策略是:

最优数据量 ≈ 20 × 参数量

即:
  7B 参数的模型 → 需要约 140B token 的训练数据
  70B 参数的模型 → 需要约 1.4T token 的训练数据

如果参数很多但数据不够,模型会”吃不饱”——参数的表达能力没被充分利用。如果数据很多但参数太少,模型”记不住”——再多数据也装不下。

3.1 一个具体例子

假设你有固定的算力预算(比如 1000 张 A100 跑一个月),你有两个选择:

方案  参数量 训练 token 数 结果  
A:大模型少数据|70B|300B  70B 300B  Loss 较高——模型太大,数据不够
B:均衡配比 20B 1T Loss 更低——参数和数据匹配 

方案 B 用了更小的模型,但因为数据配比更合理,最终效果更好。Chinchilla(70B 参数,1.4T token)就是用这个思路打败了 Gopher(280B 参数,300B token)。

这说明参数量不是唯一重要的——数据量同样重要,两者要均衡

3.2 Chinchilla 之后的趋势

Chinchilla 的 20:1 比例是在”训练成本固定”的假设下得出的。但在实际中,很多团队选择”过度训练”(over-training)——用远超 20 倍的数据量训练较小的模型。

原因是:训练成本是一次性的,推理成本是持续的。一个 7B 模型训练时多花点钱,但部署后每次推理都比 70B 模型快 10 倍、省 10 倍。长期算下来更划算。

LLaMA 系列就是这个策略的代表——7B 参数但用了 1T+ token 训练,远超 Chinchilla 的最优比例。


四、“涌现”——量变引起质变

Scaling Law 描述的是 Loss 的平滑下降。但实际使用中,你会发现一个更惊人的现象:

有些能力不是渐渐变好的,而是在模型达到某个规模后突然出现的

比如:

  • 少样本学习(Few-shot):给模型几个例子它就能学会新任务——小模型完全做不到,大到一定程度突然就会了
  • 思维链推理(Chain-of-Thought):让模型”一步一步想”——小模型加了这个提示也没用,大模型加了之后准确率飙升
  • 代码生成:写正确的程序——小模型只能写出看着像代码的文本,大到一定程度突然能写出能跑的代码

这些叫涌现能力(Emergent Abilities)

能力表现
  │
  │                              ● ● ●  ← 突然出现!
  │                           ●
  │                        ●
  │  ● ● ● ● ● ● ● ● ●                ← 之前一直很差
  │
  └──────────────────────────────────
  小模型 

Loss 是平滑下降的,但某些具体任务的表现是阶跃式的。这就像水从 99°C 到 100°C——温度只变了 1%,但水开始沸腾了。量变引起质变

这也是为什么第一篇里 GPT-2(1.2 亿参数)对 “The capital of France is” 只给了 “Paris” 3.2% 的概率,而 GPT-4 能给出接近 100%——不只是”稍微好一点”,而是质的飞跃。

注意:关于涌现能力是否是”真正的突变”,学术界有争论。有研究认为如果换一种评估指标(比如用 log 概率而不是准确率),“突变”就消失了,变成了平滑提升。但不管怎么解释,大模型确实能做到小模型做不到的事情。


五、Scaling Law 对你意味着什么

5.1 选模型:大的不一定是最佳选择

Scaling Law 说”越大越好”,但它说的是同等训练条件下的 Loss。实际使用中你还要考虑:

因素 大模型(70B+)  小模型(7B)
能力 更强,复杂推理更好 简单任务够用
速度 慢(每 token 耗时长) 快 10 倍
成本 API 单价高    单价低,可本地部署
部署 需要多张 GPU    量化后单卡可跑

不是所有任务都需要最大的模型。 “Thank you very → much” 这种简单预测,GPT-2 就能做到 99.2%。你不需要用 GPT-4 来做这件事

Agent 场景尤其要权衡:Agent 每次任务可能调用 LLM 5-10 次(第七篇讲过),如果每次都用最大模型,成本会很高。一种常见策略是”简单决策用小模型、复杂推理用大模型”。

5.2 理解行业趋势

Scaling Law 解释了为什么 AI 公司在疯狂扩大算力:

OpenAI:  GPT-3 (2020) → GPT-4 (2023) → GPT-5.4 (2026)
         参数量与算力持续 10 倍级增长,前沿模型已进入万亿参数时代

Google:  PaLM (2022) → Gemini (2024) → Gemini 3.1 (2026)
         训练算力增长约 5-10 倍,Gemini 系列快速迭代

Meta:    LLaMA (2023) → LLaMA 3 (2024) → LLaMA 4 (2025)
         训练数据增长超 2 倍,LLaMA 4 预训练数据超 30T tokens,采用 MoE 架构

每一代模型都在沿着 Scaling Law 的曲线往前推。参数更多、数据更多、算力更大——Loss 更低、能力更强。即使具体参数量和精确算力数字在 2025 年后已较少公开披露,但行业整体仍在沿着幂律规律持续大规模投入——训练成本、集群规模、数据清洗均呈指数级增长。

5.3 Scaling 的尽头在哪

目前还没有看到明确的天花板。但有几个可能的瓶颈:

  • 数据瓶颈:互联网上高质量的文本是有限的。虽然公开文本总量可达数百 T token,但经过去重、过滤低质量内容后,可用的高质量数据远少于此。随着模型规模继续增长,高质量数据的供给可能跟不上需求——这也是合成数据(用 AI 生成训练数据)成为热门研究方向的原因。
  • 算力瓶颈:训练一个 1T 参数的模型可能需要几万张 GPU 跑几个月,成本上亿美元。能负担得起的公司越来越少。
  • 收益递减:Scaling Law 是幂律——参数翻 10 倍,Loss 只降一点点。越往后,每一点提升需要的投入越大。

这就是为什么行业开始探索”Scaling 之外”的路径——更好的数据、更好的训练方法、更好的架构、推理时计算(test-time compute)等。


六、Scaling Law 和前八篇的联系

Scaling Law 不是一个独立的概念,它串联了前面讲的所有东西:

和第五篇(Transformer 全景)的关系:Scaling Law 中的”参数量 N”具体是什么?就是第五篇拆过的那些——Embedding 表 + Attention 的 Q/K/V/O 矩阵 × 层数 + FFN 的 W₁/W₂ × 层数。把层数加深、维度加宽,参数量就上去了。

和第六篇(训练)的关系:Scaling Law 中的”数据量 D”就是训练时喂了多少 token。“算力 C”就是跑了多少次前向+反向传播。三个变量都在训练阶段确定。

和第七篇(推理)的关系:参数越多,推理越慢(每步要做更多计算)。KV Cache 越大(第八篇)。这就是 Scaling 的代价——你用 Loss 的下降换来了推理成本的上升。

和第一篇的关系:Scaling Law 衡量的 Loss 就是第一篇讲的那个——“预测下一个词猜得有多准”。整个系列的核心任务始终是同一个:预测下一个词。Scaling Law 告诉你,只要把这件事做到足够大的规模,“智能”就会涌现。


七、结语

Scaling Law 可能是大模型时代最重要的经验发现。

它说的事情朴素到不可思议:**把模型做大、数据喂够、算力砸够,Loss 就会按幂律下降。** 没有花哨的算法创新,没有精巧的架构设计——就是加大规模。而且这个规律跨越了几个数量级,稳定到可以用来做预测。

这就是为什么 AI 行业从 2020 年开始进入了”军备竞赛”——不是因为大家不想创新,而是因为 Scaling Law 告诉你,最确定的提升路径就是加大投入。创新是锦上添花,规模是确定回报。

The bitter lesson is that the only thing that scales is compute.”* — Rich Sutton

苦涩的教训是:唯一能 scale 的东西是算力。

下一篇是系列的收官——我们把大模型和 Agent 连起来。大模型只能生成文本,怎么就长出了”手脚”,能调用工具、执行任务、和真实世界交互?


容器模仿.png

扫码回复“大模型

获取本系列文章完整配套代码

「从零开始理解大模型」是「从零开始理解 Agent」的姊妹系列。Agent 系列讲"四肢",本系列讲"大脑"。建议对照阅读 专栏入口。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。