- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

从零开始理解大模型（九）：Scaling Law——为什么”大力出奇迹”有效

AGENT魔方发表于 2026/04/24 17:27:56 2026/04/24

【摘要】本文为「从零开始理解大模型」系列第九篇。本系列共十篇，从基础的下一词预测出发，层层递进构建完整大模型认知体系，每篇均附带可运行代码。本篇围绕 Scaling Law 展开，拆解模型规模、数据量与效果的演化规律，解析大模型领域「大力出奇迹」背后的底层原理与客观边界。

欢迎阅读「从零开始理解大模型」系列 —— 十篇文章，从"下一个词预测"到完整的大模型心智模型。每篇配可运行代码。

第一篇：一切从"猜下一个词"开始

第二篇：Token——大模型眼中的"字"长什么样

第三篇：向量与 Embedding——把文字变成数学

第四篇：Attention——大模型的"阅读理解"机制

第五篇：Transformer 全景——积木怎么搭成大厦

第六篇：训练——70 亿个参数是怎么"学"出来的

第七篇：推理——你按下回车后的这一秒发生了什么

第八篇：上下文窗口——大模型的"工作记忆"

第九篇：Scaling Law——为什么"大力出奇迹"有效（本文）

第十篇：从大模型到 Agent——下一个词预测如何长出手脚

* 本系列配套运行代码，可在公众号后台回复“大模型”完整获取。

作者：十一

前八篇我们搞清楚了大模型的结构、训练、推理和上下文窗口。但有一个问题一直悬而未决：

为什么模型越大就越聪明？

GPT-2 有 1.2 亿参数，预测 “Thank you very” 后面接什么，“much” 只排第一但概率并不算碾压。GPT-4 据估计有上万亿参数，同样的问题它几乎 100% 答对，还能写代码、做数学、理解复杂指令。

从 1 亿到 1 万亿，参数多了 1 万倍。能力提升是碰巧的吗？有规律可循吗？还能继续提升吗？

这就是 Scaling Law（缩放定律）要回答的问题。

一、先说结论

你以为的	实际的
模型越大越好，没有规律	有精确的数学关系：Loss 和参数量、数据量、算力都是幂律关系
参数量是唯一重要的	参数量、数据量、算力三者缺一不可，要均衡增长
70B 的能力是 7B 的 10 倍	不是线性关系——参数翻 10 倍，Loss 只降一点点
大力出奇迹没有尽头	目前还没看到天花板，但收益递减越来越明显
小模型没有用	小模型在特定任务上可以很强，性价比可能更高

一句话版本：Scaling Law 说的是——模型的 Loss 随参数量、数据量、算力的增长呈幂律下降。规律极其稳定，甚至可以用小实验预测大模型的表现。

二、Scaling Law 的核心发现

2020 年 OpenAI 发表了一篇重要论文，发现了一个惊人的规律：

模型的 Loss 和三个因素之间存在简洁的幂律关系：

L(N) ∝ N^(-α)    // Loss 和参数量 N 的关系
L(D) ∝ D^(-β)    // Loss 和数据量 D 的关系
L(C) ∝ C^(-γ)    // Loss 和算力 C 的关系

其中 α、β、γ 是常数（大约在 0.05~0.1 之间）。

翻译一下：参数量翻倍，Loss 下降一个固定的百分比。数据量翻倍，Loss 也下降一个固定的百分比。不管你现在在什么规模，这个比例都是一样的。

这意味着什么？

2.1 用小实验预测大模型

既然关系是一条直线（在 log-log 坐标下），那你可以：

先训练几个小模型（比如 1000 万、5000 万、1 亿参数）
测量它们的 Loss
在 log-log 图上画一条直线
沿着直线外推，预测 700 亿参数的模型 Loss 是多少

不用真花几千万美元训一个 70B 模型，就能提前知道它大概有多强。这是 Scaling Law 最大的实用价值——它让大模型的研发从”赌博”变成了”工程”。

2.2 幂律关系长什么样

Log-Log 坐标下的 Scaling Law（示意）:

  Loss
  (log)
   3.0 ┤ ●
       │   ●
   2.5 ┤     ●
       │       ●
   2.0 ┤         ●
       │           ●
   1.5 ┤             ●
       │               ●
   1.0 ┤                 ●
       │                   ●
   0.5 ┤                     ●
       └───────────────────────
       10M  100M  1B  10B  100B  1T
              参数量 N (log)

  → 在 log-log 坐标下几乎是一条直线！

这条直线跨越了 4 个数量级（从 1000 万到 1 万亿参数），始终保持同一个斜率。这在自然界中是非常罕见的——说明背后有某种深层的规律在起作用。

三、三个变量怎么配合——Chinchilla 定律

OpenAI 2020 年的研究侧重于参数量。2022 年 DeepMind 的 Chinchilla 论文补充了一个关键发现：

参数量和数据量要均衡增长。

之前的做法是”模型越大越好，数据差不多就行”。Chinchilla 发现，给定固定的算力预算，最优策略是：

最优数据量 ≈ 20 × 参数量

即：
  7B 参数的模型 → 需要约 140B token 的训练数据
  70B 参数的模型 → 需要约 1.4T token 的训练数据

如果参数很多但数据不够，模型会”吃不饱”——参数的表达能力没被充分利用。如果数据很多但参数太少，模型”记不住”——再多数据也装不下。

3.1 一个具体例子

假设你有固定的算力预算（比如 1000 张 A100 跑一个月），你有两个选择：

方案	参数量	训练 token 数	结果
A：大模型少数据\|70B\|300B	70B	300B	Loss 较高——模型太大，数据不够
B：均衡配比	20B	1T	Loss 更低——参数和数据匹配

方案 B 用了更小的模型，但因为数据配比更合理，最终效果更好。Chinchilla（70B 参数，1.4T token）就是用这个思路打败了 Gopher（280B 参数，300B token）。

这说明参数量不是唯一重要的——数据量同样重要，两者要均衡。

3.2 Chinchilla 之后的趋势

Chinchilla 的 20:1 比例是在”训练成本固定”的假设下得出的。但在实际中，很多团队选择”过度训练”（over-training）——用远超 20 倍的数据量训练较小的模型。

原因是：训练成本是一次性的，推理成本是持续的。一个 7B 模型训练时多花点钱，但部署后每次推理都比 70B 模型快 10 倍、省 10 倍。长期算下来更划算。

LLaMA 系列就是这个策略的代表——7B 参数但用了 1T+ token 训练，远超 Chinchilla 的最优比例。

四、“涌现”——量变引起质变

Scaling Law 描述的是 Loss 的平滑下降。但实际使用中，你会发现一个更惊人的现象：

有些能力不是渐渐变好的，而是在模型达到某个规模后突然出现的。

比如：

少样本学习（Few-shot）：给模型几个例子它就能学会新任务——小模型完全做不到，大到一定程度突然就会了
思维链推理（Chain-of-Thought）：让模型”一步一步想”——小模型加了这个提示也没用，大模型加了之后准确率飙升
代码生成：写正确的程序——小模型只能写出看着像代码的文本，大到一定程度突然能写出能跑的代码

这些叫涌现能力（Emergent Abilities）。

能力表现
  │
  │                              ● ● ●  ← 突然出现！
  │                           ●
  │                        ●
  │  ● ● ● ● ● ● ● ● ●                ← 之前一直很差
  │
  └──────────────────────────────────
  小模型

Loss 是平滑下降的，但某些具体任务的表现是阶跃式的。这就像水从 99°C 到 100°C——温度只变了 1%，但水开始沸腾了。量变引起质变。

这也是为什么第一篇里 GPT-2（1.2 亿参数）对 “The capital of France is” 只给了 “Paris” 3.2% 的概率，而 GPT-4 能给出接近 100%——不只是”稍微好一点”，而是质的飞跃。

注意：关于涌现能力是否是”真正的突变”，学术界有争论。有研究认为如果换一种评估指标（比如用 log 概率而不是准确率），“突变”就消失了，变成了平滑提升。但不管怎么解释，大模型确实能做到小模型做不到的事情。

五、Scaling Law 对你意味着什么

5.1 选模型：大的不一定是最佳选择

Scaling Law 说”越大越好”，但它说的是同等训练条件下的 Loss。实际使用中你还要考虑：

因素	大模型（70B+）	小模型（7B）
能力	更强，复杂推理更好	简单任务够用
速度	慢（每 token 耗时长）	快 10 倍
成本	API 单价高	单价低，可本地部署
部署	需要多张 GPU	量化后单卡可跑

不是所有任务都需要最大的模型。 “Thank you very → much” 这种简单预测，GPT-2 就能做到 99.2%。你不需要用 GPT-4 来做这件事。

Agent 场景尤其要权衡：Agent 每次任务可能调用 LLM 5-10 次（第七篇讲过），如果每次都用最大模型，成本会很高。一种常见策略是”简单决策用小模型、复杂推理用大模型”。

5.2 理解行业趋势

Scaling Law 解释了为什么 AI 公司在疯狂扩大算力：

OpenAI:  GPT-3 (2020) → GPT-4 (2023) → GPT-5.4 (2026)
         参数量与算力持续 10 倍级增长，前沿模型已进入万亿参数时代

Google:  PaLM (2022) → Gemini (2024) → Gemini 3.1 (2026)
         训练算力增长约 5-10 倍，Gemini 系列快速迭代

Meta:    LLaMA (2023) → LLaMA 3 (2024) → LLaMA 4 (2025)
         训练数据增长超 2 倍，LLaMA 4 预训练数据超 30T tokens，采用 MoE 架构

每一代模型都在沿着 Scaling Law 的曲线往前推。参数更多、数据更多、算力更大——Loss 更低、能力更强。即使具体参数量和精确算力数字在 2025 年后已较少公开披露，但行业整体仍在沿着幂律规律持续大规模投入——训练成本、集群规模、数据清洗均呈指数级增长。

5.3 Scaling 的尽头在哪

目前还没有看到明确的天花板。但有几个可能的瓶颈：

数据瓶颈：互联网上高质量的文本是有限的。虽然公开文本总量可达数百 T token，但经过去重、过滤低质量内容后，可用的高质量数据远少于此。随着模型规模继续增长，高质量数据的供给可能跟不上需求——这也是合成数据（用 AI 生成训练数据）成为热门研究方向的原因。
算力瓶颈：训练一个 1T 参数的模型可能需要几万张 GPU 跑几个月，成本上亿美元。能负担得起的公司越来越少。
收益递减：Scaling Law 是幂律——参数翻 10 倍，Loss 只降一点点。越往后，每一点提升需要的投入越大。

这就是为什么行业开始探索”Scaling 之外”的路径——更好的数据、更好的训练方法、更好的架构、推理时计算（test-time compute）等。

六、Scaling Law 和前八篇的联系

Scaling Law 不是一个独立的概念，它串联了前面讲的所有东西：

和第五篇（Transformer 全景）的关系：Scaling Law 中的”参数量 N”具体是什么？就是第五篇拆过的那些——Embedding 表 + Attention 的 Q/K/V/O 矩阵 × 层数 + FFN 的 W₁/W₂ × 层数。把层数加深、维度加宽，参数量就上去了。

和第六篇（训练）的关系：Scaling Law 中的”数据量 D”就是训练时喂了多少 token。“算力 C”就是跑了多少次前向+反向传播。三个变量都在训练阶段确定。

和第七篇（推理）的关系：参数越多，推理越慢（每步要做更多计算）。KV Cache 越大（第八篇）。这就是 Scaling 的代价——你用 Loss 的下降换来了推理成本的上升。

和第一篇的关系：Scaling Law 衡量的 Loss 就是第一篇讲的那个——“预测下一个词猜得有多准”。整个系列的核心任务始终是同一个：预测下一个词。Scaling Law 告诉你，只要把这件事做到足够大的规模，“智能”就会涌现。

七、结语

Scaling Law 可能是大模型时代最重要的经验发现。

它说的事情朴素到不可思议：**把模型做大、数据喂够、算力砸够，Loss 就会按幂律下降。** 没有花哨的算法创新，没有精巧的架构设计——就是加大规模。而且这个规律跨越了几个数量级，稳定到可以用来做预测。

这就是为什么 AI 行业从 2020 年开始进入了”军备竞赛”——不是因为大家不想创新，而是因为 Scaling Law 告诉你，最确定的提升路径就是加大投入。创新是锦上添花，规模是确定回报。

“The bitter lesson is that the only thing that scales is compute.”* — Rich Sutton

苦涩的教训是：唯一能 scale 的东西是算力。

下一篇是系列的收官——我们把大模型和 Agent 连起来。大模型只能生成文本，怎么就长出了”手脚”，能调用工具、执行任务、和真实世界交互？

扫码回复“大模型”

获取本系列文章完整配套代码

「从零开始理解大模型」是「从零开始理解 Agent」的姊妹系列。Agent 系列讲"四肢"，本系列讲"大脑"。建议对照阅读专栏入口。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

从零开始理解大模型（九）：Scaling Law——为什么”大力出奇迹”有效

一、先说结论

二、Scaling Law 的核心发现

2.1 用小实验预测大模型

2.2 幂律关系长什么样

三、三个变量怎么配合——Chinchilla 定律

3.1 一个具体例子

3.2 Chinchilla 之后的趋势

四、“涌现”——量变引起质变

五、Scaling Law 对你意味着什么

5.1 选模型：大的不一定是最佳选择

5.2 理解行业趋势

5.3 Scaling 的尽头在哪

六、Scaling Law 和前八篇的联系

七、结语

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

从零开始理解大模型（九）：Scaling Law——为什么”大力出奇迹”有效

一、先说结论

二、Scaling Law 的核心发现

2.1 用小实验预测大模型

2.2 幂律关系长什么样

三、三个变量怎么配合——Chinchilla 定律

3.1 一个具体例子

3.2 Chinchilla 之后的趋势

四、“涌现”——量变引起质变

五、Scaling Law 对你意味着什么

5.1 选模型：大的不一定是最佳选择

5.2 理解行业趋势

5.3 Scaling 的尽头在哪

六、Scaling Law 和前八篇的联系

七、结语

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品