arXivPDF

Training Compute-Optimal Large Language Models — Chinchilla 为什么说“大模型其实没训够”

这篇 DeepMind 论文重新回答了一个很贵的问题:给定固定训练算力,应该把预算花在更大的模型上,还是更多训练 token 上?论文训练了 400 多个 Transformer,覆盖 70M 到 16B+ 参数、5B 到 500B token,结论很直接:在算力最优点,模型参数量和训练 token 数应近似等比例增长。作者用 70B 参数、1.4T token 的 Chinchilla 验证这一点:它用和 Gopher 280B 相近的训练算力,却在大量任务上明显更强。

背景铺垫

问题是什么

核心想法

旧训练路线

参数越做越大
典型例子
GPT-3 175B / 300B token,Gopher 280B / 300B token
隐含假设
数据量不需要同步增长
重新拟合

Chinchilla law

参数和 token 等比例
结论
\(N_{\mathrm{opt}}\propto C^{0.5}\),\(D_{\mathrm{opt}}\propto C^{0.5}\)
含义
模型翻倍,训练数据也翻倍
验证

Chinchilla

70B 参数 / 1.4T token
对比
同等训练算力下超过 Gopher 280B
额外好处
推理和微调成本更低

方法怎么做

Approach 1

训练曲线包络
从不同模型和不同训练长度中,取每个 FLOPs 点的最低 loss。

Approach 2

IsoFLOP 扫描
固定算力预算,直接比较不同参数量的最终 loss。

Approach 3

拟合 \(L(N,D)\)
用一个 loss 曲面同时描述模型容量瓶颈和数据瓶颈。

新意在哪里

旧答案:模型更大

300B token 附近训练很多大模型
优点是模型容量上去了;问题是数据没有同步增加,模型可能还没充分训练。

新答案:更小但训更久

70B 参数 + 1.4T token
Chinchilla 用相似训练算力超过 Gopher,同时推理和微调更便宜。

结果速览

局限与开放问题

影响