arXivPDF

Scaling Laws for Neural Language Models — 大模型为什么看起来越训越“划算”

这篇 2020 年的 OpenAI 论文把语言模型训练中的三个旋钮——模型参数量 N训练 token 数 D训练算力 C——放到同一个经验规律里看。核心发现是:在他们测试的范围内,测试损失会随着 N、D、C 以平滑的幂律下降,而且这个规律跨越多个数量级。它给当时的大模型训练提供了一张粗略地图:如果算力固定,与其把小模型训到很久,不如用更大的模型、较少的数据、并在还没完全收敛时停下。

背景铺垫

问题是什么

核心想法

模型规模 N

非嵌入参数量
瓶颈时
\(L(N)=(N_c/N)^{\alpha_N}\),\(\alpha_N \approx 0.076\)
含义
参数翻倍,损失约乘以 0.95
与 D、C 协同

数据规模 D

训练 token 数
瓶颈时
\(L(D)=(D_c/D)^{\alpha_D}\),\(\alpha_D \approx 0.095\)
早停设定
数据太少时,大模型会过拟合
受算力约束

算力 C

最优分配 \(C_{\min}\)
瓶颈时
\(L(C_{\min})=(C_c^{\min}/C_{\min})^{\alpha_C}\)
实践
\(\alpha_C \approx 0.050\),提升很慢但稳定

方法怎么做

项 1:模型容量

\((N_c/N)^{\alpha_N}\)
模型太小,数据再多也装不下规律

项 2:数据

\(D_c/D\)
数据太少,大模型会先记住训练集

合成:早停损失

取 \(\alpha_D\) 次幂
容量项和数据项共同决定最优停止点

新意在哪里

传统直觉

把模型训久一点
更多步数带来收益,但很快进入递减区间

Kaplan 结论

大模型 + 早停
固定算力下,优先扩大模型通常更有效

Chinchilla 修正

模型和数据更均衡
后来发现很多模型其实训练 token 不够

结果速览

局限与开放问题

影响