arXivPDF

Outrageously Large Neural Networks — MoE 怎样让模型“很大但不每次全算”

这篇 2017 年 Google Brain 论文是现代稀疏 MoE(Mixture-of-Experts,专家混合)路线的关键起点。它的核心想法很简单:不要让每个输入都经过整张巨大网络,而是准备很多“专家”小网络,再让一个门控网络为每个 token 或样本只挑少数几个专家。这样模型参数量可以扩大到 137B 级别,但每次前向计算只激活很小一部分。

背景铺垫

问题是什么

核心想法

输入 token

来自语言模型或翻译模型
包含
当前词位置的隐藏状态
问题
不想让它经过全部专家
门控

稀疏门控

Noisy Top-k Gating
选择
只保留得分最高的 1–2 个专家
训练
加噪声和负载均衡项
路由

专家网络

大量前馈子网络
总容量
最多到 137B 参数
实际计算
每个 token 只用少数专家

方法怎么做

组件 1:Gate

决定用哪些专家
给每个专家打分,只留下 top-k,输出稀疏权重。

组件 2:Experts

大量前馈网络
每个专家处理被路由过来的 token,专家之间参数不同。

组件 3:Balance

避免专家拥堵
辅助损失让样本更均匀地分散到专家上。

新意在哪里

Dense 扩容

所有参数每次都参与计算
容量变大时,训练和推理成本几乎同步增加;模型越大越难部署。

Sparse MoE 扩容

只激活少数专家
总参数量很大,但每个 token 只走 top-k 专家;容量和计算不再强绑定。

结果速览

局限与开放问题

影响