arXivPDF

Mixture-of-Transformers — 多模态模型不一定要所有模态共用一套层

这篇论文提出 MoT:Mixture-of-Transformers。它的直觉很朴素:文本、图像、语音虽然都能被变成 token,但它们的统计规律和训练难点不一样。与其让一个 dense Transformer 的全部参数同时服务所有模态,不如按模态拆开非 embedding 参数,让文本 token 走文本参数、图像 token 走图像参数、语音 token 走语音参数;同时保留全局 self-attention,让不同模态仍然能互相看见。结果是,在多个多模态预训练设置里,MoT 用明显更少 FLOPs 达到 dense baseline 的质量。

背景铺垫

问题是什么

核心想法

混合输入序列

text + image + speech tokens
形式
不同模态 token 交错出现
目标
仍然需要跨模态理解
按模态分组

模态专属参数

attention / FFN / LayerNorm
文本
走文本 Transformer 参数
图像/语音
走各自参数分支
全局注意力

统一输出

cross-modal context kept
关键点
参数分开,信息不隔离
收益
更快达到 dense 质量

方法怎么做

Dense Transformer

所有模态共用一套层
结构最简单,但文本、图像、语音都争同一组非 embedding 参数。

MoE

learned router 选专家
稀疏激活很强,但 router 可能不均衡,训练和推理都更复杂。

MoT

modality routing
路由由模态决定,简单稳定;全局注意力保留跨模态交互。

新意在哪里

旧做法:统一参数

one transformer for all modalities
优点是干净统一;问题是每个模态的统计规律不同,共用参数可能造成竞争。

MoT:统一序列,分开参数

shared context, modality-specific weights
保留跨模态 attention,同时给不同模态自己的 FFN、attention projection 和 LayerNorm。

结果速览

局限与开放问题

影响