论文阅读
用中文整理重要论文的核心问题、方法脉络和结果判断。少而清晰,方便回看。
LLM
大语言模型
-
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
MoT 按模态拆分 Transformer 的非 embedding 参数,同时保留全局 self-attention,让多模态预训练用更少 FLOPs 达到 dense baseline 质量。
-
Training Compute-Optimal Large Language Models
Chinchilla 重新估计算力最优缩放:模型参数和训练 token 应近似等比例增长。
-
Scaling Laws for Neural Language Models
语言模型损失随参数量、数据量、算力呈幂律下降;固定算力下应优先放大模型并早停。
-
Outrageously Large Neural Networks
稀疏门控 MoE 让模型拥有巨大总参数量,但每个输入只激活少数专家。
Agent
智能体
CV
计算机视觉
blog