LocateAnything — 让视觉语言模型更快、更准地“指到东西”
这篇论文关注一个很实际的问题:视觉语言模型不仅要会聊天,还要能在图像里准确找出“蓝色按钮”“左下角的人”“这段文字所在区域”。以前很多 VLM 把框坐标当成普通文本 token 一个个吐出来,慢,而且容易把一个框的四个坐标拆散学。LocateAnything 的核心做法是 Parallel Box Decoding:把一个框或一个点当成完整几何单元,一步并行预测出来,再配合大规模 LocateAnything-Data 训练,让定位任务同时更快、更稳。
背景铺垫
- 视觉 grounding 是“把语言落到图像位置”。 用户说“右侧红色按钮”,模型需要输出框或点,而不只是回答一段文字。
- VLM 常把坐标写成 token 序列。 一个框有四个数值,例如左上角和右下角坐标;旧方法会像写句子一样逐个生成这些 token。
- 框的四个坐标不是独立词。 它们共同描述同一个几何对象,左、上、右、下之间有强关系。拆开生成会破坏这种结构。
- 速度对交互式系统很关键。 GUI agent、机器人、在线标注工具都需要低延迟定位;一张图里目标越多,逐 token 解码越拖慢。
问题是什么
- 逐 token 坐标生成很慢。 每个坐标 token 都依赖前一个 token,模型必须串行往前走,目标框多时延迟会明显放大。
- 普通多 token 预测不懂几何边界。 如果只是随便把 token 分块并行预测,块可能跨过不同框或类别,模型会学到不可靠的组合。
- 复杂场景会放大格式错误。 多类别、多实例或密集排列的物体,容易让并行输出混入错误标签、结束符或中间位置。
- 数据覆盖不足会限制泛化。 模型要同时做检测、短语 grounding、GUI 元素定位、文字定位和文档版面理解,单一数据源不够。
核心想法
- 把“一个框”当成原子单元。 LocateAnything 不让模型随意预测几个坐标 token,而是让一个 box block 一次输出完整几何结构。
- 并行解码和结构约束一起用。 Parallel Box Decoding 保留框内部坐标的耦合关系,同时减少生成步数。
- 慢模式、快模式、混合模式各司其职。 Fast Mode 追求吞吐,Slow Mode 追求稳定,Hybrid Mode 默认快解码,发现异常时只回退问题块。
- 大数据补足任务多样性。 LocateAnything-Data 包含 1200 万图像、1.38 亿自然语言查询和 7.85 亿框标注,覆盖六类定位任务。
旧式 NTP
坐标逐 token 生成
输出方式
x1, y1, x2, y2 依次吐出
主要问题
慢,且框内部结构被拆散
→对齐结构
PBD
整框并行解码
输出方式
一个 box block 一步给出完整框
主要收益
更少步数,更符合几何关系
→按需回退
Hybrid
快解码 + 局部修正
触发条件
格式异常或空间置信度不稳
处理方式
只用 NTP 重解码问题块
方法怎么做
- 模型底座仍是 VLM。 论文使用 Moon-ViT 视觉编码器、Qwen2.5 语言解码器和 MLP projector,把图像 token 接到语言模型里。
- 输出被整理成固定长度 block。 block 类型包括 Semantic、Box、Negative 和 End,分别表示语义、框、无目标和结束。
- 训练同时保留两种格式。 一条 NTP 序列维持模型原有因果生成能力,另一条 MTP block 序列学习整块并行预测。
- 注意力 mask 控制信息流。 不同 block 之间保持因果顺序,同一 block 内部可以双向看见彼此,从而并行补齐坐标。
- 推理时只提交可信 token。 MTP 预测后,模型把有效输出放进 KV cache,丢掉 mask 和重复 anchor,保持下一步上下文干净。
输入侧
图像 + 文本查询
保留原图细节,让模型理解“找什么”和“在哪里找”。
结构侧
box-aligned block
把一个框、一段语义、一个否定结果都变成可训练的固定单元。
解码侧
Fast / Slow / Hybrid
根据速度和可靠性要求,选择并行、串行或局部回退。
新意在哪里
- 它不是简单让 VLM 多吐几个 token。 普通 MTP 按 token 数分块,PBD 按几何对象分块,训练目标和任务结构更一致。
- 它把检测和 grounding 放进统一生成框架。 同一个模型能处理物体检测、短语定位、GUI grounding、文字定位、版面分析和点定位。
- 它承认并行解码会犯错。 Hybrid Mode 没有假装快模式永远可靠,而是用格式检查和空间置信度检测触发局部 NTP 修正。
- 它配套做了大规模数据引擎。 论文用已有检测数据、未标注图像、Qwen3-VL、Molmo、SAM 3 和 Rex-Omni 构造多目标 grounding 数据。
结构无关并行
按任意 token 块切分
容易跨框、跨类别或跨语法边界,速度提高有限,准确率会掉。
结构对齐并行
按 box / point 切分
一个几何对象对应一个解码单元,坐标关系更自然,吞吐也更高。
结果速览
- LVIS 和 COCO 上速度和高 IoU 都更好。 LocateAnything-3B 达到 12.7 boxes/s,LVIS mean F1 为 50.7,COCO mean F1 为 54.7,明显高于 Rex-Omni 的 5.0 boxes/s。
- 高精度定位收益尤其明显。 在 LVIS 的 F1@IoU 0.95 上,LocateAnything-3B 是 31.1,Rex-Omni 是 20.7;这说明框更贴边。
- 消融实验支持 PBD 本身有效。 在 COCO 消融里,PBD Slow 的 F1 为 52.1,高于 textual 和 quantized 坐标表示。
- Fast Mode 速度最高,Hybrid 更均衡。 Fast Mode 达到 16.9 boxes/s、F1 49.6;Hybrid 保留 13.2 boxes/s,同时把 F1 提到 51.6。
- 目标越多,并行优势越大。 论文报告目标框从 20 增到 300 时,NTP 延迟快速上升,而 PBD 的生成时间增长很小。
局限与开放问题
- 数据引擎依赖多个强模型。 Qwen3-VL、Molmo、SAM 3、Rex-Omni 都参与自动标注和验证,数据质量会受这些模型偏差影响。
- Hybrid 的触发规则仍然是工程启发式。 例如 top-1 概率和 top-5 差值阈值可能需要随模型、分辨率和任务重新调。
- 论文主要展示定位,不等于完整视觉推理。 模型能更快更准地给框,但复杂因果推理、长期交互规划仍是另一层问题。
- 新论文还需要社区复现。 这是 2026 年 5 月刚发布的工作,代码、模型和数据开放后的独立验证会更关键。
影响
- 它给多模态 agent 一个更实用的定位接口。 如果模型能低延迟输出可靠框和点,GUI 操作、机器人抓取和在线视觉问答都会受益。
- 它把“生成式检测”的瓶颈说清楚了。 问题不只是坐标 token 化,而是 token 化后没有尊重几何对象的结构。