LocateAnything — 让视觉语言模型更快、更准地“指到东西”

这篇论文关注一个很实际的问题：视觉语言模型不仅要会聊天，还要能在图像里准确找出“蓝色按钮”“左下角的人”“这段文字所在区域”。以前很多 VLM 把框坐标当成普通文本 token 一个个吐出来，慢，而且容易把一个框的四个坐标拆散学。LocateAnything 的核心做法是 Parallel Box Decoding：把一个框或一个点当成完整几何单元，一步并行预测出来，再配合大规模 LocateAnything-Data 训练，让定位任务同时更快、更稳。

背景铺垫

视觉 grounding 是“把语言落到图像位置”。 用户说“右侧红色按钮”，模型需要输出框或点，而不只是回答一段文字。
VLM 常把坐标写成 token 序列。 一个框有四个数值，例如左上角和右下角坐标；旧方法会像写句子一样逐个生成这些 token。
框的四个坐标不是独立词。 它们共同描述同一个几何对象，左、上、右、下之间有强关系。拆开生成会破坏这种结构。
速度对交互式系统很关键。 GUI agent、机器人、在线标注工具都需要低延迟定位；一张图里目标越多，逐 token 解码越拖慢。

问题是什么

逐 token 坐标生成很慢。 每个坐标 token 都依赖前一个 token，模型必须串行往前走，目标框多时延迟会明显放大。
普通多 token 预测不懂几何边界。 如果只是随便把 token 分块并行预测，块可能跨过不同框或类别，模型会学到不可靠的组合。
复杂场景会放大格式错误。 多类别、多实例或密集排列的物体，容易让并行输出混入错误标签、结束符或中间位置。
数据覆盖不足会限制泛化。 模型要同时做检测、短语 grounding、GUI 元素定位、文字定位和文档版面理解，单一数据源不够。

核心想法

把“一个框”当成原子单元。 LocateAnything 不让模型随意预测几个坐标 token，而是让一个 box block 一次输出完整几何结构。
并行解码和结构约束一起用。 Parallel Box Decoding 保留框内部坐标的耦合关系，同时减少生成步数。
慢模式、快模式、混合模式各司其职。 Fast Mode 追求吞吐，Slow Mode 追求稳定，Hybrid Mode 默认快解码，发现异常时只回退问题块。
大数据补足任务多样性。 LocateAnything-Data 包含 1200 万图像、1.38 亿自然语言查询和 7.85 亿框标注，覆盖六类定位任务。

旧式 NTP

坐标逐 token 生成

输出方式

x1, y1, x2, y2 依次吐出

主要问题

慢，且框内部结构被拆散

→对齐结构

PBD

整框并行解码

输出方式

一个 box block 一步给出完整框

主要收益

更少步数，更符合几何关系

→按需回退

Hybrid

快解码 + 局部修正

触发条件

格式异常或空间置信度不稳

处理方式

只用 NTP 重解码问题块

方法怎么做

模型底座仍是 VLM。 论文使用 Moon-ViT 视觉编码器、Qwen2.5 语言解码器和 MLP projector，把图像 token 接到语言模型里。
输出被整理成固定长度 block。 block 类型包括 Semantic、Box、Negative 和 End，分别表示语义、框、无目标和结束。
训练同时保留两种格式。 一条 NTP 序列维持模型原有因果生成能力，另一条 MTP block 序列学习整块并行预测。
注意力 mask 控制信息流。 不同 block 之间保持因果顺序，同一 block 内部可以双向看见彼此，从而并行补齐坐标。
推理时只提交可信 token。 MTP 预测后，模型把有效输出放进 KV cache，丢掉 mask 和重复 anchor，保持下一步上下文干净。

输入侧

图像 + 文本查询

保留原图细节，让模型理解“找什么”和“在哪里找”。

结构侧

box-aligned block

把一个框、一段语义、一个否定结果都变成可训练的固定单元。

解码侧

Fast / Slow / Hybrid

根据速度和可靠性要求，选择并行、串行或局部回退。

新意在哪里

它不是简单让 VLM 多吐几个 token。 普通 MTP 按 token 数分块，PBD 按几何对象分块，训练目标和任务结构更一致。
它把检测和 grounding 放进统一生成框架。 同一个模型能处理物体检测、短语定位、GUI grounding、文字定位、版面分析和点定位。
它承认并行解码会犯错。 Hybrid Mode 没有假装快模式永远可靠，而是用格式检查和空间置信度检测触发局部 NTP 修正。
它配套做了大规模数据引擎。 论文用已有检测数据、未标注图像、Qwen3-VL、Molmo、SAM 3 和 Rex-Omni 构造多目标 grounding 数据。

结构无关并行

按任意 token 块切分

容易跨框、跨类别或跨语法边界，速度提高有限，准确率会掉。

结构对齐并行

按 box / point 切分

一个几何对象对应一个解码单元，坐标关系更自然，吞吐也更高。

结果速览

LVIS 和 COCO 上速度和高 IoU 都更好。 LocateAnything-3B 达到 12.7 boxes/s，LVIS mean F1 为 50.7，COCO mean F1 为 54.7，明显高于 Rex-Omni 的 5.0 boxes/s。
高精度定位收益尤其明显。 在 LVIS 的 F1@IoU 0.95 上，LocateAnything-3B 是 31.1，Rex-Omni 是 20.7；这说明框更贴边。
消融实验支持 PBD 本身有效。 在 COCO 消融里，PBD Slow 的 F1 为 52.1，高于 textual 和 quantized 坐标表示。
Fast Mode 速度最高，Hybrid 更均衡。 Fast Mode 达到 16.9 boxes/s、F1 49.6；Hybrid 保留 13.2 boxes/s，同时把 F1 提到 51.6。
目标越多，并行优势越大。 论文报告目标框从 20 增到 300 时，NTP 延迟快速上升，而 PBD 的生成时间增长很小。

局限与开放问题

数据引擎依赖多个强模型。 Qwen3-VL、Molmo、SAM 3、Rex-Omni 都参与自动标注和验证，数据质量会受这些模型偏差影响。
Hybrid 的触发规则仍然是工程启发式。 例如 top-1 概率和 top-5 差值阈值可能需要随模型、分辨率和任务重新调。
论文主要展示定位，不等于完整视觉推理。 模型能更快更准地给框，但复杂因果推理、长期交互规划仍是另一层问题。
新论文还需要社区复现。 这是 2026 年 5 月刚发布的工作，代码、模型和数据开放后的独立验证会更关键。

影响

它给多模态 agent 一个更实用的定位接口。 如果模型能低延迟输出可靠框和点，GUI 操作、机器人抓取和在线视觉问答都会受益。
它把“生成式检测”的瓶颈说清楚了。 问题不只是坐标 token 化，而是 token 化后没有尊重几何对象的结构。