arXivPDF

LocateAnything — 让视觉语言模型更快、更准地“指到东西”

这篇论文关注一个很实际的问题:视觉语言模型不仅要会聊天,还要能在图像里准确找出“蓝色按钮”“左下角的人”“这段文字所在区域”。以前很多 VLM 把框坐标当成普通文本 token 一个个吐出来,慢,而且容易把一个框的四个坐标拆散学。LocateAnything 的核心做法是 Parallel Box Decoding:把一个框或一个点当成完整几何单元,一步并行预测出来,再配合大规模 LocateAnything-Data 训练,让定位任务同时更快、更稳。

背景铺垫

问题是什么

核心想法

旧式 NTP

坐标逐 token 生成
输出方式
x1, y1, x2, y2 依次吐出
主要问题
慢,且框内部结构被拆散
对齐结构

PBD

整框并行解码
输出方式
一个 box block 一步给出完整框
主要收益
更少步数,更符合几何关系
按需回退

Hybrid

快解码 + 局部修正
触发条件
格式异常或空间置信度不稳
处理方式
只用 NTP 重解码问题块

方法怎么做

输入侧

图像 + 文本查询
保留原图细节,让模型理解“找什么”和“在哪里找”。

结构侧

box-aligned block
把一个框、一段语义、一个否定结果都变成可训练的固定单元。

解码侧

Fast / Slow / Hybrid
根据速度和可靠性要求,选择并行、串行或局部回退。

新意在哪里

结构无关并行

按任意 token 块切分
容易跨框、跨类别或跨语法边界,速度提高有限,准确率会掉。

结构对齐并行

按 box / point 切分
一个几何对象对应一个解码单元,坐标关系更自然,吞吐也更高。

结果速览

局限与开放问题

影响