VLM 视觉搜索行为与人类类比研究

研究方法

该研究将经典视觉搜索范式（特征 vs 联合搜索、空间配置搜索、计数、倾斜/垂直不对称）适配到 VLM 中，利用模型每次试验的推理令牌数作为搜索努力的指标，与人类基准数据对比。

初步结果表明，VLM 在部分任务中表现出与人类相似的行为模式（如特征搜索的并行性与联合搜索的序列性），但也存在显著差异，尤其是在需要空间推理的任务中。

为理解 VLM 的视觉注意机制提供了新的行为学视角，提示推理令牌可能成为分析模型“思考深度”的有效工具。