研究论文8 小时快讯 · 2026.06.25 12:00
VLM 视觉搜索行为与人类类比研究
用推理令牌数替代反应时间,研究 VLM 在经典视觉搜索任务中的表现
2026.06.25 · 周四约 1 分钟阅读评分 85
研究方法
该研究将经典视觉搜索范式(特征 vs 联合搜索、空间配置搜索、计数、倾斜/垂直不对称)适配到 VLM 中,利用模型每次试验的推理令牌数作为搜索努力的指标,与人类基准数据对比。
主要发现
初步结果表明,VLM 在部分任务中表现出与人类相似的行为模式(如特征搜索的并行性与联合搜索的序列性),但也存在显著差异,尤其是在需要空间推理的任务中。
意义
为理解 VLM 的视觉注意机制提供了新的行为学视角,提示推理令牌可能成为分析模型“思考深度”的有效工具。
