VISA 笔记
VISA 论文简记
1. 这篇文章做了什么
这篇文章提出了一个新任务:ReasonVOS(推理式视频目标分割)。
和传统 VOS / Referring VOS 不一样的地方在于:
它不是分割那种“外观很明确”的目标,而是分割需要推理才能确定的目标,比如:
* 哪辆车最可能赢
* 哪个交通工具载客量最大
* 那只狗害怕什么
也就是说,这篇文章想做的是:
把“视频理解 + 世界知识推理 + 像素级分割”结合起来。
2. 核心思路
作者提出了一个框架:VISA
全流程可以概括成:
1
2
3
4
5
文本指令 + 视频
→ 找关键帧
→ 用多模态 LLM 推理目标是

