VRS-HQ 笔记
《The Devil is in Temporal Token: High Quality Video Reasoning Segmentation》读文笔记
1. 文章主题
这篇文章研究的是 Video Reasoning Segmentation(VRS,视频推理分割)。
任务输入是一段视频和一句带有推理性质的文本,输出是视频中目标在每一帧上的分割 mask。
和传统的 referring video object segmentation 不同,VRS 的文本往往不是直接描述外观,而是带有 时序关系、语义推理或常识推理,例如:
* 视频最后只露出尾巴的猫
* 靠风驱动的物体
*

