VideoLISA 笔记
VideoLISA 总结
论文核心问题
文章要解决的是:给定一个视频和一段自然语言指令,输出该目标在整段视频中所有帧的像素级分割结果。
这里的语言指令不是简单类别词,而是可能包含:
* 隐式意图
* 世界知识
* 时序关系
* 动作与行为描述
所以这个任务不只是普通的 RVOS / VOS,而是更难的 language-instructed reasoning segmentation in videos。
现有方法的问题
图像推理分割方法(如 LISA)的问题
它们在图像上可以做“语言推理 + 分割”,但直接迁移到视频会遇到两个核心困难:
1. 视频多了时间维度

