ViLLa 笔记
这篇文章做的是视频推理分割,也就是给模型一段视频和一句比较复杂的文本指令,让它不仅要看懂视频,还要结合语言去推理“目标到底是谁”,最后把这个目标在视频每一帧里分割出来。它和普通的 referring VOS 不一样,普通任务里的文本通常比较直接,比如“左边的人”或者“红色的车”,而 ViLLa 面对的是更复杂、更接近真实用户表达的描述。
这篇文章的核心目标,是解决前面一些方法在复杂视频场景里的问题。作者认为,以前的方法在简单视频上还能用,但一遇到长视频、多目标、快速运动、遮挡这些情况,就容易出问题。比如 VISA 很依赖关键帧选得准,如果一开始选错了,后面传播就会越错越多;VideoLISA

