VideoLISA 笔记
VideoLISA 总结
论文核心问题
文章要解决的是:给定一个视频和一段自然语言指令,输出该目标在整段视频中所有帧的像素级分割结果。
这里的语言指令不是简单类别词,而是可能包含:
- 隐式意图
- 世界知识
- 时序关系
- 动作与行为描述
所以这个任务不只是普通的 RVOS / VOS,而是更难的 language-instructed reasoning segmentation in videos。
现有方法的问题
图像推理分割方法(如 LISA)的问题
它们在图像上可以做“语言推理 + 分割”,但直接迁移到视频会遇到两个核心困难:
视频多了时间维度
- 需要理解目标在时间上的运动和变化
- 需要跨帧保持一致的分割结果
单帧 prompt 不适合视频
- 只看一帧,缺少时序信息
- 容易在后续帧中漂移到别的目标上
传统视频分割方法的问题
传统 RVOS/VOS 方法虽然能做分割和跟踪,但通常:
- 对复杂语言理解能力弱
- 缺少推理能力
- 不擅长处理需要世界知识或多步理解的 query

文章的核心思路
作者想把三件事统一起来:
- 语言推理
- 视频时序理解
- 像素级分割与跟踪
整体思路是:
- 用 LLM 负责理解文本和视频语义
- 用 SAM 负责输出分割 mask
- 设计适合视频的时序建模和跨帧一致性机制
整体结构
模型由四部分组成:
- Visual Tokenizer
- LLM
- Vision Encoder
- Promptable Mask Decoder(来自 SAM)
大致流程是:
- 输入视频和文本
- 采样视频帧并编码成视觉 token
- 与文本 token 一起送入 LLM
- 让 LLM 产生一个特殊 token:
<TRK> - 取出
<TRK>的最后层表示,映射成 prompt embedding - 将这个 prompt embedding 和逐帧视觉特征送入 SAM 的 mask decoder
- 输出整段视频的分割结果
关键创新 1:Sparse Dense Sampling
要解决的问题
视频帧很多,如果每一帧都保留完整视觉 token,LLM 计算量太大。
但如果过度压缩,又会丢掉分割需要的细节。
解决办法
作者提出 Sparse Dense Sampling:
- 从视频中采样一批 sparse frames
- 再从中选少量 dense frames
- dense frames 保留完整分辨率特征
- sparse frames 只保留低分辨率特征(甚至每帧一个 token)
作用
这样就同时保留了:
- 时间上下文:靠 sparse frames
- 空间细节:靠 dense frames
本质理解
这是一个“少量关键帧保细节,其余帧保时序信息”的设计。
关键创新 2:One-Token-Seg-All
要解决的问题
视频分割不仅要分出目标,还要在整段视频里持续跟住同一个目标。
如果每一帧都单独处理,跨帧一致性很难保证。
解决办法
作者设计了一个特殊 token:<TRK>。
做法是:
- 让 LLM 根据 文本 + 视频 生成
<TRK>的语义表示 - 把
<TRK>最后一层 hidden embedding 作为 prompt embedding - 用这一个 prompt embedding 去指导所有帧的 mask 解码
也就是:
一个 token,分割整段视频
为什么这样能行
作者的直觉是:
- 在 SAM 里,decoder 本来就是“视觉特征 + prompt embedding → mask”
- 如果这个 prompt embedding 足够语义化、足够稳定
- 那它不仅可以在一张图里找目标,也可以在多帧里持续找同一个目标
关键前提
作者认为要让这个想法成立,必须满足两点:
模型要真的看过视频
- 也就是输入中有时序信息,不能只看一帧
训练时就要让
<TRK>同时负责多帧- 这样它才会学到跨帧通用的语义,而不是只记某一帧的位置
训练方式
训练数据分两类:
- 图像分割数据
- 视频分割数据
训练目标包括:
文本生成损失
分割损失
- BCE
- DICE
其中视频训练时,会在采样得到的多个 dense frames 上同时计算分割损失。
推理方式
推理时:
- 先对视频做 sparse/dense 采样
- 用 LLM 得到一个
<TRK> - 把同一个
<TRK>prompt embedding 用到所有帧 - 逐帧解码 mask
此外还可以做一个可选的后处理:
- 用 XMem++ 对 mask 做传播和优化,提高非关键帧的质量
文章提出的 Benchmark
作者构建了一个新的基准:ReasonVOS
它主要评估三类能力:
- 复杂推理
- 时序理解
- 分割的时间一致性
这是为了补现有 benchmark 的空白:以前的数据集更多考察“指代 + 分割”,但对“推理”覆盖不够。
实验结论
主要结果
VideoLISA 在多个视频任务上表现很好,包括:
- Ref-YouTube-VOS
- Ref-DAVIS-17
- MeViS
- ReasonVOS
而且在图像推理分割任务上也表现很强。
文章想证明的点
作者主要证明了三件事:
- LLM 的推理能力可以真正帮助视频分割
- Sparse Dense Sampling 比常见的视频 token 压缩策略更适合 VOS
- One-Token-Seg-All 确实能提升跨帧一致性,比逐帧 token 方案更有效
这篇文章的本质贡献
一句话概括:
把“语言推理 + 视频时序建模 + 分割跟踪”统一进一个 Video-LLM + SAM 的框架里。
具体来说,核心贡献有三个:
- 把图像推理分割扩展到了视频
- 提出适合视频分割的时序采样策略
- 提出用单个
<TRK>token 统一整段视频分割与跟踪
局限性
作者自己也承认有几个问题:
- 计算开销仍然不低
- 没有引入专门的视频 backbone
- 做成分割专家后,聊天能力会下降
一句话评价
这篇文章的关键价值不只是“做了一个视频版 LISA”,而是提出了两个非常核心的机制:
- Sparse Dense Sampling
- One-Token-Seg-All
前者解决“视频太长、token 太多”的问题,后者解决“跨帧一致性与跟踪”的问题。
TODO
- 看 XMem

