VideoLISA 总结 论文核心问题 文章要解决的是:给定一个视频和一段自然语言指令,输出该目标在整段视频中所有帧的像素级分割结果。 这里的语言指令不是简单类别词,而是可能包含: * 隐式意图 * 世界知识 * 时序关系 * 动作与行为描述 所以这个任务不只是普通的 RVOS / VOS,而是更难的 language-instructed reasoning segmentation in videos。 现有方法的问题 图像推理分割方法(如 LISA)的问题 它们在图像上可以做“语言推理 + 分割”,但直接迁移到视频会遇到两个核心困难: 1. 视频多了时间维度

Read More

今年过年回家,感觉格外地忙。跑东跑西的吃饭,还有很多小事儿,加上放假时间也短,搞科研应该是行不通了。趁这个时间搞了个个人网站出来,以后就有地方可以写博客了。大概是年初三开始研究,初五初六做完了,一共耗时6个小时,这里把具体的过程写在这里,给有需要的同学参考。 选域名 说到做网页,尤其是做个人网页,第一件事肯定是选域名,我是在GoDaddy上买的域名,也可以在Namecheap之类的域名网站买,尽量找大一些的网站。 我在检索的时候发现没有rendawei.com了,在rendawei1210.com、rendawei.me和rendawei.dev这三个域名中纠结了蛮久的,最后选了最便宜的.

Read More

面向 Ubuntu 20.04 / 22.04 + NVIDIA 2080 Ti × 8 服务器,从显卡驱动到 Conda 环境及 多用户协同规范 一篇搞定。 目录 1. 选择 Miniconda 的理由 2. 系统前置:驱动与 CUDA 3. 下载并安装 Miniconda 4. 首次启动与基础配置 5. 配置国内镜像.condarc 6. CUDA Toolkit & cuDNN 安装方案 7. 创建深度学习环境示例 8. 多 GPU 调优要点 9. 多人协作与 GPU 使用公约 10. 环境管理速查表 11. 提速技巧与最佳实践 12. 常见问

Read More