CVPR 2024|CLIP当成RNN!牛津&谷歌新作CaR:无需训练即可分割无数概念

AI最新资讯3个月前发布 tree
36 0 0

今日应用


今日话题


CVPR 2024CLIP当成RNN!牛津&谷歌新作CaR:无需训练即可分割无数概念
CVPR 2024|CLIP当成RNN!牛津&谷歌新作CaR:无需训练即可分割无数概念
 

重点标签 牛津大学谷歌研究院CLIPCVPR 2024图像分割

文章摘要


CaR技术细节包括:
1. 循环神经网络框架:CaR采用了一个新颖的循环框架,通过迭代过程不断优化文本查询与图像之间的对应关系。
2. 两阶段分割器:由掩膜提议生成器和掩膜分类器组成,均基于预训练的CLIP模型构建,且权重在迭代过程中保持不变。
3. 掩膜提议生成:使用gradCAM技术,基于图像和文本特征的相似度得分来生成掩膜提议。
4. 视觉提示:应用如红圈、背景模糊等视觉提示,以增强模型对图像特定区域的关注。
5. 阈值函数:通过设置相似度阈值,筛选出与文本查询对齐程度高的掩膜提议。
6. 后处理:使用密集条件随机场(CRF)和可选的SAM模型进行掩膜细化。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性,为开放词汇量图像分割领域带来了突破性进展。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...