Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

AI最新资讯2个月前发布 tree

16 0 0

今日应用

千图网

千图网-免费在线设计图片素材网站-正版商用素材图库模板大全

今日话题

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

重点标签 CLIP、自监督学习、视觉感知、多模态任务、扩散模型、DIVA框架

文章摘要

本文介绍了一篇名为`Diffusion Feedback Helps CLIP See Better`的论文，该论文提出了一种通过自监督学习来提升CLIP（对比语言-图像预训练）模型视觉感知能力的解决方案。CLIP模型虽然在跨领域和跨模态任务中表现出色，但在细粒度视觉感知方面存在不足。为了解决这一问题，研究者们提出了DIVA框架，利用扩散模型的生成反馈来优化CLIP的表征。

CLIP模型在零样本任务中表现出色，但存在难以准确理解长文本和辨别相似图像中细微差异的问题。感知视觉细节的能力对于基础模型至关重要，而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的模型表现。因此，研究者们通过自监督学习范式，使用扩散模型的生成反馈来优化CLIP的表征。

DIVA框架的核心思想是将CLIP模型与预训练的扩散模型结合，通过自监督扩散过程来克服CLIP的视觉缺陷。具体来说，CLIP模型编码原始图像的视觉特征，这些特征与扩散模型文本编码器的空文本嵌入结合，为扩散过程提供条件。扩散模型尝试预测添加的噪声，通过最小化重建损失来优化CLIP的表征。这种方法不需要额外的文本标注数据，只需纯图片数据即可。

实验结果表明，DIVA能够有效提升CLIP模型在视觉细粒度感知方面的能力，同时保持CLIP原本优秀的泛化性能。在多模态理解和视觉感知任务上，DIVA能够显著提升基于CLIP的大型多模态语言模型和视觉模型的性能。

尽管DIVA取得了显著的成果，但仍存在一些局限性，如数据和模型规模可进一步扩展。未来的研究方向包括结合更细粒度的监督方案提升CLIP模型能力，扩展至其他模态数据，以及发展基于扩散模型的更通用、更强大的框架。

点击阅读原文，了解更多关于CLIP、自监督学习、视觉感知和多模态任务的技术干货。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

今日应用

今日话题

文章摘要

文章来源

OpenDevin出技术报告了，大模型Agent开发者必读

开源性能最强！中大和美团提出OV-DINO：语言感知的开放域目标检测方法！

相关文章

暂无评论

热门网址

热门标签