CVPR 2024｜PromptKD: 基于Prompt的视觉语言模型蒸馏

AI最新资讯5个月前发布 tree

60 0 0

今日应用

觅元素

觅元素专注于提供高质量版权素材图片免费下载的网站，提供优质png素材、高清背景素材、图片素材、设计素材，找高质量版权素材就来觅元素.

今日话题

CVPR 2024｜PromptKD: 基于Prompt的视觉语言模型蒸馏

重点标签 PromptKD、视觉语言模型、模型蒸馏、Prompt Learning、SOTA

文章摘要

摘要：
PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法，它在11个Prompt Learning基准数据集上取得了最先进的性能（SOTA）。该方法通过引入大型CLIP模型作为教师模型，解决了文本特征质量、模型监督和数据量限制的问题。PromptKD的核心思想是重用教师模型生成的文本特征，对齐学生模型和教师模型的logits，并使用大量无标签领域数据进行训练。实验结果表明，PromptKD在多个数据集上都取得了优异的性能，并且在教师模型预训练方法的选择上具有灵活性。

详细介绍：
1. PromptKD方法：PromptKD通过使用大型CLIP模型（教师）来指导小型CLIP模型（学生）的训练，从而提高了学生模型的性能。教师模型的文本特征被重用于学生模型的训练和推断，确保了高质量的文本特征，同时减少了计算量。学生模型的图像特征与教师模型的文本特征通过一个投影器对齐，然后相乘得到预测logits。

2. 实验结果：PromptKD在11个benchmark数据集上取得了SOTA性能，包括base-to-novel和cross-dataset实验。消融实验和与其他使用无标签数据的方法的对比也证明了PromptKD的有效性。

3. 问题解答：文章提供了关于PromptKD的一些常见问题解答，包括对小型CLIP模型的适配、教师模型预训练的选择、硬件需求和蒸馏阶段数据标签的处理。

4. 贡献与致谢：PromptKD的工作得到了蚂蚁集团的申书恒、张长浩和傅幸等人的讨论和帮助，作者对他们表示感谢。

结论：
PromptKD为视觉语言模型的蒸馏提供了一种有效的新方法，能够在多个数据集上取得优异的性能，并且具有很好的灵活性和适应性。该方法的成功展示了基于prompt的方法在视觉语言模型领域的潜力和应用前景。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024｜PromptKD: 基于Prompt的视觉语言模型蒸馏

今日应用

今日话题

文章摘要

文章来源

由近期 RAGFlow 的火爆看 RAG 的现状与未来

CVPR 2024｜拖拽P图又双叒升级了！DragNoise实现更快更准的拖拽编辑

相关文章

暂无评论

热门网址

热门标签