超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

AI最新资讯3个月前发布 tree
30 0 0

今日应用


今日话题


超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
 

重点标签 多模态理解视觉语言模型区域级任务动态分辨率中国科学院大学

文章摘要


本文介绍了一种名为DynRefer的新型区域级多模态理解方法,由中国科学院大学LAMP实验室的研究团队提出。DynRefer通过模拟人类视觉认知过程中的动态分辨率机制,实现了对图像区域的高精度理解和描述。该方法在多个任务上取得了显著的性能提升,特别是在RefCOCOg数据集的区域级字幕生成任务中,以较小的模型规模(4.2B参数)超越了CVPR 2024中的其他方法,如RegionGPT、GlaMM、Alpha-CLIP和Osprey等。

DynRefer的核心思想是构建多个均匀分辨率的视图来模拟动态分辨率图像,其中指代区域具有高分辨率,而非指代区域则为低分辨率。在训练过程中,模型从候选视图中随机选择多个视图,以模拟人类视觉的注视和眼球运动。这些视图通过CLIP编码器转换为空间特征,并通过RoI-Align模块处理以获取区域嵌入。为了解决空间误差问题,DynRefer引入了一个对齐模块,通过计算二维偏移图来减少偏差。

此外,DynRefer采用了随机动态视图嵌入和视觉语言对齐技术,通过三个解码器分别进行图像区域标签生成、区域-文本对比学习和语言建模。在推理过程中,模型可以根据任务特性和插值系数动态调整视图,以获得最优的区域表示。

实验结果表明,DynRefer在区域字幕生成、密集字幕生成、区域属性检测和区域识别等多个任务上均取得了SOTA性能。消融实验进一步证明了随机动态多视图、信息选择视图和多任务训练的重要性。可视化结果展示了DynRefer能够同时输出区域字幕、标签、属性和类别的能力。

总的来说,DynRefer通过模拟人类视觉认知系统,为区域级多模态理解提供了一种有效的解决方案,具有重要的学术价值和应用前景。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...