开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!

AI最新资讯2个月前发布 tree
13 0 0

今日应用


今日话题


开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!
开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!
 

重点标签 中山大学OV-DINO开放域检测SOTA视觉语言理解

文章摘要


摘要:
中山大学和美团联合提出一种新型的开放域检测方法OV-DINO,该方法通过语言感知选择性融合和统一数据集成,实现了在开放域检测任务中的显著性能提升。OV-DINO在COCO和LVIS基准测试中取得了优于现有最先进方法的成绩,特别是在零样本评估中,相比Grounding-DINO在COCO上提升了2.5% AP,在LVIS上提升了12.7% AP。该模型的代码和论文已经开源,项目和在线Demo的链接也已提供。

1. 亮点:
OV-DINO是一种统一的开放域检测方法,为实际应用提供了出色的性能和效果。
– 该方法提出了统一的数据集成管道和语言感知选择性融合模块,有效提高了模型的视觉语言理解能力。

2. 摘要:
开放域检测任务需要模型能够检测基于类名的对象,包括在训练过程中未遇到的类名。现有方法通过在大规模数据集上预训练展示出强大的零样本检测能力。然而,这些方法仍面临如何高效整合多样数据源和如何有效利用语言感知能力进行区域级跨模态理解的挑战。OV-DINO通过统一框架中的语言感知选择性融合,解决了这些挑战,在COCO和LVIS基准数据集上取得了显著的性能提升。

3. 方法:
OV-DINO模型包括文本编码器、图像编码器和检测头,通过特定模板创建统一的文本嵌入表示。模型利用统一数据集成(UniDI)流程整合多样化数据源进行端到端预训练,并引入语言感知选择性融合(LASF)模块优化跨模态语义对齐。预训练阶段采用检测中心的数据格式,允许在统一框架内进行预训练。

4. 实验:
OV-DINO使用Swin Transformer作为图像编码器,BERT-base作为文本编码器,通过UniDI流程整合了多样化的数据源进行预训练。在COCO和LVIS基准数据集上进行评估,结果显示在零样本评估中取得了优异的性能。消融实验进一步证明了UniDI和LASF模块对性能提升的贡献。

5. 可视化结果:
可视化结果展示了OV-DINO在COCO和LVIS数据集上强大的零样本泛化能力,尤其是在长尾类别上的性能。

6. 结论:
OV-DINO通过语言感知的选择性融合和统一数据集成显著提高了检测性能,在COCO和LVIS基准测试中实现了超越现有最先进方法的性能。尽管存在挑战和局限性,如模型扩展性和计算资源需求,但OV-DINO为开放域检测提供了一种新颖的视角,并期望能激励未来在开放域视觉任务中更有效地利用语言感知跨模态信息的探索。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...