开源性能最强！中大和美团提出OV-DINO：语言感知的开放域目标检测方法！

今日应用

度加创作工具是一个百度出品的、人人可用的AIGC创作平台。度加致力于通过AI能力降低内容生成门槛，提升创作效率，一站式聚合百度AIGC能力，引领跨时代的内容生产方式。度加的主要功能包括AI成片（图文成片/文字成片）、AI数字人等。自2022年3月百家号开放内测以来，一年时间共计超过45万+百度创作者使用AIGC技术能力，创作700万篇+作品，百度累计分发量超过200亿+。

今日话题

开源性能最强！中大和美团提出OV-DINO：语言感知的开放域目标检测方法！

重点标签 中山大学、OV-DINO、开放域检测、SOTA、视觉语言理解

文章摘要

摘要：
中山大学和美团联合提出一种新型的开放域检测方法OV-DINO，该方法通过语言感知选择性融合和统一数据集成，实现了在开放域检测任务中的显著性能提升。OV-DINO在COCO和LVIS基准测试中取得了优于现有最先进方法的成绩，特别是在零样本评估中，相比Grounding-DINO在COCO上提升了2.5% AP，在LVIS上提升了12.7% AP。该模型的代码和论文已经开源，项目和在线Demo的链接也已提供。

1. 亮点：
– OV-DINO是一种统一的开放域检测方法，为实际应用提供了出色的性能和效果。
– 该方法提出了统一的数据集成管道和语言感知选择性融合模块，有效提高了模型的视觉语言理解能力。

2. 摘要：
开放域检测任务需要模型能够检测基于类名的对象，包括在训练过程中未遇到的类名。现有方法通过在大规模数据集上预训练展示出强大的零样本检测能力。然而，这些方法仍面临如何高效整合多样数据源和如何有效利用语言感知能力进行区域级跨模态理解的挑战。OV-DINO通过统一框架中的语言感知选择性融合，解决了这些挑战，在COCO和LVIS基准数据集上取得了显著的性能提升。

3. 方法：
OV-DINO模型包括文本编码器、图像编码器和检测头，通过特定模板创建统一的文本嵌入表示。模型利用统一数据集成（UniDI）流程整合多样化数据源进行端到端预训练，并引入语言感知选择性融合（LASF）模块优化跨模态语义对齐。预训练阶段采用检测中心的数据格式，允许在统一框架内进行预训练。

4. 实验：
OV-DINO使用Swin Transformer作为图像编码器，BERT-base作为文本编码器，通过UniDI流程整合了多样化的数据源进行预训练。在COCO和LVIS基准数据集上进行评估，结果显示在零样本评估中取得了优异的性能。消融实验进一步证明了UniDI和LASF模块对性能提升的贡献。

5. 可视化结果：
可视化结果展示了OV-DINO在COCO和LVIS数据集上强大的零样本泛化能力，尤其是在长尾类别上的性能。

6. 结论：
OV-DINO通过语言感知的选择性融合和统一数据集成显著提高了检测性能，在COCO和LVIS基准测试中实现了超越现有最先进方法的性能。尽管存在挑战和局限性，如模型扩展性和计算资源需求，但OV-DINO为开放域检测提供了一种新颖的视角，并期望能激励未来在开放域视觉任务中更有效地利用语言感知跨模态信息的探索。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

开源性能最强！中大和美团提出OV-DINO：语言感知的开放域目标检测方法！

今日应用

今日话题

文章摘要

文章来源

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

相关文章

暂无评论

热门网址

热门标签