CVPR’24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

AI最新资讯4个月前发布 tree

51 0 0

今日应用

LIBVIO – 海外影视资源

海外影视迷的福音，各种在线观看的海外影视资源。这里集齐了日韩剧、欧美剧、动漫剧，和其他各种剧集。各种影视资源应有其有！

今日话题

CVPR’24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

重点标签 MagNet、Mask Grounding、跨模态对齐、指代分割、细粒度语言-图像对齐

文章摘要

本文深入探讨了指代分割（RIS）领域的挑战和当前存在的问题，尤其是在细粒度语言-图像对齐方面的不足。针对这些问题，文章作者提出了一种新的方法，名为MagNet，通过引入辅助任务Mask Grounding、跨模态对齐模块和跨模态对齐损失函数，全面提升了语言和图像之间的对齐效果。

指代分割（RIS）是一项极具挑战性的多模态任务，要求算法能够同时理解精细的人类语言和视觉图像信息，并将图像中句子所指代的物体进行像素级别的分割。尽管目前最先进的 RIS 算法已经取得了显著进展，但仍然面临着模态差异的问题，即图像和文本特征的分布并未完全对齐。

文章中提出的MagNet由3个独立互补的模块组成，分别为Mask Grounding，跨模态对齐模块（CAM）和跨模态对齐损失函数（CAL）。在给定输入图像、对应的指代表达以及分割掩码的情况下，作者随机选取句子中的某些词汇，并将其替换为一个特殊的可学习掩码token。然后，训练模型来预测这些被替换词汇的实际身份。通过成功预测被掩码token的身份，模型能够理解文本中的哪些词汇对应于图像的哪些部分，从而在此过程中学习细粒度语言-图像对齐能力。

跨模态对齐模块（CAM）通过在执行语言-图像融合之前将全局上下文先验注入图像特征来增强语言-图像对齐效果。而跨模态对齐损失函数（CAL）同时考虑了像素到像素（P2P）和像素到文本（P2T）之间的对齐。

在实验中，MagNet在RefCOCO、RefCOCO+和G-Ref数据集上大幅超越了所有之前最优的算法，在整体交并比（oIoU）这项核心指标上显著提升了2.48个百分点。可视化结果也证实，MagNet在处理复杂场景和语言表达时具有出色的表现。

这篇文章为指代分割领域的进一步发展提供了有益的启示，有望推动该领域取得更大的突破。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR’24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

今日应用

今日话题

文章摘要

文章来源

任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM

CVPR'24｜DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型

相关文章

暂无评论

热门网址

热门标签

CVPR’24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

今日应用

今日话题

文章摘要

文章来源

任意模态输入输出？语音/文本/图像/音乐都拿下！ 复旦提出AnyGPT：序列建模的统一多模态 LLM

CVPR'24｜DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型

相关文章

暂无评论

热门网址

热门标签

任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM