ECCV 2024|美团提出UniMD:语言描述视频定位与动作检测的大一统

AI最新资讯1个月前发布 tree
13 0 0

今日应用


今日话题


ECCV 2024|美团提出UniMD:语言描述视频定位与动作检测的大一统
ECCV 2024|美团提出UniMD:语言描述视频定位与动作检测的大一统
 

重点标签 Temporal Action DetectionMoment RetrievalUnified ArchitectureQuery-Dependent DecodersTask Fusion Learning

文章摘要


本文提出了一个名为UniMD的统一架构,用于同时处理时序动作检测(Temporal Action Detection, TAD)和时刻检索(Moment Retrieval, MR)任务。UniMD将TAD的动作和MR的事件转换到共同的嵌入空间,并采用查询依赖解码器生成分类得分和时间边界输出。通过任务融合学习,包括预训练和共同训练,UniMD在Ego4D、Charades-STA和ActivityNet数据集上取得了优异的性能。

问题引入:TAD和MR虽然关注不同事件,但存在显著联系。现有工作将它们视为独立任务,本文探讨它们是否能够通过融合受益。

统一架构UniMD:UniMD设计了一个统一的任务输入和输出范式,使用预训练的图像-文本模型转换查询为文本嵌入,通过查询依赖的分类头和回归头生成统一的分类得分和时间边界。

任务融合学习:探索了预训练和共同训练两种方法,发现同步任务采样的共同训练能显著提升两个任务的性能。

实验结果:UniMD在多个数据集上实现了最先进的性能,证实了任务融合学习的有效性。

实现细节:UniMD的架构包括文本编码器、视觉编码器和两个查询依赖的解码器。损失函数采用多路二值分类损失和距离回归损失的加权和。

任务融合学习的影响:预训练和共同训练的实验表明,共同训练特别是同步任务采样能显著提升TAD和MR任务的性能。

消融实验:对回归头、任务统一学习、损失权重和数据量的影响进行了研究,证明了所提出方法的有效性。

与SOTA比较:UniMD在Ego4D、Charades、Charades-STA和ActivityNet数据集上与现有最先进方法相比,展现出卓越的性能。

本文总结:UniMD通过统一架构和任务融合学习,有效地提高了TAD和MR任务的性能,证实了两者融合的互惠潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...