ECCV 2024｜美团提出UniMD：语言描述视频定位与动作检测的大一统

AI最新资讯1个月前发布 tree

13 0 0

今日应用

千禾智能

千禾智能，让视频处理变得轻松高效，通过先进AI技术提供专业水平的在线视频处理服务。

今日话题

ECCV 2024｜美团提出UniMD：语言描述视频定位与动作检测的大一统

重点标签 Temporal Action Detection、Moment Retrieval、Unified Architecture、Query-Dependent Decoders、Task Fusion Learning

文章摘要

本文提出了一个名为UniMD的统一架构，用于同时处理时序动作检测（Temporal Action Detection, TAD）和时刻检索（Moment Retrieval, MR）任务。UniMD将TAD的动作和MR的事件转换到共同的嵌入空间，并采用查询依赖解码器生成分类得分和时间边界输出。通过任务融合学习，包括预训练和共同训练，UniMD在Ego4D、Charades-STA和ActivityNet数据集上取得了优异的性能。

问题引入：TAD和MR虽然关注不同事件，但存在显著联系。现有工作将它们视为独立任务，本文探讨它们是否能够通过融合受益。

统一架构UniMD：UniMD设计了一个统一的任务输入和输出范式，使用预训练的图像-文本模型转换查询为文本嵌入，通过查询依赖的分类头和回归头生成统一的分类得分和时间边界。

任务融合学习：探索了预训练和共同训练两种方法，发现同步任务采样的共同训练能显著提升两个任务的性能。

实验结果：UniMD在多个数据集上实现了最先进的性能，证实了任务融合学习的有效性。

实现细节：UniMD的架构包括文本编码器、视觉编码器和两个查询依赖的解码器。损失函数采用多路二值分类损失和距离回归损失的加权和。

任务融合学习的影响：预训练和共同训练的实验表明，共同训练特别是同步任务采样能显著提升TAD和MR任务的性能。

消融实验：对回归头、任务统一学习、损失权重和数据量的影响进行了研究，证明了所提出方法的有效性。

与SOTA比较：UniMD在Ego4D、Charades、Charades-STA和ActivityNet数据集上与现有最先进方法相比，展现出卓越的性能。

本文总结：UniMD通过统一架构和任务融合学习，有效地提高了TAD和MR任务的性能，证实了两者融合的互惠潜力。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV 2024｜美团提出UniMD：语言描述视频定位与动作检测的大一统

今日应用

今日话题

文章摘要

文章来源

神经网络学不会正弦波，也做不到一切

泄露！Apple Intelligence提示词原来是这样，还告诉大模型：别幻觉

相关文章

暂无评论

热门网址

热门标签