ECCV 2024|TAPTR:让跟踪最细粒度的视觉元素像检测一样简单

AI最新资讯2个月前发布 tree
15 0 0

今日应用


今日话题


ECCV 2024|TAPTR:让跟踪最细粒度的视觉元素像检测一样简单
ECCV 2024|TAPTR:让跟踪最细粒度的视觉元素像检测一样简单
 

重点标签 视觉元素跟踪TAPTR架构ECCV 2024性能对比技术交流

文章摘要


本文介绍了两篇关于视觉元素跟踪的研究工作,这些工作被收录于ECCV 2024。研究者提出了一种新的网络架构TAPTR,将跟踪任务视为检测任务,通过将每个跟踪点视为一个visual prompt,并利用point-query和cost-volume等技术进行跟踪。TAPTR的架构简单高效,将跟踪点的建模清晰化,并基于对检测任务的深入研究,实现了高性能的跟踪效果。

TAPTR架构

TAPTR的网络架构分为三个阶段:
1. 准备阶段:使用ResNet和Transformer Encoder提取视频中每一帧的特征图,并通过双线性插值采样出描述被追踪点的特征。
2. 检测阶段:通过point-decoder检测被追踪点,包括cost-volume aggregation模块、cross-attention、point query间的交互以及temporal-attention等。
3. 滑动窗口策略:使用滑动窗口减少计算资源消耗,适应不同长度的视频,并通过window post-processing模块更新轨迹。

TAPTR性能

在TAP-Vid benchmark上的测试显示,TAPTR在各项性能指标上均达到最优,并且具有最快的速度。

TAPTRv2改进

TAPTRv2进一步探究了cost-volume的作用和替代方法,提出了Attention-based Position Update (APU),以减轻对cost-volume的依赖,同时避免了point-query的语义特征污染。APU通过将attention value转化为对point-query位置的更新,简化了模型并提高了性能。

性能对比技术交流

TAPTRv2在性能上相较于TAPTR和其他方法有显著提升。文章还提供了丰富的消融实验,验证了TAPTR中各个模块的有效性。此外,读者可以通过加入极市CV技术交流群,获取更多技术干货和资源。

点击阅读原文,了解更多计算机视觉领域的最新研究和技术动态。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...