ECCV 2024｜TAPTR：让跟踪最细粒度的视觉元素像检测一样简单

AI最新资讯2个月前发布 tree

15 0 0

今日应用

YOO简历

"YOO简历 - 智能匹配岗位的个人求职简历模板，免费下载，助您快速踏入职业成功之路！

今日话题

ECCV 2024｜TAPTR：让跟踪最细粒度的视觉元素像检测一样简单

重点标签 视觉元素跟踪、TAPTR架构、ECCV 2024、性能对比、技术交流

文章摘要

本文介绍了两篇关于视觉元素跟踪的研究工作，这些工作被收录于ECCV 2024。研究者提出了一种新的网络架构TAPTR，将跟踪任务视为检测任务，通过将每个跟踪点视为一个visual prompt，并利用point-query和cost-volume等技术进行跟踪。TAPTR的架构简单高效，将跟踪点的建模清晰化，并基于对检测任务的深入研究，实现了高性能的跟踪效果。

TAPTR架构

TAPTR的网络架构分为三个阶段：
1. 准备阶段：使用ResNet和Transformer Encoder提取视频中每一帧的特征图，并通过双线性插值采样出描述被追踪点的特征。
2. 检测阶段：通过point-decoder检测被追踪点，包括cost-volume aggregation模块、cross-attention、point query间的交互以及temporal-attention等。
3. 滑动窗口策略：使用滑动窗口减少计算资源消耗，适应不同长度的视频，并通过window post-processing模块更新轨迹。

TAPTR性能

在TAP-Vid benchmark上的测试显示，TAPTR在各项性能指标上均达到最优，并且具有最快的速度。

TAPTRv2改进

TAPTRv2进一步探究了cost-volume的作用和替代方法，提出了Attention-based Position Update (APU)，以减轻对cost-volume的依赖，同时避免了point-query的语义特征污染。APU通过将attention value转化为对point-query位置的更新，简化了模型并提高了性能。

性能对比与技术交流

TAPTRv2在性能上相较于TAPTR和其他方法有显著提升。文章还提供了丰富的消融实验，验证了TAPTR中各个模块的有效性。此外，读者可以通过加入极市CV技术交流群，获取更多技术干货和资源。

点击阅读原文，了解更多计算机视觉领域的最新研究和技术动态。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV 2024｜TAPTR：让跟踪最细粒度的视觉元素像检测一样简单

今日应用

今日话题

文章摘要

TAPTR架构

TAPTR性能

TAPTRv2改进

性能对比与技术交流

文章来源

还没排上SearchGPT？比Perplexity更好用的国产开源平替了解一下？

CVPR 2024｜基于VR上半身稀疏信号的全身动作生成框架

相关文章

暂无评论

热门网址

热门标签