CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

AI最新资讯5个月前发布 tree
89 0 0

今日应用


今日话题


CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
 

重点标签 Video Pose Transformer三维人体姿态估计计算效率沙漏 TokenizerHoT

文章摘要


本文介绍了一种名为Hourglass Tokenizer(HoT)的高效三维人体姿态估计框架,旨在解决现有Video Pose Transformer(VPT)模型高计算需求的问题。HoT通过剪枝和恢复策略,降低了近40%的计算量而不损失精度。该框架可以无缝集成到多种模型中,具有高度的通用性。实验结果表明,HoT在提高效率的同时,能够保持甚至提升模型性能。

研究动机:
VPT模型处理长视频序列时计算量大,限制了其发展和应用。为了提升效率,需要考虑时间感受野和视频冗余的去除。HoT框架通过Token剪枝聚类(TPC)和Token恢复注意力(TRA)模块,实现了高效的三维人体姿态估计。

模型方法:
HoT框架包括TPC和TRA两个模块。TPC模块通过聚类算法选择代表性Token,减少冗余。TRA模块则恢复详细的时空信息,实现快速推理。这两个模块可以应用于现有的VPT架构,包括seq2seq和seq2frame两种推理流程。

实验结果:
消融实验和与SOTA方法的对比显示,HoT能够有效降低计算量,同时保持或提升性能。作者还提供了demo运行,展示了HoT的实际应用效果。

小结:
HoT作为一种即插即用的框架,能够显著提升VPT的效率和性能。它的提出有望推动开发更强、更快的VPT模型。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...