CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

AI最新资讯5个月前发布 tree

89 0 0

今日应用

耳聆网

耳聆网是中国最专业的声音分享平台，汇聚了国内众多专业录音师和业余声音爱好者，拥有庞大的声音资源云库和完善的版权保护及授权机制，满足音乐创作、影视后期、游戏配乐等领域的音频素材需求。

今日话题

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

重点标签 Video Pose Transformer、三维人体姿态估计、计算效率、沙漏 Tokenizer、HoT

文章摘要

本文介绍了一种名为Hourglass Tokenizer（HoT）的高效三维人体姿态估计框架，旨在解决现有Video Pose Transformer（VPT）模型高计算需求的问题。HoT通过剪枝和恢复策略，降低了近40%的计算量而不损失精度。该框架可以无缝集成到多种模型中，具有高度的通用性。实验结果表明，HoT在提高效率的同时，能够保持甚至提升模型性能。

研究动机：
VPT模型处理长视频序列时计算量大，限制了其发展和应用。为了提升效率，需要考虑时间感受野和视频冗余的去除。HoT框架通过Token剪枝聚类（TPC）和Token恢复注意力（TRA）模块，实现了高效的三维人体姿态估计。

模型方法：
HoT框架包括TPC和TRA两个模块。TPC模块通过聚类算法选择代表性Token，减少冗余。TRA模块则恢复详细的时空信息，实现快速推理。这两个模块可以应用于现有的VPT架构，包括seq2seq和seq2frame两种推理流程。

实验结果：
消融实验和与SOTA方法的对比显示，HoT能够有效降低计算量，同时保持或提升性能。作者还提供了demo运行，展示了HoT的实际应用效果。

小结：
HoT作为一种即插即用的框架，能够显著提升VPT的效率和性能。它的提出有望推动开发更强、更快的VPT模型。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

今日应用

今日话题

文章摘要

文章来源

全日程发布｜Sora之后的视频生成技术与应用

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果

相关文章

暂无评论

热门网址

热门标签