CVPR 2024｜让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

AI最新资讯5个月前发布 tree

83 0 0

今日应用

Musicca

Musicca通过有效的音乐理论练习和互动工具提高您的阅读，写作和演奏音乐的能力。永远免费。

今日话题

CVPR 2024｜让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT
CVPR 2024｜让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

重点标签 视频、姿态、估计、计算、优化

文章摘要

摘要：
本文介绍了一种名为Hourglass Tokenizer（HoT）的高效三维人体姿态估计框架，由北京大学团队提出，旨在解决现有视频姿态Transformer（VPT）模型高计算需求的问题。HoT框架通过剪枝和恢复策略，降低了模型近40%的计算量，同时几乎不损失精度。该框架可以无缝集成到MHFormer、MixSTE、MotionBERT等模型中，并且代码已经开源。

研究动机：
VPT模型处理长视频序列时计算量大，限制了领域发展。为了提升VPT效率，需要考虑时间感受野和去除视频冗余。HoT框架通过深层Transformer的Pose Token剪枝和Seq2seq推理，解决了计算效率和精度的问题。

模型方法：
HoT框架包含Token剪枝聚类（TPC）和Token恢复注意力（TRA）两个模块。TPC模块选择具有代表性的Token以减少冗余，TRA模块恢复详细的时空信息以实现快速推理。这两个模块可以集成到现有的VPT模型中，支持seq2seq和seq2frame推理流程。

实验结果：
消融实验表明，HoT框架在保持模型参数量几乎不变的情况下，显著减少了FLOPs并提高了FPS。与SOTA方法比较，HoT在保持精度的同时显著降低了计算量，验证了其有效性和高效率。

代码运行：
作者提供了demo运行，集成了人体检测器和姿态提升器，可以通过一行代码输出三维人体姿态估计的demo。

小结：
HoT框架为VPT模型提供了一种即插即用的Token剪枝和恢复策略，实现了高精度和高效率。它的兼容性和适用性使其可以轻松集成到各种VPT模型中，展示了推动VPT领域发展的巨大潜力。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

# AI最新资讯 # 优化 # 估计 # 姿态 # 视频 # 计算

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024｜让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

今日应用

今日话题

文章摘要

文章来源

LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力

芯片战争早已打响！谷歌15个月打造首个TPU，欲和老黄平起平坐

相关文章

暂无评论

热门网址

热门标签