给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

AI最新资讯1个月前发布 tree

13 0 0

今日应用

陌言AI

陌言AI - 一站式智能创作平台，免费提供AI写作和绘画服务，释放创意，畅享智能创作之旅！

今日话题

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

重点标签 AI视频生成、SF-LLaVA模型、视频LLM、动作识别、免训练方法

文章摘要

苹果提出新型AI视频生成模型SF-LLaVA
SF-LLaVA模型基于字节团队开发的LLaVA-NeXT架构，采用双流网络启发的SlowFast输入机制。慢速路径通过低帧率提取特征，保留空间细节；快速路径高帧率运行，降低视频分辨率，模拟更大的时间上下文。这种设计使得SF-LLaVA能够同时捕捉视频中的细节和运动。

SF-LLaVA在基准测试中表现优异
实验结果显示，SF-LLaVA在所有基准测试中均以显著优势超越现有免训练方法。在开放式视频问答任务中，SF-LLaVA在MSRVTT-QA、TGIF-QA和ActivityNet-QA等数据集上均优于IG-VLM和LLoVi等模型。在多项选择视频问答任务中，SF-LLaVA在EgoSchema数据集上的表现也优于IG-VLM。此外，在文生视频任务中，SF-LLaVA-34B的整体表现超越了所有免训练的基准。

SF-LLaVA与SFT模型性能相当
与经过视频数据集监督微调（SFT）的视频LLM相比，SF-LLaVA在大多数基准测试中展现了可比的性能。在ActivityNet-QA这一基准上，PLLaVA和LLaVA-NeXT-VideoDPO略胜一筹，但在其他任务中，SF-LLaVA与SFT模型的性能相当，甚至在某些情况下更优。

SF-LLaVA的设计优势
SF-LLaVA的设计优势在于其SlowFast输入机制，通过慢速和快速两种观察速度来理解视频中的细节和运动。这种设计使得SF-LLaVA能够同时捕捉到详细的空间语义和更长的时间上下文，解决了现有视频LLM的痛点。此外，SF-LLaVA无需额外微调，开箱即用，降低了训练成本。

更多关于SF-LLaVA模型的细节和实验结果，请参考原论文。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

今日应用

今日话题

文章摘要

文章来源

Bi-MTDP：通过二值网络加速多任务密集预测，又快又提点｜CVPR 2024

数百万晶体数据训练、解决晶体学相位问题，深度学习方法PhAI登Science

相关文章

暂无评论

热门网址

热门标签