标签:SOTA

开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!

摘要:中山大学和美团联合提出一种新型的开放域检测方法OV-DINO,该方法通过语言感知选择性融合和统一数据集成,实现了在开放域检测任务中的显著性能提升。OV...

Any2Point:首个多模态3D统一大范式,只需1%的参数量即可超越现有SOTA!

Any2Point框架的核心在于避免了3D数据的空间信息丢失,通过直接微调其他模态的预训练模型,减少了知识蒸馏的资源消耗。具体实现方案包括使用3D小型网络对点云...

CVPR 2024|PromptKD: 基于Prompt的视觉语言模型蒸馏

摘要:PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法,它在11个prompt learning基准数据集上取得了最先进的性能(SOTA)。该方法通过引入大型CLIP模...

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Stable Video 3D 包含两个模型变体:SV3D_u 和 SV3D_p。SV3D_u 基于单个图像输入生成轨道视频,无需相机调整;SV3D_p 适配单个图像和轨道视角,允许沿指定相...