寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

AI最新资讯2个月前发布 tree
29 0 0

今日应用


今日话题


寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
 

重点标签 Cambrian-1AI视觉多模态学习MLLM视觉表征

文章摘要


多模态学习的新突破:纽约大学谢赛宁和 Yann LeCun 团队开发了 Cambrian-1 系列模型,专注于多模态大型语言模型(MLLM)的视觉表征学习能力。这一研究旨在填补现有研究在视觉组件设计选择方面的空白,推动视觉与语言理解的融合。

感官体验的重要性:研究强调感官体验在人类和动物获取知识、理解世界和做出决策中的关键作用。Cambrian-1 模型正是基于这样的理念,通过视觉表征学习,增强 AI 的认知和交互能力。

MLLM 的发展与挑战:尽管 MLLM 在规模扩展和多模态学习方面取得了显著进展,但视觉组件的设计选择和评估协议仍存在不足。Cambrian-1 通过创新的连接器设计、指令微调和基准评测,为解决这些问题提供了新思路。

Cambrian-1 的五大支柱:模型构建基于视觉表征、连接器设计、指令微调数据、指令微调配方和基准评测五大关键领域。这些支柱为 MLLM 的设计和评估提供了全面的视角。

CV-Bench:新的评估基准:为了更好地评估视觉表征,团队开发了 CV-Bench,一个以视觉为中心的 MLLM 基准,通过将传统视觉基准转换为视觉问答(VQA)格式,提高了评估的真实性和有效性。

指令微调和模型性能:研究通过系统性的指令微调方案,发现双阶段训练和不冻结视觉编码器有助于提升模型性能。此外,语言监督和自监督学习(SSL)的结合,为缩小性能差距提供了可能。

空间视觉聚合器(SVA):一种新型连接器设计,通过引入空间归纳偏置和多次聚合视觉特征,提高了模型对视觉信息的整合能力。

Cambrian-10M 数据集:团队创建了一个包含约 978 万数据点的大型指令微调数据集,并通过数据整编和系统 prompt 的应用,提升了模型的对话和推理能力。

Cambrian-1 的性能表现:在多个基准测试中,Cambrian-1 展现了出色的性能,尤其在视觉为中心的任务上,与现有最佳模型相媲美,同时在高分辨率图像处理任务上表现出色。

未来展望:Cambrian-1 的成功为多模态学习领域带来了新的启示,预示着未来模型在视觉表征和语言理解方面的更大潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...