LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

AI最新资讯2个月前发布 tree
23 0 0

今日应用


今日话题


LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 

重点标签 Cambrian-1模型多模态学习视觉表征语言模型开源代码

文章摘要


近日,LeCun和谢赛宁等研究者共同提出了一种名为Cambrian-1的全新多模态大型语言模型(MLLM),这一模型以视觉为中心,旨在推动多模态学习研究的发展。Cambrian-1模型的设计理念受到了寒武纪大爆发中视觉对早期动物进化的重要性的启发,强调了视觉在人类获取知识过程中的核心作用。该研究团队全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法,以促进学术界和工业界的进一步探索和应用。

Cambrian-1模型的框架围绕五个关键方面构建,包括视觉编码器的探索、动态空间感知连接器的设计、高质量视觉指令微调数据的收集、指令微调策略的制定以及现有MLLM基准测试的分析和新基准测试CV-Bench的引入。这些设计原则体现了研究者对MLLM设计空间的深刻理解。

作为研究的成果之一,Cambrian-1模型在性能上超越了其他开源模型,并在多个基准测试上达到了与最佳专有模型相当的性能。研究者指出,尽管当前的MLLM系统在视觉方面存在一些缺陷,但通过改进视觉表征能力,可以克服这些瓶颈,开发出能够像人类一样感知真实世界、管理复杂任务的多模态助手。

此外,Cambrian-1模型的开源策略也体现了学界和业界的互补性。研究者通过谷歌TPU研究云计划的支持,完成了这一需要全栈技能的大型项目,展示了学术界和工业界合作的潜力。

技术细节方面,Cambrian-1模型采用了指令微调作为评估视觉表示的协议,并在训练过程中采用了多种策略,如一阶段与两阶段训练、冻结与解冻视觉编码器等。此外,模型还采用了新的连接器设计,以有效聚合来自多个视觉编码器的特征并减少信息丢失。在指令微调数据方面,研究者收集了大量数据,并进行了数据管理和平衡,以提高模型的对话能力和推理任务表现。

最后,Cambrian-1模型的成功训练和开源,为多模态学习研究提供了新的视角和工具,有望推动该领域的进一步发展和创新。

参考资料:
– 论文地址:[Cambrian-1论文](https://arxiv.org/abs/2406.16860)
开源代码:[Cambrian-1 GitHub](https://github.com/cambrian-mllm/cambrian)

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...